1. 首页
  2. Python

python3通过requests,BeautifulSoup库设置通用爬虫框架

“u003Cdivu003Eu003Cpu003E代码如下:u003Cu002Fpu003Eu003Cpreu003E#本代码是在python3.7环境下,设置通用爬虫框架,只需要输入参数url即可u003Cbru003E#1、先导入相应的模块u003Cbru003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003Eimport randomu003Cbru003E#2、定义爬虫的函数u003Cbru003Edef gethtml(url): #定义获取网页源代码函数,参数为urlu003Cbru003E try:u003Cbru003E agent1 = “Mozillau002F5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Geckou002F20100101 Firefoxu002F69.0” # 设置agent1请求头u003Cbru003E agent2 = “Mozillau002F5.0 (Windows NT 10.0; WOW64) AppleWebKitu002F537.36 (KHTML, like Gecko) Chromeu002F69.0.3497.100 Safariu002F537.36” # 设置agent2请求头u003Cbru003E agent3 = “Mozillau002F5.0 (Windows NT 6.1) AppleWebKitu002F537.36 (KHTML, like Gecko) Chromeu002F65.0.3325.181 Safariu002F537.36” # 设置agent2请求头u003Cbru003E list1=[agent1,agent2,agent3] #定义列表list1为agent1,agent2,agent3u003Cbru003E agent=random.choice(list1) #从list1里随机选择代理并赋值给agentu003Cbru003E headers={“User-Agent”:agent} #设置网页请求头headers的值为agentu003Cbru003E response=requests.get(url,headers=headers,timeout=1) #设置请求网址为url,请求头为headers,响应超时时间为1秒u003Cbru003E response.encoding=response.apparent_encoding #根据网页内容解析出编码格式并赋值给response.encodingu003Cbru003E html=response.text #将相应的信息赋值给htmlu003Cbru003E soup=BeautifulSoup(html,”html.parser”) #将网页进行标准解析并赋值给soupu003Cbru003E print(soup) #打印解析后的网页源代码u003Cbru003E except Exception: #如果接收到错误时u003Cbru003E print(“报错”) #打印报错u003Cbru003E#3、调用函数,设置请求网址为淘宝网u003Cbru003Eif __name__ == ‘__main__’:u003Cbru003E url = “https:u002Fu002Fwww.taobao.com” #设置请求网站为淘宝网u003Cbru003E gethtml(url) #运行gethtml获取源代码函数u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E代码运行结果如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F416acdde7b134fcdbd3e8d8572b58854″ img_width=”1637″ img_height=”997″ alt=”python3通过requests,BeautifulSoup库设置通用爬虫框架” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:python3通过requests,BeautifulSoup库设置通用爬虫框架

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13048.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code