1. 首页
  2. Python

python爬取贴吧网页源代码

“u003Cdivu003Eu003Cpreu003E#本代码作用:爬取贴吧的页面信息u003Cbru003E”’观察发现在百度贴吧搜索python时:u003Cbru003E1、百度贴吧第1页网址:http:u002Fu002Ftieba.baidu.comu002Ff?ie=utf-8&kw=python&fr=search&red_tag=p0106761335u003Cbru003E2、百度贴吧第1页网址:http:u002Fu002Ftieba.baidu.comu002Ff?kw=python&ie=utf-8&pn=50u003Cbru003E3、百度贴吧第1页网址:http:u002Fu002Ftieba.baidu.comu002Ff?kw=python&ie=utf-8&pn=100u003Cbru003E4、百度贴吧第1页网址:http:u002Fu002Ftieba.baidu.comu002Ff?kw=python&ie=utf-8&pn=150u003Cbru003E观察上面的网址规律发现kw=python,即搜索关键字在ke=后面,同时网页地址最后为pn=50*(n-1),u003Cbru003E即可得出结论第一页的网址应该为:http:u002Fu002Ftieba.baidu.comu002Ff?kw=python&ie=utf-8&pn=0u003Cbru003E测试结果第一页的网址确实如此u003Cbru003E”’u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F4a80b90b31e84d869551f2cd413eb911″ img_width=”1218″ img_height=”990″ alt=”python爬取贴吧网页源代码” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E代码如下:u003Cu002Fpu003Eu003Cpreu003E#1、下面开始导入相应的模块u003Cbru003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003Eimport timeu003Cbru003E#2、设置请求网址,即百度贴吧u003Cbru003Edef spider1(begin,end,kw):u003Cbru003E headers={u003Cbru003E “User-Agent”:”Mozillau002F5.0 (Windows NT 10.0; WOW64) AppleWebKitu002F537.36 (KHTML, like Gecko) Chromeu002F69.0.3497.100 Safariu002F537.36″u003Cbru003E } #设置请求头u003Cbru003E for page in range(begin,end): #遍历range对象的数值,相当于遍历页码u003Cbru003E pn=(page-1)*50 #将(页码的值-1)*50赋值给pnu003Cbru003E url=”http:u002Fu002Ftieba.baidu.comu002Ff?kw=”+str(kw)+”&ie=utf-8&pn=”+str(pn) #设置网页地址为百度贴吧地址,kw为搜索关键字,pn为页码的转换值u003Cbru003E response=requests.get(url,headers=headers) #对网站进行get请求,并伪装成浏览器进行请求u003Cbru003E response.encoding=”utf-8″ #自动解析编码格式并赋值给response.encodingu003Cbru003E html=response.text #将网页源代码赋值给htmlu003Cbru003E print(“开始打印百度贴吧关键字是:{}的第{}页网页源代码{}”.format(kw,page,html))u003Cbru003E time.sleep(1) #时间休眠1秒u003Cbru003E print(“第{}页打印完成”.format(page)) #打印第多少页打印完成u003Cbru003Espider1(1,5,”python”)u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E运行结果如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fbc602b3e5c0b414c9225c8f202bc67e2″ img_width=”1832″ img_height=”957″ alt=”python爬取贴吧网页源代码” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:python爬取贴吧网页源代码

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13026.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code