1. 首页
  2. Python

python3的requests库爬取百度搜索关键字python的标题信息

“u003Cdivu003Eu003Cpu003E#本代码作用:在python3.7环境中,在百度首页输入python,并打印出来当前页面的源代码,并将查询到的python标题存入Excel数据u003Cu002Fpu003Eu003Cpu003E#代码如下:u003Cu002Fpu003Eu003Cpreu003E#本代码是在python3.7环境下,使用requests库爬取百度源代码u003Cbru003E#1、导入相应的模块,requests库是第三方库,需要在cmd里pip install requestsu003Cbru003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003Eimport reu003Cbru003Eimport pandas as pdu003Cbru003E#2、对网站进行get请求u003Cbru003Eurl=”https:u002Fu002Fwww.baidu.comu002Fs?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=python&rsv_pq=c975914300115949&rsv_t=e7f3%2FJ8sovjmaqT%2B6p6ID4KVYbFRyG9dPQjqKtszA7eNO7jE0ynUBwuzYek&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=3&rsv_sug1=3&rsv_sug7=101&rsv_sug2=0&inputT=2503&rsv_sug4=4616&rsv_sug=2″u003Cbru003E#上面这行代码是在百度首页查询python关键字,将此网站赋值给urlu003Cbru003Eheaders={“User-Agent”: “Mozillau002F5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Geckou002F20100101 Firefoxu002F69.0″} #设置网站请求头u003Cbru003Eresponse=requests.get(url,headers=headers) #对网站进行get请求,并伪装成浏览器进行请求u003Cbru003Eresponse.encoding=”utf-8” #设置网页编码格式为utf-8u003Cbru003E#3、打印浏览器解析的内容u003Cbru003Ehtml=response.text #将网页源代码的文本文件赋值给htmlu003Cbru003Econtent=response.content #将网页源代码的二进制文件赋值给contentu003Cbru003Eprint(html) #打印网页源代码的文本文件u003Cbru003Eprint(content) #打印二进制源码文件u003Cbru003Eprint(“response.status_code:”,response.status_code) #打印状态码,结果为200时表示请求成功u003Cbru003Eprint(“headers:”,response.headers) #打印网页的头部headers信息u003Cbru003Esoup=BeautifulSoup(html,”lxml”)u003Cbru003E#4、打印查找到的标题信息u003Cbru003Eprint(soup.findAll(“h3”)) #经查实所有的标题信息在h3标签里,故打印h3标签的内容u003Cbru003Elist1=[]u003Cbru003Efor title in soup.findAll(“h3”): #遍历h3标签里的title内容u003Cbru003E print(title.text) #打印title的text属性u003Cbru003E list1.append(title.text) #将title.text即搜索的文字标题数据存入列表list1u003Cbru003E#5、保存标题至excel表格u003Cbru003Edf=pd.DataFrame(list1,index=range(1,len(list1)+1),columns=[“标题”]) #设置表格数据为list1的列表数据,行标为list1列表的从1到最后一个+1的数字,列标为标题,并赋值给dfu003Cbru003Edf.to_excel(r”C:\Users\Administrator\Desktop\title.xlsx”) #将df的数据存入桌面的title.xlsx表格中u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E运行结果如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002Ff7bfec56cf6d4effafb3e7bd38928b0a” img_width=”1916″ img_height=”1002″ alt=”python3的requests库爬取百度搜索关键字python的标题信息” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003E此图是在百度首页搜索python关键字u003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002Fbb99361806bd47cf8f56f75e9c5e442b” img_width=”1908″ img_height=”940″ alt=”python3的requests库爬取百度搜索关键字python的标题信息” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003E此图是代码块和代码运行结果u003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F257fabb1db4f45ceb2cde591beec9783″ img_width=”714″ img_height=”598″ alt=”python3的requests库爬取百度搜索关键字python的标题信息” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003E此图是将查找到的标题数据存入EXCEL表格中u003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:python3的requests库爬取百度搜索关键字python的标题信息

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13050.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code