1. 首页
  2. Python

在python3中爬取网站数据并存入excel表格

“u003Cdivu003Eu003Cpu003E代码如下:u003Cu002Fpu003Eu003Cpreu003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003Eimport pandas as pd #导入pandas模块,并设置为pdu003Cbru003Er=requests.get(“http:u002Fu002Fwww.runoob.comu002Fhtmlu002Fhtml-intro.html”)u003Cbru003Ehtml=r.text.encode(r.encoding).decode() #对r的内容进行中文解码并赋值给htmlu003Cbru003Esoup=BeautifulSoup(html,’lxml’)u003Cbru003Eprint(soup) #打印解码后的soup内容,即html内容u003Cbru003Eprint(“*”*50) #打印50个星号分割符u003Cbru003Eprint(soup.body.div) #打印soup的html文件内的body标签内的div标签的内容u003Cbru003Elist1=[x for x in soup.findAll(‘div’)] #遍历soup里的所有div标签,并赋值给list1u003Cbru003Edf=pd.DataFrame(list1,columns=[“http:u002Fu002Fwww.runoob.comu002Fhtmlu002Fhtml-intro.html”]) #将列标题设置为http:u002Fu002Fwww.runoob.comu002Fhtmlu002Fhtml-intro.html,并将list列表的数据依次存入相应单元格u003Cbru003Edf.to_excel(“将HTML的div数据存入Excel表格.xlsx”) #将数据存入excel中,文件名为将HTML的div数据存入Excel表格.xlsxu003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E图片示例如下:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F090e29cbe9a643a09cd83cb45b3f6b8d” img_width=”1482″ img_height=”951″ alt=”在python3中爬取网站数据并存入excel表格” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:在python3中爬取网站数据并存入excel表格

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13020.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code