1. 首页
  2. Python

python通过findAll('h4')获取jin10网站的消息

“u003Cdivu003Eu003Cpu003Epython通过findAll(‘h4′)获取jin10网站的消息,jin10是一个财经资讯类网站u003Cu002Fpu003Eu003Cpu003E注意事项:本电脑环境是python 3.7u003Cu002Fpu003Eu003Cpu003E网页爬取数据的步骤:u003Cu002Fpu003Eu003Cpreu003E1、导入相应的模块,例如request,BeautifulSoup等。u003Cbru003E2、对网站进行请求u003Cbru003E3、对网站HTML源代码进行解析u003Cbru003E4、尝试打印所获取的数据u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E代码如下:u003Cu002Fpu003Eu003Cpreu003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003Eimport pandas as pdu003Cbru003E#1、网页请求u003Cbru003Eurl=”https:u002Fu002Fwww.jin10.comu002F” #设置请求网址为jin10网站u003Cbru003Eresponse=requests.get(url) #对金十财经网站进行get请求并将请求结果赋值给responseu003Cbru003Eresponse.encoding=’utf-8′ #设置网页的编码为’utf-8’u003Cbru003Ehtml=response.text #获取网页的html源代码并赋值给htmlu003Cbru003E#2、解析网站u003Cbru003E#经查实发现所有的消息类信息都在h4标签里,故去获取h4标签数据u003Cbru003Esoup=BeautifulSoup(html,’lxml’) #解析html网页的lxml代码,并赋值给soupu003Cbru003Econtent=soup.findAll(‘h4’) #查找网页的h4标签u003Cbru003E#3、遍历p标签数据u003Cbru003Efor msg in content: #遍历h4标签的内容u003Cbru003E print(msg.text) #打印h4标签的内容,用text获取数据u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E代码运行结果如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fb26a53ec1cba4b079881eb60c147abe8″ img_width=”1330″ img_height=”1003″ alt=”python通过findAll(‘h4’)获取jin10网站的消息” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:python通过findAll('h4')获取jin10网站的消息

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13036.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code