1. 首页
  2. Python

python爬取头条网页body源代码

“u003Cdivu003Eu003Cpu003E代码如下:u003Cu002Fpu003Eu003Cpreu003E#本代码作用是:在头条里进行关键字搜索,并打印搜索页面的源代码u003Cbru003E#1、首先导入相应的模块u003Cbru003Eimport requestsu003Cbru003Efrom bs4 import BeautifulSoupu003Cbru003E#2、定义函数:设置请求网址并设置请求头,对网站进行解析u003Cbru003Edef spider1(kw):u003Cbru003E url1=”https:u002Fu002Fwww.toutiao.comu002Fsearchu002F?keyword=” #设置网站的前半部分为头条的搜索页面u003Cbru003E url=url1+kw #设置网站为头条的搜索页面+关键字u003Cbru003E headers={“User-Agent”:”Mozillau002F5.0 (Windows NT 10.0; WOW64) AppleWebKitu002F537.36 (KHTML, like Gecko) Chromeu002F69.0.3497.100 Safariu002F537.36″} #设置请求头u003Cbru003E response=requests.get(url,headers=headers) #对网站进行get请求,并伪装成浏览器进行请求u003Cbru003E response.encoding=”utf-8″ #设置网页的编码为utf-8u003Cbru003E html=response.text #将网页请求的源代码赋值给htmlu003Cbru003E soup=BeautifulSoup(html,”lxml”)u003Cbru003E print(soup.findAll(“body”)) #读取网页的body代码u003Cbru003E#3、对函数进行调用,即打印根据关键字进行查询后的源代码u003Cbru003Espider1(“python”) #调用当参数是python时的spider1函数u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E运行结果如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F3a7709d4627a4291af65bee5f28da2d7″ img_width=”1601″ img_height=”1005″ alt=”python爬取头条网页body源代码” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:python爬取头条网页body源代码

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13024.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code