1. 首页
  2. Python

Python爬虫初接触,学会爬虫不抓美女图片干啥!

“u003Cdivu003Eu003Cpu003E学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F15288758140674f8a99956b” img_width=”413″ img_height=”368″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E我们的目标选择唯一图库,url自己去找【人工呲牙笑】u003Cu002Fpu003Eu003Cpu003E这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1528875994147a0638bf743″ img_width=”921″ img_height=”186″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E上面分类没有这个分类,自己想办法进入哦。。。u003Cu002Fpu003Eu003Cpu003E然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看源代码中位置!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F152887616480006c1bfcf4a” img_width=”1152″ img_height=”669″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E可以看到这里就是控制页面翻页的源代码了,我们直接拿到a标签的href属性,这个是最后一页的地址,将属性中的“789”切出来,就拿到了最大页码,然后循环拿到所有页面的url,如下图u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1528876408589b4db683325″ img_width=”685″ img_height=”128″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这样就拿到所有页面的url了,然后#我们取图集的url,同样的方式,找到源码中url的位置u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1528876591279361f72e0fa” img_width=”915″ img_height=”296″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpreu003Eimg_urls = etree.HTML(requests.get(url_i).text).xpath(‘u002Fu002Fdiv[@class=”ABox”]u002Fau002F@href’)u003Cbru003E#url_i 是页面的url,也就是上个代码截图中那个列表,循环遍历出来的u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E一行代码就取到了所有a标签下的图集地址,一页有24个图集!这里我们用一个函数来获取所有图集内图片地址并返回图集名字和图片地址u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1528876859127f48a930162″ img_width=”909″ img_height=”275″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这样,主要内容就写完了,然后就是构建整个代码,写入本地,我还将之前做的u003Ca class=”pgc-link” href=”https:u002Fu002Fwww.toutiao.comu002Fi6560444532784103950u002F” target=”_blank”u003E进度条u003Cu002Fau003E也加进去了,整体代码和效果发出来看看!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15288771201300e4d874d31″ img_width=”968″ img_height=”349″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F152887712010684da14835c” img_width=”935″ img_height=”617″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1528877157339320d09d644″ img_width=”599″ img_height=”235″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15288772043132541efcb2f” img_width=”1108″ img_height=”522″ alt=”Python爬虫初接触,学会爬虫不抓美女图片干啥!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E其实这里我想说的是,整个网站很标题党。。。完全不符合标题的。u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:Python爬虫初接触,学会爬虫不抓美女图片干啥!

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13296.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code