1. 首页
  2. Python

原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!

“u003Cdivu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1520919694892f8e1df9d6d” img_width=”852″ img_height=”1280″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E来不及解释了,快上车,不是,开始学习吧!u003Cu002Fpu003Eu003Cpu003E用 requests 库和 xpath 匹配u003Cbru003Eu003Cu002Fpu003Eu003Cpu003E目标网站:妹子图u003Cu002Fpu003Eu003Cpu003E今天是对图集的爬取,选择链接为 http:u002Fu002Fwww.mzitu.comu002Fpageu002F 后面加上页码就是妹子图集的地址了u003Cu002Fpu003Eu003Cpu003E首先是网站的分析,这个网站有一定的反爬,尤其恶心的是保存妹子图片的时候,如果 header 不对,就会出现盗链。。。所以这里我做了个 get_header()的函数u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1520919716727de9a0bd11b” img_width=”431″ img_height=”162″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E先找到最大页码,这里偷个懒,直接写入循环,生成了所有页面的列表u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1520919725954a9d6b3ab28″ img_width=”377″ img_height=”151″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E然后找到页面所有图集,分别取出地址和名字,并取出图集的页码,循环u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15209197335652ffcc7b0df” img_width=”972″ img_height=”158″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E拼接每页的地址,找到图片 url,写入文件,主函数写了个简单的多线程,参考了网上的代码片段,使用map函数,具体作用请自行百度哦!简单又好用,你值得拥有!u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1520919946215e5ffbf26f5″ img_width=”388″ img_height=”70″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E完整代码和运行效果如下:u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1520919992078f449adc391″ img_width=”1295″ img_height=”1472″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15209199914493756f6df37″ img_width=”553″ img_height=”250″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E图片太暴力了。。。不能给你们看效果了,放张缩略图大家感受下!具体详情请自行尝试哦~!u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F15209199916119a4cf6f5aa” img_width=”887″ img_height=”570″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1520921237342a717cc2f10″ img_width=”1173″ img_height=”557″ alt=”原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E看在给大家发福利的份上,关注一下呗!u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:原来这才是Python爬虫的正确学习姿势!我们来抓妹子图吧!

主题测试文章,只做测试使用。发布者:战鹰,转转请注明出处:http://www.cxybcw.com/13342.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code