1. 首页
  2. IT资讯

python爬虫学习教程,批量抓取美女图片

“u003Cdivu003Eu003Cpu003Epython的抓取功能其实是非常强大的,当然不能浪费,呵呵。下面就与大家分享一个python写的美女图自动抓取程序吧!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Faae5f7a4e3cf436ba937be42295afa5e” img_width=”639″ img_height=”384″ alt=”python爬虫学习教程,批量抓取美女图片” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E其中用到urllib2模块和正则表达式模块。下面直接上代码:u003Cu002Fpu003Eu003Cpreu003E用python批量抓取美女图片u003Cbru003E#!u002Fusru002Fbinu002Fenv pythonu003Cbru003E#-*- coding: utf-8 -*-u003Cbru003E#通过urllib(2)模块下载网络内容u003Cbru003Eimport urllib,urllib2,geventu003Cbru003E#引入正则表达式模块,时间模块u003Cbru003Eimport re,timeu003Cbru003Efrom gevent import monkeyu003Cbru003Emonkey.patch_all()u003Cbru003Edef geturllist(url):u003Cbru003E url_list=[]u003Cbru003E print url u003Cbru003E s = urllib2.urlopen(url)u003Cbru003E text = s.read()u003Cbru003E #正则匹配,匹配其中的图片u003Cbru003E html = re.search(r'<ol.*<u002Fol>’, text, re.S)u003Cbru003E urls = re.finditer(r'<p><img src=”(.+?)jpg” u002F><u002Fp>’,html.group(),re.I)u003Cbru003E for i in urls:u003Cbru003E url=i.group(1).strip()+str(“jpg”)u003Cbru003E url_list.append(url)u003Cbru003E return url_listu003Cbru003Edef download(down_url):u003Cbru003E name=str(time.time())[:-3]+”_”+re.sub(‘.+?u002F’,”,down_url)u003Cbru003E print nameu003Cbru003E urllib.urlretrieve(down_url, “D:\\TEMP\\”+name)u003Cbru003Edef getpageurl():u003Cbru003E page_list = []u003Cbru003E #进行列表页循环u003Cbru003E for page in range(1,700):u003Cbru003E url=”http:u002Fu002Fjandan.netu002Fooxxu002Fpage-“+str(page)+”#comments”u003Cbru003E #把生成的url加入到page_list中u003Cbru003E page_list.append(url)u003Cbru003E print page_listu003Cbru003E return page_listu003Cbru003Eif __name__ == ‘__main__’:u003Cbru003E jobs = []u003Cbru003E pageurl = getpageurl()[::-1]u003Cbru003E #进行图片下载u003Cbru003E for i in pageurl:u003Cbru003E for (downurl) in geturllist(i):u003Cbru003E jobs.append(gevent.spawn(download, downurl))u003Cbru003E gevent.joinall(jobs)u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F9ac5cef4045e464a8d932445922668cd” img_width=”636″ img_height=”387″ alt=”python爬虫学习教程,批量抓取美女图片” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E在学习python、爬虫过程中有不懂的,可以点击→→【u003Ca class=”pgc-link” data-content=”mp” href=”https:u002Fu002Fwww.toutiao.comu002Fa1607676505828365″ target=”_blank”u003E了解更多u003Cu002Fau003E】加入我的python零基础系统学习交流扣扣qun,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:python爬虫学习教程,批量抓取美女图片

主题测试文章,只做测试使用。发布者:第一丶坑神,转转请注明出处:http://www.cxybcw.com/10894.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code