1. 首页
  2. Python

python爬虫,自动抓取商品购物券,剁手党的福利

“u003Cdivu003Eu003Cpu003E今天给大家分享一个小网站的数据采集,并写到excel里面!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1532324997476f425c99c91″ img_width=”1280″ img_height=”756″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E分析网站u003Cu002Fh1u003Eu003Cpu003E目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15323251174931e2f082c73″ img_width=”657″ img_height=”259″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态的。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F153232525782038ea849eb3″ img_width=”828″ img_height=”765″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E那就简单了,不需要去分析ajax加载数据或者找json包了,直接获取网页源代码==>>匹配相关内容==>>保存数据即可!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1532326409456db629c8f07″ img_width=”1023″ img_height=”462″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E工具和库u003Cu002Fh1u003Eu003Cpu003EWindows+python3.6u003Cu002Fpu003Eu003Cpu003Eimport randomu003Cu002Fpu003Eu003Cpu003Eimport timeu003Cu002Fpu003Eu003Cpu003Eimport requestsu003Cu002Fpu003Eu003Cpu003Efrom lxml import etreeu003Cu002Fpu003Eu003Cpu003Eimport xlwtu003Cu002Fpu003Eu003Cpu003E用这几个库就可以搞定了!注意xlwt和xlrd这2个库都是操作excel的,一个是保存数据,一个是读取数据,不要搞混了。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F1532326393753a5ad9826c8″ img_width=”1280″ img_height=”674″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E开始写代码u003Cu002Fh1u003Eu003Cpu003E首先写一个函数,将所有的爬虫工作写到函数里,如下图u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F15323255909639311933ee6″ img_width=”911″ img_height=”448″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这个网站需要写上headers,不写是抓不到数据的!新建一个列表,将爬到的相关数据写入列表,它的形式大概是这样的:【【产品信息A1,2,3……】,【产品信息B1,2,3……】……】,这么写列表是因为我们最后要将他们写如excel表格,那么列表中的每一个元素(还是列表形式)都是一行数据,方便写入!u003Cu002Fpu003Eu003Cpu003E注意第33行,列表构成的时候,用+连接会将所有列表中的元素放入一个列表,比如:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函数则会将后面的内容作为一个元素加入列表中,比如:[1,2,3].append([4,5])=[1,2,3,[4,5]]u003Cu002Fpu003Eu003Cpu003E下来就是写入excel了,首先是新建excel表格,并写入第一行数据u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1532325977629b61cab08dc” img_width=”613″ img_height=”98″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E后面的数据,依次按格式写入并最后用wb.save(路径)的方式保存即可!完整代码及效果如下u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1532326194508a8c3e41e3a” img_width=”1284″ img_height=”1047″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F153232625535048d0033eb3″ img_width=”829″ img_height=”723″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E由于网站更新的很快(官方说是10分钟。。。),所以也没有抓取那么多,所有的页面有大约600多页,一页100条信息,也就是说一共有6万多条商品信息,如果不用多线程的话会很慢!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F153232635274300c9518f18″ img_width=”1023″ img_height=”682″ alt=”python爬虫,自动抓取商品购物券,剁手党的福利” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E代码在上传的过程中会有压缩,如果实在看不清楚的话,大家可以私信我获取源码!u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:python爬虫,自动抓取商品购物券,剁手党的福利

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13262.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code