1. 首页
  2. Python

三个入门的python实例,在学习你还不来试试?边玩边学哦

“u003Cdivu003Eu003Cpu003E人生苦短,我用Python! 废话不多说,今天给大家分享三个极实用的Python爬虫案例。u003Cu002Fpu003Eu003Cpu003E爬取网站美图u003Cu002Fpu003Eu003Cpu003E爬取图片是最常见的爬虫入门项目,不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意:一、不要侵犯版权,二、要注意营养。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E思路流程u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E第一步:获取网址的response,分页内容,解析后提取图集的地址。u003Cu002Fpu003Eu003Cpu003E第二步:获取网址的response,图集分页,解析后提取图片的下载地址。u003Cu002Fpu003Eu003Cpu003E第三步:下载图片(也就是获取二进制内容,然后在本地复刻一份)。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E部分代码u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F6f06f791def44b938c8a625d9c11397f” img_width=”550″ img_height=”310″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E运行结果u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fddcf1869a8b1422b95b7ac88d950595c” img_width=”550″ img_height=”288″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E爬取微博数据u003Cu002Fpu003Eu003Cpu003E爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。 (注意别侵权)u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E思路流程u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E1、利用chrome浏览器,获取自己的cookie。u003Cu002Fpu003Eu003Cpu003E2、获取你要爬取的用户的微博User_idu003Cu002Fpu003Eu003Cpu003E3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E部分代码u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F4dff9681c5f64187999bf832ef13745c” img_width=”550″ img_height=”506″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F76833ca4afab4570a3bf8bcc17402077″ img_width=”395″ img_height=”300″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E爬取王者荣耀全套皮肤u003Cu002Fpu003Eu003Cpu003E怎么获取全套皮肤?用钱买,或者用爬虫爬取下来~虽然后者不能穿。这个案例稍微复杂一点,但是一个非常值得学习的项目。u003Cu002Fpu003Eu003Cpu003E思路流程u003Cu002Fpu003Eu003Cpu003E首先进入所有英雄列表,你会看到下图u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F7b0e053a1300412e9b731287a3e5c77c” img_width=”550″ img_height=”278″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E在这个网页中包含了所有的英雄名称。点击其中一个英雄例如“百里守约”,进去后如下图:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F484ca1b6aa10433ab03ae9f349c52800″ img_width=”550″ img_height=”273″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E网址中196.shtml以前的字符都是不变的,变化的只是196.shtml。而196是“百里守约”所对应的数字,要想爬取图片就应该进入每个英雄图片所在的网址,而网址的关键就是对应的数字。那么这些数字怎么找呢?u003Cu002Fpu003Eu003Cpu003E在所有英雄列表中,打开浏览器的开发者工具,刷新,找到一个json格式的文件,如图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fc226c0ce2ebe45d987bc61f106f7e231″ img_width=”550″ img_height=”198″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这时就会看到所有英雄对应的数字了。在上图所示的Headers中可以找到该json文件对应的网址形式。将其导入Python,把这些数字提取出来,然后模拟出所有英雄的网址即可u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E小节代码:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpreu003E#爬取王者荣耀英雄图片u003Cbru003E#导入所需模块u003Cbru003Eimport requestsu003Cbru003Eimport reu003Cbru003Eimport osu003Cbru003E#导入json文件(里面有所有英雄的名字及数字)u003Cbru003Eurl= http:u002Fu002Fpvp.qq.comu002Fweb201605u002Fjsu002Fherolist.json #英雄的名字jsonu003Cbru003Ehead={ User-Agent : 换成你自己的head }u003Cbru003Ehtml = requests.get(url,headers = head)u003Cbru003Ehtml=requests.get(url)u003Cbru003Ehtml_json=html.json()u003Cbru003E#提取英雄名字和数字u003Cbru003Ehero_name=list(map(lambda x:x[ cname ],html_json)) #名字u003Cbru003Ehero_number=list(map(lambda x:x[ ename ],html_json)) #数字u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003Eu003Cstrongu003E下载图片u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E现在可以进入所有英雄的网址并爬取网址下的图片了。进入一个英雄的网址,打开开发者工具,在NetWork下刷新并找到英雄的皮肤图片。如图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fc4c53379b8c242e3b3c6344d26a708d6″ img_width=”550″ img_height=”207″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E然后在Headers中查看该图片的网址。会发现皮肤图片是有规律的。我们可以用这样的方式来模拟图片网址u003Cu002Fpu003Eu003Cpreu003Ehttp:u002Fu002Fgame.gtimg.cnu002Fimagesu002Fyxzju002Fimg201606u002Fskinu002Fhero-infou002F’+str(v)+’u002F’+str(v)+’-bigskin-‘+str(u)+’.jpg ,u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E在该网址中只有str(v)与str(u)是改变的(str( )是Python中的一个函数),str(v)是英雄对应的数字,str(u)只是图片编号,例如第一个图片就是1,第二个就是2,第三个……而一个英雄的皮肤应该不会超过12个(可以将这个值调到20等)。接着就是下载了。u003Cu002Fpu003Eu003Cpu003E下载代码:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Ffa4c23c741bc4196a1d16e9a760affb6″ img_width=”550″ img_height=”171″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E执行完上面的代码后只需要执行main函数就行了u003Cu002Fpu003Eu003Cpu003E爬取下来的图片是这样,每个文件夹里面是该英雄对应的图片,如下图:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002Fa093ea8637494e59b293e3dcb38aa31f” img_width=”550″ img_height=”439″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E人生苦短,Python当歌! u003Cstrongu003E学习,其实是一个坚持、分享、交流、提高的过程。u003Cu002Fstrongu003E 学会交流,不懂就问,与更多优秀的人一起成长,学习效果也会更加显著。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E对Python感兴趣的小伙伴,记得私信小编“007”领取全套Python资料哦。u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F74841ed13d9a475a9e810a6adede7277″ img_width=”561″ img_height=”485″ alt=”三个入门的python实例,在学习你还不来试试?边玩边学哦” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:三个入门的python实例,在学习你还不来试试?边玩边学哦

主题测试文章,只做测试使用。发布者:醒百年,转转请注明出处:http://www.cxybcw.com/13654.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code