1. 首页
  2. Python

Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深

“u003Cdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15334401794210f5bada370″ img_width=”1280″ img_height=”853″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E综述u003Cu002Fh1u003Eu003Cpu003E根据网站结构及数据类型,做出头条视频的爬虫,重点说明数据在网站的位置以及抓取办法u003Cu002Fpu003Eu003Cpu003E并介绍一个类似的网站,简单说明数据抓取办法u003Cu002Fpu003Eu003Cpu003E使用工具: python3.6 + pycharm + requests库 + re 库u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F153344593514426cf33fa75″ img_width=”1079″ img_height=”491″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E目标情况u003Cu002Fh1u003Eu003Cpu003E这次我们的目标网站,是ajax加载的数据,首先,打开网页后,直接用浏览器(火狐)自带的开发者工具,点击网络,然后下滑网页,点击xhr,找到json数据,可以看到大概有100条内容u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15334461973532019350a7e” img_width=”1203″ img_height=”681″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E里面有每一个视频的相关信息,我们只需要取出每一个视频的url即可!然后在去看看详情页的情况u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F153344633399983ef1464a2″ img_width=”933″ img_height=”597″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E非常简单的就找到了视频的真实地址!复制地址重新打开一个网页去验证一下,确认地址无误,那么就去源代码中看看,该地址是否存在吧u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15334464587689cdb60c301″ img_width=”925″ img_height=”179″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E很明显,这个网站并不是静态的网站,而且数据应该存放在js文件中,那么我们怎么得到它呢~?需要分析js文件还是用selenium呢?不要着急,偶然的情况下,发现了这个u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1533446735267fbeaa14889″ img_width=”809″ img_height=”470″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E有没有发现,在url中的关键字,是存在于网页源代码中的,虽然不是完全一样,但是我们可以和前面的那个标签中内容,对比下u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15334468350742fad9e362f” img_width=”891″ img_height=”365″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F153344681303799f451f211″ img_width=”732″ img_height=”69″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E可以判定,这里的值就是网页渲染后出现在html标签中的值,而且在源代码中它存在2个不同格式的视频地址!,这就很简单了,我们来写代码吧!u003Cu002Fpu003Eu003Ch1u003E代码实现u003Cu002Fh1u003Eu003Cpu003E简单写了一下,直接用requests请求内容,然后用re匹配,取出目标urlu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F153345020050696cc3fa9f1″ img_width=”1264″ img_height=”357″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E类似网站u003Cu002Fh1u003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15334504696888f6bc6c054″ img_width=”1228″ img_height=”821″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E其实还有一个网站和这种情况很像,那就是秒拍视频,但是如果你想看更多的视频的话,还是需要打开客户端,所以我们就简单的以一个视频为例,抓出它的真实地址!具体过程就不一一说明了,就直接看结果吧,先看目标网页u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F153345088915988aa750181″ img_width=”822″ img_height=”642″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E用关键字在源代码中查找u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15334509663465013b99499″ img_width=”1050″ img_height=”451″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E最终代码u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1533450988758032cc83c19″ img_width=”1213″ img_height=”196″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E验证结果u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1533451020399e8fe30b5fd” img_width=”827″ img_height=”599″ alt=”Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E上述文章如有错误欢迎在留言区指出,如果这篇文章对你有用,点个赞,转个发如何?u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:Python爬虫,用Python抓取头条视频内容,数据其实并没有藏那么深

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13144.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code