1. 首页
  2. Python

今天给大家带来了python抓取b站小视频的下载

“u003Cdivu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002F617200019ced5a2a70b8″ img_width=”1280″ img_height=”1280″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E首先打开小视频 的网页u003Cu002Fpu003Eu003Cpu003Eurl = http:u002Fu002Fvc.bilibili.comu002Fpu002Fedenu002Frank#u002F?tab=%E5%85%A8%E9%83%A8u003Cu002Fpu003Eu003Cpu003E然后我们来分析下url:u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002F617300009c9a2be7c9c9″ img_width=”586″ img_height=”412″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E点击排行榜,默认全部显示,往下拉滚动条,发现网页是动态加载的,然后我们打开审查元素(快捷键F12),这里我用的是火狐浏览器,先清空然后往下拉进度条,就出来了动态加载的所有信息:u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002F617100026e21073fe99d” img_width=”1285″ img_height=”525″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E找到下图所示的内容u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002F616e00032244f096ef34″ img_width=”727″ img_height=”363″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E这个就是动态加载的内容,我们点击它,看下它有些什么东西u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002F617300009c9dcd461f5f” img_width=”1283″ img_height=”577″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E响应里面,可以看到是json格式保存的内容,包括视频的简介,视频url等等,而这些就是我们今天的目标了!u003Cu002Fpu003Eu003Cpu003E我们先来获取消息头里面的真实网址!u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002F616f00030a171cc11835″ img_width=”1282″ img_height=”310″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E观察规律找到翻页的控制参数和请求模式,next_offset=后面控制视频的加载,以10的倍数翻页,请求模式为getu003Cbru003Eu003Cu002Fpu003Eu003Cpu003E我们可以开始写代码了!u003Cu002Fpu003Eu003Cpu003E首先导入模块,我们今天要用到的模块很少u003Cu002Fpu003Eu003Cpu003Eimport requests, time, random,reu003Cu002Fpu003Eu003Cpu003E这几个模块都可以用pip来安装,cmd下输入命令:pip install 库名u003Cu002Fpu003Eu003Cpu003E其中用time和random模块是用于爬取内容时的时间间隔,re模块是用于修正文件名的函数u003Cu002Fpu003Eu003Cpu003E好了,先写个获取源码的函数u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002F617300009c933b1bf654″ img_width=”657″ img_height=”273″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E头部信息在消息头里面的请求头,大家自行修改为自己的就好!u003Cu002Fpu003Eu003Cpu003E我们要依次保存mp4格式的视频文件,这里提供给大家一个小函数,用于剔除文件名中的不规范符号,用了re模块!u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002F617100026e15dceb1b18″ img_width=”656″ img_height=”105″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cp class=”pgc-img-caption”u003E这里说明下,这段代码是在网上找的,懒的敲了u003Cu002Fpu003Eu003Cpu003E先来获取每次加载的url,注意第一次加载的url和后面加载的不一致,用if函数。u003Cbru003Eu003Cu002Fpu003Eu003Cpu003E分析整个页面发现,排行榜只有100个视频,10个一批加载,所以直接写入循环,然后用json方式获取我们需要的内容即可,非常简单的一个爬虫。u003Cu002Fpu003Eu003Cpu003E完整代码和运行结果奉上!u003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002F6172000195f8d8e0e4ce” img_width=”1269″ img_height=”932″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002F617100026e1fcbb9efdd” img_width=”570″ img_height=”603″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E需要注意的是在下载视频文件的时候,需要加入头部信息,不然下载不了的!u003Cbru003Eu003Cu002Fpu003Eu003Cpu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002F617200019d2c8d256313″ img_width=”1280″ img_height=”852″ alt=”今天给大家带来了python抓取b站小视频的下载” inline=”0″u003Eu003Cu002Fpu003Eu003Cpu003E喜欢就点个赞呗!关注我的头条号,私信:资料 可以获取源代码哦!u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:今天给大家带来了python抓取b站小视频的下载

主题测试文章,只做测试使用。发布者:醒百年,转转请注明出处:http://www.cxybcw.com/13358.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code