1. 首页
  2. IT资讯

只要三步,腾讯招聘信息抓取到手

“u003Cpu003E想成为一名真正的程序猿,你需要一份从事编程的工作!那么我们今天就来抓取腾讯招聘网站上的招聘信息!u003Cu002Fpu003Eu003Cpu003E要获取腾讯招聘网站上的招聘信息,需要以下三步:u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E·u003Cu002Fstrongu003E 准备工作:安装scrapy框架模块、安装lxml模块;u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E· u003Cu002Fstrongu003E利用谷歌浏览器抓包:确定url,发送请求所需参数,确定返回数据所在位置;u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E· u003Cu002Fstrongu003E利用scrapy爬虫框架完成代码。u003Cu002Fpu003Eu003Ch1 class=”pgc-h-arrow-right”u003E准备工作u003Cu002Fh1u003Eu003Cpu003E目标:安装scrapy、lxml模块。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E· 在命令行终端输入 pip install scrapy 后,等待下载安装完成u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003Escrapy是一个爬虫框架,可以帮助我们用很少的代码完成快速的抓取。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E· 在命令行终端输入 pip install lxml 后,等待下载安装完成u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003Elxml可以用来对html页面的数据进行提取。u003Cu002Fpu003Eu003Ch1 class=”pgc-h-arrow-right”u003E利用谷歌浏览器抓包u003Cu002Fh1u003Eu003Cpu003E· 确定列表页和详情页的urlu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002Fa9281dc276e5496a80327640942d271b” img_width=”1080″ img_height=”818″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E· 注意最后一页u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002Fa7da4da7ab9c4b28914a714f2ac45f87″ img_width=”1080″ img_height=”816″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E· 确定工作职责和工作要求u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Ffb27bf8ada3048cdaa0ba7047243eea0″ img_width=”1080″ img_height=”818″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E 根据抓包确定代码逻辑u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E对起始url发送请求获取响应,指定该响应用专门解析列表页的函数来提取处理;u003Cu002Fpu003Eu003Cpu003E在列表页解析函数中,对列表页的响应内容进行提取。首先提取下一页的url,并构造请求对象,指定使用列表页解析函数来解析响应。其次提取详情页的url,并构造请求对象,指定使用详情页解析函数来解析响应;u003Cu002Fpu003Eu003Cpu003E在详情页解析函数中,提取相应的数据:标题、工作职责、工作要求。u003Cu002Fpu003Eu003Ch1 class=”pgc-h-arrow-right”u003E完成代码u003Cu002Fh1u003Eu003Cpu003Eu003Cstrongu003E· 创建scrapy项目和爬虫u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E在终端输入 scrapy startproject Tencent创建项目。u003Cu002Fpu003Eu003Cpu003ETencent是项目的名字,创建完成后,可以在相应的路径下看到如下文件夹及文件结构:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F74a1f28b4b5d4fc4a2d909befb8b00fb” img_width=”230″ img_height=”201″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E进入项目路径下,终端输入scrapy genspider tencent tencent.com创建爬虫:u003Cu002Fpu003Eu003Cpreu003E1 cd Tencentu003Cbru003E2 scrapy genspider tencent tencent.comu003Cu002Fpreu003Eu003Cpu003Etencent.com是爬虫抓取的url的域名范围,后续可以在代码中进行修改。创建爬虫成功后在spiders文件夹下可以看到名为tencent的py文件:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F387d52ccb2294fc081813e117e3337f0″ img_width=”227″ img_height=”248″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E打开tencent.py文件可以看到scrapy框架已经帮我写好了一部分代码:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Ff7de95150292474d8a4f0e2620c62fb0″ img_width=”598″ img_height=”348″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E完成tencent.py中的代码:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F3a028b66f2e04824a8098259e41e18fb” img_width=”649″ img_height=”769″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E设置settings.py文件u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E在项目文件夹Tencent下修改settings.py配置文件:u003Cu002Fpu003Eu003Cpreu003E1 USER_AGENT = 'Mozillau002F5.0 (Windows NT 10.0; Win64; x64) AppleWebKitu002F537.36 (KHTML, like Gecko) Chromeu002F67.0.3396.87 Safariu002F537.36'u003Cbru003E2u003Cbru003E3 ROBOTSTXT_OBEY = Falseu003Cu002Fpreu003Eu003Cpu003EPS:USER_AGENT是用户代理,ROBOTSTXT_OBEY改为False表示忽略robot协议。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002Fc6173366cb6c47d48a7fea914e30b504″ img_width=”1080″ img_height=”519″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E· 在项目路径下终端执行scrapy crawl tencent就可以将招聘信息保存到文件中u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1990361aa5ac47dfb5834d99314c0f33″ img_width=”1080″ img_height=”518″ alt=”只要三步,腾讯招聘信息抓取到手” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1 class=”pgc-h-arrow-right”u003E总结u003Cu002Fh1u003Eu003Cpu003E现在我们就可以通过以下步骤完成代码抓取腾讯招聘信息:u003Cu002Fpu003Eu003Cpu003E1.利用谷歌浏览器进行抓包,确定列表页的url和详情页的url,确定数据所在位置;u003Cu002Fpu003Eu003Cpu003E2.scrapy的命令:u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E·u003Cu002Fstrongu003E 创建scrapy爬虫项目 scrapy startproject 项目名;u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E·u003Cu002Fstrongu003E 在项目路径下创建scrapy爬虫scrapy genspider 爬虫名 爬虫爬取范围的域名;u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E· u003Cu002Fstrongu003E在项目路径下运行爬虫 scrapy crawl 爬虫名;u003Cu002Fpu003Eu003Cpu003E3.完成爬虫模块代码的编写;u003Cu002Fpu003Eu003Cpu003E4.完成配置文件的修改,运行爬虫。u003Cu002Fpu003Eu003Cpu003Eu003Cbru002Fu003Eu003Cu002Fpu003Eu003Cpu003E喜欢就关注下吧。u003Cu002Fpu003E”

原文始发于:只要三步,腾讯招聘信息抓取到手

主题测试文章,只做测试使用。发布者:程序员,转转请注明出处:http://www.cxybcw.com/26700.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code