1. 首页
  2. Python

Python爬虫技巧!网站有反爬?我们有selenium!

“u003Cdivu003Eu003Cblockquoteu003Eu003Cpu003ESelenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。u003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1531830654768683cb13fee” img_width=”1024″ img_height=”768″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003Eu003Cstrongu003ESelenium:u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真实用户所做的一样,从终端用户的角度测试应用程序。u003Cu002Fpu003Eu003Culu003Eu003Cliu003E使浏览器兼容性测试自动化成为可能,尽管在不同的浏览器上依然有细微的差别。u003Cu002Fliu003Eu003Cliu003E使用简单,可使用Java,Python等多种语言编写用例脚本。u003Cu002Fliu003Eu003Cliu003E平时都在写爬虫代码,有的时候的遇到一些网站它们可不会乖乖就范哦,一般的都会有一些反爬措施的,再就是一些通过框架渲染出来的页面。u003Cu002Fliu003Eu003Cliu003E对于这些网站,前者一般需要修改请求头、代理或者判断验证码等方可解决;后者由于网页信息是动态加载的, 常用的 Requests 库就显得有些无力了,拿不到渲染后的内容。u003Cu002Fliu003Eu003Cu002Fulu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1531830842843198ff11fa2″ img_width=”1280″ img_height=”699″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003Eu003Cstrongu003E代码u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E安装 Selenium pip install seleniumu003Cu002Fpu003Eu003Cpu003E下载驱动 :u003Cu002Fpu003Eu003Cpu003E大家自行搜索吧,网上很多的,我们选用火狐浏览器的驱动,最新版的好像不能使用,大家注意下,不行就下载次新的!下载好对应的浏览器驱动放到 Python 安装目录下就行u003Cu002Fpu003Eu003Cpu003E导入模块u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1531831002014a47cdcc8a7″ img_width=”509″ img_height=”114″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E创建Firefox对象:browser = webdriver.Firefox()u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1531831334201e40ea677af” img_width=”546″ img_height=”231″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Culu003Eu003Cliu003EWebDriverWait() 这一行代码是传入一个WebDriver的实例,后面两个参数是超时时间和睡眠间隔u003Cu002Fliu003Eu003Cliu003Euntil() 是判断目标元素是否出现,代码中等待的是标签中 id=”next” 的出现,网页中为下一页的标签,以此判断招聘信息已加载完毕u003Cu002Fliu003Eu003Cliu003Eps:若是无界面模式那一定要记得最后一行代码是必不可少的,不然浏览器你没关,你又看不见它这就很尴尬u003Cu002Fliu003Eu003Cu002Fulu003Eu003Ch1u003Eu003Cstrongu003E运行效果如下:u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15318324292797e088450d8″ img_width=”771″ img_height=”451″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F1531832409095de3af1e1b8″ img_width=”557″ img_height=”506″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E参考文章:【learnaLanguage_YiZhou_Python:Selenium爬取动态网页】u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1531833169301b020673beb” img_width=”1023″ img_height=”682″ alt=”Python爬虫技巧!网站有反爬?我们有selenium!” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003Eselenium用途u003Cu002Fh1u003Eu003Cpu003E通过上面的实例可以看到,通篇没有去考虑网站是否有反爬等等手段,这也是selenium做爬虫的一个优势,只要能打开并正常浏览的网页,都可以用它来做爬虫,不用考虑各种反爬,可以说是非常实用的手段了!u003Cu002Fpu003Eu003Cpu003E有喜欢的小伙伴可以私信我,一起交流哦!u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:Python爬虫技巧!网站有反爬?我们有selenium!

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13170.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code