1. 首页
  2. Python

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

“u003Cdivu003Eu003Cpu003E之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的!u003Cu002Fpu003Eu003Ch1u003Eu003Cstrongu003E安装u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E直接pip安装即可:pip install pyqueryu003Cu002Fpu003Eu003Cpu003E安装完成后,运行 pip show pyquery,如果出现相关信息即为安装完成!u003Cu002Fpu003Eu003Cpu003E如果pip安装失败,可以去官网https:u002Fu002Fpypi.orgu002Fprojectu002Fpyqueryu002F#downloads下载wheel文件,然后用pip安装即可,注意文件名字要写全,比如:pip install pyquery-1.2.17-py2.py3-none-any.whl ,该命令请在同一目录下使用。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F15300849041712d9decb49f” img_width=”1024″ img_height=”576″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003Eu003Cstrongu003E使用u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E确保安装成功后就可以开始使用了,它和其他库一样,PyQuery 初始化的时候也需要传入 HTML 数据源来初始化一个操作对象,它的初始化方式有多种,比如直接传入字符串,传入 URL,传文件名。u003Cu002Fpu003Eu003Cpu003E我们用requests库搭配来写个简单的抓取凤凰新闻的小爬虫,方便理解:u003Cu002Fpu003Eu003Cpu003E打开凤凰网——资讯——即时新闻,我们就以抓取这个页面的所有新闻为例吧!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1530084845275415c733ed5″ img_width=”640″ img_height=”487″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这里没有反爬,页数也不是很多(4页),非常方便用来讲解!分析下网页结构后发现,所有的新闻目录都存在于网页源代码中,每页大概有60多条,我们先来抓取一页的标题和url试试u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1530084845349473897ab71″ img_width=”1192″ img_height=”393″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E可以看到,标题和url都在class=newsList的div下的ul->li->a标签下(用a标签的target属性匹配的话太多,不好清洗),我们可以直接写如代码去获取相关内容了,如下图:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1530084845251e4b2474e10″ img_width=”542″ img_height=”605″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E前面是常规的requests库获取源代码html,然后用PyQuery解析网页源代码,重点是后面的定位到a标签和取出内容。u003Cu002Fpu003Eu003Cpu003Edoc(‘.newsList ul a’) 的意思是定位class属性为newsList的标签下面的ul下面的a标签,注意newsList前面有个点,代表class属性,ul和a标签之间有个li标签,因为ul下的a标签是唯一,所以省略了(ul标签没有省略是因为最下面翻页部分也在这个div下,省略会有其他内容出现,下面会单独提取)!然后定位到a标签后,用items()方法将所有的a标签取出,然后遍历取出里面的内容。u003Cu002Fpu003Eu003Cpu003E这里提取标签的内容用了2个方法text()和attr():u003Cu002Fpu003Eu003Cpu003Etext()方法,可以提取出标签下的所有文本内容,注意是所有!!!u003Cu002Fpu003Eu003Cpu003Eattr()方法,取出标签的某属性,2中写法都可以:new.attr.href 和new.attr(‘href’)u003Cu002Fpu003Eu003Cpu003E然后在看翻页,我们只需要判断是否存在下一页,存在时,查找所有的标题和url,然后获取下一页的url,继续查找,直到不存在下一页,所有的页面就都遍历过了!为了方便,直接做成了一个函数,来看代码u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15300848452819cb32de914″ img_width=”513″ img_height=”489″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这里同样的用class属性来定位,找到它下的a标签,然后判断‘下一页’是否存在a标签的文本中,存在则取出下一页的url,然后再次调用函数,不存在则退出!u003Cu002Fpu003Eu003Cpu003E这样,我们就得到了4页所有的title和url的内容,在来看看新闻详情页的情况,所有的网页文本内容都在id=”main_content”的div下的好多p标签中,那么就用到了text()方法了!来看图u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1530084845309791f7c77b8″ img_width=”640″ img_height=”395″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这样,我们就取到了所有内容,整合下,最后代码如下:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15300848454751af0a93654″ img_width=”640″ img_height=”487″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002F1530084845552e858bc21c9″ img_width=”640″ img_height=”347″ alt=”Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E随手写的代码,就不写入文本或者数据库什么了,主要是学习css选择器的使用!u003Cu002Fpu003Eu003Ch1u003Eu003Cstrongu003E最后u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E​到这里PyQuery 的用法就介绍完了,当然只是用到了很少一部分,还有好多功能没有在这里使用,大家有兴趣可以去看看官方文档或者教程,而且css选择器也可以使用在scrapy框架!是非常方便的一种方式!u003Cu002Fpu003Eu003Cblockquoteu003Eu003Cpu003E现在学习python的人越来越多,很多人还在找资料,或者疑问哪本书是否有用,或者想找个可以指导的老师,或者在寻找一起学习的小伙伴,如果你也是需要资料或者需要帮助的话,可以关注我,私信一起来交流学习!u003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cu002Fdivu003E”

原文始发于:Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13276.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code