1. 首页
  2. Python

史上最详细的网络爬虫教程让你从零到精通

“u003Cdivu003Eu003Cpu003E网络爬虫是什么?u003Cu002Fpu003Eu003Cpu003E网络爬虫就是:请求网站并提取数据的自动化程序u003Cu002Fpu003Eu003Cpu003E网络爬虫能做什么?u003Cu002Fpu003Eu003Cpu003E网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F62e3f7fe71d1487ea3f9ebc24e1804ca” img_width=”550″ img_height=”354″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E网络爬虫还被用于爬取各个网站的数据,进行分析、预测u003Cu002Fpu003Eu003Cpu003E近几年来,大量的企业和个人开始使用网络爬虫采集互联网的公开数据,进行数据分析,进一步达到商业目的。u003Cu002Fpu003Eu003Cpu003E利用网络爬虫能从网上爬取什么数据?u003Cu002Fpu003Eu003Cpu003E可以好不吹嘘的说,平时从浏览器浏览的所有数据都能被爬取下来。u003Cu002Fpu003Eu003Cpu003E网络爬虫是否合法?u003Cu002Fpu003Eu003Cpu003E上面说到了爬虫可以爬取任何数据,那么,爬取数据这种行为是否合法?u003Cu002Fpu003Eu003Cpu003E目前关于爬取数据的法律还在建立和完善中,如果爬取的数据属于个人使用或者科研范畴,基本不存在什么问题;一旦要用于商业用途就得注意了,有可能会违法。互联网界对于网络爬虫也建立了一定的道德规范(Robots协议)来约束。u003Cu002Fpu003Eu003Cpu003E这里具体看下Robots协议u003Cu002Fpu003Eu003Cpu003ERobots协议规定各个搜索引擎哪些页面可以抓取,哪些页面不能抓取,Robots协议虽然没有被写入法律,但是每一个爬虫都应该遵守这项协议。u003Cu002Fpu003Eu003Cpu003E下面是淘宝网的robots协议:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002Fc475dbce28414826a783eb9e6a4e7e5f” img_width=”523″ img_height=”483″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E从图中我们就可以发现淘宝网对百度的爬虫引擎做出了规定,然而百度也会遵守这些规定,不信你可以试试从百度是找不到淘宝里的商品信息的。u003Cu002Fpu003Eu003Cpu003Epython爬虫的基本流程u003Cu002Fpu003Eu003Cpu003EPython爬虫的基本流程非常简单,主要可以分为三部分:(1)获取网页;(2)解析网页(提取数据);(3)存储数据。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F2904c369651f42cab371e73431b9fb0d” img_width=”550″ img_height=”93″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E简单的介绍下这三部分:u003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cstrongu003E获取网页u003Cu002Fstrongu003E 就是给一个网址发送请求,该网址会返回整个网页的数据。类似于在浏览器中输入网址并按回车键,然后可以看到网站的整个页面。u003Cu002Fliu003Eu003Cliu003Eu003Cstrongu003E解析网页u003Cu002Fstrongu003E 就是从整个网页的数据中提取想要的数据。u003Cu002Fliu003Eu003Cliu003Eu003Cstrongu003E存储数据u003Cu002Fstrongu003E 顾名思义就是把数据存储下来,我们可以存储在文本中,也可以存储到数据库中。u003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003E基础爬虫的框架以及详细的运行流程u003Cu002Fpu003Eu003Cpu003E基础爬虫框架主要包括五大模块,分别是 爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器 。这五大模块之间的关系如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F68230af6005f4ef09beaee0ca7ac9662″ img_width=”550″ img_height=”320″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E下来我们来分析这五大模块之间的功能:u003Cu002Fpu003Eu003Culu003Eu003Cliu003E爬虫调度器主要负责统筹其他四个模块的协调工作。u003Cu002Fliu003Eu003Cliu003EURL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合, 提供获取新URL链接的接口。u003Cu002Fliu003Eu003Cliu003EHTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。u003Cu002Fliu003Eu003Cliu003EHTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新 的URL链接交给URL管理器,解析出有效数据交给数据存储器。u003Cu002Fliu003Eu003Cliu003E数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。u003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003E详细的运行流程如下图所示:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F7fd526c9c307462c944efa480b81b8f8″ img_width=”550″ img_height=”297″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E最后:如果你正在学习Python的路上,或者准备打算学习Python、那么小编这套学习教程免费赠送给你喔!绝对零套路 零收费!u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E你正好需要、我正好有、就是这么完美的事情u003Cu002Fpu003Eu003Ch1u003Eu003Cstrongu003E你只需转发本文,然后私信小编“资料”即可马上领取400python学习教程!!u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F6cbf3e8e1b234491b04bdbc53e07158d” img_width=”481″ img_height=”761″ alt=”史上最详细的网络爬虫教程让你从零到精通” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:史上最详细的网络爬虫教程让你从零到精通

主题测试文章,只做测试使用。发布者:醒百年,转转请注明出处:http://www.cxybcw.com/13614.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code