1. 首页
  2. Python

程序员新手如何轻松学习python爬虫,看了这个,你就会明白

“u003Cdivu003Eu003Cpu003EPython-网络爬虫u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E1.网络爬虫是何物?u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E说到网络爬虫,然而它并不是一种爬虫~而是一种可以在网上任意搜索的一个脚本程序。有人说一定要解释网络爬虫到底是干什么用的。尝试了很多种解释,最终归纳为一句话:u003Cu002Fpu003Eu003Cblockquoteu003Eu003Cpu003E”你再也不必用鼠标一条一条的从网页上拷贝信息!“u003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cpu003E一个爬虫程序将会高效并且准确的从网上拿到你希望得到的所有信息,省去下面的行为:u003Cu002Fpu003Eu003Cpreu003Ewhile(no_dead)u003Cbru003E{u003Cbru003E 寻找网页;u003Cbru003E 鼠标点击;u003Cbru003E ctrl-c;u003Cbru003E crtl-v;u003Cbru003E 翻页;u003Cbru003E}u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E当然网络爬虫的真正意义不仅如此,由于它可以自动提取网页信息,使他成为了搜索引擎从万维网上下载网页的重要利器。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F812306b0ef844641af3bc93e029dcf25″ img_width=”1728″ img_height=”1080″ alt=”程序员新手如何轻松学习python爬虫,看了这个,你就会明白” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E下面我们来介绍一下网络爬虫的正经定义:u003Cu002Fpu003Eu003Cblockquoteu003Eu003Cpu003E网络爬虫 (又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网 信息的 程序 或者 脚本 。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者 蠕虫。u003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cpu003E网络爬虫 (web Spider),Spider是蜘蛛的意思,实际上名字是很形象的,他们把 互联网 比喻成一个 蜘蛛网 ,那么所谓的这个spider就在网上爬来爬去。这个网络蜘蛛是通过网页的链接地址来寻找网页的。u003Cu002Fpu003Eu003Cpu003E蜘蛛的主要行径: 网页首页—>读取网页内容—>找到网页中其他的链接地址—>其他网页的u003Cu002Fpu003Eu003Cpu003E首页—>…u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F0aeb550406674abf81a21e733c3a1a43″ img_width=”308″ img_height=”370″ alt=”程序员新手如何轻松学习python爬虫,看了这个,你就会明白” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这样的循环下去,直到将这个网站上所有的网页都吃光(网页上所有的信息全部用蜘蛛得到)。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E如果你敢把互联网比喻成一个网站,一定会有那么一个网络蜘蛛能够可以把 整个互联网 的资源全部吃光!!!u003Cu002Fstrongu003E显而易见,网络爬虫的基本操作就是住区网页。网页地址就是一个叫URL的东西,那么我们就要简单的处理一下URL。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E2.URL初步概念u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E我们先来介绍一下浏览网页的基本过程,比如我们在浏览器地址输入一个网址。整个过程大致会发生以下步骤u003Cu002Fpu003Eu003Cpu003E本地浏览器(客户端)—>请求—>服务器(服务端)u003Cu002Fpu003Eu003Cpu003E本地浏览器(客户端)<—文件数据<—服务器(服务端)u003Cu002Fpu003Eu003Cpu003E本地浏览器客户(客户端)进行解析文件数据并且展现。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F0c775847bd9049b9b000f480afbe9b36″ img_width=”700″ img_height=”494″ alt=”程序员新手如何轻松学习python爬虫,看了这个,你就会明白” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E那么实际上浏览器用的是一种叫html标记的语言来进行解析的。u003Cu002Fpu003Eu003Cpu003E我们给浏览器输入的地址,实际上就是一个url(Uniform Resource Locator) 统一资源定位符。就是 地址 啦,搞学术的人非得弄的很高端。URL的一般格式是: protocol:u002Fu002F hostname[:port] u002F path u002F [;parameters][?query]#fragmentu003Cu002Fpu003Eu003Cpu003E基本上是由三部分组成:u003Cu002Fpu003Eu003Colu003Eu003Cliu003E协议(HTTP呀,FTP呀~~等等)u003Cu002Fliu003Eu003Cliu003E主机的IP地址(或者域名)u003Cu002Fliu003Eu003Cliu003E请求主机资源的具体地址(目录,文件名等)u003Cu002Fliu003Eu003Cu002Folu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F031a8ca3cb41400d8ba6005e99d2160b” img_width=”600″ img_height=”414″ alt=”程序员新手如何轻松学习python爬虫,看了这个,你就会明白” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E其中:u003Cu002Fpu003Eu003Cpu003E第一部分和第二部分用 “:u002Fu002F” 分割u003Cu002Fpu003Eu003Cpu003E第二部分和第三部分用 “u002F” 分割u003Cu002Fpu003Eu003Colu003Eu003Cliu003E1:u002Fu002F2u002F3 —–> http:u002Fu002Fwww.itcast.cnu002Fchannelu002Fteacher.shtml#ac )定位符u003Cu002Fliu003Eu003Cu002Folu003Eu003Cpu003E下面看几个URL例子:u003Cu002Fpu003Eu003Cpreu003Ehttp:u002Fu002Fxianluomao.sinaapp.comu002Fga u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E其中u003Cu002Fpu003Eu003Cpu003E协议http,u003Cu002Fpu003Eu003Cpu003E计算机域名xianluomao.sinaapp.com,u003Cu002Fpu003Eu003Cpu003E请求目录gameu003Cu002Fpu003Eu003Cpreu003Ehttp:u002Fu002Fhelp.qunar.comu002Flist.ht u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E其中协议http,u003Cu002Fpu003Eu003Cpu003E计算机域名help.qunar.comu003Cu002Fpu003Eu003Cpu003E文件list.htmlu003Cu002Fpu003Eu003Cblockquoteu003Eu003Cpu003E网络爬虫的主要处理对象就是类似于以上的URL,爬虫根据URL地址取得所需要的文件内容,然后对它进一步的处理。u003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cpu003E最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:程序员新手如何轻松学习python爬虫,看了这个,你就会明白

主题测试文章,只做测试使用。发布者:逗乐男神i,转转请注明出处:http://www.cxybcw.com/12932.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code