1. 首页
  2. Python

Python爬虫你需要积累这些基本知识_Python学习基础路线

Python爬虫你需要积累这些基本知识_Python学习基础路线

爬虫定义、分类和流程

爬虫定义

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为,越像越好,越像就越不容易被发现。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

爬虫的分类

通用爬虫:通常指搜索引擎的爬虫

聚焦爬虫:针对特定网站的爬虫

爬虫的用途

  • 今日头条
  • 网易云音乐
  • 12306抢票
  • 网站自动投票
  • 短信轰炸
  • 等等

爬虫的流程

Python爬虫你需要积累这些基本知识_Python学习基础路线
  1. 向起始url发送请求,并获取响应
  2. 对响应进行提取
  3. 如果提取url,则继续发送请求获取响应
  4. 如果提取数据,则将数据进行保存

robots 协议

Robots 协议:网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是道德层面上的约束 例如:淘宝的 robots 协议总结

  • 爬虫概念:模拟浏览器发送网络请求,接收请求响应。只要是浏览器(客户端)能做的事情,爬虫都能够做。
  • 爬虫的分类:聚焦爬虫、通用爬虫
  • 爬虫的流程:
  1. 向起始 url 发送请求,并获取响应
  2. 对响应进行提取
  3. 如果提取 url,则继续发送请求获取响应
  4. 如果提取数据,则将数据进行保存

HTTP 与 HTTPS 的概念

HTTP

概念:HTTP(超文本传输协议)是应用层上的一种客户端/服务端模型的通信协议,它由请求和响应构成,且是无状态的。 协议:协议规定了通信双方必须遵守的数据传输格式,这样通信双方按照约定的格式才能准确的通信。 无状态:无状态是指两次谅解通信之间是没有任何联系的,每次都是一个新的连接,服务端不会记录前后的请求信息。HTTP 请求流程

Python爬虫你需要积累这些基本知识_Python学习基础路线
  1. 浏览器通过域名解析服务器(DNS)获取IP地址
  2. 浏览器先向 IP 发起请求,并获取相应
  3. 在返回的响应内容(html)中,会带有 css、js、图片等 url 地址,以及 ajax 代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
  4. 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css 等内容会修改页面的内容,js也可以重新发送请求,获取响应
  5. 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

五层网络模型

Python爬虫你需要积累这些基本知识_Python学习基础路线

HTTP协议结构图

Python爬虫你需要积累这些基本知识_Python学习基础路线

网络模型对应关系

  1. HTTP、RTSP、FTP ——-> 应用层
  2. TCP、UDP ——-> 传输层
  3. IP ——-> 网络层
  4. 数据链路 ——-> 数据链路层
  5. 物理介质 ——-> 物理层

url 地址格式

Python爬虫你需要积累这些基本知识_Python学习基础路线

格式说明: scheme://host[:port]/path/…/[?query-string][#anchor]

  1. scheme:协议(例如:http, https, ftp)
  2. host:服务器的 IP 地址或者域名
  3. port:服务器的端口(如果是走协议默认端口,缺省端口80)
  4. path:访问资源的路径
  5. query-string:参数,发送给 http 服务器的数据
  6. anchor:锚(跳转到网页的指定锚点位置)

HTTP 请求

  • 请求格式
Python爬虫你需要积累这些基本知识_Python学习基础路线
  • 案例
Python爬虫你需要积累这些基本知识_Python学习基础路线
  • 请求方式

根据 HTTP 标准,HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD 方法。HTTP1.1 新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。请求方式描述GET请求指定的页面信息,并返回实体主体。HEAD类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头POST向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。PUT从客户端向服务器传送的数据取代指定的文档的内容DELETE请求服务器删除指定的页面。CONNECTHTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。OPTIONS允许客户端查看服务器的性能。TRACE回显服务器收到的请求,主要用于测试或诊断。

  • 常见请求头

请求头作用CookieCookieUser-Agent浏览器名称Referer页面跳转处Host主机和端口号Connection链接类型Upgrade-Insecure-Requests升级为 HTTPS 请求Accept传输文件类型Accept-Encoding文件编解码格式x-requested-with : XMLHttpRequestajax 请求

HTTP 响应

  • 响应格式

HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行(回车符 + 换行符)和响应正文。

Python爬虫你需要积累这些基本知识_Python学习基础路线
  • 响应头

响应头作用Location这个头配合 302 状态码使用,告诉用户端找谁。Set-Cookie设置和页面关联的 CookieContent-Type服务器通过这个头,回送数据的类型Server服务器通过这个头,告诉浏览器服务器的类型Content-Length服务器通过这个头,告诉浏览器回送数据的长度Connection服务器通过这个头,响应完是保持链接还是关闭链接

  • HTTP 状态码

当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含 HTTP 状态码的信息头(server header)用以响应浏览器的请求。HTTP 状态码的英文为 HTTP Status Code。HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP 状态码共分为 5 种类型分类分类描述1**信息,服务器收到请求,需要请求者继续执行操作2**成功,操作被成功接收并处理3**重定向,需要进一步的操作以完成请求4**客户端错误,请求包含语法错误或无法完成请求5**服务器错误,服务器在处理请求的过程中发生了错误

  • 常见的 HTTP 状态码:
  • 200 – 请求成功
  • 301 – 资源(网页等)被永久转移到其它 URL
  • 404 – 请求的资源(网页等)不存在
  • 500 – 内部服务器错误

HTTPS

1- HTTP + SSL (安全套接字层),即带有安全套接字层的超本文传输协议2- 默认端口号:443

  • HTTPS 作用

在传输过程中对数据进行加密,防止中间路由器、交换机等中间的路由设备对数据进行篡改。

  • HTTP 与 HTTPS 优缺点

HTTP 因为不需要对数据进行加密所以性能更高,但是安全性差。HTTPS 虽然安全性高,但是因为浏览器和服务器端需要对数据进行加解密,所以占用服务器资源。

  • 当前形式

注意:目前 HTTPS 是未来主流,微信小程序,iOS 客户端,android 客户端的接口提供都需要 HTTPS 接口支持。

1.python入门
推荐老齐《从零开始学python》,《python简明教程》,这两本书很适合小白入门(像我一样长期徘徊在编程门外的人)
2.python进阶
推荐《python学习手册》,python学习手册的前半部分与在入门教程中的基础部分相重复,后面部分对python的介绍更细致,比如面向对象的这部分对于小白理解相对容易。
还有一本《python cookbook》,这本是在讲述python的经典用法,目前读过函数,装饰器以及网络编程这三部分,在不断的敲玩具代码的过程中,会发现书中讲的例子不断会出现。
3.学习web开发,自然要涉及到基于python的web 框架。
1)flask
flask如同官方所描述的那样,是一个web微框架,用几行代码就可以实现一个在hello world,现在的个人感觉是flask确实适合新手入门。基于这个原则,
推荐《flask web 开发》这本书,这本书简直是良心,讲的很细,并且在github上有源码,可以很容易跟着作者的步骤去学习,不懂得的地方可以去问谷歌或者qq群。
推荐的第二本是《building web applications with flask》这本书是对flask框架的细化,深入讲解flask的模板,restful等等,虽然是英文,但是叶能顺利阅读下去
推荐的第三本是《flask Framework cookbook》,这三本书是一个不段进阶的部分。
2)django
django是大而全,开箱即用,在flask了解的差不多的时候去了解,毕竟生成环境用的django相对多一点。
django学习可以看得书:(1)tango with django只有一个应用去学习,对于新手友好,可以比对github源码
(2)django by example 注重实战,有几个实例,blog, shop etc,涉及django基础,redis,celery,solr,ajax,很全面,也是web开发常用的技术
4.在学习框架的过程中,会不断体会到前端的知识也是要补回来,可以w3c school看一下。
5.数据库,在python中内置了sqlite, sql命令有相同之处,路线是sqlite, mysql, mongodb,有个逐渐过度的过程。
6.了解http的具体工作流程,这点目前还是有点模糊
7.工具集:sublime(需要配置,主要用于python编程,神器谁用谁知道), vim, firebug, firefox, linux,github(代码大宝库,各种代码)
8.学习的过程觉得几点很重要
1)做好笔记,同样的问题会遇到第二次,有个笔记容易复查
2)善用谷歌,善用qq与论坛,你现在遇到的问题,大多数前人都遇到过,stackflow是个好地方
3)迷茫的时候还是坚持看,因为毕竟是小白,不懂的太多,你总要把他弄懂
4)有时间了可以把算法与数据结构补起来

本文来自投稿,不代表程序员编程网立场,如若转载,请注明出处:http://www.cxybcw.com/186790.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code