1. 首页
  2. IT资讯

用Python3实现一个简单的爬虫。

import urllib import urllib.request  def loadPage(url,filename):     """     作用:根据url发送请求,获取html数据;     :param url:     :return:     """     request=urllib.request.Request(url)     html1= urllib.request.urlopen(request).read()     return  html1.decode('utf-8')  def writePage(html,filename):     """     作用将html写入本地      :param html: 服务器相应的文件内容     :return:     """     with open(filename,'w') as f:         f.write(html)     print('-'*30) def tiebaSpider(url,beginPage,endPage):     """     作用贴吧爬虫调度器,负责处理每一个页面url;     :param url:     :param beginPage:     :param endPage:     :return:     """     for page in range(beginPage,endPage+1):         pn=(page - 1)*50         fullurl=url+"&pn="+str(pn)         print(fullurl)         filename='第'+str(page)+'页.html'         html= loadPage(url,filename)          writePage(html,filename)    if __name__=="__main__":     kw=input('请输入你要需要爬取的贴吧名:')     beginPage=int(input('请输入起始页'))     endPage=int(input('请输入结束页'))     url='https://tieba.baidu.com/f?'     kw1={'kw':kw}     key = urllib.parse.urlencode(kw1)     fullurl=url+key     tiebaSpider(fullurl,beginPage,endPage)  

为了返回的html一定要进行decode编码一下。

  • 点赞 1
  • 收藏
  • 分享

    • 文章举报

用Python3实现一个简单的爬虫。 用Python3实现一个简单的爬虫。
段振轩
发布了64 篇原创文章 · 获赞 41 · 访问量 9万+

私信 关注

原文始发于:用Python3实现一个简单的爬虫。

主题测试文章,只做测试使用。发布者:sys234,转转请注明出处:http://www.cxybcw.com/84675.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code