1、 初识网络爬虫初识网络爬虫 网络爬虫的常用技术网络爬虫的常用技术 网络爬虫开发常用框架网络爬虫开发常用框架第14章 网络爬虫应用开发参考书目Python 程序设计目录 初识网络爬虫初识网络爬虫 网络爬虫的常用技术网络爬虫的常用技术 网络爬虫开发常用框架网络爬虫开发常用框架这里说明图片内容 初识网络爬虫初识网络爬虫 网络爬虫的常用技术网络爬虫的常用技术 网络爬虫开发常用框架网络爬虫开发常用框架目录这里说明图片内容 初识网络爬虫1 网络爬虫概述网络爬虫,即Web Spider。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。即读取网
2、页的内容,找到在网页中的其它链接地址,然后通过这即读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,把互联网上所有的些链接地址寻找下一个网页,一直循环下去,把互联网上所有的网页都抓取下来。网页都抓取下来。互联网中最有价值的便是数据,爬虫就是高效地挖掘这些宝藏的互联网中最有价值的便是数据,爬虫就是高效地挖掘这些宝藏的方法。方法。初识网络爬虫2 网络爬虫的分类 捜索引擎抓取系统(Baidu、等)的重要组成部分。目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。局限性:通用搜索引擎所返回的结果都是网页 基于关键字的检索,无法准确理解用户的具体
3、需求通用爬虫“面向特定主题需求”的一种网络爬虫程序 聚焦爬虫在实施网页抓取时会对内容进行处理筛选 应用于对特定信息的爬取,为某一类特定的人群提供服务聚焦爬虫初识网络爬虫3 网络爬虫的基本原理爬虫就是发送请求获取网站内容并从中提取数据的自动化程序。其中请求、提取、自动化是爬虫的关键,网络爬虫的基本流程如图:初识网络爬虫初识网络爬虫 网络爬虫的常用技术网络爬虫的常用技术 网络爬虫开发常用框架网络爬虫开发常用框架目录这里说明图片内容 网络爬虫的常用技术网络爬虫是用于数据采集的一门技术,可以帮助我们自动地进行信息的获取与筛选。网络爬虫常用技术:网络请求、headers处理、网络超时、代理服务以及Bea
4、utifulSoup等。网络爬虫的常用技术1 Python实现HTTP网络请求Python中实现HTTP网络请求常见的三种方式:urllib、urllib3以及requests。1.urllib库urlliburllib库是库是PythonPython中一个最基本的网络请求库。可以模拟浏览器的行中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。在为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。在Python3Python3的的urlliburllib库中,所有和网络请求相关的方法,都被集中到库中,所有和网络请求相关的方法,都被集
5、中到urllib.requesturllib.request模块下模块下网络爬虫的常用技术1 Python实现HTTP网络请求(1)urlopen()函数urllib.request.urlopen()函数用于实现对目标url的访问。urllib.request.urlopen(url,data=None,timeout,*,cafile=None,capath=None,cadefault=False,context=None)url 参数:目标资源在网路中的位置。可以是一个表示URL的字符串(如:http:/ cafile、capath、cadefault 参数:用于实现可信任的CA证书的
6、HTTP请求。(基本上很少用)context参数:实现SSL加密传输。(基本上很少用)网络爬虫的常用技术1 Python实现HTTP网络请求(2)返回处理方法详解urlopen返回对象提供方法:1)read(),readline(),readlines(),fileno(),close():对HTTPResponse类型数据进行操作2)info():返回HTTPMessage对象,表示远程服务器返回的头信息3)getcode():返回Http状态码。如果是http请求,200代码表示请求成功完成;404代码表示网址未找到。4)geturl():返回请求的url网络爬虫的常用技术1 Python
7、实现HTTP网络请求【例】利用urllib通过urlopen方式读取百度首页。#导入模块from urllib import request#打开指定需要爬取的网页resp=request.urlopen(http:/)#读取网页代码,并输出print(resp.read()网络爬虫的常用技术1 Python实现HTTP网络请求2urllib3库Urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库。Urllib3提供了很多python标准库urllib里所没有的重要特性,比如线程安全、连接池、客户端SSL/TLS验证、文件分部编码上传、协助处理重复请求和HTTP重定位、支
8、持压缩编码、支持HTTP和SOCKS代理等。安装:安装:pip install urllib3urllib3主要使用连接池进行网络请求的访问,所以访问之前我们需要创建一个连接池对象。网络爬虫的常用技术1 Python实现HTTP网络请求【例】利用urllib3通过request方式读取百度首页#导入模块import urllib3#创建PoolManager对象,用于处理与线程池的连接以及线程安全的所有细节pm=urllib3.PoolManager()#对需要爬取的网页发送请求resp=pm.request(GET,http:/)#读取网页代码,并输出print(resp.data)网络爬虫
9、的常用技术2 请求headers处理2 请求headers处理有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。可以通过模拟浏览器的头部信息来进行访问,这样就能解决以上反爬设置的问题。网络爬虫的常用技术2 请求headers处理【例】通过模拟浏览器的头部信息来进行访问示例。#导入模块import requests#创建需要爬取网页的地址url=http:/ NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like G
10、ecko)Chrome/56.0.2924.87 Safari/537.36#发送网络请求resp=requests.get(url,headers=headers)#以字节流形式打印网页源码print(resp.content.decode(utf-8)网络爬虫的常用技术3 网络超时有些网络爬虫的请求可能因为网络原因无法得到响应。因此,我们可以手动设置超时时间。当请求超时后,可以采取进一步措施,例如选择直接丢弃该请求或者再重新请求一次。#导入模块import requests#循环发送请求100次for a in range(1,100):#捕获异常try:#发送网络请求,设置超时为0.5秒
11、resp =requests.get(https:/,timeout=0.5)print(resp.status_code)except Exception as e:print(异常:+str(e)网络爬虫的常用技术4 代理服务在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取的情况,这是因为IP被爬取网站的服务器所屏蔽。此时代理服务可以解决该麻烦。#导入模块import requests#设置代理IP与对应的端口号proxy=http:202.205.80.132:8080,https:202.205.80.132:8080#对要爬取的网页发送网络请求resp =request
12、s.get(https:/,proxy=proxy)print(resp.content)网络爬虫的常用技术5 HTML解析之BeautifulSoupBeautifulSoup是个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。Beautiful Soup自动将输入文档转换为自动将输入文档转换为Unicode编码,输出文档转换为编码,输出文档转换为utf-8编码。编码。网络爬虫的常用技术5 HTM
13、L解析之BeautifulSoup1.Beautiful Soup 的安装推荐使用推荐使用Beautiful Soup 4。导入模块:pip install beautifulsoup4网络爬虫的常用技术5 HTML解析之BeautifulSoup2.解析器的优缺点网络爬虫的常用技术5 HTML解析之BeautifulSoup3.BeautifulSoup的安装 P Pythonython默认是没有安装默认是没有安装BeautifulSoupBeautifulSoup的模块,用的模块,用pippip安装。安装。pip install lxml 对于解析方式选择更为快捷,容错能力强的对于解析方式
14、选择更为快捷,容错能力强的lxmllxml方式,故还需安装方式,故还需安装lxmllxml。导入模块:pip install beautifulsoup4网络爬虫的常用技术5 HTML解析之BeautifulSoup4.BeautifulSoup的使用(1)导入bs4库,然后创建一个模拟HTML代码的字符串。#导入模块from bs4 import BeautifulSouphtml_doc=中国农业大学Welcome to CAU Good Good Study 网络爬虫的常用技术5 HTML解析之BeautifulSoup(2)创建BeautifulSoup对象,并指定解析器为lxml,最
15、后通过打印的方式将解析的HTML代码显示在控制台当中。soup=BeautifulSoup(html_doc,features=lxml)print(soup)运行结果:中国农业大学Welcome to CAUGood Good Study 初识网络爬虫初识网络爬虫 网络爬虫的常用技术网络爬虫的常用技术 网络爬虫开发常用框架网络爬虫开发常用框架目录这里说明图片内容 网络爬虫开发常用框架1网络爬虫开发常用框架概述爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目中,调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。Scrapy爬虫框架Py
16、Spider爬虫框架Crawley爬虫框架网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。scrapy框架的作用是少量的代码,就能够快速的抓取。网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用1.Scrapy的工作流程(1 1)图中带箭头线条表示数)图中带箭头线条表示数据的传递。据的传递。(2 2)注意图中中间件的位置,)注意图中中间件的位置,决定了其使用的时机。决定了其使用的时机。(3 3)注意其中引擎的位置,)注意其中引擎的位置,所有的模块之前相互独立,只所有的模块之前相
17、互独立,只和引擎进行交互。和引擎进行交互。网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用1.Scrapy的工作流程可以看出可以看出ScrapyScrapy的的3 3个内置对个内置对象:象:1 1)requestrequest请求对象:由请求对象:由url url methodmethod、post_data post_data、headersheaders等构成。等构成。2 2)responseresponse响应对象:由响应对象:由urlurl、bodybody、statusstatus、headersheaders等构等构成。成。3 3)itemitem数据对象:本质是个数据对象:
18、本质是个字典。字典。网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用2Scrapy主要组件网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用3.Scrapy安装与使用 打开命令提示符窗口,输入打开命令提示符窗口,输入“pip install Scrapy”“pip install Scrapy”命令,安装命令,安装ScrapyScrapy框架框架 安装完成后在命令行中输入安装完成后在命令行中输入“scrapy”“scrapy”来检测来检测ScrapyScrapy中否安装成功中否安装成功。ScrapyScrapy框架在安装的过程中,同时会将框架在安装的过程中,同时会将lxrnllxrn
19、l与与pyOpenSSLpyOpenSSL模块也安模块也安装在装在PythonPython环境当中。环境当中。网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用4.安装PyWin32模块使用使用windows系统,运行系统,运行Scrapy项目需要项目需要pywin32这个模块,而在这个模块,而在安装安装Scrapy时,并没有安装些模块时,并没有安装些模块。需执行以下代码:。需执行以下代码:pip install pywin32import pywin32_system32网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用5.创建Scrapy项目在任意路径下创建一个保存项目的文件夹,例
20、如,在在任意路径下创建一个保存项目的文件夹,例如,在“C:PycharmProjects”“C:PycharmProjects”文件夹内运行命令行窗口,然后输入文件夹内运行命令行窗口,然后输入“scrapy startproject scrapyDemoscrapy startproject scrapyDemo”即即可创建一个名称为可创建一个名称为“scrapyDemo”“scrapyDemo”的项目的项目网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用项目打开完成后,左侧项目的目录结构项目打开完成后,左侧项目的目录结构如下:如下:文件作用:文件作用:scrapy.cfg:项目的配置文
21、件。settings.py:设置文件,UA,启动管道。piplines.py:管道,保存数据。middlewares.py:自定义中间件的文件。items.py:自己预计需要爬取的内容。网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用6.创建爬虫通过命令创建出爬虫文件,爬虫文件为主要的代码作业文件,通常一个通过命令创建出爬虫文件,爬虫文件为主要的代码作业文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。网站的爬取动作都会在爬虫文件中进行编写。在项目路径下执行:scrapy genspider 在创建爬虫时,首先需要创建一个在创建爬虫时,首先需要创建一个爬虫模块爬虫模块的文件,该文件需
22、要放置在的文件,该文件需要放置在spidersspiders文件夹当中。爬虫模块是用于从一个网站或多个网站中爬取数据的文件夹当中。爬虫模块是用于从一个网站或多个网站中爬取数据的类,它需要继承类,它需要继承scrapy.Spiderscrapy.Spider类类。命令如下:。命令如下:C:PycharmProjectsscrapyDemoscrapyDemoscrapy genspider jszx Created spider jszx using template basic in module:scrapyDemo.spiders.jszx网络爬虫开发常用框架2 Scrapy网络爬虫框架的
23、使用在通过命令行创建爬虫文件,在在通过命令行创建爬虫文件,在PyCharmPyCharm的目录结构如图的目录结构如图:网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用【例】实现爬取这个网站的首页后将网页的代码以HTML文件保存至项目文件夹当中的功能。with open(index.htm,wb)as f:f.write(response.body)在上述目录结构中的在上述目录结构中的“jszx.py”“jszx.py”的的parse(self,response)parse(self,response)函数中的函数中的passpass语句替换为:语句替换为:C:PycharmProject
24、sscrapyDemoscrapyDemoscrapy genspider jszx Created spider jszx using template basic in module:scrapyDemo.spiders.jszx网络爬虫开发常用框架2 Scrapy网络爬虫框架的使用在运行在运行ScrapyScrapy所创建的爬虫项目时,需要在命令窗口中输入所创建的爬虫项目时,需要在命令窗口中输入“scrapy crawl scrapy crawl 爬虫名爬虫名”。运行完成以后将显示如图。运行完成以后将显示如图14-914-9所示的信息。所示的信息。本章小结本章首先讲解了爬虫的分类和工作原理,先让大家对爬虫有个基本的认识,然后主要介绍了Python中编写爬虫常用的4个框架:scrapy、pySpider、crawley、pyquery的特性。其中scrapy是经常被使用的爬虫框架,但其它3个框架也各有特点,并介绍了scrapy的使用。思考与练习1.爬虫主要分为那几类?2.说一说聚焦爬虫的工作原理。3.常用的Python爬虫框架有那些?4.利用scrapy爬虫框架,编写一个爬虫去爬取感兴趣的主题网站数据。