爬虫技术讲座课件.pptx

上传人（卖家）：三亚风情文档编号：3309251 上传时间：2022-08-18 格式：PPTX 页数：14 大小：7.89MB

下载相关举报

第1页 / 共14页

第2页 / 共14页

第3页 / 共14页

第4页 / 共14页

第5页 / 共14页

点击查看更多>>

资源描述

1、爬虫-PythonMOOC讲座content01网络连接02爬虫介绍03Python爬虫库04Demo演示01网络连接解释01网络连接购买者硬币、纸币想要买啥售货机购买买到商品本机电脑请求头Headers消息体 DataRequests 请求相应服务器ResponseHtml、JS、css、img。02爬虫介绍01什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一只蜘蛛。如果它遇到资源，那么它就会抓取下来。互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯.想抓取什么？这个就由你来控制它咯（嗯，长得帅就是可以为所欲为=）02爬虫能干什么爬取小说资源玩课网期中考饿了么大红

2、包http:/ 嗯，就是前面的售货机=03爬虫基本流程发起请求通过HTTP库向目标服务器发送Request，Request内可以包含额外的headers信息。获取响应内容如果服务器正常响应会返回Response，里面包含的就是该页面的内容。解析数据内容或许是HTML，可以用正则表达式、网页解析库进行解析。或许是Json，可以直接转换为Json对象解析。保存数据可以存储为文本，也可以保存至数据库，或其他特定类型文件。不就是重复嘛，理直气壮地再占一页ppt=03Python爬虫库01Python爬虫库我知道你们都会的，Requests库BeautifulSoup库 Lxml库pip3 install requests请求网站获取网页数据pip3 install beautifulsoup4 解析网页，提取数据 pip3 install lxml解析库，速度比BeautifulSoup快Python3版本04Demo演示杭电自动学评教Demo分析渣渣爬取杭电官网比赛信息爬取下载顶点网站的小说01Demo分析辣鸡多说无用，show your code。https:/ You

展开阅读全文