《大数据》配套之九:第8章-互联网大数据处课件.pptx

上传人(卖家):ziliao2023 文档编号:5582004 上传时间:2023-04-25 格式:PPTX 页数:48 大小:8.03MB
下载 相关 举报
《大数据》配套之九:第8章-互联网大数据处课件.pptx_第1页
第1页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件.pptx_第2页
第2页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件.pptx_第3页
第3页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件.pptx_第4页
第4页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件.pptx_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编B I G 教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的云计算被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算()和中国大数据()网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排名第一)、

2、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。刘 鹏第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of4138.5历史信息检索习题8.1互联网信息抓取第八章 互联网大数据处理8.1.1概述of414互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。爬虫可以被分为两类:一类叫作“通用爬虫”;另一类叫作“聚焦爬虫”。目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样

3、的灵活方便的开源爬虫搜索引擎。8.1互联网信息抓取第八章 互联网大数据处理8.1.1概述of415目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫(爬虫搜索引擎)。百度蜘蛛对某网站的抓取频率8.1互联网信息抓取第八章 互联网大数据处理8.1.2Nutch爬虫of416Nutch爬虫的部署与使用Nutch版本的选择NO.1Nutch工作环境NO.2NO.3Nutch的安装与配置NO.4Nutch的简单使用8.1互联网信息抓取第八章 互联网大数据处理of417Nutch1.x是基

4、于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于Apach Gora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。Nutch版本的选择8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of418Nutch工作环境:(1)Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu 14.04.3 LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwi

5、n。(2)JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。(3)HBase:可从网上下载最新版。(4)Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。(5)Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。(6)Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of419JDK的安装与配置下载并解压HBaseAnt的安装与配置Nutch的安装与配置将Nutch和Solr集成在一起Nutch的安装与配置应该包括下面5个部分:

6、8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of4110一站式抓取进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。分布式抓取可以分为2步:Nutch数据文件夹组成和生成抓取列表。Nutch的简单使用8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理8.1.3案例:招聘网站信息抓取of4111考虑如下场景:现在需要通过调查全国所有公司的规模和分布情况,来评估每个省份的经济实力。我们要做的第一步就是数据的收集工作。可以通过编写爬虫程序,自动进行数据收集工作,特别是从招聘网站上的公司介绍页面获取数据。Nutch查询

7、界面8.1互联网信息抓取第八章 互联网大数据处理of41121.采用聚焦爬虫2.生成“种子”3.依次打开每一个URL,得到页面HTML4.对HTML进行解析,提取需要的信息5.使用多线程使用Python实现简单的聚焦爬虫来完成这项任务8.1.3案例:招聘网站信息抓取8.1互联网信息抓取第八章 互联网大数据处理8.1.4案例:舆情信息汇聚of4113通常情况下,网络舆情监控系统由采集层(舆情采集模块)、分析层和呈现层(分析浏览模块)实现。可通过网络信息自动抓取等技术手段,便捷、高效地获取与自己相关的网络舆情,不仅信息保真,而且覆盖全面。通过网络舆情监控系统最终形成专题简报、专题追踪、舆情简报等,

8、为全面掌握网络舆情动态,正确引导舆情动向,提供了可靠、有力的数据分析依据。舆情监控系统架构8.1互联网信息抓取第八章 互联网大数据处理of4114抓取河南大学新闻网新闻主题河南大学新闻网页关键信息提取河南大学新闻网页关键字检索8.1.4案例:舆情信息汇聚第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of41158.5历史信息检索习题8.2文本分词第八章 互联网大数据处理8.2.1概述of4116文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。中文分词也叫作切分,是将中文文本

9、分割成若干个独立、有意义的基本单位的过程。定义分词算法基本的工作原理是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。分词原理图8.2文本分词第八章 互联网大数据处理of4117123基于字符串匹配的分词方法它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。基于统计的分词方法由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。基于理解的分词方法该方法通过语义信息和语句信息来解决歧义分

10、词问题,并且在分词的同时进行语义和句法分析。现有的中文分词算法可以分为以下3类:8.2.1概述8.2文本分词第八章 互联网大数据处理of4118分词方法基于字符串基于理解基于统计歧义识别差强强新词识别差强强词库需要不需要不需要语料库不需要不需要需要规则库不需要需要不需要算法复杂性容易很难一般技术成熟度成熟不成熟成熟实施难度容易很难一般分词准确度一般准确较准分词速度快慢一般各种分词方法的优劣对比表8.2.1概述8.2文本分词第八章 互联网大数据处理8.2.2MMSEG分词工具of4119取最大匹配的Chunk取平均词长最大的Chunk取词长标准差最小的Chunk取单字词自由语素度之和最大的Chu

11、nkMMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则。8.2文本分词第八章 互联网大数据处理of4120属性含义长度(Length)Chunk中各个词的长度之和平均长度(Average Length)长度/词数标准差的平方(Variance)标准差的平方自由语素度(Degree of Morphemic Freedom

12、)各单字词词频的对数之和Chunk中各属性及其含义8.2.2MMSEG分词工具8.2文本分词第八章 互联网大数据处理8.2.3斯坦福NLTK分词工具of4121有些文本的形成和变化过程与时间是紧密相关的,因此,如何将动态变化的文本中时间相关的模式与规律进行可视化展示,是文本可视化的重要内容。引入时间轴是一类主要方法,常见的技术以河流图居多。河流图按照其展示的内容可以划分为主题河流图、文本河流图及事件河流图等。第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of41228.5历史信息检索习题8.3

13、倒排索引第八章 互联网大数据处理8.3.1倒排索引原理of4123出现次数文档1文档2文档3文档4词语141词语234词语331词语439如果使用一个矩阵来描述词语和文档之间的关系,不难得出如下“矩阵”。其中,每一列代表一个文档,每一行代表一个词语,每一个单元格代表“此文档中出现此词语的次数”。矩阵中的第一列说明“在文档1中,词语1出现了4次、词语2和词语3均出现了3次,并且文档1中不再有其他词语出现”。同理,矩阵中的第一行则说明“词语1在文档1中出现在4次,在文档4中出现1次,在其他文档中不出现”。其他行列同理。词语和文档的关系8.3倒排索引第八章 互联网大数据处理of4124倒排索引可以使

14、用这样一个Map来实现:每一个词语都是Map中的一个键(Key),这个键对应的Value是一个集合,里面保存着包含这个词语的文档的编号。存储形式为:Map String key,Set Struct value 。同理,如果要在倒排索引中加入更多信息,可以在Value中增加记录项目。倒排索引的数据结构8.3.1倒排索引原理倒排索引使用的数据结构可以在倒排索引的Value项里增加信息8.3倒排索引第八章 互联网大数据处理of4125倒排索引的建立实例假设现在有两篇文档,每篇文档的内容如下:文档内容文档1The quick brown fox jumped over the lazy dog.文档

15、2Quick brown foxes leap over lazy dogs in summer.其建立实例的步骤如下:2.去除无关词语1.文章本分词3.词语归一化4.建立词语-文档矩阵5.建立到排索引8.3.1倒排索引原理8.3倒排索引第八章 互联网大数据处理of4126倒排索引的更新策略01先进行“文档暂存”,待文档暂存区达到一定数量后,对所有文档重新建立索引。完全重建策略02新文档会立即被解析,解析结果会进行“索引暂存”,待索引暂存区达到一定数量后,再将新旧索引合并。再合并策略04其思想是混合地使用上述几种策略,取长补短,以达到最好的性能。混合策略03新文档立刻被解析,解析结果立刻被加入

16、旧索引中。原地更新策略8.3.1倒排索引原理8.3倒排索引第八章 互联网大数据处理8.3.2倒排索引实现of41272遍历读取文件所有的文件都存放在文件夹中,首先要把这些文件读取出来,才能进行后续处理。3对单个文件进行处理包括文本分词、去除无关词语、词语归一化和建立单个文件的信息统计表。5查询处理转变“词语-出现次数”统计表为“词语-文件-出现次数”倒排表。1任务概述要求对文件建立倒排索引,使之能够被方便地查询。4将单个文件信息和总体的倒排表进行合并通过Key查找到对应的Value即可。第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云

17、计算姊妹篇,剖析大数据核心技术和实战应用of41288.5历史信息检索习题8.4网页排序算法第八章 互联网大数据处理8.4.1 概述of41291234 基于访问量的排序算法 基于链接分析的排序算法基于词频统计和词语位置加权的排序算法基于智能化的排序算法网页排序可分为4种算法大致可分为4种:8.4网页排序算法第八章 互联网大数据处理8.4.2 TD-IDF算法of4130TF-IDF是一种统计方法,不仅可以用于评估一个词语对于语料库中某一份文档的重要程度,还可以对搜索结果进行排序,使“重要的”和“贴合搜索关键词的”网页排在前面。基于TF-IDF的网页评分系统在搜索引擎中被广泛使用。TF的计算公

18、式很多,最简单的形式为:逆文档频率的计算公式也有许多,最简单的形式如下:除了最简单的形式外,下面这种形式的计算公式也经常被使用:8.4网页排序算法第八章 互联网大数据处理8.4.3 BM25算法of4131BM25算法是一种基于统计方法的排序算法,是二元独立模型的扩展,或者看作是TF-IDF算法的变形。此算法也是一种有效的相关性评分手段,被搜索引擎广泛使用。给出查询关键词A,则语料库中某篇文档B的BM25分数定义如下:在这里,IDF是逆文档频率,f是“词语A在文章B中出现的频率”。当取IDF=1、k1=2、b=0.75、k2=200时,BM25公式的曲线8.4网页排序算法第八章 互联网大数据处

19、理8.4.3 BM25算法of4132使用BM25算法来对查询到的网页进行评分,其关键代码如下:class BM25:def _init_(self,referance):self.referance=referance self.k1=2 self.k2=referance.wordCount/referance.fileCount self.b=0.75 def getRank(self,word,result):for filename in result.keys():f=self.referance.invertedTablewordfilename idf=math.log(sel

20、f.referance.fileCount/len(self.referance.invertedTableword)resultfilename=(idf*f*(self.k1+1)/(f+self.k1*(1-self.b+self.b*self.k2)return result8.4网页排序算法第八章 互联网大数据处理8.4.4PageRank算法of4133PageRank算法的核心思想是让页面之间通过超链接来进行“投票”:页面A上有一个指向页面H的超链接,就相当于页面A给页面H“投了一票”;一个网页被越多网页链接到,那么这个网页就越受大家信赖,此网页越重要,PageRank值越高;一

21、个很重要、PageRank值很高的网页(如网页B)链接到了其他网页,那么这些网页的PageRank值也会因此提高。PageRank算法核心思想第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of41348.5历史信息检索习题8.5历史信息检索第八章 互联网大数据处理8.5.1系统架构of4135面向历史领域的智能信息检索引擎,从互联网上抓取重大历史事件的网站内容,经过数据汇聚和整合从而在数据库中建立专门的数据库。通过在数据库中检索与用户查询条件匹配的相关记录,然后将查询结果进行优化,并按照一定的

22、排序方式将最终结果返回给用户。全文检索系统架构图如下所示。面向历史领域的智能信息检索引擎的系统架构8.5历史信息检索第八章 互联网大数据处理8.5.2数据抓取与整合of4136提供内容输入的界面,由历史学家或爱好者手动录入历史事件。手动录入通过自然语言处理、机器学习和人工标注相结合的方法自动抽取历史事件的关键要素。半自动采集收录用户推荐的重要历史网站和系统自动抓取的历史相关的网页。面向历史领域的非结构化互联网数据抓取3种数据采集方式8.5历史信息检索第八章 互联网大数据处理8.5.3查询引擎of4137在历史信息检索中,为了让用户体验尽量达到最好,每个搜索字段之间要保逻辑持“与”的关系。相同字

23、段之间搜索不同内容的时候也要保持逻辑“与”的关系。历史信息检索系统使用Java语言开发,为使代码保持较强的可读性和逻辑性,该系统使用Hibernate开源框架进行数据持久化操作。8.5历史信息检索第八章 互联网大数据处理8.5.4运行效果of4138静态单字段查询界面静态单字段查询结果8.5历史信息检索第八章 互联网大数据处理of4139动态单字段查询界面动态单字段查询结果8.5.4运行效果1简述互联网信息抓取的方式。2查阅相关资料,实例演示Nutch爬虫的安装与配置。3熟练掌握Nutch爬虫的使用,实际操作一站式抓取和分布式抓取。4简述舆情系统的组成架构。5中文分词算法可以分为哪几类?6常用

24、的文本分词工具有哪些?7简述倒排索引的原理。8查阅相关资料实例演示倒排索引的建立和实现。9常用的网页排序算法有哪些?10简述TD-IDF算法主要思想。11简述BM25算法主要思想。12简述历史信息检索的系统架构。习题:百度排名首位的大数据资料和交流中心百 度 排 名 首 位 的 云 计 算 资 料 和 交 流 中 心终生免费的智能硬件大数据托管平台终 生 免 费 的 环 境 大 数 据 共 享 平 台一站式大数据教学科研平台 全球大数据人才荒,各大高校打造大数据人才高地 搭建一站式的大数据教学科研平台 完整的大数据课程体系及配套资源,一步解决入门难l安全可靠的实验环境,大幅提升大数据技能l热门

25、实战项目贯穿始终,进一步提高教学效果与就业率l更多潜在效益,同步增强高校的硬实力和影响力学 习 大 数 据 必 须 关 注 的 公 众 号知名微信公众号推荐刘鹏看未来云计算头条云创大数据中国大数据微信号:chinacloudnj微信号:cstorbigdata资源丰富、分析深入、更新及时的云计算知识共享平台。微信号:lpoutlook微信号:cStor_cn国内大数据龙头企业。提供领先的云存储、云数据库、云视频、云传输产品和解决方案。眼光决定成败,与刘鹏教授看未来。刘鹏,清华博士,云计算作者。分享大数据技术,剖析大数据案例,讨论大数据话题。运 用 大 数 据,精 彩 你 生 活优秀免费云计算应用推荐暂时仅有安卓版本支持安卓和苹果支持安卓和苹果感谢聆听

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《大数据》配套之九:第8章-互联网大数据处课件.pptx)为本站会员(ziliao2023)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|