1、2.3 中文分词和排序算法介绍2.3.1 中文分词:中文分词:中文本身存在着很大的歧义性,同样一句话,不同的断句,中文本身存在着很大的歧义性,同样一句话,不同的断句,表达的意思就不一样。这对于计算机去做机器分析,就带来表达的意思就不一样。这对于计算机去做机器分析,就带来了巨大的困难。了巨大的困难。下面的中文断句,来自百度广告宣传片下面的中文断句,来自百度广告宣传片:我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道2.3 中文分词和排序算法介绍2.3.1 中文分词:另外中文的具体含义,还必须放在具体的前后语言环境中去分另外中文的具体含义,还必须放在具体的前后语
2、言环境中去分析。析。比如说:比如说:乒乓球拍卖完了乒乓球拍卖完了我去学校我去学校商店商店,发现乒乓,发现乒乓 球拍球拍 卖卖 完完 了了在今天的在今天的慈善拍卖会慈善拍卖会上,世界冠军们夺冠时的乒乓球上,世界冠军们夺冠时的乒乓球 拍卖拍卖 完完 了了 中文分词,在具体的算法实现上分为三种:1.字符串匹配(正序、逆序、最少切分、最大切分等)2.基于理解(词法,句法等方式处理)3.基于统计在中文搜索引擎中,目前基本上是这三种算法混合使用。第二种的算法实现起来过于复杂,所以以第一种和第三种算法为主。2.3 中文分词和排序算法介绍语言本身也是在不停的进化和发展的,新的词语层出不穷,一些语言本身也是在不
3、停的进化和发展的,新的词语层出不穷,一些老的词语渐渐被弃用。作为中文分词的基础老的词语渐渐被弃用。作为中文分词的基础-词库,其新词词库,其新词补充和老词删除就是非常重要的工作。补充和老词删除就是非常重要的工作。“超级女声超级女声”、“超女超女”、“李宇春李宇春”、“八荣八耻八荣八耻”、“非非典典”,当这些新词的出现时,搜索引擎需要快速捕捉到,并,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。且马上把其添加到分词系统中去。如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要来源于新闻和网络要来源于新闻和网
4、络BBS论坛,主要机制是依靠统计程序,统论坛,主要机制是依靠统计程序,统计上升速度最高的词。另外作为搜索引擎公司,对众多用户计上升速度最高的词。另外作为搜索引擎公司,对众多用户的搜索词进行的搜索词进行“用户行为用户行为”分析,也能提高其分析,也能提高其“新词补充新词补充”效果。效果。2.3 中文分词和排序算法介绍2.3.2 排序算法:排序算法:搜索引擎的排序算法(搜索引擎的排序算法(ranking algorithm),决定了各个网),决定了各个网页、图片、页、图片、MP3等数据的重要性排列顺序,也决定了最终用等数据的重要性排列顺序,也决定了最终用户查询到的数据排序。搜索引擎的户查询到的数据排
5、序。搜索引擎的排序算法排序算法是人工智能的完是人工智能的完满体现,它是对百亿级数据进行重要性分析的数学实现。满体现,它是对百亿级数据进行重要性分析的数学实现。“PageRank”是是Google公司在排序算法上的专利技术,也是公司在排序算法上的专利技术,也是Google能从众多搜索引擎公司中脱颖而出的最核心技术,作能从众多搜索引擎公司中脱颖而出的最核心技术,作为其搜索服务能够超过其他竞争对手最有力的武器。为其搜索服务能够超过其他竞争对手最有力的武器。2.3 中文分词和排序算法介绍不同搜索引擎公司排序算法的优劣,直接决定了广大搜索引擎用户对搜索服务的选择,在互联网上,一个普通用户更换搜索服务只需
6、要5秒钟,所以排序算法就成为了各个搜索引擎公司最核心机密。另外,每个搜索引擎公司也必须不停地改进其排序算法。2.3 中文分词和排序算法介绍 排序算法部分参考指标:排序算法部分参考指标:指标指标加分加分减分减分网站硬件指标网站硬件指标网站网络好,系统稳定网站网络好,系统稳定网站系统不稳定,网络不好网站系统不稳定,网络不好网站包含网页数网站包含网页数总网页数目多总网页数目多总网页数目少总网页数目少网页大小网页大小网页大小适中网页大小适中网页多大或过小网页多大或过小其他网页链到本网页其他网页链到本网页数目多数目多数目少数目少网页内网页内URL数数数目适中数目适中过多或过少过多或过少网页相关性网页相关
7、性URL连接网页是相关内容连接网页是相关内容URL连接网页不是相关内容连接网页不是相关内容网页更新网页更新/生成日期生成日期日期近的日期近的日期远的日期远的网页类型网页类型静态网页静态网页动态网页动态网页网页内样式网页内样式网页设计样式中等网页设计样式中等网页设计样式过于复杂或简单网页设计样式过于复杂或简单网页具体内容网页具体内容分词后,各个词权重总和高分词后,各个词权重总和高分词后,各个词权重总和低分词后,各个词权重总和低用户访问行为用户访问行为点击多的网页点击多的网页点击少的网页点击少的网页2.3 中文分词和排序算法介绍排序算法虽然解决了网页排序的问题,但是有时候有些搜索结排序算法虽然解决
8、了网页排序的问题,但是有时候有些搜索结果还是很难让用户满意。为此,搜索引擎排序算法一项重要改果还是很难让用户满意。为此,搜索引擎排序算法一项重要改进:进:“聚类聚类”,就被引进来提高排序效果。,就被引进来提高排序效果。“聚类聚类”方法,是把网页分类成各种不同类型,比如说:分类方法,是把网页分类成各种不同类型,比如说:分类为为“体育体育”、“娱乐娱乐”、“军事军事”、“旅游旅游”、“金融金融”、“政治政治”、“汽车汽车”、“房产房产”等。针对每一种分类,各自有等。针对每一种分类,各自有一套专用的排序算法。一套专用的排序算法。当查询词为当查询词为“高尔夫高尔夫”时,查询结果为时,查询结果为“体育体
9、育”+“汽车汽车”,排,排序算法为通用算法;但当查询词为序算法为通用算法;但当查询词为“高尔夫高尔夫 伍兹伍兹”时,其分类时,其分类就能确定为就能确定为“体育体育”,其排序算法就采用,其排序算法就采用“体育体育”类别的算法。类别的算法。2.3 中文分词和排序算法介绍排序算法是决定了各个网页的排序,但是对于一些特殊情况,也排序算法是决定了各个网页的排序,但是对于一些特殊情况,也需要需要“人工干预人工干预”,毕竟一个通用算法并不能解决所有问题。,毕竟一个通用算法并不能解决所有问题。比如说:查询词为比如说:查询词为“北理北理”,其实含义是,其实含义是“北京理工大学北京理工大学”。在。在Google的
10、搜索结果中,第一个就是的搜索结果中,第一个就是“北京理工大学北京理工大学”,但在,但在“北北京理工大学京理工大学”网页中根本找不到网页中根本找不到“北理北理”两个字。以下是搜索结两个字。以下是搜索结果:果:北京理工大学北京理工大学以工为主,包含理工、管理、法律、外语的多科性全国重点以工为主,包含理工、管理、法律、外语的多科性全国重点大学。大学。 “人工干预人工干预”是排序算法,非常重要的一个补充,大大改进了是排序算法,非常重要的一个补充,大大改进了搜索结果。搜索引擎公司的竞价排名和滚动排名,也都是搜索结果。搜索引擎公司的竞价排名和滚动排名,也都是“人工人工干预干预”的范畴。的范畴。2.3 中文
11、分词和排序算法介绍GOOGLE的的PageRank技术技术PageRank 技术是技术是Google 检索结果的一种排序算法检索结果的一种排序算法,中文通常译为页面级别或页面等级中文通常译为页面级别或页面等级,根据这个算法根据这个算法,Google 认为每个网页都有一个反映其重要性的值认为每个网页都有一个反映其重要性的值,值越高表明其页面级值越高表明其页面级别越高别越高,即网页越重要即网页越重要;网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量,具体来说具体来说,假假如网页如网页A 有一个指向网页有一个指向网页B 的链
12、接的链接,则意味着网页则意味着网页A 认为网页认为网页B 是重要的。是重要的。Google 根据根据网页被链接的数量来评定其重要性。假如有网页被链接的数量来评定其重要性。假如有10 个网页指向网页个网页指向网页A,而指向网页而指向网页B 的链接的链接却只有却只有2 个个,则说明网页则说明网页A 比网页比网页B更加重要。更加重要。GOOGLE的的PageRank技术技术 事实上事实上,在实际计算网页的在实际计算网页的PageRank 值时值时,Google 还考虑到网页还考虑到网页A 的所有链入网页的所有链入网页(链接到某网页的其它网页称为该网页的链入链接到某网页的其它网页称为该网页的链入网页网
13、页)对它的推荐能力对它的推荐能力(即由于它们对网页即由于它们对网页A的链接的链接,使人们认为使人们认为网页网页A 的重要程度的重要程度)和推荐程度和推荐程度(即它们认为网页即它们认为网页A 的重要程度的重要程度)。一个网页本身的一个网页本身的PageRank 值越高值越高,则它对其链出网页则它对其链出网页(从某个网从某个网页链出的网页称为该网页的链出网页页链出的网页称为该网页的链出网页)的推荐能力就越大的推荐能力就越大;一个一个网页的链出网页越少网页的链出网页越少,那么它对其中一个链出网页的推荐程度就那么它对其中一个链出网页的推荐程度就越高。越高。我们可以用以下公式来简要表达我们可以用以下公式
14、来简要表达Google 关于网页关于网页 PageRank 值的计算值的计算:PR(A)=(1-d)+d(PR(T1)/C(T1)+.+PR(Tn)/C(Tn)其中其中,PR(A)是指网页是指网页A 的的PageRank 值值;T1,T2,.,Tn 是网页是网页A 的链入网页的链入网页;PR(T i)是指网页是指网页T i 的的PageRank 值值(i=1,2,.n);C(T i)是指网页是指网页T i 的链出网页的数量的链出网页的数量(i=1,2,.n);d 是一个衰减因子是一个衰减因子,0 d 1,通常取值为通常取值为0.85。可见可见,一个网页的一个网页的PageRank 值值,主要取
15、决于以下三个因主要取决于以下三个因素素:(1)该网页的链入数量该网页的链入数量;(2)该网页的链入网页本身的该网页的链入网页本身的PageRank 值值;(3)该网页的链入网页本身的链出数量。该网页的链入网页本身的链出数量。显然显然,根据以上公式根据以上公式,一个网页的链入数量越多、这些一个网页的链入数量越多、这些链入网页的链入网页的PageRank 值越高、这些链入网页本身的链值越高、这些链入网页本身的链出数量越少出数量越少,则该网页的则该网页的PageRank 值越高。值越高。GOOGLE的超文本匹配分析技术的超文本匹配分析技术(Hypertext-Matching Analysis)(Hypertext-Matching Analysis)不仅仅关注关键词在网页不仅仅关注关键词在网页上出现的次数上出现的次数,它还对该网页的内容加以分析,如分析它还对该网页的内容加以分析,如分析关键词的字体、字号以及关键词在网页中出现的精确关键词的字体、字号以及关键词在网页中出现的精确位置位置,并且对该网页以及该网页所链接的内容进行全面并且对该网页以及该网页所链接的内容进行全面检查检查,从而判断该网页与检索需求的匹配程度。从而判断该网页与检索需求的匹配程度。