1、第2章第2章 互联网信息检索概论n2.1互联网信息检索类型和特点n2.2互联网信息检索原理之一信息组织n2.3互联网信息检索原理之二信息查询n2.4互联网检索工具的性能评价2.1互联网信息检索的类型和特点n2.1.1互联网信息检索的类型n2.1.2互联网信息检索的特点2.1.1互联网信息检索的类型n1、“顺链而行”的浏览n基于互联网“超链接”的技术特点,用户在浏览网页时,可以非常方便地利用超文本文件中的链接从一个网页跳转到另一个相关网页。这些类似于传统文献检索中的“追溯检索”,但是检索效率已大大提升。追踪网页的超链接,用户可以一轮一轮不断地扩大检索范围,在很短的时间内获得大量相关信息。n在互联
2、网发展初期,“顺链浏览”的人工浏览方式是互联网信息检索最主要的手段,而浏览器的“书签”(收藏夹)功能是成为该阶段被使用得最多的功能之一。马云与黄页n1995年4月,马云和妻子再加上一个朋友,凑了两万块钱,专门给企业做主页的杭州海博网络公司就这样开张了,网站取名“中国黄页”,成为中国最早的互联网公司之一。其后不到三年时间,他们利用该网站赚到了500万元。n中国黄页2009年6月1日,网站正式上线,完全公益性网站,不收任何费用!n人们对互联网信息的寻找,从最原始的“顺链浏览”到黄页等早期检索工具,实现了第一个飞跃。互联网黄页本质上就是一种目录型检索工具。2、基于目录型检索工具的互联网信息检索n目录
3、型检索工具,也被称为网络资源目录或网络主题指南,它是一种基于人工的检索工具,由人工发现、抓取、辨别互联网信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据的体系,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面,用户通过逐级浏览这些目录来查询自己所需要的内容。n最具代表的互联网目录型检索工具当属“yahoo”(雅虎),是由斯坦福大学的研究生杨致远(Jerry Yang)和David Filo与1993年创立的。n互联网刚开始发展时,他们在网上冲浪时,逐渐把自己喜爱的站点编成一个名单以便寻找,并将这一名单在网上公布,供网友使用,这就是雅虎的前身,也是目录型
4、检索工具的工作原理。n张朝阳在中国创办“搜狐”,也是比较成功典型的互联网目录型检索工具。n优点:人工参与度高,网络资源目录的组织编排符合人们所熟悉的知识分类体系,检索目标性相对较强,提供的检索结果准确性也较高。n缺点:信息涵盖量不大,更新能力有限,相对成本较高。n面临挑战:在互联网发展早期,为人们检索互联网站点提供了极大的方便,但随着互联网的持续发展,它的缺点也越来越明显,其地位收到了以Google为代表的搜索引擎的挑战。n时过境迁,雅虎和搜狐都已经发展成了门户网站。补充:门户网站n中国四大门户网站:新浪、网易、搜狐、腾讯n门户网站:又被称为链接页面,是通向某类综合性互联网信息资源并提供相关信
5、息服务的应用系统。发展前景:n虽然目录型检索工具在当今互联网信息检索界的地位已不如从前,但仍是一支不可忽视的力量。比如在2004年,百度公司收购hao123,hao123是一个个人维护的目录型检索工具,它成为了相当一部分上网用户的“入口”,许多对上网无从下手的人,最需要的就是这样的导航网站,如今360也开发了360网址。3、基于索引型检索工具的互联网信息检索n随着互联网信息量的急剧增加,仅以“网站”为信息基本单元的检索方式已经不能满足更精细的检索需求,于是基于“页面”为信息基本单元的检索方式成为主流。n最具代表性的索引型网络检索工具就是搜搜索引擎索引擎搜索引擎原理n利用一个成为Robot的程序
6、自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,并将搜集到的网页加入到搜索引擎的数据库中,并建立索引,供用户检索使用。然后用户输入关键字之后进行检索。优点n充分利用了计算机的处理能力,对于规模巨大的互联网信息资源的索引和检索具有强大的优势,使得人们可以用更少的时间检索到更广阔的互联网信息。缺点n1.检索噪音问题。使用搜索引擎检索某个关键词或关键词组合,通常会返回大量检索结果,逐一浏览这些结果对用户来说是不现实的。搜索引擎不断改进算法,使得最满足检索需求的结果排序靠前,取得了一定的效果,但是仍不能完全令人满意。n2、索引非文件形式的互联网信息资源的能力有限,为了保证R
7、obot抓取网页的效率,让其不至于迷失在无尽的链接中无法返回,通常Robot在漫游各个网站时会受到目录深度的限制,较大搜索引擎的robot一般也就能顺链到一个网站的4-5层页面而已。4、其他互联网检索工具n元搜索引擎。它弥补了搜索引擎的不足,他不存在Robot,也不存在存放网页的数据库,当用户检索一个关键词时,它把用户的检索请求转换成其他搜索引擎所能接受的命令格式,并发送访问数个搜索引擎来检索这个关键词,这些搜索引擎的结果经过处理后再返回给用户。n优点:扩大检索范围,提高检索效率,增加了找到所需信息的可能性。n垂直搜索引擎n其特点是“专、精、深”,且具有行业色彩,与通用搜索引擎的海量信息无序化
8、相比,垂直搜索引擎的信息量虽然小,但更加专注、深入具体。n比如酷讯的机票检索和团800的团购导航。2.1.2互联网信息检索的特点n1、无限检索范围,动态的检索对象n2、丰富的检索内容,新兴的检索领域n3、强大的检索工具,低廉的检索费用2.2互联网信息检索原理之一信息组织n目录型检索工具是基于某种人类制定的知识分类体系,对网络信息资源的编排和组织加以人工控制,其工作原理相对简单。这里介绍的互联网信息检索原理,主要是指基于计算机技术的索引型检索工具的工作原理。2.2.1文档分析n文档分析的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,是用户
9、能很容易地检索到所需信息。文档分析所面临的问题n1、汉语页面面临分词的问题。n常用的语词切分方法有:按词典进行最大词组匹配、最佳匹配法、联想-回溯法、全自动词典切词等n2、词法和句法的分析过程。英语中不存在类似的问题,但在汉语中,比如用户在检索“拍卖”的时候并不希望检到“羽毛球拍卖完了”,检索“中将”时同样不愿意看到“地铁中将能够使用手机”。所以,汉语检索还要利用各种语法规则,识别出重要的短语结构。n3、同义、近义词的表达n为了减轻文档分析方面的开销,人们引入了语义网的概念,语义网是对万维网本质的变革,它的目标是使数据更加便于计算机处理和查找。2.2.2建立索引n索引类型有很多种,对于全文检索
10、来说,最有效的索引结构则是倒排档。全文索引一般包括词表和倒排文件索引两部分。n优点:实现相对简单,检索速度快,很容易支持同义词检索。n缺点:存储开销大。n其他方法:B树、TRIE树、Hash树等2.2.3归类和聚类n根据分类知识的获取方法的不同,可以将文本自动分类系统分为两种类型:基于知识工程的分类系统和基于统计的分类系统。n基于知识工程的分类系统主要依赖语言学知识,需要编制大量的推理规则作为分类知识,所以一般不用。n基于统计的分类系统使用比较普遍,实现起来比较简单,并且分类准确度也高,能够满足一般应用的需求。n自动分类方法又可分为归类和聚类两种。n自动归类:分析网页的内容特征,并与事先拟定的
11、各种类别中的特征描述进行比较,然后将对象归入为特征最接近的一类,并赋予相应的分类号。n自动归类对网页的处理方法:首先对网页进行自动标引,对网页中的词语根据它们的词频和网页中出现的位置赋予权重。然后将处理后得到的语词集合与系统预定义的分类表中的每一个款目进行比较。从一级类目开始比较,直到出现比较显著的匹配值为止,此时再将网页归入此类。n自动聚类:从待分类网页中提取出特征,然后将提出的特征进行比较,再根据一定的原则或需要,将具有相同或相近特征的对象定义为一类,这个类目未必是事先拟定好的。n自动聚类,由于类别是根据检索结果自动生成的,所以系统处理起来容易一些,至少计算机可以把判断为无法归入已知类别的
12、网页单独聚成一类。2.2.4元数据n元数据被重视的原因:在过滤信息使用检索工具时,所得到的检索结果太多,无法一一浏览过滤,并且有时排在前面的搜索结果又不是用户真正需要的。因此如何制定一套数据描述格式来有效率的描述网上的数字化信息资源成为一个重要课题,这正是元数据日渐受到重视的原因。元数据的定义n元数据的英文定义是“data about data”,就其本义和功能而言,可说是电子目录。编制目录的目的在于描述数据的内容或特色,进而达成辅助信息检索的目的。Dublin Core的十五项广义的元数据n1、名称(title)分配给资源的名称n2、创作、制作者(Creator)制作资源内容的主要责任实体。
13、n3、主题及关键词(Subject and Keywords)资源内容的主题。n4、说明(Description)有关资源内容的说明n5、出版者(Publisher)制作资源有重要作用的责任实体。n6、发行者(Contributor)对资源内容负有开发责任的实体。n7、时间(Date)与资源使用期限相关的日期、时间。n8、类型(Type)资源内容方面的特征或体裁。n9、格式(Format)资源物理或数字化的特有表示n10、标识(Identifier)依据有关规定分配给资源的标志性信息。n11、来源(Source)可获取现存资源的有关信息。n12、语言(Language)资源知识内容使用的语种。
14、n13、相关资源(Relation)对相关资源的参照。n14、范围(Coverage)资源内容的领域或范围。n15、版权(Rights)持有或拥有该资源权利的信息。n优点:比较全面的概括了电子资源的主要特征,其中,1/2/3是重要检索,5/6/10/11/13是辅助或关联检索点,4/7/8/9/12/14/15是有价值的说明性信息。其次,它们简洁、规范。缺点:元数据又称为电子目录,其在网络信息检索中发挥的作用却不是很大。2.3互联网信息检索原理二信息查询n信息查询涉及计算机处理工作主要包括检索表达式的分析、关键词的匹配和结果的排序。其中检索表达式的分析可类比文档分析的过程。n那么分析生成的一个
15、或多个关键词与索引的匹配和结果的排序是信息查询的核心环节,需要设计复杂的算法模型以求达到较好的查询结果。查询算法类型n1、布尔检查模型n2、扩展布尔模型n3、向量空间模型n4、概率检索模型常用的互联网信息检索模型各自的优缺点是什么?n1.布尔运算模型n优点:原理简单易理解,容易在计算机上实现,检索速度快。n缺点:最终给出的检索结果没有相关性排序,不够精准,不能反应不同的索引项对一个文档的重要程度的差异。2、扩展布尔模型n优点:将非此即彼的相关判断方式改为计算相似度。4、向量空间模型n优点:使用简便,并且在模型中有许多可调整的计算方式。n缺点:欠缺理论的支持与验证。5、概率检索模型n优点:有严格
16、的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点。n缺点:参数估计的难度比较大,文件和检索的表达比较困难。2.4互联网检索工具的性能评价n2.4.1收录范围,主要从以下几方面展开:n1、数据量的大小n2、收录类型n3、索引深度n4、新颖性及更新频率n5、索引建立方式n6、处理语言n7、提供评论2.4.2检索功能n检索功能可围绕以下几个指标进行:n1、检索方式是单一还是多样n2、检索技术是否先进、多样n3、检索限定是否有选择与限定的自由2.4.3检索效率n虽然目前网络信息检索的速度很快,但是检索效率却不一定很高。检测效率评价的两个重要指标:n检全率n检准率n两者的优点在于:有明确定义的计算公式,而且计算非常简单。n缺点:忽略了不同文件之间的差异而给予所有相关文件同样的权重。2.4.4检索结果的处理和展示n如果系统呈现检索结果的方式不佳则会阻碍用户浏览和吸收信息的效果。2.4.5用户界面设计