1、 计算机科学与技术学院计算机科学与技术学院中文信息检索专题Chinese Information Retrieval 苏州大学计算机科学与技术学院 一、历史v计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统,它标志着计算机信息检索阶段的开始。v计算机信息检索技术已经从脱机检索、联机检索、光盘检索发展到了网络检索阶段。一、历史(续)v中文文本信息检索最早见于“748工程”中的汉字情报检索。v80年代中期后,由于计算机处理能力的大大提高和应用的普及化,中文文本信息检索的研究广泛开展,各种汉字文本索引方法、检索算法以及实用化系统开始出现
2、。二、信息检索的定义信息检索的定义v信息检索是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息需求(User Information Need)的技术。v文档可以是Web网页、邮件、文章、段落和句子等内容。三、信息检索和数据库检索v信息检索处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured),最典型的例子是无任何结构的文章或者只有tag标记的Html文档等;v另一方面,信息检索的结果也往往是不精确的,不能像数据库查询那样有100的正确率。如查找关于“雅典奥运会”,可能会漏掉有关“2004奥运会”的文章。
3、四、信息检索相关技术v自然语言处理v人工智能v模式识别v机器学习v神经网络v数理统计 v计算机网络v内容管理 v五、信息检索的对象v文本v图像v音频v视频 v六、结构、半结构和非结构化数据结构、半结构和非结构化数据v结构化的数据包含了各种可以命名的部分,并按照一定的结构对内容进行组织。如数据库中就包含了各种结构化的记录。v非结构化数据无法用一定的格式对它进行组织和定义,搜索工具也无法根据特定的语义通过SQL的方法对它进行检索。如一本小说中的一段文字,一份报纸中的一则广告等都属于非结构化数据。v半结构化数据是指部分有结构,部分没有结构的数据。七、例子(结构化数据)表11.1学生信息表学号姓名性别
4、院系年级12030901李小佳男机械学院200413030902张大力男信息学院200414030903王莉女电子学院2004七、例子(非结构化数据)v播激励网络(Spreading Activation Networks)是一种最常见的基于神经网络的信息检索模型,一般由概念层和文档层组成,有时还有提问层。用户提问的概念在概念层被激活,被激活的切题概念和关联概念按权值不同传送到文档层,并到达潜在相关的概念和文档,然后将最高度激活的文档作为结果返回给用户。而且,允许由文档或文档和概念结合形成初始提问。为了提高检索质量,用户得到检索结果时,可以就某些文档做出相关性反馈,给它们分配一个相关值;也可以
5、随时改变一些高度激活的概念和文档节点的相关性,评价和影响被激活的节点。系统在相关和不相关的文档内分析概念的分布,优化用户的提问。此外,当层间的激活传送过几次后,在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。七、例子(半结构化数据)vFrom:vSubject:xxxxvDate:Wed,15 Sep 2004 07:24:01+0800vMIME-Version:1.0vContent-Type:text/plain;charset=gb-2312vContent-Transfer-Encoding:7bitvX-Priority:
6、3vX-MSMail-Priority:NormalvX-Unsent:1vX-MimeOLE:Produced By Microsoft MimeOLE V6.00.2800.1165v在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。八、信息检索系统的模型信息检索系统的模型文档库用户的检索要求生成检索表达式对检索表达式进行分析和扩展检索文档表示文档索引检索结果相关性反馈九、中文信息检索特点 v词语切分和词语词法分析v进行词性标注及相关的自然语言处理v信息扩展十、信息检索的评测 v召回率(Recall,又称查准率)和准确率(preci
7、sion,又称查全率)。v准确率是一个给定被检索文档的相似度的概率。v召回率是一个给定相关性文档的被检索的概率。十、信息检索的评测(续)v其中,E(效率)用来指定准确率和召回率重要性。vP代表准确率,R表示召回率,是变量,值为01。如果取值是0,表示召回率更重要;取值1/2表示召回率和准确率同等重要;取值1表示准确率更重要。十一、信息检索的模型信息检索的模型v一般而言,有两种信息检索的模型:基于统计的模型和基于语义的模型。v基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;v而基于语义的模型则尝试对需求实现一定程度语法和语义的分析,即对用户输入的
8、自然语言文本进行一定程度的理解并重新生成查询。十一、信息检索的模型(续)信息检索的模型(续)v基于统计的模型主要有:布尔模型(Boolean Model)扩展布尔模型(Extended Boolean Model)向量空间模型(Vector Space Model)概率模型(Probabilistic Model)v二元独立模型(Binary Independency Model)v双泊松模型(Two Poisson Model)v推理网络模型(Inference Network Model)v信度网络模型(Belief Network Model)v贝叶斯网络模型(Bayesian Netw
9、ork Model)十一、信息检索的模型(续)信息检索的模型(续)v基于语义的模型主要有:v自然语言处理(Natural Language Process)v潜在语义索引模型(Latent Semantic Indexing Model)v神经网络(Neural Network)十二、索引项、检索项、权值和停用词v一般把检索表达式和文档分成一个一个的项(Term),通常每个项就是在文档和检索条件中的一个字、词或短语等,而且是经过预处理的。v一般把检索条件中的项称为检索项,把文档中的项称为索引项。然后为每个索引项和文档确定一个权值(Weight),一般值为0和1,0表示相关而1则表示不相关。v索
10、引项和检索项不包括那些不具有区分度的普通字、词和短语,如“我”、“的”“你好”和“基于”等,这些字词有时称为停用词(Stop Words)。十三、信息检索系统介绍十三、信息检索系统介绍vLEXIS/NEXISvLEXIS/NEXIS 是一个用来获取法律(LEXIS)或者新闻(NEXIS)文档的商用系统。LEXIS/NEXIS支持传统的严格匹配的布尔查询。它还特别支持以布尔算子形式提交的查询。这些算子在LEXIS/NEXIS中被称作联接子(Connector),包括OR、AND和W/n等(W/n是用来表示接近查询),并且它还支持通配符查询。最近,LEXIS/NEXIS还提供了自然语言查询的功能,
11、被称作FREESTYLETM搜索。这种查询方式不需要布尔联接子。LEXIS/NEXIS提供了一些对于自然语言特有的结果显示选项。例如,用户可以显示“文本中权重最大的块也即与查询最相符的部分”。“WHY”这个选项用来表示“解释你的搜索结果”等。十三、信息检索系统介绍(续)十三、信息检索系统介绍(续)vDIALOGvDIALOG是一个用来搜索下列主题领域数据库文档的商用系统。这些主题包括:商业、知识产权/法律/政府、医药、新闻、人文、科学、社会科学以及技术等。用户选择一个主题,然后选择该主题下的一个(或者一组)数据库。对于不同的数据库有不同的搜索选项。例如对于新闻数据库包括:主题(关键字),标题,
12、作者和期刊等等。十三、信息检索系统介绍(续)十三、信息检索系统介绍(续)vDow Jones News/RetrievalvDow Jones News Retrieval 是一个可以搜索多达1900个新闻来源的商用系统。例如,报纸、杂志等等。和上面介绍的系统相类似,它也支持严格布尔查询以及一组算子,例如AND、OR、NOT、SAME、NEAR等。并且可以根据日期、领域、在文档中的位置、主题、特定新闻源等进一步限制搜索。十三、信息检索系统介绍(续)十三、信息检索系统介绍(续)vTopicv与上面三个商业文本检索系统不同,Topic并不是利用自己拥有的文本集合提供信息服务而是一个单独的文本检索工
13、具。用户购买Topic,然后装载自己的信息,利用Topic提供自己的信息服务。十三、信息检索系统介绍(续)十三、信息检索系统介绍(续)vSMARTvSMART是由康奈尔大学的Gerard Salton开发的,是最早的文本检索系统之一。它具有以下特点:(1)自动建立索引;(2)自动生成聚类层次计算聚类中心;(3)进行查询/文档相似度计算并且根据文档与查询的相似程度对文档排序;(4)将文档以基于词汇的向量空间表示;(5)根据用户反馈自动提高对查询的处理。十三、信息检索系统介绍(续)十三、信息检索系统介绍(续)vINQUERYv这个系统是马萨诸塞州大学智能信息检索中心的产品。它是一个基于贝叶斯网络结
14、构的概率模型,包括两个部分:文本网络与查询网络。给定一定的集合,文本网络是静态的,节点表示文本,它与表示单词的节点相连。所以给定一个文本,INQUERY能计算一个特定单词的概率。而查询式中的单词与那些应该与之有联系的节点有一连线。十四、Web信息检索v传统的数据库是静态和结构化的,而且有严格的组织。而Web是自发形成和发展的,Web上的页面是动态和半结构化的,通过超链接彼此缠绕。因此对Web页面的查询和对数据库的查询是完全不同的。v据统计Web上每天大约要新增一百万个网页,目前的网页数目已经达到上百亿。这给信息的组织和检索技术提出了十分严峻的挑战。对如此海量的数据如何几秒钟内就完成快而准的检索
15、,传统的检索技术显得力不从心。vWeb上的大部分网页都是有一定格式的(如HTML),有丰富的标记。比如标题(Title)信息、字体(Font)信息、大小(Size)信息,以及META信息等等,所以网页的信息实际上是半结构化的。十五、Web信息检索系统 v一般的信息检索系统需要有一个存储检索数据的文档库,然后才能针对这个库进行检索。一般而言绝大多数的文档库相对比较稳定,更新不是很频繁。而基于Web的信息检索则是针对在Internet上的通过WWW协议发布的网页进行检索,和通常的信息检索是不一样的。Web信息检索系统一般被称为搜索引擎(Search Engine)。v搜索引擎一般没有自己的文档库,
16、整个Web就是它的文档库!它需要建立一个索引来指向这个Web页面。Web页面具有数量庞大、在全世界分布以及更新迅速等特点。因此,搜索引擎面临的第一个挑战是如何及时、全面、正确地对Web网页生成和维护索引。v另外,使用搜索引擎的绝大多数人是计算机外行,所以如何为他们提供一个使用方便的操作界面和人性化的检索方法是第二个挑战。由于Web网页的信息是包罗万象的,不能像一般的信息检索系统确定各个文档集合,所以第三个挑战是如何为用户在数量庞大的网页中找到他所关心的内容。十六、Web信息检索特点v数据分布v数据量巨大v数据的动态性v结构性差且数据冗余v数据质量不高v数据的异构v多语种和多内码十七、搜索引擎
17、v搜索引擎是以Web页面(也可以说是超链接)为检索文档的信息检索系统,它的核心就是信息检索技术。另外,搜索引擎还需要进行Web页面的抓取、分类、索引、存储、更新等工作,所以它比一般的信息检索系统更加复杂。十八、搜索引擎结构Web页面检索器索引器搜索器索引库页面库用户接口十八、搜索引擎结构(续)v搜索器v搜索器(一般称为Spider或Crawler)的功能是在Internet遍历网址,发现和搜集网页信息。它常常是一个机器人(Robot)程序,日夜不停地运行。它要尽可能多、尽可能快地搜集Internet上的新网页,还要定期更新已经搜集过的旧网页,以避免死链接和无效链接。十八、搜索引擎结构(续)v索
18、引器 v索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示网页以及生成页面库的索引表。十八、搜索引擎结构(续)v检索器 v检索器的功能是根据用户的查询在索引库中快速检出网页,进行网页与查询的相似度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。十八、搜索引擎结构(续)v用户接口v用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。十九、Google的搜索机制v三个部分网页抓取、索引入库和用户检索。
19、v网页抓取主要负责网页的抓取,由URL服务器(URL Server)、抓取器(Crawler)、存储器(Store Server)、和URL解析器(URL Resolver)四个部件组成,抓取器是该模块的核心。v索引入库主要负责对网页内容进行分析,对网页进行索引并存储到数据库里,由索引器(Indexer)和分类器(Sorter)两个部件组成,该模块涉及许多文件和数据,有关于桶(Barrels)的操作是该部分的核心。v用户检索主要负责分析用户输入的检索表达式,匹配相关网页,把检索结果返回给用户,由查询器(Searcher)和网页级别评定器(PageRank)两个部件组成,其中网页等级的计算是该模
20、块的核心。十九、Google的搜索机制(续)URL 服务器 抓取器 存储服务器 资源库 页级别评定器 URL 解析器 索引器 查询器 分类器 锚库 词典库 索引库 链接库 桶 桶 桶 桶 桶 桶 Web页搜索 索引入库 用户检索 二十、搜索引擎分类目录(Dictionary)搜索引擎机器人(Robot)搜索引擎元(Meta)搜索引擎二十、搜索引擎分类(续)v目录(Dictionary)搜索引擎v以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、
21、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。机器人(Robot)搜索引擎二十、搜索引擎分类(续)v机器人(Robot)搜索引擎v由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代
22、表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google、天网、悠游、OpenFind等。二十、搜索引擎分类(续)v元(Meta)搜索引擎v元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。二十一、搜索引擎技术的发展趋势搜索引擎技术的发展趋势v注重提高信息检索结果的准确度,提高检索的有效性v基于智能代理的信息过滤和个性化服务v采用分布式体系结构提高系统规模和性能v重视交叉语言检索的研究和开发v自然语言理解技术