1、第一章第一章信息检索理论基础信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索原理信息检索原理-信息检索及其发展信息检索及其发展(1)信息检索(Information Retrieval)是“一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。 (2)信息检索的基本原理,是对信息集合与需求集合的匹配和选择。信息集合是有关某一领域的文献或数据的集合体,它是一种公共知识结构,
2、可能可以弥补该用户的知识结构缺陷。而匹配与选择则是一种机制,它负责把需求集合和信息集合进行比较,然后根据一定的标准选出符合需求的信息。(3)在社会科学化的进程中,信息检索经历了从手工检索到机械检索再到计算机化检索的发展过程。(1)信息检索的模型的含义:信息检索的模型就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。 (2)布尔逻辑模型:它是由Y. Bar-Hillel在1957年首先提出的,他提出了将布尔逻辑应用于计算机检索的可能性,10年后,正式被大型文献检索系统所采用,并逐渐成为各种大型
3、联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。信息检索原理信息检索原理-信息检索模型简介信息检索模型简介信息检索原理信息检索原理-信息检索模型简介信息检索模型简介 在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di = ( T1, T2, T3, , Tm ),为文献i,式中T1, T2, T3, , Tm表示文献i中的所有标引词集合。每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。系统在对提问进行处理时,输出一个包含有该提问式的组配元(标引词)且
4、符合组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、能处理结构化提问等优点,在信息检索系统 中得到了广泛的实际应用。 传统布尔检索模型的具体缺陷主要表现在以下五方面:布尔检索式的非友善性,即构造一个好的检索式是不容易的。 易造成零输出或输出过量。 无差别的组配元,不能区分各组配元的重要程度; 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判,都一视同仁; 检索结果不能按照重要性排序输出。 (3)向量空间检索模型:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如:文献集合中的第i篇文献用Di = ( T1, T2,
5、T3, , Tm )表示,其中T1, T2, T3, , Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj = ( T1, T2, T3, , Tm )表示;Tk表示文献向量或提问向量中的第k个分量,即文献表示或提问式中所含的第k个标引词或检索词。 传统的向量空间模型将Tk取值为“0”或“1”,现在大多在0,1区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使检索更为合理。 信息检索原理信息检索原理
6、-信息检索模型简介信息检索模型简介信息检索原理信息检索原理-信息检索模型简介信息检索模型简介与采用布尔模型的普通检索系统相比,该系统有以下几个特色: 采用自动标引技术为文献提供标引词; 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在0,1闭区间中取值; 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理; 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量; 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系;由于
7、对任何一个提问都需要计算全部文献库中的每一篇文献,因此计算量大、算法复杂性较高;由于标引加权和检索加权是分离的,因此随意性较大,难以保证质量。信息检索原理信息检索原理-信息检索模型简介信息检索模型简介(4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排序结果。事实上,对于某个特定的检索提问,文献集合中的某一文献是否符合用户的信息需求(即是否是相关文献)可以看成是一个随机事件,每篇文献是相关文献的概率各不相同,综合信息需求的概率和文献与标引的相关概率,才能更为合理地划分检索结果。概率检索模型正是基于这一思想建立起来的。其
8、主要优点是: 采用了理论上更为严密的方式来进行决策; 容易与加权方法结合起来使用,为人们提供了一种理论基础; 不设计布尔逻辑运算符,回避了构造布尔提问式的困难; 文献可按用户的期望值输出排序; 吸收了相关反馈原理,可开发出理论上更为合理的方法。但是,它也有明显的不足,如增加了存储和计算资源的开销;参数估计问题也增加了该模型使用时的难度。 信息检索原理信息检索原理-信息检索模型简介信息检索模型简介(5)扩展布尔逻辑检索模型:扩展布尔模型是以对布尔算符的一种近似解释系统为基础,在此模型中,能以一种比传统布尔模型限制更小的形式来处理布尔提问式。特别当某一给定文献中出现较多提问词时,它的值就大于含提问
9、词较少的文献。 这种扩展布尔检索模型具有以下优点: 它适应常规布尔检索中的标准提问式结构,且通过计算提问-文献的相似度,可以避免潜在的无意义解释; 许可在文献表示和提问式中加入词权值; 可以按相似度的来排列输出文献,因而在响应某一给定提问时,可以控制要检索的文献数量; 便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系。信息检索原理信息检索原理-信息检索模型简介信息检索模型简介(6)相关反馈模型:用户在使用信息系统时,需要将自己的信息需求按照系统所使用的概念和表达方式输入到系统中,由于用户表达问题的方式各有不同,在将信息需求表达为提问式时会与原意有一定的出入,这样,就难以保证检
10、索到的文献能非常好地满足用户的需求。因此,一般的信息检索系统中都需要有一种反馈装置,使用户可以通过反馈修改自己的提问式,从而达到较完满的检索目的。(7)信息检索模型的发展趋势:20世纪70年代末,人们又重新着手对传统的布尔模型进行研究,并对改进布尔检索做了大量的工作。如用截词检索以改进提问式中对同义词列举不全造成的漏检现象,用概念加权检索以弥补传统布尔检索中不能揭示概念与检索主题相关程度的缺陷。因此,在今后信息检索的理论研究中,布尔检索的研究仍将占据十分显著的地位。目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解在信息检索中应用
11、,将大大提高信息检索的精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。 第一章第一章信息检索理论基础信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索技术简介信息检索技术简介信息检索常用技术简介信息检索常用技术简介(1)布尔检索技术:它是利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索中最常使用的一种方法。(2)截词检索技术:它也是一种常用的检索技术,尤其在西文检索中使用更广泛。它可以一
12、次性地解决词干相同的词、英美不同拼法的词的检索。(3)限制检索技术:在信息检索系统中,为缩小命中文献的数量,常将检索范围限定在某个字段、或某个范围中。(4)位置检索技术:位置检索可以反映出两个检索词在文献中的邻近关系。这种检索技术常用在全文检索中,可以弥补布尔检索的不足。 信息检索技术简介信息检索技术简介-信息检索常用技术简介信息检索常用技术简介(5)加权检索技术:加权检索的侧重点并不是在于是否检索到某篇文献,而是对检索出的文献与需求的相关度作评判。(6)多媒体检索技术:基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类
13、参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。它色括基于内容的声频检索和基于内容的图像信息检索二类。基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且将改变人们的生活方式。(7)超文本检索:超文本是一种信息的组织方法,它把不定长的基本信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文献,甚至是图像、音乐或录像,结点以链路方式链接,链路可以分为层次链、交叉引用链、索引链等,构成网状层次结构。超文本的特点是以联想式的、非线性的,链路的网状层次关系,允许用户在阅读过程中从其认为有意义的地方入口,直接快速地检索到所需要的目标信息。信息检索技术简介信息检索技
14、术简介-信息检索当代技术简介信息检索当代技术简介(1)并行检索技术:并行检索为实现大容量文本信息的存储与快速检索提供了一条有效的途径,它一改以往利用顺序实现计算机信息检索的状况,这就使在检索系统的信息规模较大时,也能满足用户的检索响应要求。目前的大型搜索引擎中一般都采用并行检索技术,以提高检索的响应速度。(2)分布式检索技术:分布式信息检索允许检索请求在分布在不同地点、不同结构的系统平台上运作。主要原理是由检索代理程序将检索任务同时提交给网络上的多个主机,由位于这些主机上的检索程序分别独立检索并将检索结果返回到检索代理程序,并经整理后显示给用户。(3)基于知识的智能检索技术:全文检索的效果需要
15、进一步提高,其适应不同应用的能力还需要改进,其核心是发展知识检索。智能检索常被理解为,如检索“华人”,可把包含“中华人民共和国”的内容不被检索出来,检索“电脑”,可以把包含“计算机”的内容检索出来,这些只是智能检索的初级阶段。未来的智能化知识检索更应该注重文本挖掘的功能。(4)知识挖掘技术:主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。 信息检索技术简介信息检索技术简介-信息检索当代技术简介信息检索当代技术简介(5)异构信息整合检索和全息检索技术:在信息检索分布化和网络化的趋势下,需要信
16、息检索系统能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,但这还有待于突破。(6)自然语言检索技术:自然语言检索应是信息检索的发展趋势,但只有自然语言与人工跨语言信息检索将用一种自然语言书写的信息需求通过机器翻译自动转换成另一种可为系统接受的语言。即可以用一种语言去检索其他语言的资源语言相结合,才能更好地发挥自然语言检索的优势。(7)跨语言信息检索技术:跨语言信息检索将用一种自然语言书写的信息需求通过机器翻译自动转换成另一种可为系统接受的语言。即可以用一种语言去检索其他语言的资
17、源。信息检索技术简介信息检索技术简介-信息检索当代技术简介信息检索当代技术简介(8)问答系统技术:问题回答输入的查询是问题,要求从给定语料库中返回文本。问题回答系统可由三个模块组成:问题分析、候选窗口查找和答案抽取。(9)概念空间技术:概念空间技术是为迎合信息检索的智能化而设计的,主要针对网络信息资源。与词表不同的是,概念空间直接从目标文档构建而来,通过对目标文档进行概念选取、概念聚类而形成,是一个概念网络。概念空间实际上是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原文档建立联系。当用户用自然语言检索时,系统会自动地在概念语义空间联想搜寻相似性最高的概念,并根据相似性递减规律列出
18、检索结果。(10)信息融合技术技术:信息融合技术是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。信息融合技术应用于信息检索系统中,通过对各种信息源中信息的集成(连接)、集成(连接)之后对信息的取舍和集合的划分,可以合理地组织查询结果,使信息检索系统能提供更好的服务功能。第一章第一章信息检索理论基础信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索系统信息检索系统1、信息检索系统的组成:一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择
19、与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。(参阅教材图14)2、信息选择子系统:本功能模块的任务是:根据系统的目标和服务对象的需要,确定数据收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的数据。目前,本模块的工作主要由系统工作人员承担,计算机只起辅助作用。3、标引子系统:标引,就是根据系统的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项(如著者、著者单位、文献出处等)填入工作单,由录入员输入
20、到计算机中。4、建库子系统:本模块的功能是建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。信息检索系统信息检索系统5、词表管理子系统:词表管理子系统管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户查询操作,并从提问、对话或其它文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。6、用户接口子系统:它的全称是“系统-用户接口”,简称用户接口,是面向系统用户的人-机接口程序。它承担用户与系统之间的交流功能,是信息系统中不可缺少的模块。7、提问处理子系统:提问处理子系统专门负
21、责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后把运算结果输出给用户。第一章第一章信息检索理论基础信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索语言信息检索语言1、信息检索语言及其在信息检索中的作用:信息检索语言是根据信息检索的需要而创制的人工语言,又称信息语言、检索语言、标引语言、标识系统等等。信息检索语言是沟通讯息存储和检索两个过程中标引人员和检索人员的。因此,它在信息
22、检索过程中所起的作用是极为重要的。2、信息检索语言的基础:概念逻辑和知识分类是信息检索语言的基础。概念逻辑是一种科学思维方法,它能揭示事物的本质属性及各种事物之间的联系与区别,概念则是事物本质属性的概括。3、信息检索语言的分类:信息检索语言按其构成原理,可分为分类语言、主题检索语言和代码检索语言三大类型。分类检索语言用分类号表达各种概念,将各种概念按学科性质进行和系统排列。它集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层展开,是一种等级体系。主题检索语言用语词来表达各种概念,将各种概念忽略其相关关系按字顺排列。由主题词汇构成,表达的概念较准确,主题词表中通过参照系统
23、反映词汇之间的关系,具有较好的灵活性和专指性。代码检索语言一般针对事物的某一方面特征用某种代码系统来加以标引和排列。信息检索语言信息检索语言4、信息检索语言基本方法:信息检索语言使用的标识可分为号码标识、语词标识和代码标识三类。这三类标识形成信息检索语言的三个语系,即分类检索语言(分类法系统)、主题检索语言(主题法系统)和代码检索语言(代码系统)。标识中需要做规范化处理,使其符合唯一性、规律性、定型性、通用性、准确性、及正确性的要求,这也是提高标识质量的重要措施。5、自然语言在信息检索中的应用:自然语言在信息检索中大体分为无标引方式、自动标引方式、和人工标引方式三种。无标引方式包括文本关键词匹
24、配检索、单字检索。自动标引方式包括:自动抽词标引、自动赋词标引、自动赋分类号、自动聚类、人机结合抽词标引。人工标引方式包括:自由标引、自由词补充标引。上述各种自然语言在信息检索中应用的方式,都可借助于后控制词表来弥补其缺点。自然语言与信息检索语言各有优缺点。自然语言由于适用于现代的网络信息检索,无需标引,文献处理成本较低,检索时无需对照词表选词,因此越来越受到某些领域专家的赞同。而信息检索语言由于其比较严谨、适应范围广、检索效率高,而受到信息界人士的认可。 第一章第一章信息检索理论基础信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语
25、言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索评价信息检索评价检索系统评价检索系统评价(1)信息源评价:数据库规模、收录范围、信息源质量控制等指标可反映信息源的质量。(2)信息组织管理:主要指信息标引的方法、组织方式、及更新周期。(3)系统功能评价:取决于系统所能提供的检索途径、检索方式、和检索方法。(4)输出结果评价:主要包括信息检索系统对用户提问的响应时间、命中记录的排序功能和输出显示形式。(5)用户接口:“用户友好”是信息检索系统用户接口的建设宗旨,它决定了用户是否喜欢使用该系统。(6)系统技术支持:系统技术支持主要指系统及其软、硬件平台的通用性、兼容性、先进性、可靠性和稳
26、定性。系统的性能价格比也是评价系统技术经济性能的指标。信息检索评价信息检索评价-检索效果评价检索效果评价(1)查全率:定义为:检出的相关信息数查全率 = 100%信息库中相关信息总数(2)查准率:定义为:检出的相关信息数查准率 = 100%检出的信息总数(3)误检率:定义为:检出的非相关信息数误检率 = 100%检出的信息总数(4)漏检率:定义为:未检出的相关信息数误检率 = 100%信息库中相关信息总数信息检索评价信息检索评价-检索效果评价检索效果评价(5)其它评价指标并不是每个用户都喜欢高查全率,不同的用户对查全率和查准率的要求都有不同。用户对查准率的容忍程度可能与他对查全率的要求有直接关
27、系。由于查全率和查准率是基于与提问相关的文献数来计算的,而此相关文献数是由用户来判定的,不同的用户具有不同的判定标准。因此,提出了一种基于用户的评价方法,诸如覆盖度、新颖度、相关查全率和查全影响度等。检索效果评价的指标还有错检率,是测定检出的非相关信息数占库中非相关信息总数的比例;相关率,表明与提问相关的信息在系统中的分布密度等。 检索效益评价对于检索效益的评价取决于社会效益和经济效益,评价并不是直接就可以显现的,因为它由一些不可比较的因素组成,有些方面需要通过间接的方法才能获得。另外,检索效益还具有潜在性和不确定性。因此在对检索效益评价时,需要考虑各个方面的问题。第一章第一章信息检索理论基础
28、信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆 信息检索与数字图书馆信息检索与数字图书馆 数字图书馆是信息存储技术、信息检索技术、信息检索系统与现代网络技术结合的一个综合性应用的案例。数字图书馆定义有多种,其中之一认为“数字图书馆是全球信息高速公路上信息资源的基本组织形式,这一形式满足了分布式面向对象的信息查询需要”。数字图书馆并不是简单地将图书馆信息进行数字化存储,而是一个以统一的标准和规范为基础,以数字化的各种信息为底层,以分布式海量资源库群为支撑,以智能检索技术为手段,以宽带高速网络为传输通道的将丰富多彩的知识领域信息传递到千家万户的虚拟图书馆。 第一章第一章信息检索理论基础信息检索理论基础 重点和难点 重点和难点重点和难点(一)本章重点:信息检索模型及其特点;信息检索技术及其特点;信息检索系统及其组成;信息检索语言的作用、分类及应用。(二)本章难点:信息检索模型、信息检索技术、信息检索语言的内含正确理解。