1、6.1 信息检索技术n6.1.1 检索模型概述n6.1.2 布尔模型n6.1.3 向量空间模型n6.1.4 概率模型n6.1.5 全文检索n6.1.6 语义检索6.1 信息检索技术(续)n6.1.7 超文本模型n6.1.8 多媒体检索n6.1.9 跨语言检索n6.1.10分布式检索n6.1.11 P2P检索n6.1.12 网格信息检索信息检索过程n信息检索过程实际上涉及到三个重要的处理:n文档集的逻辑表示n查询的表示n相似匹配及其排序n对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型图6-1 信息检索系统的一般模型表达式构造表达式构造标引标引信息资源信息资源信息资源信息资源替代
2、替代物物需求替代物需求替代物用户需求用户需求检索结果检索结果相关性判断相关性判断6.1.2 布尔模型n布尔检索模型的理论基础是布尔逻辑和集合理论6.1.2 布尔模型n布尔逻辑主要内容:命题逻辑与谓词逻辑n布尔逻辑是数理逻辑的基础部分n利用符号来表示逻辑中的各种概念n建立了一系列的运算法则,利用代数的方法研究逻辑问题布尔运算n布尔逻辑运算符:n“与(AND)”、“或(OR)”、“非(NOT)”运算的定义 传统布尔检索模型 n文献表示n将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则
3、取0。 n给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,din) 传统布尔检索模型 n查询表示 n在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式n例如 :n1) “飞碟”n2) “飞碟”AND “美国”n3) “飞碟”AND (“中国” OR (NOT “科幻小说”)传统布尔检索模型 n查询表示 n布尔提问式q =
4、t1 and(t2 or not t3) nq的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) nq的简化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示) 传统布尔检索模型 n匹配函数n菊池敏典算法 传统布尔检索模型 n文献D1=(t1 ,t2 ,not t3)n查询Q=t1 and t2 and not t3布尔检索示例布尔检索示例传统布尔查询的评价 n该模
5、型结构简单、容易实现和快速检索。传统布尔查询的评价 n布尔模型在检索系统的开发与应用中表现出的主要问题有:n(1)准确匹配(exact matching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。n(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。传统布尔查询的评价 n为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模
6、型。6.1.3 向量空间模型n向量空间模型(Vector space model)介绍n向量空间模型(VSM)的评价向量空间模型介绍n1. 文献空间n(1)文献空间的概念n文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”n在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重n文献与空间点n(2)标引词空间向量空间模型介绍T2T3T1D1=d11,d12, d13 D2= d21,d22, d23 D3= d31,d32, d33 图图 三维文献空间三维文献空间向量空间模型介绍n2. 项权重 n(1
7、)词频 n越重要的项分配越高的权值n可以用词频来作为该项的权重(用tf表示) n(2)文献频率 n假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要 n在设计项权重时,要考虑逆文献频率 (用idf表示) 向量空间模型介绍n2. 项权重 n(3)权重的规范化处理 n为了抵消由篇幅带来的不同影响,经常要对项权重进行规范化处理n在各种规范化方法中,余弦规范是一种常用、有效的方法:tfidf权重/文献向量的欧氏长度 向量空间模型介绍n3.文献向量与查询向量的匹配 n匹配函数n利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 nSim(Di
8、,q)=Diqn简单n存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素相似度的计算n内积相似度运算n余弦相似度n“距离”相似度运算n等等NiiDTQTiDQSim1),(22),(iiiiQTQTDTQTDQSimppttpddDDL12121|),(向量空间模型的评价v 优点v 简单,功能却非常强大v能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能 v模型的检索效果和布尔检索模型比起来,要好得多 v 不足v 忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差 v 传统向
9、量处理模型不能处理布尔表达等结构化查询v 改进v 广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM) 6.1.4 概率模型概率模型n概率论模型主要基于概率论原理来理解和解决信息检索问题n主要有早期的经典概率模型(又称为二值独立检索模型,英文简称BIR)n基于贝叶斯网络的推理网络模型和信念网络模型等nINQUERY检索系统是基于概率模型的代表6.1.4 概率模型概率模型n基本思路:n给定一个用户提问,则检索系统中存在着一个与该提问相关的理想命中结果集合R(该集合只包括与查询完全相关的文档而不包括其他不相关的文档)n在用户提出检索要求时
10、,检索系统并不知道这个理想结果集合的特性n在检索开始之时就需要对R的特性进行某种猜测n根据初始的猜测,检索系统检索到一个初步的命中结果集合n基于相关反馈的原理,需要进行一个逐步求精的过程 6.1.4 概率模型概率模型检索问题转化为求条件概率问题If Prob(R|di, q) Prob(NR|di, q) then di是检索结果,否则不是检索结果6.1.5 全文检索全文检索 n直接在全文中进行匹配检索n获得的也是全文信息而非文献线索 n全文检索技术以其较高的查准率和查全率被广泛应用于网络信息的检索中 n全文检索还提供位置检索功能6.1.5 全文检索全文检索 n全文检索模型中信息资源的逻辑表示
11、n全文索引 n目前常见的全文检索模型主要有n倒排表、署名文件、位图、Pat树和Pat数组等模型n从中文语言特点出发提出的互关联后继树模型等6.1.5 全文检索全文检索 n基于单汉字的全文索引n索引倒排结构 单汉字(主键字)记录号段落号位置号单汉字(主键字)记录数记录号1该记录位置集合记录号1该记录位置集合 6.1.5 全文检索全文检索n以倒排表模型为基础的全文检索有检索速度快,与原文无关的特点n其缺点主要包括两个方面:n首先,空间和时间效率低;n其次,当文本集合不断变化时,需要不断重建全文索引n第一个问题通常采用压缩技术和更加高效的编码策略加以解决6.1.5 全文检索全文检索n全文检索模型中的
12、查询表示n通常采用布尔模型的查询表示方式6.1.5 全文检索全文检索n全文检索模型中的匹配方式n检索的匹配算法一般是根据索引结构而研制的n检索速度取决于匹配算法,一个优秀的全文检索算法,在百兆级的数据库中,检索速度应该在秒级水平,否则,不能算是一个好的全文检索算法nLucene6.1.5 全文检索全文检索n全文检索技术指标n基本指标有:查全率、查准率、检索速度、索引膨胀率等n索引的膨胀系数是指针对全文所建的索引文件大小与全文文件大小之比,其中索引文件的大小取决于索引的结构n没有为全文创建索引的全文检索系统,其膨胀系数为06.1.6 语义检索语义检索n基于关键词匹配的传统文本信息检索技术对语义匹
13、配的支持能力较差,其性能取决于用户对方法的理解,具有很大的局限性n尽管基于关键词匹配的检索技术已经经过多次改进,但是由于没有添加语义处理方面的功能,检索性能没有得到本质的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息无法被检索n语义检索是对检索条件、信息组织以及检索结果显式赋予了一定语义成分的一种新的检索方式n与传统关键词检索相比,它更加强调语义,其性能明显改善图图6-3 基于本体的文本信息检基于本体的文本信息检索系统的一般模型索系统的一般模型 实体关系标引实体关系标引指导主题标引指导主题标引指导查询表达式的构造本体指导查询表达式的构造本体表达式构造表达式构造主题标引主题标
14、引文档文档带所属领域标带所属领域标识的标引词序识的标引词序列列查询表达式查询表达式检索结果检索结果相关性判断相关性判断领域概念关系本体集领域概念关系本体集指导实体关系标引指导实体关系标引指导查询本体的构造本体指导查询本体的构造本体领域实体关系本体集领域实体关系本体集实体关系本体实体关系本体相关性匹配相关性匹配用户需用户需求求查询本体查询本体指导实体关系标引指导实体关系标引查询本体构造查询本体构造6.1.7 超文本模型超文本模型n所谓超文本,既是一种信息的组织形式,也是一种信息检索技术n超文本不是单纯以线性方式存储文本,而是附加了一种非线性结构来组织信息,即在文本中设置若干超级链接(简称超链)指
15、向相关位置,以确保在顺序阅读文献的同时,还可以顺着超级链接的指引“跳跃”阅读信息n超文本组织强调了信息与对象之间的联系关系,符合人们联想式阅读和思维习惯 6.1.7 超文本模型超文本模型n超文本技术的优点n1)非线性的组织结构n2)以信息单元为检索对象n3)体现了信息层次关系n4)交互更加友好n5)信息内容丰富多样n6)避免了检索语言的复杂性6.1.7 超文本模型超文本模型n超文本技术的缺陷n1)偶然发现 n2)失控 n3)迷航6.1.8 多媒体检索多媒体检索 n多媒体信息的检索主要是研究如何快速有效地获取多媒体信息所涉及的相关技术,它包括多媒体信息的压缩、组织、检索和展示等n由于多媒体信息与
16、文本信息的组织方式和表现形式完全不同,所涉及的检索技术也存在着较大差异 6.1.8 多媒体检索多媒体检索 n基于文本的多媒体信息检索方法是多媒体信息检索最常用的方法 n基于内容的多媒体信息检索方法是一种新型的检索技术,它融合了图像理解、模式识别、计算机视觉等技术,直接根据描述媒体对象内容的各种特征进行检索,从数据库中查找到具有指定特征或含有特定内容的声音、图像、视频等对象 6.1.9 跨语言检索 n跨语言信息检索是指用户以一种语言提问,检出另一种语言或多种语言描述的相关信息n跨语言信息检索的主要实现方法有:提问式翻译法、文献翻译法、提问式文献翻译法、中间翻译法、不翻译法、提问式构造法和音译法等
17、方法6.1.10分布式检索分布式检索n分布式信息检索主要是指在分布式的环境中,利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程n这些信息资源在物理上分布于各地,在逻辑上是一个整体,在数据库结构上存在差异n分布式信息检索主要有基于元搜索引擎、基于Z39.50、基于XML语言、基于Web服务等模式 6.1.11 P2P检索检索nP2P信息检索的目的就是网络中的任意节点都可以提交检索的请求,然后这些检索通过某种路由机制被路由到和检索相关的节点上去,存储有和该检索相关信息的节点将会回应请求,把本地相关的内容以对等的形式直接传送到请求节点上 n与传统的客户端服务器模式
18、相比,P2P模式具有明显的优点:n资源利用率高;n节点越多网络越稳定,不存在瓶颈问题;n信息在对等节点间直接交换,高速及时,降低中转成本;n基于内容的寻址方式处于一个更高的语义层6.1.12 网格信息检索网格信息检索n网格信息检索的发展离不开传统信息技术的支持,但是,必须对传统信息技术进行改进,才能使它们更好地适应网格环境,为提高信息检索系统的性能发挥重要的作用 图6-5 科学数据网格系统结构图数据访问服务接口数据访问服务接口虚拟数据库虚拟数据库物理数据库物理数据库映射工具映射工具MappingBuilderDataView基于信息检索服务集成的信息检索系统 n目前已经出现一些网格信息检索研究
19、项目,其中比较有名的GridIR、GRACE、ARCO、Digital Library Grid、ChinaGrid、中国科学数据网格,等等n网格信息检索系统的实现方式与网格体系结构关系紧密,目前主要有OGSA、七层沙漏两种网格体系结构用于构建网格信息检索系统 6.2 信息检索过程的优化n6.2.1 标引算法优化n6.2.2 查询表达式优化n6.2.3 检索结果的组织n6.2.4 检索可视化n6.2.5 个性化信息检索说明n对于信息资源的逻辑表示、查询表达式而言,改善其中的一个或多个就可以在一定程度上改善信息检索系统的性能n对检索结果进行有效排序或者重新组织,也可以改善信息检索系统的性能 6.
20、2.1 标引算法优化n加权标引n多种标引方法的集成n深层语言知识的运用n本体技术的运用6.2.2 查询表达式优化n查询表述不准确的原因 n1)在很多情况下,用户真实的信息需求并不明确,感知到的信息需求、以及表达出来的信息需求可能与自己真实的信息需求有一定的偏差;n2)在缺少上下文的情况下经常会出现词的歧义;n3)受自身的认知水平、文化程度等方面的限制,用户对检索内容所属领域的主题词或概念不熟悉,无法想到一组合适的检索词来表达自己的信息需求;n4)关键词式Web 信息检索系统提供的是全文检索,而不是主题检索;n5)用户选择的主题范围过宽导致检索结果过多,选择的主题范围过窄导致检索结果过少,等等。
21、6.2.2 查询表达式优化n查询表述的修正n查询扩展(query expansion)、相关反馈(relevance feedback)、查询修正(query modification)是最主要的几类方法,它们之间具有密切的联系n检索词赋权 n查询修正包括查询扩展,是指用一组新的检索词替换原有查询表达式中的部分检索词,产生新的查询表达式,试图使新的查询表达式能够更加准确地反映用户真实的信息需求,达到在尽量保证查全率的前提下提高查准率的目的 6.2.2 查询表达式优化n查询修正用词的来源n1)词语语义关系网络,例如,包含上位词、下位词、同义词、反义词等多种相关词的信息的词表,概念关系网络,领域本
22、体。这些词语关系网络可以用于扩大和缩小检索的主题范围,可以用于解决词语歧义的问题,也可以帮助用户确定检索词;n2)系统从用户反馈的相关文档集合中抽取出来的主题词(或者关键词)、姓名等各种命名实体(named entity)这些词语用于取代检索表达式中的部分检索词,其中主题词用于限定检索内容的主题范围,各种命名实体用于限定用户感兴趣的信息片段;n3)系统进行全局分析所获得的词语共现关系网络,包括文档用词词语共现关系网络、查询用词词语共现关系网络两种,主要用于缩小检索结果集合,提高检索结果的相关度。 6.2.2 查询表达式优化n查询修正方案中的信息行为因素 n1)大多数人每次检索只提交一个提问式,
23、不会修改提问进行连续检索,三分之二的人只提交一个提问式,七分之六的人不用两个以上的提问式;n2)在被测试用户的检索提问式中,人均输入的检索词为3.34个,最多的为2个,其次是3个和4个,但用户提问的平均长度呈稳步增长之势;n3)检索词分布极不对称,出现频率在100次以上的63个主题词只占全部检索词的万分之三,有一半以上的词仅仅出现过一次;n4)相关反馈很少被利用,只有较少的人会修改提问或用到相关反馈;n5)大多数用户只查看返回结果的头十条,平均查看结果的数量是2.35 页(每页有十个记录),等等。6.2.3 检索结果的组织 n提炼输出内容n利用多文档文摘技术提炼检索结果的内容,可以减少用户的阅
24、读量,提高相关性判断的效率 n检索结果排序n检索结果聚类 6.4.4 检索可视化检索可视化n在信息检索系统中合理地使用可视信息会进一步提高信息检索系统的整体性能 n1)信息资源可视化 n2)查询可视化n查询可视化是对查询扩展、翻译的可视化展现n3)查询结果可视化n查询结果的可视化分为两个层次:文档集合可视化和单个文档可视化n4)查询反馈可视化 n5)信息检索可视化模型 信息检索的可视化n可视化信息检索是把文献信息、用户提问、各类检索模型以及利用检索模型进行信息检索的过程,展示在一个可视化空间中,并向用户提供信息检索服务。其实质是提供一种有效的信息反馈机制,即所谓的“所见即所得”。 可视化检索的
25、应用举例如国家卫星气象中心设置了网上极轨气象卫星资料的可视化检索系统。复旦大学图书馆在其主页推出了一个可视化图书查询系统,图书馆可视化多媒体多环境导读图书馆可视化多媒体多环境导读与查询系统与查询系统(1999年12月通过教育部级技术鉴定)形象生动,可单击书库某一书架的某一层的藏书,并将其放大,检索途径有书名、作者、排架号三种,开本与厚薄也与原书相符(由MARC的相应字段转化),图形右边反映卡片式目录,下边反映馆藏情况。 6.2.5 个性化信息检索个性化信息检索n一般过程:n1)新用户注册n2)形成用户兴趣表n3)接收用户查询请求n4)对用户的查询请求进行分析n5)根据查询请求进行检索n6)分析
26、、筛选查询结果n7)显示查询结果6.3 信息服务n6.3.1 信息服务过程n6.3.2 定题信息提供n6.3.3 查新服务n6.3.4 信息推送服务n6.3.5 联机检索服务6.3.1 信息服务过程n信息用户主要可以通过两种方式得到信息n第一,由信息服务部门提供信息;n第二,自助式查询信息,即信息用户自己通过网络或联机检索获取信息 6.3.1 信息服务过程n信息服务部门提供信息的服务过程信息服务部门提供信息的服务过程n用户需求确定。这一过程要求用户能够明确本次查询的目的和确切需求,分清主次目的和需求;n用户需求表达。将本次查询的目的和需求用文字表达,并向信息服务部门提交查询申请书;n用户需求理
27、解。信息服务人员与用户交谈,理解用户查询目的与需求,确立查询的关键词与查询范围,以及对检索结果的有关要求等;n选择查询数据库或相关检索工具。针对用户的检索要求,选择对口的数据库或相关检索工具;n拟定检索策略。根据所选数据库或检索工具的规则确定检索词,构造检索式或制定检索步骤和执行方案,以及检索结果不满足检索需求后的修订措施;n检索实施。根据拟定的检索策略执行检索过程;6.3.1 信息服务过程n自助式查询信息的过程自助式查询信息的过程n明确查询目的n确定信息资源对应的网站地址n查询6.3.2 定题信息提供定题信息提供n定题信息提供通常被称为SDI(Selective Dissemination
28、of Information Service)n它的主要功能是由信息服务部门定期(或成批)地向用户提供所需最新信息的服务。6.3.2 定题信息提供定题信息提供nSDI的服务流程的服务流程nSDI是一种变被动为主动的信息服务手段,通常包括以下过程:n用户提交检索需求。检索需求中需说明检索目的、要求、主要检索词、以及检索词之间的关系等;n填写检索提问单。这一过程需要用户与检索人员进行交谈,并在其指导下填写用户提问单;n构造检索策略。有信息检索人员根据与用户交谈的结果并根据检索提问单的内容设计检索式;n检索调试。利用已构造好的检索式进行预检索,检索结果送达用户征求意见。如果用户对检索结果不满意,再根
29、据用户的意见修改检索式,直到用户满意为止;n归并检索式。将用户满意的检索式归并入用户提问档,等待定期检索;n定期检索。定期(或每当有新信息入库时)用检索提问档去匹配数据库中的最新信息,检索结果分发用户。6.3.3 查新服务查新服务 n查新服务是指对某一研究专题或新产品等国内外发展的最新成果、水平动向、最新动态等调查研究,撰写调查报告,并提交有关部门或个人的信息服务工作。 6.3.3 查新服务查新服务 n查新服务从接受查新请求到提交查新报告大致历经如下几个过程:n受理查新课题。主要由项目委托人递交查新申请书,申请书中需注明项目名称、查新种类和查新目的,查新人员阅读查新申请书后与之交谈,并指导填写
30、查新委托书;n分析查新项目确定查新重点。由查新人员根据查新委托书以及交谈理解,分析用户查新特点,拟定查新重点,确定查新总目标;n设计查新检索策略。检索策略涉及到:选择查新工具(数据库),应尽可能多的选择查询工具,以确保获得较高的查全率;针对不同的查新工具确定检索途径,选择检索词,设计检索式,确保查询结果全面、准确;n检索实施。根据拟定的检索方案,进行检索操作。在实施过程中注意检索结果的查准率和查全率,如不能达到预期目标,及时更新检索策略;n分析评价。整理查新结果,并将其与用户查新需求对比分析,经过提炼、归纳、整理,提出看法,给出结论;n撰写查新报告。查新报告要求能客观地反映检索结果,每句话、每
31、个数据都要有依据,避免使用模棱两可的语句,做到全面、客观、公正。查新结论尤其注意,只能回答有没有的问题,而不应涉及谁优谁劣的问题。 6.3.4 信息推送服务信息推送服务n提供这种服务的信息系统能够根据用户的个人兴趣,主动搜索出符合用户需求的信息,并在适当的时候主动传递给用户n这种服务具有及时、主动提供最新信息的特点,并且满足用户个性化的信息需求 6.3.4 信息推送服务信息推送服务n信息推送技术有以下几种表现形式:n1)短信方式n2)邮件方式n3)网页式推送。在一个特定网页内给用户提供其订阅的信息。n4)专用软件式推送n5)客户代理方式。定期自动地对预定的Web站点进行搜索,收集更新信息送回用
32、户n6)频道方式n频道方式将某些网页定义为浏览器中的频道,用户可以像选择电视频道那样去选择收看感兴趣的、通过网络播送的信息,而且还可以指定其播放的时间n频道式推送是目前互联网上采用最为普遍的一种推送模式,它提供包括推送服务器、客户部件及开发工具等一整套集成应用环境,其中推送服务器提供主动服务,负责收集信息形成频道内容然后推送给用户;客户部件则主要负责接收到来的数据及提交指令,并对数据进行处理6.3.4 信息推送服务信息推送服务n基于基于RSS方式的信息推送技术方式的信息推送技术nRSS是一种描述和同步网站内容的格式。借助RSS文件一个网站,可以方便地调用其他提供RSS订阅服务的网站的内容,从而
33、让网站发布的内容在更大的范围内传播 6.3.4 信息推送服务信息推送服务nRSS的工作原理如图6-6所示用户用户信息信息信息信息聚合聚合订阅订阅RSS推送的信息推送的信息信息信息精品课件精品课件!精品课件精品课件!6.3.5 联机检索服务联机检索服务n联机检索是指用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。n联机检索诞生于20世纪70年代初,此后的20年得到了蓬勃的发展,90年代初,联机检索系统已经覆盖到全世界n随着Internet的发展和普及,联机检索的发展受到一定影响,但联机检索系统所具有的信息资源的集中、有序、信息含“金”量高、资源占有量大、专业化程度高以及科学的检索方法和服务手段等特点,使之在信息检索中的地位依然不可替代
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。