1、第章第章计算机信息检索技术计算机信息检索技术目目 录录.计算机信息检索概述计算机信息检索概述 .检索原理 .检索服务模式 .检索特点 .计算机检索系统构成计算机检索系统构成 .计算机 .通信网络 .检索终端 .数据库 .计算机信息检索技术计算机信息检索技术.布尔逻辑检索技术.截词检索技术.限制检索技术.位置检索技术.加权检索技术 思考:购买商品的各索引系统o 前提前提:买什么东西?哪个厂家生产?该产品叫什么?是否有批准文号(法定)?使用该产品的市场反馈如何?产品的发明人或生产者是谁?该厂家的地理位置在哪里?是否含有特殊的有效成分?o 模型化的具体对应与索引:模型化的具体对应与索引:o买什么东西
2、-分类索引o该产品叫什么-主题索引或轮排索引 o哪个厂家生产-单位索引或团体索引o是该厂家的哪地方的分厂生产-地理索引.计算机信息检索概述o 计算机信息检索就是用户利用计算机设备和通信网络,与计算机信息检索系统相连接,运用系统特定的指令和检索方法,组织检索策略,从储存了大量记录的数据库中检索出所需信息的过程。.检索原理o 计算机信息检索原理与手工检索的原理相同,都是将检索需求与检索对象进行匹配的过程。o 然而,在手工检索时,各种匹配过程只在自己的头脑当中,无须事先进行明确的表达,人们在检索时可以进行人为的判断和修正,即边检边选,对检出结果的内容也可以进行思考和判断,必要时再进行二次或多次检索。
3、o 在利用计算机检索系统进行检索时,计算机对结果不具有任何判断力,仅仅是机械地执行检索策略,其执行过程是指令的机械匹配,只要是符合条件的文献均作为命中文献予以选出。o 同时,与手工检索相比,计算机检索时人们无法直接看到数据库中的内容,因而利用计算机系统进行检索时,对需求的表达就成了重要的环节。.检索服务模式o 计算机信息检索发展至今已有几十年的历史,其检索服务模式也主要经历了以下几个阶段。o.脱机检索阶段脱机检索阶段o 这一阶段的计算机检索是以批处理方式进行的脱机检索,即检索只能在检索系统所在地进行,由检索人员定期将用户课题汇总,批量输入计算机,用户不能参与检索过程,不能实时浏览检索结果,修改
4、检索方案,即不能人机对话。.联机检索阶段o 所谓人机对话就是用户在终端直接输入检索提问,计算机在联机数据库检索并立即显示检索结果,用户如对结果不满意,可随即修改检索提问重新检索。.光盘检索阶段o 1983年出现了一种新的内存,即光盘。光盘检索具有如下优点:存储量大而体积微小、要求设备简单,可随地安装、使用方便,易于操作、检索费用低(不需要昂贵的联机检索通信费用)、可随时修改检索策略,具有很高的查全率和查准率等。因为这些优点,光盘检索至今仍被世界各地广泛应用。.网络化检索阶段o 20世纪90年代,随着卫星通信、公共数据通信、光缆通信技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索步入全
5、球大联网时期。o 网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。.检索特点o()速度快、效率高。o()检索途径多。o()灵活方便。o()更新快。o()直接输出检索结果。.计算机检索系统构成o 计算机信息检索系统主要由计算机、通信网络、检索终端以及数据库组成。o.计算机计算机o.硬件硬件o 计算机是检索系统的核心部分,它统筹管理整个系统的运行,其容量、运算速度决定整个检索系统的能力。计算机由硬件和软件组成。.数据库的类型o 数据库的类型归纳起来主要有以下几种:o()书
6、目型数据库:是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。图书馆的书目数据库就是这种类型。o()数值型数据库:提供以数值为主的情报信息。如化学物质毒性数据库、机信息检索中最基本的也是最常用的技术。布尔逻辑检索o 运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组配,表达两个概念之间的逻辑关系。o 布尔逻辑算符主要有:AND OR NOT o 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示,有时用“*”、“”及“”。1.逻辑与(逻辑乘)o表示概念的相交、限定,缩小检索范围,提高检准率。o 用运算符号:AND 或*连接检索词 A AND B A
7、 B例:逻辑与(AND或*)计算机在图书馆的应用计算机图书馆计算机 AND 图书馆o 人类活动对群落多样性的影响o 检索概念:人类活动 群落多样性 影响o 检索式 人类活动 AND 群落多样性 人类活动 AND 群落多样性 AND 影响人类活动 AND 群落多样性 AND 影响2.逻辑或o 表示概念的平行、并列,用于扩大检索范围,提高查全率o 用运算符“OR”或“+”连接两检索词 A OR B A B例:逻辑或(OR 或+)o 乙肝病毒的研究 o 检索词:乙肝 乙型肝炎 HBV Hepatitis B virus o 检索式:乙肝 OR 乙型肝炎 OR HBV Hepatitis B viru
8、s OR HBV Hepatitis B virusHepatitis B virus OR HBV3.逻辑非o去掉一个主题中某一部分的主题,用于缩小检索范围,提高查准率;o用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内 A NOT B A B.运算优先级o 当在一个检索式中,同时出现不同的布尔逻辑算符时,它的运算级别是不同的。布尔逻辑算符的运算次序通常是:在有括号的情况下,括号内的逻辑运算先执行;有多层括号时,先执行最内层的括号。逻辑“与”、“或”、“非”的运算次序是:
9、先执行逻辑“非”操作,再执行逻辑“与”,最后执行逻辑“或”。检索执行的优先顺序o 括号中的检索词 高o W,N,或L,F,o NOTo ANDo OR 低 截词检索o 在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等。o所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用来。常用“?”、“*”符号表示。符号表示。o 用截词符号“?”、“*
10、”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。o 这种检索方式可以扩大检索范围,提高查全率。o 截词运算符号通常有两个:“?、*”。其在不同系统中表示的含义不同。按截断的位置分:后截断 前截断 中间截断 按截词的字符数量分:有限截词 无限截词后截断o 在检索词后(右方)截断有限或无限的字母。如:librar*library、librarian、librarieso 主要用于词的单复数检索、词根检索(socio*)、年代检索(199*)“digital librar*”前截断o 将截词符号放在检索字符串的左方,以表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符后
11、面部分字符相同的检索词的文献,即为命中文献。这种方式也称为后方一致。n 如:*chemistry microchemistry、macrochemistryo 目前使用较少中间截断o 又称作“通用字符法”或“内嵌字符截断”。在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。n 如:输入wom?n可检出woman,women 输入defen?e可检出 defence、defense.限制检索o 在检索系统中,为了提高检索的查准率,缩小检索的范围,通常有一些限制的手段和方法,使用这些方法进行检索通常称为限制检索。常用的限制符号有:“”、“”等。限制检索
12、的方式有多种,例如进行字段限定检索、使用范围限制符、采用限制检索命令等。数据库中常用检索字段列表西文数据库常用字段西文数据库常用字段中文数据库常用字段中文数据库常用字段字段名称字段名称字段代码字段代码AbstractsAB文摘AuthorAU作者Corporate Source、Organization、CompanyCS机构名称Descriptor、SubjectDE叙词/主题词Document TypeDT文献类型Full-textFT全文ISSNISSN国际标准连续出版物号Journal Name、Publication TitleJN期刊名称Keyword、TopicKW关键词Lang
13、uageLA语言Publication YearPY出版年TitleTI题名o 例如,computer and network/TI,o DE 表示将检索式限定在篇名字段(TI)和叙词字段(DE)中;在多数检索系统中,如果用户不对检索式注明字段限定范围,系统会默认在四个基本字段中检索。o 例要查找著者Smith D.发表的文献,检索式可表示为AU=Smith,D.。.同字段检索算符o()算符:()算符是“(字段)”的缩写,表示在算符两侧的检索词须同时出现在数据库记录的同一字段中,词序可变。o()算符:()算符是“(连接)”的缩写,表示()两侧的检索词之间有一定的从属关系。关系算符o 在数据库的
14、辅助索引中,有些是数值型字段,这时可用范围检索的关系算符来执行,包括:o:包含范围(数字由低到高数字)如o 出版年PY=1990:1999o 大于,如公司销售额SA500mo 小于,如研究生申请接受率PC=大于等于,如公司财产TA=500000000o=小于等于,如公司雇员数EM=90000.加权检索技术o 加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。o http:/ 功能:两词出现在同一自然句中,其词序与词量不受限制(SCI中专用)n 表达式:Education SAME schooln 检索结果:Education 和school两词出现在同 一句子中即可。o 特别注意事项:不是所有的检索系统都支持位置算符,不同的检索系统对位置算符有不同的表示符,同一位置算符在不同检索系统中指代的含义可能也不尽相同。