1、1 计算机信息检索理论基础2 计算机信息检索的发展历史3 计算机检索技术与实现4 计算机检索策略与实施技巧1 计算机信息检索理论基础使用计算机检索信息,是专业人员在开展科学研究中不可或缺的一项基本技能。一个具有这方面能力并善于从电子信息源中获取所需信息者,将在今后的信息社会中获取更多的成功机会 。 1 计算机信息检索理论基础 计算机信息检索的定义 计算机检索系统的构成 数据库的概念计算机信息检索的定义 所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。 计算机检索系统的构成 硬件 软件 数据
2、库 系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及怀数据处理或数据传输有关的其他设备。主机,是计算机检索系统的中枢。外围设备包括外部存储器,输入输出设备如键盘、光笔、鼠标、光学字符识别装置,显示终端、打印机等。 系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软件。 “一组文件的集合”,就是以一定的组织方式存贮在一起的相关数据的集合。数据库的概念 数据库的定义 数据库的类型数据库的定义 数据库是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。通俗地说,数据库是在计算机存储设备上按一定方式存储,
3、并提供给确定范围内的各类用户共享的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物。它既是现代人们从事信息资源管理的工具,同时也是计算机信息检索的基础。 数据库的类型 参考数据库 源数据库 混合数据库参考数据库指用户从中获取信息线索后,还需进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。(1)书目数据库。它是存储某个学科领域的二次文献的数据库,有时又称作为二次文献库。它依照二次文献的不同类型又可分为题录文摘数据库、索引数据库和图书馆书目数据库。(2)指南数据库。它是存储有关某些机构、人物、出版物、项目、程序、活动等简要描述性信息的一类数据库,亦称指示性数据库
4、。例如,机构名称数据库、人物传记数据库、产品数据库等都属于这一类数据库。源数据库又称为数据银行。它是能够直接为用户提供原始资料或具体数据的一类数据库。 源数据库又分为: 数值型数据库 文本数值型数据库 术语数据库 图像数据库 全文数据库 超文本数据库 是指专门提供以数值方式表示的调查数据和统计数据的一类数据库。 是指能够同时提供文本信息和数值数据的一类数据库。 是指专门存储和检索名词术语、词语信息等的一种源数据库。 是指用来存储和检索各种图像或图形信息及有关文字说明资料的一种源数据库。 是指存储和检索文献全文或其中主要部分的一种源数据库。 这种数据库存储时将存储内容分割为若干独立利用的结点,使
5、用链路连接结点等方式进行存取,从而构成一个不拘泥于形式逻辑推理,不遵循某种正规模式的一种网络框架结构,因而具备了类似于数据库又优于一般数据库的特点。 混合数据库这类数据库兼有源数据库和参考数据库的特点,按载体形式它又可分为以下四种类型:磁媒体数据库光盘数据库多媒体数据库:是一种能够对文字、数值、声音和图像等不同性质的媒体进行一体化处理和管理的新型数据库超媒体数据库。通过外部树形的链接将多种类型的媒体连成一个集合,该集合称为超媒体数据库。2 计算机信息检索的发展历史 脱机批处理检索 联机情报检索 国际联机检索 光盘检索 网络信息检索脱机批处理检索 1954一64。定期由专职检索人员把许多用户课题
6、汇总,批量处理提问要求,并把结果提供给用户。直接在计算机旁检索,不需要远程终端设备及通信网络。用户在计算机处理成批检索课题之后才知道检索结果,不能直接、及时修改检索策略,查全率和查准率受到一定限制。联机情报检索 20世纪70年代投入商业运营。用户在计算机检索系统的终端上,通过通信网络,使用特定的指令和算符,以人机对话方式,查询远程计算机检索系统核心的数据库,从中获取所需信息的计算机检索系统。 联机系统的诞生,使许多相互独立的终端实现了“对话”方式的信息检索。所谓对话方式,就是用户利用系统提供的、为数不多且简单易记的检索命令,每次输入一条命令或由命令组成的表达式查看结果。系统方面则每次显示出可能
7、的信息,帮助用户选择下次该用的命令或表达式,用户通过与系统双向对话,可不断改变或完善检索策略,直至获得满意的检索结果为止。 联机检索系统由三个部分组成: 主机系统 通讯系统 终端设备主机系统是联机检索系统的核心,它具备处理速度快、多道程序和分时功能,内存容量大,多样化的输入输出设备。通讯系统是指终端设备与主机系统进行通信的设备。通信线路分为两种:专用的直达线路;通过拨号选择对方的交换线路。前者是特定通信线路,后者使用电话网和用户电报网,联机系统使用的通信线路就属于后一种。终端系统是人与系统的接口设备。它能将字符、声音以及人类的信息表现形式转换成系统的机器代码。反之,将系统的结果还原成字符、声音
8、等形式,传送给终端用户。国际联机检索 70年代中后期。(联机检索基础上的扩充到国际) 优点:这种方式可以边检索边修改检索策略,而且检索速度快,多用户可同时检索,检索不受地理位置限制,检索功能多样化,打印输出灵活,检索结果可进行多种分析处理,大大方便检索用户和提高检索质量。 缺点:注重系统自身工作效率的提高,如改进算法、改进存储结构与存取技术等;让用户去适应、配合系统,很少分析、考虑用户对使用系统的要求。面向检索专家或中介机构。要求检索者熟悉系统的一整套检索指令和检索技术,用户的提问必须采用规范化的检索语言,从而依赖于专业检索人员,用户自己完成检索必须受过系统培训。人机交互界面不友好,且费用较高
9、。 光盘检索 80年代初期,其全称为高密度光盘(Compact Disk),主要是利用激光、计算机及光电集成等技术实现信息存储的数字化。以光盘为介质的光盘数据库检索系统由于信息存储量大,简单易用而取胜。 优点:一次购买,无限制使用,不必考虑检索时间,远程通信费用等因素;存贮容量大;检索途径多;适用于通信不发达,联网较困难的地区,是联机检索、网络检索的有效补充。 局限:数据更新有一定的周期,时效性、灵活性比不上联机检索;目前光盘数据库容量有限,一般是按专业和领域建库,收录范围不够广泛;适用对象的局限性,因为一次性购买费用高,对使用频率不高的单位或个人来说成本较高;设备和软件的兼容性较差,各种光盘
10、数据库检索系统目前还难以实现标准化和统一化。 光盘检索系统的构成:计算机、CD-ROM驱动器、检索软件、CD-ROM数据盘。 网络信息检索 是通过标准通信方式将世界各地的计算机网络连接起来,形成一个基于客户机-服务器模式的网络分布数据库结构。它在全球范围内把科技信息、商贸信息、经济信息、时事新闻以及日常生活信息通过互联网络合在一起,向亿万联网用户提供广泛的信息检索与服务。它是信息化社会应用最广泛、最活跃的领域。 信息检索服务的开放性 超文本的多链接性 用户界面友好且操作方便 具备良好的导航和编辑功能 网络信息系统中包含信息资源、信息设备、信息通道、信息检索软件及信息终端等子系统,各个子系统都是
11、开放的,其信息资源面向所有用户。 以超文本技术为基础链结构将不同地方的相关信息有机联系起来,使用户可通过点击文本或图表中的超文本链接点访问另一个相关的文档。 采用客户机/服务器结构,通过交互式的图形界面,为用户提供友好的信息查询要求,检索途径多,可保留检索历史。正是这一特点,使Internet能广泛深入学校、家庭、办公室乃至每一个人。 网络信息检索一般都可以引导读者在复杂的网络信息资源中漫游而不致迷失方向,用户可以利用导航机制,了解其所在网络图中的位置。网络信息检索具有良好的编辑功能,包括修改、增加、删除节点和链的能力,此外对节点内的信息也具有良好的编辑能力,可进行多窗口编辑。 3 计算机检索
12、技术与实现 布尔逻辑检索 位置算符 截词检索 词组检索 括号检索 字段限制检索布尔逻辑检索 即运用布尔逻辑算符(Boolean operators)对检索词尽心逻辑组配,表达两个概念之间的逻辑关系。 布尔逻辑算符主要有:AND OR NOT 在中文数据库里,布尔逻辑运算符又是用AND、OR、NOT表示,有时用 “*“、 ”“ 及 ”“ 。用运算符号:AND 或 * 连接检索词例查 “有关计算机在图书馆中的应用”的文献, 检索式=计算机 * 图书馆 A AND B A B用运算符号 “OR” 或 “+”连接两检索词例1 查“苹果或梨”方面的文献 检索式=苹果 + 梨它在同义词检索中使用,能提高查
13、全率。例2 查“计算机或机器人”方面的文献 检索式=计算机 + 机器人 A OR B A B用运算符号“NOT”或“”连接两检索词 A NOT B例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米甜玉米例2 查“不是铬合金”方面的文献。 检索式=合金铬 A NOT B A B文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。位置算符检索就是利用一些特定
14、的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索。这种检索在利用TI和AB途径检索时,对检索质量影响很大。常用的位置算符有:W、W/N、WITH、WITHIN、nW、PRE、N、NEAR、ADJ、nN、F、SAME功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒)表达式:Education(W)school 或 Education WITH school检索结果:Education school;education schools功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒),两词之间允许插入0n个词。
15、表达式:Education(1W)school检索结果:Education school;education schools;Education and music school;功能:两词相邻,按输入顺序排列表达式:Education PRE school检索结果:Education school Education schools功能:两词相邻,顺序可以颠倒表达式:Education(N)school Education NEAR school检索结果:Education school Education schools School of Education功能:两词相邻,顺序可以颠倒,
16、两词中间可以插入0n个词表达式:Education(1N)school检索结果:Education school school of education Education and sic school school of music and education功能:两词必须出现在同一字段中,词序与词量不限表达式: Education (F) school/DE检索结果:Education 和 school必须同时出现在叙词字段内即可功能:两词出现在同一自然句中,其词序与词量不受限制表达式:Education SAME school检索结果: Education 和school两词出现在同一句
17、子中即可。 截词运算符号有两个:“?、*” 。其在不同系统中表示的含义不同。 原因:在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。 有限截词。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。如输入computer?表示有0-2个字母变化,可检出computer和computers. 输入stud?表示截断处有0-3个字母变化,可检出study,studies,studied,studing. 无限截断:在检索词后加一个“*“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。 如:comp
18、uter *可检出computers, computering,computered,computerization. 中间截断:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。 如:输入wom?n可检出woman,women截词检索在中文数据库中截的是词意,例:西北? 分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。例“金属” metal* metal 、metals、metaled、metalist等。 利用截词检索时,注意截词的部位,一定不能截的太深,否则误
19、检率会很大。将一个词组或短语用双引号“” ”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度。 如:“Global Positioning System”, 只检索出规定字段中包含完整词组的记录。 用于改变运算的先后次序,括号内的做优先运算。用“()”可以表示优先级。如比较(GPSORGIS)ANDChina GPSORGIS ANDChina将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有: in、=、例:English in la 总结:在一个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序、以及体现概念的完整性
20、。4 计算机检索策略与事实技巧 分析检索课题,明确检索目的和要求 选择数据库 编制检索提问式、选择检索入口 上机检索及反馈调节分析检索课题,明确检索目的和要求 明确检索的要求和目的,是制定检索策略的前提。由于各类用户的检索要求和目的受其社会因素和个人因素的制约,是各不相同的。因此,在着手信息检索之前,必须全面地了解清楚用户的信息需求和检索目的、检索的学科内容、主题范畴。根据社科信息用户的文献需求特点,其需求不外乎以下四种类型:了解学科发展动态的要求了解某一研究主题的片断性信息 了解某一研究主题的全面性信息 检索特定的文献信息 这类信息需求的特点是一个“新”字,即用户要求及时获得学科前沿研究的最
21、新动态、最新进展和研究成果。针对用户的这类检索要求,在选择数据库时,除了必须考虑选择在学科内容方面与检索要求相吻合的基本要求外,还应注意考虑到信息内容更新 周期短的因素。 这类信息旨在借鉴他人研究成果,用以解决研究中碰到的具体问题。这类信息需求的量最大,其特点是一个“准”字。即检出的信息应有针对性,能帮助解决具体问题。因此,在数据库选择方面,除了注意内容主题的匹配外,还应注意原始文献的易获取性,最好选择全文数据库。 出于基础理论研究、编写教材及申请课题的需要,用户往往需要全面系统地收集某一个主题范围内的文献资料,这类检索具有横向普查、纵向追溯的特点,并对查全率有较高的要求。因此,针对这类检索类
22、型在选择数据库时,要注意选择存储容量大,覆盖年限长,具有较强随机存取能力的数据库。 用户已经知道文献的题名、作者,而只是要求获取原文。对这类用户需求只需要选择与学科主题相吻合的数据库。 除了需要了解清楚用户信息检索的要求和目的外,了解清楚 待查找文献的年限、文献类型、语种和检索费用的支付能力等情况,对制定正确的检索策略也很重要。 不同类型的信息需求,对查全率和查准率的要求不尽相同,对选择数据库的要求也存有差异。因此,在后续制定检索策略时,也应区别对待。 选择数据库 数据库检索的正确与否将直接影响到检索结果的好坏。数据库选择不当,就会得出完全不符合要求的结果。选库时要遵循以下原则 : 要根据用户
23、信息检索的学科内容和目的选择数据库。如果检索课题涉及的内容全面而广泛,为了避免漏检,应同时选择几个不同的库,如需检索的课题内容专业性很强,则可以选择专业文档进行检索。 在同时有几个数据库可供检索的情况下,应首先选择比较熟悉的数据库。这样能既快速又准确地查找到真正需要的文献信息。 当几个数据库的内容交叉重复率比较高时,应选择检索费用比较低廉的数据库。 当用户要求检索的文献量比较大时,可首先用浏览的方式,按主题或学科专业的方式查找。 编制检索式,选择检索入口 利用各种算符构造检索式,然后选择检索入口即字段,如:题名、著者、主题词、文摘、全文等。 用主题词在主题范围(或字段)、文摘范围、题名范围、全
24、文范围检索称主题途径 用著者姓名在著者范围检索称著者途径 用分类号进行分类检索称分类途径 用专利号、分子式检索称其它途径是按照学科分类体系查找文献的途径,采用的是“分类目录”和“分类索引”。按分类进行查找,用分类途径能够把同一学科的文献信息集中在一起检索出来。其缺点是分类表是事先编制好的,一些新学术论文增补不及时,依此途径检索,所得文献容易落后于学科发展;又由于每篇文献是按学科规类的,查出的结果涉及面宽,针对性不强,因而还需要进一步筛选。分类途径要确定的检索点是分类号,根据分类号编制检索式。根据文献的主题特征,利用各类主题目录和索引进行检索的途径,即利用从文献中抽象出来的或经过人工规范化的,能
25、够代表文献内容的词来检索。主题目录和主题索引就是将文献按表征其内容特征的主题词组织起来的索引系统。利用主题途径检索时,只要根据所选用主题词的字顺(字母顺序、音序、笔画顺序等)找到所查主题词,就可查得相关文献。主题途径具有直观、专指、方便等特点,打破了按学科分类的方法,时分散在各个学科领域里的有关课题的文献集中于同一主题。 主题途径要确定的检索点是检索词,根据检索词确定检索式。检索词的确定要进一步分析课题得出。分析检索课题,确定检索词 检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏
26、。因此,务必要在分析课题的主题概念中掌握课题的内容实质,概括出能最恰当地代表主题概念的检索词。 使用标准化的术语 分析出课题内容实质 从相应的规范词表中选定所需的检索词 注意同义词、近义词 其它 尽管在不少数据库中都允许使用关键词检索。但是,在选用关键词的过程中切忌使用国际上不通行的术语,避免使用冷僻词和自选词。如“第三世界”、“下岗”这样的词不能达到预期的效果。 寻找出隐性的主题概念。使用最吻合于检索要求的检索词。分析课题的内容实质不仅要从课题名称中找出能满足检索课题要求的检索词,而且要从学科专业和检索目的的角度,根据出能够反映课题实质内容的主题词。 例如,社会保险包含“养老保险”、“失业保
27、险”、“医疗保险”和“社会救济”等下位概念,要根据需要选取主题词。 由于主题词是文献标引和检索中必须共同遵循使用的语言,而且很多数据库都有自己的主题词表,所以在有数据库专用词表的情况下,应优先选用词表中的规范词,以便能使检索获得最佳的效果。 注意同义词、近义词在确定检索词时,除了要考虑反映主题概念的同义词、近义词等相关词以外,还要注意到被选用词的缩写词及不同拼法的词,以便在编制检索式时考虑到这些因素,避免漏检有关的文献。从词表规定的专业范围出发,选用各学科内具有检索意义的基本名词术语避免使用频率低的词多选用基本词汇进行组配一般不选动词和形容词等内取法:从课题字面上分解出检索词外概法:从题意中概
28、括出检索词 利用著者(个人或单位著者)目录和著者索引进行检索的途径。国外对著者途径非常重视,许多检索工具都把著者索引作为最基本的辅助索引。著者途径的特点是:科研人员一般是各有所长,尤其是有些领域的知名学者、专家,他们的文章一般都代表了一定的水平和动向,通过著者线索,可以系统地发现和掌握他们研究的进展和他们的最新论著。一定程度上可以引导查找到同类或相关文献。这种途径的检索既快速又方便,但查得的文献缺乏系统性和完整性。 根据文献的序号特征,利用其序号索引进行检索的途径。许多文献具有唯一的序号,如ISBN、ISSN、专利号等。根据这些序号可真诚不同的序号索引。在已知序号的前提下,利用序号途径能方便地
29、查找所需文献。 分类途径:利用分类名和分类号进行检索。其结果是该类目所有的文献分类途径:利用分类名和分类号进行检索。其结果是该类目所有的文献,检索结果较全。检索结果较全。题名(篇名)途径:利用篇名中的字词或篇名的一部分进行检索。其结题名(篇名)途径:利用篇名中的字词或篇名的一部分进行检索。其结果是所有在篇名中出现该字、该词或该部分的文章,检索结果较准。果是所有在篇名中出现该字、该词或该部分的文章,检索结果较准。主题词主题词/关键词途径:利用文章篇首标明的与该篇文献主题相关的词进行关键词途径:利用文章篇首标明的与该篇文献主题相关的词进行检索。其结果是包含该主题词或关键词的所有文献,结果较准。检索
30、。其结果是包含该主题词或关键词的所有文献,结果较准。 著者途径:利用文献作者名字进行检索。可查到该作者的所有文献。但著者途径:利用文献作者名字进行检索。可查到该作者的所有文献。但不系统不系统出处途径:利用原文献刊载处进行检索。可查到某刊载处刊登的所有文献全文关键词途径:用于全文数据库检索。利用从文献题名和正文中抽出的、表达文献主题内容的、有实际意义的词进行检索。结果全,但有误检;全文自由词(任意词):用于全文数据库检索。利用文献中的任意字或词进行检索,结果全,但误检率高。年份途径:利用年份进行检索。可查到某年份出版的所有文献。一般与其他途径合并使用。上机检索及反馈调节在得到检索结果后,可能会出
31、现一下三种让人不太满意的情况: 检索结果太少 检索结果太多 检索结果并非我们要的内容如果要扩大命中文献的数据(提高查全率),可使用以下方法:选择在文摘字段中检索;减少用“AND”或“NOT”算符联结的概念;增加用“OR”联结检索词;选用上位词或近义词;采用截词检索法要减少检索记录的总数(提高查准率),可以: 将检索词的查找范围限定在篇名、关键词、或叙词字段; 利用文献的外表特征限制检索; 增加用“AND”联结的概念; 利用逻辑“非”进行限制; 充分利用下位类检索词; 在检出记录中选取新的检索词对结果进行再次限制。 检查检索词拼法是否正确。检索课题 选择数据库 课题分析确定检索点/词制定检索式计
32、算机处理结果检验用户NY这是检索过程的终结,也是文献检索的最终目的。获取原文一般有三个步骤:(1)整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名;(2)判断文献的出版类型; (3)在上面2个步骤的基础上查找全文数据库、图书馆馆藏目录或联合目录确定馆藏位置。 具体如下具体如下:1.将缩写出版物名称根据资料来源索引将缩写出版物名称根据资料来源索引还原全称还原全称.若是非西文文献若是非西文文献(俄俄、日、中日、中),还原的出还原的出版物全称是音译全称版物全称是音译全称,还应根据表还应根据表4-1,4-2及汉语拼及汉语拼音写出原文种的全称音写出原文种的全称.2通过出版物全称和著录格
33、通过出版物全称和著录格式中的标志性单词式中的标志性单词(proc.symp.-会议文会议文献献,report-科技报告科技报告book-图书图书,diss.-学位论学位论文文,cl.-专利专利,v.n.-期刊论文等期刊论文等)确定该文献的文确定该文献的文献类型献类型.3按照不同的文献类型根据出版物全称获按照不同的文献类型根据出版物全称获得馆藏单位得馆藏单位(图书图书:通过图书联合目录查找馆藏单通过图书联合目录查找馆藏单位位,期刊期刊:通过相应文种的期刊联合目录查找馆藏通过相应文种的期刊联合目录查找馆藏单位单位,如中如中、日日、西文期刊联合目录西文期刊联合目录,专利的收藏专利的收藏单位是中国专利
34、局专利文献馆单位是中国专利局专利文献馆,除专利外的特种文除专利外的特种文献收藏单位是国图献收藏单位是国图、中科院文献情报中心中科院文献情报中心、中信中信所所)4.与馆藏单位联系索取原文与馆藏单位联系索取原文.总之总之,在检索之前要充分理解检索要求在检索之前要充分理解检索要求,了解熟悉了解熟悉检索工具检索工具(数据库数据库),特别是其所采用的词表和分类表特别是其所采用的词表和分类表,再根据查全率和查准率的要求选择检索途径和检索再根据查全率和查准率的要求选择检索途径和检索方法进行检索方法进行检索.检索效率检索效率P36P36F查全率查全率 R (Recall ratio)R (Recall ratio)F R= R=检出的相关文献量检出的相关文献量/ /检索系统中相关文献总检索系统中相关文献总量量* *100%100%F查准率查准率 P (Precision ratio)P (Precision ratio)F P= P=检出的相关文献量检出的相关文献量/ /检出的文献总量检出的文献总量* *100%100%查全率和查准率之间存在互逆相关性查全率和查准率之间存在互逆相关性