1、第二章第二章 信息检索基础理论信息检索基础理论 本章要点本章要点 信息检索的概念及类型信息检索的概念及类型 信息检索语言和工具信息检索语言和工具 信息检索技术及策略信息检索技术及策略本章主要讲述信息与信息资源的基本内容;信息检索的含义及主要类型;信息检索语言和常用工具;信息检索的方法、步骤、途径及信息检索的策略与效果评价。第二章第二章 信息检索基础理论信息检索基础理论 目录:目录:2.1 信息检索的含义及类型 2.3信息检索技术与策略2.2 信息检索语言和工具 2.1 信息检索的含义及类型 2.1.1 信息检索的含义 广义的信息检索(信息存储与检索,information storage an
2、d retrieval),包含了将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的全过程。狭义的信息检索,即根据需要,借助于检索工具,从信息集合中找出所需要信息的过程,相当于人们所说的信息查寻(information search)。2.1 信息检索的含义及类型 2.1.1 信息检索的含义信息检索的含义1.信息标引和存储过程信息标引和存储过程 标引:根据文献的主题内容,按照某种规范化主题词典或词表,给予主题词和副主题词作为检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。信息标引是对大量无序的信息特征进行著录、组织,使之信息标引是对大量无序的
3、信息特征进行著录、组织,使之有序化。有序化。信息存储是对有关信息进行选择,并按科学的方法组成检索工具和检信息存储是对有关信息进行选择,并按科学的方法组成检索工具和检索文档,建立信息数据库;即组织检索系统的过程。索文档,建立信息数据库;即组织检索系统的过程。2.信息的需求分析和检索过程信息的需求分析和检索过程 分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即信息系统的分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问制定策略和表达式,利用信息数据库获取相关信息。应用过程。信息检索就是根据
4、提问制定策略和表达式,利用信息数据库获取相关信息。信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。2.1.2 信息检索类型划分示意图依检索结果内容划分依信息存储与检索方式划分手工检索计算机检索事实信息检索文献信息检索数据信息检索信息检索类型文献线索检索全文检索 2.2 信息检索的语言和工具 2.2.1 信息检索语言信息检索语言 信息存信息存储储 信息检信息检索索 1、信息检索语言的概念信息检索
5、语言的概念 信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与检组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与检索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言。就是双方之间约定的共同语言。2、信息检索语言的作用信息检索语言的作用 检索系统检索系统 信息检索语言信息检索语言 检检 索索 结结 果果文文献献信信息息
6、主主题题主主题题标引主标引主题题标引检标引检索索 标引标引标引标引用用户户信信息息 2.2 信息检索的语言和工具 2.2.1 信息检索语言信息检索语言信 息 检 索 语 言 分类语言分类语言3.信息检索语言的种类就其结构原理来划分,信息检索语言主要有:主题语言主题语言 代号语言代号语言 引文语言引文语言 等级体系分类语言 分面组配分类语言 标题词语言 元词语言 叙词语言 关键词语言 2.2 信息检索的语言和工具 2.2.1 信息检索语言信息检索语言信信 息息 检检 索索 语语 言言 描述文献外部特征的语言描述文献外部特征的语言3.信息检索语言的种类信息检索语言的种类按照信息特征描述划分,信息检
7、索语言主要有按照信息特征描述划分,信息检索语言主要有:书名、刊名、篇名等书名、刊名、篇名等 文献类型文献类型 文献出版类型文献出版类型 分类语言分类语言 描述文献内部特征的语言描述文献内部特征的语言 著者、编者、译者等著者、编者、译者等 号码(报告号、专利号、标准号等)主题语言主题语言 标题词语言 关键词语言 2.2 信息检索的语言和工具 2.2.1 信息检索语言信息检索语言 1)构成4.信息检索语言的构成及其要素 表达基本表达基本概念意义概念意义的词汇的词汇控制语言使用的语控制语言使用的语法,据此把基本的法,据此把基本的词汇组合起来表达词汇组合起来表达更为复杂的概念意更为复杂的概念意义,主要
8、体现为各义,主要体现为各种标引规则、组配种标引规则、组配规则、引用次序等规则、引用次序等 从语言学的角度分析信息检索语言的构成应分为三个部分从语言学的角度分析信息检索语言的构成应分为三个部分用于组成词汇的用于组成词汇的形式化符号,通形式化符号,通常有字母、数字常有字母、数字或文字等。或文字等。2.2 信息检索的语言和工具 2.2.1 信息检索语言信息检索语言2)要求)要求4.信息检索语言的构成及其要素信息检索语言的构成及其要素 专指性专指性 检索语言应该能够描述文检索语言应该能够描述文献和提问的特征,即要有充分的表达能献和提问的特征,即要有充分的表达能力,能全面、准确地描述任何复杂力,能全面、
9、准确地描述任何复杂 的文献信息以及提问内容。的文献信息以及提问内容。具体要求如下:具体要求如下:唯一性唯一性 灵活性灵活性 2.2 信息检索的语言和工具 2.2.2 检索工具检索工具 1.检索工具的定义与类型 检索工具检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。按照检索手段的不同,可分为手工检索工具和计算机检索系统。按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型
10、检索工具、文摘型检索工具、全文型检索工具等。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具 题录报道和揭示单篇题录报道和揭示单篇文献的外表特征,是在目文献的外表特征,是在目录的基础上发展起来的一录的基础上发展起来的一种检索工具。它与目录的种检索工具。它与目录的主要不同点在于著录的对主要不同点在于著录的对象不同,目录的著录对象象不同,目录的著录对象是整部文献,而题录的著是整部文献,而题录的著录对象是文献中的论文或录对象是文献中的论文或部分内容。例如:美国部分内容。例如:美国化学题录化学题录、中文科技中文科技期刊题录数据库期刊题录数据库等。等。目录通常是以文献的目录通常是以文献的“本本
11、”、“种种”、“件件”等为等为单位,对一批相关文献外表单位,对一批相关文献外表特征的揭示和报道特征的揭示和报道.例如:例如:全国新书目全国新书目、全国总书目全国总书目、全国报刊全国报刊简明目录简明目录等。等。文摘是系统著录、报道文摘是系统著录、报道、积累和揭示文献信息外表、积累和揭示文献信息外表特征和内容特征的检索工具特征和内容特征的检索工具,是重要的二次文献。它是,是重要的二次文献。它是对文献中的论文或内容进行对文献中的论文或内容进行浓缩,概括地描述其主要论浓缩,概括地描述其主要论点、数据、结论等,并注明点、数据、结论等,并注明其出处,按一定的规则编排其出处,按一定的规则编排起来的一种检索工
12、具。文摘起来的一种检索工具。文摘分三种:指示性文摘、报道分三种:指示性文摘、报道性文摘和评论性文摘。例如性文摘和评论性文摘。例如:新华文摘新华文摘、经济学经济学文摘文摘等等。文文 摘摘题题 录录目目 录录索索 引引 索引索引是将文献信是将文献信息中的题名、人息中的题名、人名、地名、字句名、地名、字句及参考文献等分及参考文献等分别摘录出来,并别摘录出来,并注明出处,按一注明出处,按一定的规则编排起定的规则编排起来的一种检索工来的一种检索工具。具。例如:例如:经济科经济科学论文索引学论文索引社会科学引文索社会科学引文索引引等。等。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具2.2.数
13、据库数据库1 1)数据库的概念数据库的概念 数据库(数据库(DB,Database)是长期储存在计算机内,有组织的、可共享的数据)是长期储存在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。数据库管理系统(数据库管理系统(DBMS,Database Management System)是位于用户与操作系)是位于用户与操作系统之间的一个数据管理软件
14、。统之间的一个数据管理软件。数据定义,用户通过它可以定义数据库中的数据对象;数据定义,用户通过它可以定义数据库中的数据对象;数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;数据库的建立和维护等。数据库的建立和维护等。基本功能基本功能 数据库系统(数据库系统(DBS,Database system)是指在计算机系统中引入数据库后构成的)
15、是指在计算机系统中引入数据库后构成的计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、应用系统、数据库管理员和用户构成。应用系统、数据库管理员和用户构成。书目数据库书目数据库2.2 信息检索的语言和工具 2.2.2 检索工具检索工具2 2)数据库的类型数据库的类型按服务模式划分按服务模式划分图像数据库图像数据库全文数据库全文数据库按信息处理层次划按信息处理层次划分分文摘数据库文摘数据库按收录的文献类型划分按收录的文献类型划分 期刊论文数据库期刊论文数据库书目及图书全文数据库书目及图书全
16、文数据库专利数据库专利数据库学位论文数据库学位论文数据库产品数据库产品数据库按收录文献信息的范围划分按收录文献信息的范围划分综合性数据库综合性数据库专业性数据库专业性数据库 文本数据库文本数据库数值数据库数值数据库 声音数据库声音数据库 视频数据库视频数据库多媒体数据库多媒体数据库单机数据库单机数据库联机数据库联机数据库网络数据库网络数据库按媒体信息划分按媒体信息划分 是数据库中数据组是数据库中数据组织存储的基本形式,是织存储的基本形式,是数据和信息的有序集合,数据和信息的有序集合,由若干条记录组成,一由若干条记录组成,一个或若干个文档构成一个或若干个文档构成一个数据库。通常一个数个数据库。通
17、常一个数据库至少包括一个顺排据库至少包括一个顺排文档和一个或多个倒排文档和一个或多个倒排文档。文档。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具3 3)数据库的结构数据库的结构文文 档档 记记 录录 字字 段段 是数据库的基本单元,是是数据库的基本单元,是对某一实体属性进行描述的结对某一实体属性进行描述的结果。一个数据库可以有一个或果。一个数据库可以有一个或多个文档,一个文档由若干条多个文档,一个文档由若干条记录构成,而一条记录由若干记录构成,而一条记录由若干字段组成。在文摘数据库中,字段组成。在文摘数据库中,一条记录相当于检索刊物中一条记录相当于检索刊物中的的条文摘款目。条文摘
18、款目。是记录的基本组成单元,是有关是记录的基本组成单元,是有关一篇文献或称一条记录的基本数据单一篇文献或称一条记录的基本数据单元,每一个字段都反映该篇文献的一元,每一个字段都反映该篇文献的一个方面的信息,组合在一起形成对一个方面的信息,组合在一起形成对一篇文献信息的内容特征和外表特征的篇文献信息的内容特征和外表特征的完整描述。在文摘数据库中,一条记完整描述。在文摘数据库中,一条记录应包含原始文献的题名、作者、出录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有词或关键词等字段。每一个字段都有一个相应的标识符,以便计算
19、机识别。一个相应的标识符,以便计算机识别。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具4.4.计算机检索系统计算机检索系统 检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终端、技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数据数据输出设备等。软件主要包括检索程序和数
20、据库等。检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力。库和处理检索提问,它决定系统的检索能力。计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。1 1)光盘检索系统)光盘检索系统 光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检索光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检索系统,由计算机、光盘数据库、检索软件等组成。系统,由计算机、光盘数据库、检索软件等组成。目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计
21、算机局域网、光盘库或光盘塔、目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。检索软件等组成。与手工检索相比,光盘检索的可检信息量大,一套与手工检索相比,光盘检索的可检信息量大,一套四库全书四库全书印刷版有印刷版有3 000多册,而光多册,而光 盘版盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。便。与联机检索相比,光盘检索价格低廉,检索方法简单容
22、易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快者其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快者1个月,慢者个月,慢者1年),因此信息的获得比国际联机检索慢。年),因此信息的获得比国际联机检索慢。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具 2)联机检索系统)联机检索系统 回溯检索是用回溯检索是用户对检索系统中积户对检索系统中积累多年的文献信息累多年的文献信息数据库进行检索,数据库进行检索,查找一定时间范围查找一定时间范围内或特定时间以前内或特定时间以前的文献信息的一种的文献信息
23、的一种联机检索方式。联机检索方式。是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检
24、索终端、通信网工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息被称为国际联机检索。被称为国际联机检索。联机检索系统主要有以下四种服务方式:联机检索系统主要有以下四种服务方式:定题检索是定题检索是指在回溯检索的指在回溯检索的基础上,定期从基础上,定期从文献数据库中检文献数据库中检索出回溯检索日索出回溯检索日之后出现的新的之后出现的新的文献信息的一种文献信息的一种联机检索方式。联机检索方式。联机订
25、购。联联机订购。联机检索的结果通常机检索的结果通常是一些文摘或题录是一些文摘或题录形式的二次文献。形式的二次文献。联机检索系统可以联机检索系统可以为用户提供原始文为用户提供原始文献的联机订购服务献的联机订购服务。电子邮件电子邮件 联机检联机检索系统为用户提供索系统为用户提供E-mail和电子邮政的功和电子邮政的功能。用户输入能。用户输入E-mail号码和通信内容,就号码和通信内容,就可以在几秒钟内接收可以在几秒钟内接收到本需耗时几天的信到本需耗时几天的信件投递。件投递。2.2 信息检索的语言和工具 2.2.2 检索工具检索工具 网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因
26、特网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方法简单、灵活、方便、时效性强、费用低。法简单、灵活、方便、时效性强、费用低。3)网络检索系统)网络检索系统 发出检索请求发出检索请求 返回检索结果返回检索结果 数数 据据 库库服务器服务器客户机客户机 客户机客户机/服务器请求与响应示意图服务
27、器请求与响应示意图 返回检索结果返回检索结果 匹匹 配配 检检 索索2.2 信息检索的语言和工具 2.2.2 检索工具检索工具 早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(Email)、电子公告栏(BBS)、新闻组(USENET)等。具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络数据库检索系统、搜索引擎、多媒体网络数据库检索系统、搜索引擎、多媒体信息检索系统信息检索系统等。3)网络检索系统 o 收录质量,收录信息收录范围与信息质量收录质量,收录信息收录范围与信息质量o 标引质量,著录的详略,著录、标
28、引的质量著录的详略,著录、标引的质量o 检索功能,检索语言易用性和效果满意度检索语言易用性和效果满意度o 报道速度,信息报道的时效信息报道的时效检索工具评价标准另外可读性和权威性可作为选择另外可读性和权威性可作为选择百科全书和词典等参考型工具的百科全书和词典等参考型工具的辅助指标,而网络检索必须考虑辅助指标,而网络检索必须考虑速度和检索费用。速度和检索费用。2.3 信息检索方法o 顺查法:时间上,查全率高o 倒查法:时间上,查准率高o 抽查法:研究的高级阶段 检索效率高o 追溯法(引文法):A.一次文献参考文献一次信息参考文献 B.一次文献引用该一次信息的文献新的一次文献 实际是由“”越查文献
29、越新o 交替法(综合法)常规法(工具法)常规法(工具法)2.3 信息检索的技术与策略 2.3.1 信息检索基本技术 在计算机信息检索系统中,比较通用的有浏览、简单检索和高级检索等功能。浏览功能是由信息工作者将各种信息按一定的方式组织起来,按信息的主题、分类等方式编制成树状结构体系,供用户层层点击,进入不同分支查看检索结果列表。简单检索和高级检索是利用检索词(或检索式)进行检索,返回与之相符的检索结果。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检索、词间位置检索和限定字段检索等检索技术。精确与模糊检索精确与模糊检索 2.3 信息检索的技术与策略 2.3.1 信息检索基本技术信息检索
30、基本技术 基本技术基本技术词间位置检索词间位置检索 加权检索加权检索 布尔逻辑检索布尔逻辑检索 限定字段检索限定字段检索 限定范围检索限定范围检索 截词检索截词检索 检索技术及其实现检索技术及其实现 1、布尔逻辑组配检索技术、布尔逻辑组配检索技术 布尔逻辑组配检索布尔逻辑组配检索:是指利用标准的:是指利用标准的布尔逻辑关布尔逻辑关系词系词来限定检索词之间的来限定检索词之间的逻辑关系逻辑关系的检索技术,它的检索技术,它是现行计算机检索的基本技术。是现行计算机检索的基本技术。主要的主要的布尔逻辑关系词布尔逻辑关系词有有3种:种:与(与(AND)、或或(OR)、非(非(NOT),),其优先级依次其优
31、先级依次为为NOT、AND和和OR,改变优先级的方法是使用括,改变优先级的方法是使用括号(),括号内的逻辑式优先执行。号(),括号内的逻辑式优先执行。用用A和和B表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:1.A and B 2.A or B 3.A not B 逻辑与(逻辑乘)逻辑与(逻辑乘)用关系词用关系词AND或或“*”表示,表示它所连接表示,表示它所连接的两个检索词必须的两个检索词必须同时出现同时出现在结果中才满足检索条在结果中才满足检索条件。件。例如:例如:“东南亚东南亚*经济危机经济危机”或或 “东南亚东南亚 AND
32、经济危机经济危机”“聚乙烯聚乙烯*复合材料复合材料*制备制备”Intelligent robot and control 逻辑与用来逻辑与用来缩小文献检索范围,提高查准率,缩小文献检索范围,提高查准率,是具有是具有概念交叉和限定关系的一种组配。概念交叉和限定关系的一种组配。逻辑或(逻辑加)逻辑或(逻辑加)用关系词用关系词OR或或“+”表示,表示它所连接的两表示,表示它所连接的两个检索词中个检索词中任意一个出现任意一个出现在结果中就满足检索条件。在结果中就满足检索条件。例如:例如:“金融危机金融危机 OR 金融风暴金融风暴”“自行车自行车+单车单车+脚踏车脚踏车”“计算机计算机 or 电脑电脑
33、or 微机微机”“airplane or aircraft or plane”逻辑或用来逻辑或用来扩大文献检索范围,提高查全率扩大文献检索范围,提高查全率,是具有,是具有概念并列关系的一种组配。概念并列关系的一种组配。逻辑非(逻辑减)逻辑非(逻辑减)用关系词用关系词not或或“-”表示,表示它所连接的两表示,表示它所连接的两个检索词中个检索词中应从第一个概念中排除第二个概念应从第一个概念中排除第二个概念。例如:例如:“beverage not alcohol”“高等教育高等教育-成人教育成人教育”逻辑非用来逻辑非用来缩小文献检索范围,提高查准率。缩小文献检索范围,提高查准率。2、截词检索技术、
34、截词检索技术 所谓所谓截词检索截词检索,是指在检索式中用专门的,是指在检索式中用专门的截词截词符号(如符号(如“?”、“*”或或“!”)表示检索词的)表示检索词的某一部分允许有一定的词形变化某一部分允许有一定的词形变化,因此检索词的不,因此检索词的不变部分加上由截词符号所代表的任何变化形式所构变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词,结果中只要包含其中任成的词汇都是合法检索词,结果中只要包含其中任意一个就满足检索要求。意一个就满足检索要求。截词检索的截词检索的作用作用是对检索词进行截词处理,解决一个检索词的是对检索词进行截词处理,解决一个检索词的单、复数单、复数问题,
35、问题,不同词性不同词性的问题以及的问题以及英美词汇拼写差异英美词汇拼写差异的问的问题等。由于截词检索是题等。由于截词检索是隐含的布尔逻辑或隐含的布尔逻辑或的检索,因此能够的检索,因此能够防止漏检,防止漏检,提高查全率提高查全率。(1)按)按截断部位截断部位可分为:可分为:右截词右截词中间截词中间截词左截词左截词 右截词右截词(后端截词、前端一致):允许检索(后端截词、前端一致):允许检索词尾部有若干变词尾部有若干变化形式化形式,例如,例如“edit*”就检出包含就检出包含edit、editing、edition、editor、editorial、editorialist、editorializ
36、e、editorship、editorially等词汇的结果等词汇的结果等;等;中间截词中间截词:允许检索词允许检索词中间有若干变化形式中间有若干变化形式,例如,例如“wom*n”就可以同时检索到含有就可以同时检索到含有woman和和women的结果,又如的结果,又如“defen*e”就可以同时检索到就可以同时检索到defence和和defense的结的结果;果;左截词左截词(前端截词、后端一致):允许检索词的(前端截词、后端一致):允许检索词的前端有若干前端有若干变化形式变化形式,例如,例如“*magnetic”就能检得包含就能检得包含magnetic、electro-magnetic、pa
37、ramagnetic、thermo-magnetic等结果。等结果。3、词位限定检索技术、词位限定检索技术 词位限定检索词位限定检索:也叫:也叫邻近检索邻近检索,它主要是通过检索式中的专门符号(位,它主要是通过检索式中的专门符号(位置算符)来规定置算符)来规定检索词在结果中的相对位置检索词在结果中的相对位置,主要用于,主要用于词组检索和短语检词组检索和短语检索索。常用的位置算符有。常用的位置算符有 (W)、(nW)、(N)、(nN)。(W)算符算符:(W)是是with的缩写,的缩写,它表示在此算符两侧的检索词必须它表示在此算符两侧的检索词必须严格按输入时的前后顺序出现严格按输入时的前后顺序出现
38、在记在记录中,在两词之间录中,在两词之间不允许插入其他词或字母不允许插入其他词或字母,只可有空格或一个标点符号。,只可有空格或一个标点符号。如:如:x(W)ray检索命中的记录中将有检索命中的记录中将有“x ray”或或“x-ray”等形式。等形式。(nW)算符算符:表示该算符两侧检索词的:表示该算符两侧检索词的词序不变词序不变,但允许两词中间,但允许两词中间最多可插入最多可插入n个其他检索词个其他检索词。如:如:state(2W)art在命中记录可能检出在命中记录可能检出:“state art”、“state of art”、“state of the art”。如智能机器人(如智能机器人(
39、w/3)控制,可检出:)控制,可检出:“智能机器人控制智能机器人控制”、“智能机器人智能机器人行为行为控制控制”等等(N)算符算符:N是是near的缩写,它表示其两侧的检索词的的缩写,它表示其两侧的检索词的词序可以颠倒词序可以颠倒,但在两词之间,但在两词之间不能插入任何其他词。不能插入任何其他词。如:如:environment(N)protection可能检出可能检出:environment protection和和protection environment 两个词组。两个词组。(nN)算符算符:表示在两个检索词之间:表示在两个检索词之间最多允许插入最多允许插入n个其他检索词个其他检索词,两
40、个检索词的,两个检索词的词序可以颠倒词序可以颠倒。如。如:environment(2N)protection可能检出:可能检出:environment protection;protection of the environment;protection of water environment;protection of forest environment等。等。如智能机器人如智能机器人(n/3)控制,可检出:控制,可检出:“智能机器人控制智能机器人控制”,“.控制控制算法对算法对智能机器人的影响智能机器人的影响”等等 4、字段限定检索技术、字段限定检索技术 字段限定符字段限定符(标识符标
41、识符):通常是:通常是两个缩写的字母两个缩写的字母,代表在数据,代表在数据库中的记录库中的记录字段字段。如如:TI代表题名(代表题名(Title),),AU代表著者(代表著者(Author)等。)等。TI=美学美学*AU=朱光潜朱光潜;通常的字段限制范围的大小顺序是:通常的字段限制范围的大小顺序是:题名题名关键词关键词摘要摘要全文全文限定检索字段,其限定检索字段,其作用作用是是限制检索词在数据库记录中出现的限制检索词在数据库记录中出现的字段位置。字段位置。检索时,机器只对限定字段进行运算,这是检索时,机器只对限定字段进行运算,这是提高提高检索效率检索效率的又一措施。的又一措施。内容特征途径内容
42、特征途径主题途径主题途径代码途径代码途径分类途径分类途径 2.3 信息检索的技术与策略 2.3.2 信息检索策略信息检索策略 2、检索途径外表特征途径外表特征途径题名途径题名途径责任者途径责任者途径机构名称途径机构名称途径编号途径编号途径其他途径其他途径世界三大图书分类法世界三大图书分类法杜威十进分类法杜威十进分类法(DDC)(Dewey decimal Classification)国际十进分类法国际十进分类法(UDC)(Universal Decimal Classification)国会图书馆图书分类法国会图书馆图书分类法(LCC)(Library congress classifica
43、tion)中国图书分类法中国图书分类法 中国图书馆分类法中国图书馆分类法(中图法)(中图法)中国科学院图书馆分类法中国科学院图书馆分类法(科图法)(科图法)中国人民大学图书馆分类法中国人民大学图书馆分类法(人大法)(人大法)图书期刊分类法图书期刊分类法 中图法五大部类A.马列毛、邓小平理论B.哲学、宗教C.社会科学总论N.自然科学Z.综合类表表2-1中国图书馆分类法中国图书馆分类法基本大类表基本大类表A 马克思主义、列宁主义、毛泽东思想马克思主义、列宁主义、毛泽东思想N 自然科学总论自然科学总论B 哲学法律哲学法律O 数理科学和化学数理科学和化学C 社会科学总论社会科学总论P 天文学天文学D
44、政治政治Q 生物科学生物科学E 军事军事R 医药、卫生医药、卫生F 经济经济S 农业科学农业科学G 文化、科学、教育、体育文化、科学、教育、体育T 工业技术工业技术H 语言语言U 交通运输交通运输I 文学文学V 航空航天航空航天J 艺术艺术X 环境科学环境科学K 历史地理历史地理Z 综合性图书综合性图书T工业技术 TB一般工业技术-工业技术 TD矿业工程 TE石油、天然气工业 TF冶金工业 TG金属学与金属工艺 TH机械、仪表工业 TJ武器工业 TK能源与动力工程 TL原子能技术 TM电子技术 TN无线电电子学、电信技术 TPTP自自动动化技化技术术、计计算机技算机技术术 TQ化学工业 TS轻
45、工业、手工业 TU建筑科学 TV水利工程表2-2文学类的类目设置文学文学0 文学理论文学理论1 世界文学世界文学2 中国文学中国文学3/7 各国文学各国文学22诗歌、韵文诗歌、韵文23戏剧文学戏剧文学24小说小说25报告文学报告文学26散文散文27民间文学民间文学.222 古代至近代作品(古代至近代作品(1919年)年)226 当代作品(当代作品(19191949年)年)227 现代作品(现代作品(1949年)年)2271 自由诗自由诗2272 抒情诗抒情诗2273 叙事诗叙事诗2277 格律诗格律诗2278 词词2279 其他其他F 经济经济中图法中图法层层隶属、逐级展开的逻辑体系层层隶属、
46、逐级展开的逻辑体系 F0政治经济学政治经济学F1世界各国经济概况世界各国经济概况F2经济计划与管理经济计划与管理F3农业经济农业经济F4工业经济工业经济F5交通运输经济交通运输经济F6邮电经济邮电经济F7贸易经济贸易经济F8财政经济财政经济F71贸易经济理论方法贸易经济理论方法F72中国贸易经济中国贸易经济F73各国贸易经济各国贸易经济F74国际贸易国际贸易F75各国对外贸易各国对外贸易F76商品学商品学F761一般性著作一般性著作F762农产品农产品F763医疗用品医疗用品F764重工业产品重工业产品F765建筑器材建筑器材F766交通运输器材交通运输器材F767化学工业产品化学工业产品F7
47、68轻工业产品轻工业产品分类途径的优缺点分类途径的优缺点1)优点)优点(1)族性检索族性检索,查全率较高。查全率较高。(2)按照人们认识事物的习惯,以学科分类为基础,容易被人们按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用接受和应用【例题例题】检索英语会话类辞典,例如检索英语会话类辞典,例如美国语会话百科美国语会话百科、英英语会话大全语会话大全、现代英汉生活用语图解词典现代英汉生活用语图解词典,请选择,请选择,哪种检索途径才能够同时查出这哪种检索途径才能够同时查出这3本书?本书?【选项选项】A.用关键词用关键词“会话会话”和和“词典词典”B.用中国图书分类号用中国图书分类号H3
48、19.9-61 C.用书名用书名“英语会话英语会话”和和“大全大全”D.用书名用书名“英语会话英语会话”和和“词典词典”分类途径的优缺点分类途径的优缺点2)缺点缺点 (1)不适用于特性检索,查准率比主题词低不适用于特性检索,查准率比主题词低 【例题例题】论文论文活菌制剂与抗生素对仔猪饲料消化率和肠道微生物数量的影响活菌制剂与抗生素对仔猪饲料消化率和肠道微生物数量的影响适合适合用分类途径还是主题途径检索?用分类途径还是主题途径检索?【题解题解】这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且分到两个类目,不易归类
49、,适宜用主题途径检索。分到两个类目,不易归类,适宜用主题途径检索。(2)不能适应学科发展中的变化,难以反映新学科和新名词术语不能适应学科发展中的变化,难以反映新学科和新名词术语 【实例实例】食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文章在分类上暂时归入章在分类上暂时归入 R155.5 食品卫生与检验和食品卫生与检验和 TS201.6 食品安全与卫生。食品安全与卫生。
50、没有一个专门的没有一个专门的“食品风险分析食品风险分析”分类号。分类号。(3)人们认识的不统一,往往造成分类不一致及排检的错误,不易反映交叉学人们认识的不统一,往往造成分类不一致及排检的错误,不易反映交叉学科。科。【实例实例】例如管理心理学,它是心理学的一个分支,主要是研究企业中人的心理活动例如管理心理学,它是心理学的一个分支,主要是研究企业中人的心理活动规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们很可能误解为归入管理学。很可能误解为归入管理学。常见的号码索引:常见的号码索引:ISBN号、号、索