网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx

上传人(卖家):晟晟文业 文档编号:5072976 上传时间:2023-02-08 格式:PPTX 页数:84 大小:661KB
下载 相关 举报
网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx_第1页
第1页 / 共84页
网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx_第2页
第2页 / 共84页
网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx_第3页
第3页 / 共84页
网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx_第4页
第4页 / 共84页
网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、 北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京

2、交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大

3、学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版

4、社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社2-2February 8,20231 信息检索的基本概念 1.1 信息检索的涵义信息检索的涵义 从广义上讲,信息检索包括两个过程,一是信息存储信息存储(information storage),即信息的标引、加工和存储过程:二是信息检索

5、信息检索(information retrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程匹配的过程 即用户的信息需求和信息存储的信息集合进行比较和选择的过程2-3February 8,2023信息存储和检索过程的基本原理信息存储和检索过程的基本原理 输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析2-4February 8,2023 计算机信息检索计算机信息检索是对信息进行收集、分是对信息进行收集、分类、标引、著录,并加以有序化组织,将类、标引、著录,并

6、加以有序化组织,将信息储存到计算机存储信息系统中,编制信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具以及出一个信息检索系统或信息检索工具以及从检索系统或工具中检索所需信息的过程从检索系统或工具中检索所需信息的过程。n1.2 计算机信息检索计算机信息检索2-5February 8,2023用户输入检索需求分析转换处理需求检索检索 概念词的相关匹配相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理 计算机信息检索的基本原理计算机信息检索的基本原理2-6February 8,20231.3 信息检索的类型信息检索的类型 按信息检索的内容划分 文献检索文献检索 数据

7、检索数据检索 事实检索事实检索 概念检索概念检索按信息检索的组织方式划分超文本检索超文本检索是对每个节点中储存的信息以每个节点中储存的信息以及信息链构成的网络信息进行的检索及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统靠系统提供的工具进行图示穿行和节点展示,提提供的工具进行图示穿行和节点展示,提供浏览式查询供浏览式查询,可进行跨库检索。WWW2-7February 8,20232 检索系统 检索系统检索系统(retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的

8、是为人们提供信息服务。2-8February 8,20232.1 检索系统的功能模块检索系统的功能模块 信息源选择与采集子系统信息源选择与采集子系统对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统标引子系统标引处理的类型:人工赋词标引、机器标引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统建库子系统工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。2-9February 8,20232.1 检索系统的功能模块检索

9、系统的功能模块 词表管理子系统词表管理子系统主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统用户接口子系统一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural language)。提问处理子系统提问处理子系统检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运

10、算,然后把运算结果返回给用户。2-10February 8,20232.2 文档文档记录记录字段字段 检索系统的基本组织形式由三个层次构成。文档(file):检索系统至少包括一个顺排文档(sequential files)。有的还包括一个倒排文档(inverted files)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对信息实体的具体属性进行描述的结果。2-11February 8,20232.2 文档文档记录记录字段字段 检索系统的基本组织结构关系:检索系统的基本组织结构关系:数据库数

11、据库 database 文档文档 file,archive 顺排文档顺排文档 记录记录Record 字段字段Field倒排文档(索引倒排文档(索引index)2-12February 8,20233 检索语言检索语言 检索语言检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。检索语言检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。在存储的过程中用于标引信息称为标引语言;用于编制索引就称为索引语言;用于信息检索则称为检索语言。2-13February 8,20233.1 检索语言的种类检

12、索语言的种类 分类语言分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题分类语言主题分类语言 其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑不是按逻辑顺序排列。顺序排列。优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利示非常有利。科学分类语言科学分类语言 学科分类语言是学科分类语言是以知识分类为基本,按照

13、学科性质及从属、层次关系来以知识分类为基本,按照学科性质及从属、层次关系来组织资源组织资源,类目排序以字顺为标准。,类目排序以字顺为标准。优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检索的要求索的要求。图书分类语言图书分类语言 目前采用的主要有杜威十进分类法(目前采用的主要有杜威十进分类法(DDC)、国际十进分类法()、国际十进分类法(UDC)、)、美国国会图书馆分类法(美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法)和中国图书馆图书分类法(中图法)2-14February 8,2023 主题语

14、言主题语言(subject language)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。2-15February 8,2023检索语言检索语言的类型的类型描述内容描述内容特征语言特征语言主题语言自然语言受控语言分类语言描述外表

15、描述外表特征语言特征语言代码语言责任者题名其他n关键词语言(keyword)n标题词语言(heading)n单元词语言(uniterm)n叙词语言(descriptor)2-16February 8,2023分类语言分类语言 分类语言中最常见的是体系分类语言体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。专利分类表 中国科学院图书分类法 中国图书馆图书分类法中国图书馆图书分类法 杜威十进分类法(国外)2-17February 8,2023中国图书馆图书分类法 基本部类:基本部类:1、马克思主义、列宁主义、毛泽东思、马克思主义、列

16、宁主义、毛泽东思想、邓小平理论想、邓小平理论 2、哲学、哲学 3、社会科学、社会科学 4、自然科学、自然科学 5、综合性图书、综合性图书基本大类:基本大类:(22个)个)A 马列主义毛泽东思想邓小平理论马列主义毛泽东思想邓小平理论 N 自然科学总论自然科学总论 B 哲学哲学 O 数理化科学数理化科学 C 社会科学总论社会科学总论 P 天文学、地理天文学、地理 D 政治、法律政治、法律 Q 生物科学生物科学 E 军事军事 R 医学、卫生医学、卫生 F 经济经济 S 农业科学农业科学 G 文化、科学、教育、体育文化、科学、教育、体育 T 工业技术工业技术 H 语言、文字语言、文字 U 交通运输交通

17、运输 I 文学文学 V 航空、航天航空、航天 J 艺术艺术 X 环境科学环境科学 K 历史、地理历史、地理 Z 综合性图书综合性图书 2-18February 8,2023中国图书馆图书分类法中国图书馆图书分类法 F 经济 F1 世界各国经济概况、经济史、经济地理 F11 世界经济、国际经济关系 F12 中国经济 F13/17 各国经济 F2 经济计划与管理 F20 国民经济管理 F21 经济计划 F22 经济计算、经济数学方法 F23 会计 F239 审计 F24 劳动经济 F25 物资经济 2-19February 8,20232-20February 8,2023中国图书馆图书分类法中国

18、图书馆图书分类法 T 工业技术 TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电讯技术 TF 冶金工业 TP 自动化技术、计算机 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程 2-21February 8,2023 图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。字母部分按英文字母固有的次序排列。例:B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 T

19、M92电气化、电能应用 TU201建筑设计原理 分类号中的阿拉伯数字依小数制排列。例:B021辩证唯物主义的物质论 B022辩证唯物主义的意识论 B022.2客观规律性与主观能动性 D035.37交通公安管理 D035.4监察、监督分类号的排列次序分类号的排列次序 2-22February 8,2023分类号的排列次序分类号的排列次序(续)数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:TP312AL ALGOL程序语言 TP312BA BASIC程序语言 TP312CO COBOL程序语言 总论复分号“-”要排在数字“0”的前面。例:H-61,H0,H31-61,H310

20、,总论复分号“-”要排在组配符号“:”的前面。例:H31,H31-62,H31:F,H31:I,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,2-23February 8,2023 读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号索取号)。索书号索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第一部分是分类号,第二部分是书次号第二部分是书次号。索书号的两部分之间有一个空格空格或一条斜线斜线“/”。书次号书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码

21、。不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。分类号和索书号分类号和索书号2-24February 8,2023重新排列以下索取号的顺序重新排列以下索取号的顺序TP3/1044 TP3-43/3060 TP311.13/1713

22、TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723 2-25February 8,2023主题语言关键词语言关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。标题词语言标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。例如:一篇文章用“微型计算机”这个术语来叙述它的研究

23、对象,另一篇文章用“微型电脑”来叙述,第三篇文章用“微机”来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用用“微型计算机微型计算机”作标题词作标题词(实际上是“主标题词”,根据主题词表决定)。2-26February 8,2023主题语言 单元词语言单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。单元词单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。例如:“计算机计算机”、“软件软件”、“固相固相”、“相相”。叙词语言叙词语言是以自然语言为基础,以

24、概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。例如:在叙词语言的检索系统中用“计算机计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换同义词替换即可查全。2-27February 8,2023主题语言 主题语言(标题词、单元词、叙词)的规范化处理:词义规范:词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国

25、与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。词类规范:词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。词形规范:词形规范:即对词的繁简体、词序、字母符号等的规定。2-28February 8,2023代码语言代码语言 代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物

26、及其相关的信息。2-29February 8,2023自然语言自然语言 自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。例如:如有人输入:how to control drivers of hard disk,检索系统会自动提取检索词,然后进行过滤和检索。注意:Google和专业数据库的检索语言和专业数据库的检索语言区

27、别区别。2-30February 8,2023 4 4 检索方法及检索途径检索方法及检索途径 4.1 4.1 检索方法检索方法查找查找(Searching)(Searching)就是实施检索策略、搜寻所就是实施检索策略、搜寻所得文献信息的过程。以下几种方法,无论是计算得文献信息的过程。以下几种方法,无论是计算机还是手工检索,都是常用的方法。机还是手工检索,都是常用的方法。“拉网法拉网法”在不了解查询某一专题信息的在不了解查询某一专题信息的URLURL地址时,可从提供信地址时,可从提供信息总目的息总目的Web Web 页面开始浏览,沿着专题链接层层查找,直页面开始浏览,沿着专题链接层层查找,直至

28、找到有关的内容为止。然后用至找到有关的内容为止。然后用“书签书签”保存这个页面的保存这个页面的URLURL,转向另一个分支。这种方法可以迅速获得较多的相,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。议先用链接页面多、响应时间快的引擎。2-31February 8,2023 引文法引文法(跟踪法跟踪法)文献之间的引证和被引证关系揭示了文文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法献之间存在的某种内在联系,引文法(也有也有称为跟踪法称为跟踪法

29、)就是利用文献后所附的参考文就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求关文献的方法。这些材料指明了与用户需求最密切的文献线索,往往包含了相似的观点、最密切的文献线索,往往包含了相似的观点、思路、方法,具有启发意义思路、方法,具有启发意义。2-32February 8,2023 引文法又可分为两种,一种是由远及近地搜寻,引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的哪些其它文献引

30、用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引,如要依靠专门的引文索引,如 科学引文索引科学引文索引、社会科学引文索引社会科学引文索引 。2-33February 8,2023 另一种较为普遍的查法是由近及远地另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这

31、种方多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询,法适合于历史研究或对背景资料的查询,其缺点是越查材料越旧,追溯得到的文献其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,为起点,它们所附的参考文献筛选严格,有时还附有评论。有时还附有评论。2-34February 8,2023常规法常规法 所谓常规法就是利用常规检索工具查找有关所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信

32、息文献的方法,是信息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手段已日趋完查找方法。现在对文献的书目控制手段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检善,各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷,有很大的挑选余地。用户应根索工具层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工据自己的检索知识和条件选用一种或几种检索工具。具。常规法可分为顺查法、逆查法和抽查法。常规法可分为顺查法、逆查法和抽查法。2-35February 8,2023排除、限定和合取法排除、限定和合取法 这实际上是将信息加工的方法融入检索中这实际上是将信息加工的方法融

33、入检索中去。思维中使用去。思维中使用排除这一概念,是指对查找对排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外象的产生和存在的状态在时间和空间上加以外在否定。在否定。把这一方法移植到检索中,就是在时把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。间或空间上极大地收缩检索范围。限定法是相限定法是相对于排除法而言的,指对查找对象在时间和空对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定间上加以内在的肯定。排除的结果必然是限定,。排除的结果必然是限定,反之亦然。反之亦然。2-36February 8,20234.2 信息检索的途径信息检索的途径 所谓检索途径

34、就是检索时切入信息群体的所谓检索途径就是检索时切入信息群体的路径。路径。检索途径有两大类,一类是用信息的外检索途径有两大类,一类是用信息的外部特征,如题名、责任者、某种序号、机构名部特征,如题名、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作在数据库中检索时,几乎所有的字段都可以作为检索的途径。为检索的途径。2-37February 8,2023检索语言与检索途径的关系检索语言与检索途径的关系 2-38Februa

35、ry 8,2023分类检索分类检索 这种检索是根据信息内容的学科分这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。系统性,而且具有较好的族性检索功能。分类检索的要点:分类检索的要点:1 1。对待检课题的概。对待检课题的概念及学科间的各种关系清楚;念及学科间的各种关系清楚;2 2。正确。正确掌握相关课题的分类名称、分类号,手掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。工检索中掌握工具的分类排检。2-39February 8,2023分类检索的步骤:分类检索的步骤:1 1。分析待检课题,确定其学

36、科,并弄。分析待检课题,确定其学科,并弄 清学科间的清学科间的各种关系。各种关系。2 2。查出待检课题的分类号(工具简单时可以。查出待检课题的分类号(工具简单时可以 省略)省略)3 3。选择适当的检索工具。选择适当的检索工具 4 4。进入检索系统后选择分类号途径,并在对话框内。进入检索系统后选择分类号途径,并在对话框内 输入分类号,开始检索。输入分类号,开始检索。5 5。对比题目,阅览相关信息,选出所需信息,并下。对比题目,阅览相关信息,选出所需信息,并下载相关信息载相关信息6 6。原文的索取。原文的索取2-40February 8,2023词汇检索词汇检索 与分类号检索相比,词汇检索具有直与

37、分类号检索相比,词汇检索具有直观、灵活、专指性和适应性好的特点,同观、灵活、专指性和适应性好的特点,同时检索速度也比分类检索快。时检索速度也比分类检索快。词汇检索的要点:首先是要选好检词汇检索的要点:首先是要选好检索词,正确理解词间关系,检索中还要注索词,正确理解词间关系,检索中还要注意词间关系的正确表达。意词间关系的正确表达。常用的词汇检索常用的词汇检索有关键词检索和主题检索。计算机检索时,有关键词检索和主题检索。计算机检索时,选择任意字段检索时,检索项也可以是各选择任意字段检索时,检索项也可以是各种词汇。种词汇。2-41February 8,2023 词汇检索的步骤:词汇检索的步骤:a a

38、、分析课题,确定检索词及词间关系分析课题,确定检索词及词间关系 b b、选择适当的检索工具、选择适当的检索工具 c c、选择词汇检索途径,在对话框内输入检索词、选择词汇检索途径,在对话框内输入检索词 (注意词间关系的表达)(注意词间关系的表达)d d、根据快捷显示,选出有用信息并下载。根据快捷显示,选出有用信息并下载。e e、原文的索取原文的索取2-42February 8,2023 责任者途径责任者途径:姓前名后,名缩写;姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如De Leferore,Alfred Von Kampf;团体机构名称名按名称字顺排。号码途径:号码

39、途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号标准号,专利说明书的专利号专利号,科技报告的报告号报告号,学会的会议论文连续号论文连续号,或合同号合同号、任务号任务号、国际国际标准书号标准书号(ISBN)、国际标准刊号国际标准刊号(ISSN),以及文献收藏单位编的馆藏号馆藏号、索取号、排架号索取号、排架号等,都可以此作为检索点。2-43February 8,2023其他检索途径其他检索途径1、题名检索、题名检索 包括书名、刊名、篇名和其他信息的标包括书名、刊名、篇名和其他信息的标 题等题等2、机构、机构3、来源、来源4、其他特殊途径、其他特殊途径2-44F

40、ebruary 8,20235 5 常用的检索技术常用的检索技术 检索技术检索技术是指应用于信息检索过程的原是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩关性等方面对检索提问进行组配、加权、扩展、截词、位置、限定的比较和运算处理技展、截词、位置、限定的比较和运算处理技术。术。2-45February 8,20235.1 布尔检索布尔检索 布尔检索(boolean retrieval)是是用布尔逻辑算符将检索词、短语或用布尔逻辑

41、算符将检索词、短语或代码进行逻辑组配的一种技术,也代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。是目前最常用的一种检索技术。2-46February 8,2023逻辑“与”具有概念交叉或概念限定关系的组配,用具有概念交叉或概念限定关系的组配,用“*”或或“ANDAND”算符表示算符表示。检索词检索词A A和检索词和检索词B B用用“与与”组配,检索式为:组配,检索式为:A AND BA AND B,或者,或者 A A*B B它表示检出它表示检出同时含有同时含有A A、B B两个检索词两个检索词的记录。的记录。2-47February 8,2023逻辑“或”逻辑逻辑“或或”是一种具有

42、概念并列关系的组配,是一种具有概念并列关系的组配,用用“+”或或“OR”算符表示。算符表示。检索词检索词A A和检索词和检索词B B用用“或或”组配,检索式为:组配,检索式为:A OR BA OR B,或者,或者 A AB B它表示检出它表示检出所有含有所有含有A A词或者词或者B B词词的记录。的记录。2-48February 8,2023逻辑“非”逻辑逻辑“非非”是一种具有概念排除关系的组配,是一种具有概念排除关系的组配,用用“”或或“NOT”算符表示。算符表示。检索词检索词A和检索词和检索词B用用“非非”组配,检索式为:组配,检索式为:A Not B,或者,或者 A-B它表示检出它表示检

43、出含有含有A词,但同时不含词,但同时不含B词词的记录。的记录。2-49February 8,2023 5.2 截词检索截词检索 截词检索截词检索(truncation retrieval)是指在检索词是指在检索词的适当位置截断,用截断的词的一个局部进行的的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。分一致性匹配,所以又称部分一致检索。检索时,计算机会将所有含有相同部分标识检索时,计算机会将所有含有相同部分标识的记录全部检索出来。的记录全部检索出来。截词符多截词符多采用通配符采用通

44、配符“?”、“$”、“*”等等,因,因此,截词检索有时也称为通配符(此,截词检索有时也称为通配符(wildcardwildcard)检)检索。索。按截断的位置来分按截断的位置来分;按截断的字符数量来分按截断的字符数量来分。2-50February 8,2023n后截断n中截断n前截断无限截断如:economic?有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen如:?lish sul*ur sulfur sulphur 无限截

45、断有限截断n前后截断如:?computer?可检出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers 2-51February 8,2023 位置检索位置检索是一种可以不依赖叙词表是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算置关系为对象进行组配运算。5.3 位置检索位置检索 2-52Februa

46、ry 8,2023(W)与与(nW)算符算符 (W)算符是算符是“With”的缩写,表示此算符两侧的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,的检索词必须按此前后邻接的顺序排列,顺顺序不可颠倒,而且检索词之间不允许有其他序不可颠倒,而且检索词之间不允许有其他的词或字母,的词或字母,但允许有空格或连字符号。例但允许有空格或连字符号。例如:输入如:输入gas(W)condensate可检索出包含可检索出包含gas condensate 和和gas-condensate的记录。的记录。2-53February 8,2023(nW)算符是算符是“nWords”的缩写,表示此的缩写,表示此

47、算符两侧的检索词之间算符两侧的检索词之间允许插入允许插入n个实个实词或虚词词或虚词,但两个,但两个检索词的次序还是不检索词的次序还是不能颠倒能颠倒。例如:。例如:laser(1W)printer可可检索出包含检索出包含“laser printer”、“laser color printer”和和“laser and printer”的记录。的记录。2-54February 8,2023(N)与与(nN)算符算符 (N)算符是算符是“Near”的缩写,表示此算符的缩写,表示此算符两侧的检索词彼此两侧的检索词彼此必须相邻接必须相邻接,但两个,但两个检索词的检索词的前后关系可以颠倒前后关系可以颠倒,

48、即查找两即查找两个连在一起的单词,但个连在一起的单词,但两词之间不能插两词之间不能插入任何词入任何词。例如:。例如:money(N)supply可检索出包含可检索出包含money supply和和supply money两个词组的记录。两个词组的记录。2-55February 8,2023(nN)算符是算符是“nNear”的缩写,表示此的缩写,表示此算符两边的算符两边的检索词之间插入词的最多数检索词之间插入词的最多数目是目是 n 个个,且两个检索词的,且两个检索词的次序可以任次序可以任意颠倒意颠倒。例如:。例如:economic(2N)recovery 可以检出包含可以检出包含economic

49、 recovery、recovery of the economy、recovery from economic troubles的记录。的记录。2-56February 8,2023(S)算符算符 (S)算符是算符是“Sub-field/Sentence”的缩写,表的缩写,表示在此示在此运算符两侧运算符两侧的检索词只要出现在记录的的检索词只要出现在记录的同一个子字段内同一个子字段内(例如在文摘中的一个句子就(例如在文摘中的一个句子就是是一个子字段一个子字段),此信息即被命中。要求被连),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子接的检索词必须同时出现在记录的同一句子(同一

50、子字段)中,(同一子字段)中,不限制它们在此子字段中不限制它们在此子字段中的相对次序的相对次序,中间插入词的,中间插入词的数量也不限数量也不限。例如,。例如,“high(W)strength(S)steel”表示只要在同一表示只要在同一句子中检索出含有句子中检索出含有“high strength 和和steel”形式的均为命中记录。形式的均为命中记录。2-57February 8,2023(F)算符算符 (F)算符是算符是“Field”的缩写,表示在此运算符的缩写,表示在此运算符两侧的检索词必须两侧的检索词必须同时出现在文献记录的同时出现在文献记录的统统一一字段内字段内,如出现在篇名字段、文摘

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(网络信息资源信息开发与利用第2章信息检索基础知识课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|