1、吉林建筑大学城建学院吉林建筑大学城建学院第三章第三章 信息检索语言信息检索语言3.1 分类检索语言分类检索语言3.2 规范主题检索语言规范主题检索语言 3.3 非规范主题检索语言非规范主题检索语言 信息检索语言信息检索语言分类检索语言分类检索语言主题检索语言主题检索语言信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。v郑樵郑樵v“人守其学,学守其书,书守人守其学,学守其书,书守其类其类” v“欲明书者,在于明类例欲明书者,在于明类例” v“类例分则百家九流各有条理类例分则百家九流各有条理”v“类例既分,学术自明类例既分,学术自明
2、”3.1 3.1 分类检索语言分类检索语言将代表各种概念的类目用号码来标识以学科属性为主并加以系统排列来组织、检索文献它是按分类途径排检文献的基本工具和重要依据分类检索语分类检索语言即文献分言即文献分类法,简称类法,简称分类法分类法3.1.1 3.1.1 分类检索语言的基本原理分类检索语言的基本原理1 1 概念分析概念分析3.1 3.1 分类检索语言分类检索语言2 类型类型又称列举式分类法又称列举式分类法、枚举式分类法、枚举式分类法、等级体系分类法。等级体系分类法。中图法、科图法、中图法、科图法、人大法均为体系分人大法均为体系分类法。类法。采用体系、组配采用体系、组配相结合的方法。相结合的方法
3、。国际十进分类法国际十进分类法为体系为体系- -组配分类组配分类法。法。体系分体系分类法类法组配分组配分类法类法体系体系- -组配组配分类法分类法又称分面分类又称分面分类法、组面分类法、组面分类法。冒号分类法。冒号分类法是组配分类法是组配分类法的一种。法的一种。v体系分类法是一种直接体现知识分类的等级体系分类法是一种直接体现知识分类的等级制概念标识系统,它是对概括文献信息内容制概念标识系统,它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类法与概括)和系统排列而构成的。体系分类法的主要特点是以分类号为标识,按学
4、科、专的主要特点是以分类号为标识,按学科、专业集中文献,并从知识分类角度揭示各类文业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类献在内容上的区别和联系,提供从学科分类检索文献的途径。检索文献的途径。3 3 体系分类法的基本原理体系分类法的基本原理4 体系分类法的标识与组织方式体系分类法的标识与组织方式 1体系分类法中的体系分类法中的标识符号又称为标识符号又称为分类号。分类号分类号。分类号是采用由字母、是采用由字母、数字或二者混合数字或二者混合的号码体系,作的号码体系,作为大小类目的标为大小类目的标识符号。识符号。标识符号标识符号2体系分类表是按科体系分类表是按科学
5、划分、等级层累学划分、等级层累的逻辑分类进行编的逻辑分类进行编排,能充分揭示事排,能充分揭示事物之间的等级关系物之间的等级关系和相关关系,便于和相关关系,便于进行信息检索。进行信息检索。体系编排体系编排3主要依据类目的等主要依据类目的等级划分,显示上下级划分,显示上下位类目之间的隶属位类目之间的隶属关系。同位类目之关系。同位类目之间的并列关系,采间的并列关系,采用相应方法,显示用相应方法,显示出类目之间的同义出类目之间的同义、相交关系。、相交关系。类目语义关系类目语义关系5 体系分类法的组成体系分类法的组成体系分类法体系分类法编制说明编制说明分类表分类表复分表复分表分类表是分类法的分类表是分类
6、法的主要组成部分,是主要组成部分,是由众多类目组成的由众多类目组成的,通过隶属关系、,通过隶属关系、并列、交互参照等并列、交互参照等方式来显示类目之方式来显示类目之间关系的一览表。间关系的一览表。中图法中图法3.1.2 中国图书馆分类法中国图书馆分类法编制编制说明说明基本基本大类大类简表简表详表详表通用复通用复分表分表基本大类基本大类N N 自然科学总论自然科学总论O O 数理科学和化学数理科学和化学P P 天文学、地球科学天文学、地球科学Q Q 生物科学生物科学R R 医药、卫生医药、卫生S S 农业科学农业科学T T 工业技术工业技术U U 交通运输交通运输V V 航空、航天航空、航天X
7、X 环境科学、安全科学环境科学、安全科学Z Z 综合性图书综合性图书A A 马克思主义、列宁主义、马克思主义、列宁主义、 毛泽东思想、邓小平理论毛泽东思想、邓小平理论B B 哲学、宗教哲学、宗教C C 社会科学总论社会科学总论D D 政治、法律政治、法律E E 军事军事F F 经济经济G G 文化、科学、教育、体育文化、科学、教育、体育H H 语言、文字语言、文字I I 文学文学J J 艺术艺术K K 历史、地理历史、地理其中其中T T 工业技术的二级类目工业技术的二级类目采用两个字母标识:采用两个字母标识:T T工业技术工业技术TBTB一般工业技术一般工业技术 TLTL原子能技术原子能技术
8、TDTD矿业工程矿业工程 TMTM电工技术电工技术 TETE石油、天然气工业石油、天然气工业 TN TN 无线电电子学、无线电电子学、电电 信技术信技术TFTF冶金工业冶金工业 TPTP自动化技术、计自动化技术、计 算技术算技术 TGTG金属学、金属工艺金属学、金属工艺 TQTQ化学工业化学工业 THTH机械、仪表工业机械、仪表工业 TSTS轻工业、手工业轻工业、手工业 TJTJ武器工业武器工业 TUTU建筑科学建筑科学 TKTK动力工程动力工程 TVTV水利工程水利工程以经济类为例,列出中图法的各级以经济类为例,列出中图法的各级类目:类目:F4 F4 工业经济工业经济F F 经济经济F42
9、F42 中国工业经济中国工业经济 F423 F423 工业计划与管理工业计划与管理F423F4231 1 工业计划工业计划例如要查找例如要查找“公路斜拉桥公路斜拉桥”方面的文献方面的文献:U U 交通运输交通运输 U44 U44 桥涵工程桥涵工程 U448.27 U448.27 斜拉桥斜拉桥根据根据“U448U44827”27”这一类号,查找图这一类号,查找图书馆馆藏分类目录书馆馆藏分类目录,就能检索到有关,就能检索到有关“斜拉桥斜拉桥”的馆藏的馆藏文献。文献。3.1.3 国际常用分类法国际常用分类法分类法名称简称主编体系结构杜威十进分类法DC/DDCDC/DDC( (美美) )杜威杜威等级列
10、举式等级列举式国际十进分类法DDCDDC( (比比) )英特勒等英特勒等列举组配列举组配复合体系复合体系美国国会图书馆分类法LCLC美国国会图书馆美国国会图书馆编目组编目组等级列举式等级列举式冒号分类法CCCC( (印印) )阮冈纳赞阮冈纳赞分面组配式分面组配式书目分类法BCBC( (美美) )布利斯布利斯列举组配列举组配复合体系复合体系3.1.4 国际专利分类法国际专利分类法1 IPC1 IPC的结构体系的结构体系 国际专利分类表是根据国际专利分类表是根据国际专利分类法的斯特拉斯堡协定国际专利分类法的斯特拉斯堡协定编编制的,是根据世界知识产权组织制的,是根据世界知识产权组织19941994年
11、出版的年出版的( (第六版第六版) )国际专利类表国际专利类表,共,共9 9个分册。个分册。A A人类生活需要人类生活需要B B作业运输作业运输C C化学冶金化学冶金D D纺织纺织E E固定建筑物固定建筑物F F机械工程、照明机械工程、照明GG物理物理HH电学电学使用指南使用指南 农业、食品、烟草、个人和家庭用品、健康与娱乐农业、食品、烟草、个人和家庭用品、健康与娱乐分离和混合、成形、印刷、运输分离和混合、成形、印刷、运输化学冶金化学冶金纺织和其他类不包括的柔性材料、造纸纺织和其他类不包括的柔性材料、造纸建筑物、挖掘、采矿建筑物、挖掘、采矿震动机与泵、一般情况、照明与加热、武器、爆破震动机与泵
12、、一般情况、照明与加热、武器、爆破仪表、核子学仪表、核子学包括大小类、及大组的索引包括大小类、及大组的索引部部分部分部2 IPC逐级展开原理逐级展开原理A 生活必需品生活必需品 (部)(部) 健康与娱乐健康与娱乐 (分部)(分部) A63 体育体育 竞技竞技 娱乐娱乐 (大类)(大类) A63H 玩具玩具 (小类)(小类) A63H300 玩偶玩偶 (主组)(主组) A63H336 零件,附件零件,附件 (一级(一级分组)分组) A63H338 玩偶的眼睛(二级玩偶的眼睛(二级分组)分组) A63H340 会动(三级分会动(三级分组)组) A63H342 眼睛的制造眼睛的制造(三级分组)(三级
13、分组)3.1.5 书店图书分类书店图书分类学人书店分类:学人书店分类:计算机;教育;教育理论;经济;考试;计算机;教育;教育理论;经济;考试;历史;新闻出版;外语;文化;文学;历史;新闻出版;外语;文化;文学;哲学哲学; ;其他等其他等1212大类。大类下还有若干大类。大类下还有若干子类。子类。如计算机大类下分为:办公软件;编程;如计算机大类下分为:办公软件;编程;操作系统;电子电路;多媒体;计算机操作系统;电子电路;多媒体;计算机;计算机读物;计算机维护;数据结构;计算机读物;计算机维护;数据结构;数据库;图形处理;网络;网页设计;数据库;图形处理;网络;网页设计;微机原理;微机原理; 联合
14、书城分类:联合书城分类:马列恩毛;哲学宗教;语言文字;医学卫生;马列恩毛;哲学宗教;语言文字;医学卫生;社会科学;生物科学;冶金工业;动力工程社会科学;生物科学;冶金工业;动力工程;建筑工业;交通运输;计算机类;轻手工;建筑工业;交通运输;计算机类;轻手工业;历史地理;航空航天;化学工业;矿业业;历史地理;航空航天;化学工业;矿业工程;自然科学;无线电子;武器工业;环工程;自然科学;无线电子;武器工业;环境科学;电工技术;工业技术;农业林业;境科学;电工技术;工业技术;农业林业;政治法律;金属工艺;教辅教程;工业技术政治法律;金属工艺;教辅教程;工业技术;机械仪表;综合类图书;数理化;原子能;
15、机械仪表;综合类图书;数理化;原子能技术;军事;石油天然气;经济;青少年必技术;军事;石油天然气;经济;青少年必读;艺术;天文地球科学;其它;读;艺术;天文地球科学;其它; 共共3939类类。 新华书店分类:新华书店分类:小说;文学;艺术;人文社科;投资理财;管小说;文学;艺术;人文社科;投资理财;管理;经济;少儿;生活;科技;计算机;理;经济;少儿;生活;科技;计算机;外语;文化教育;教辅;大中专教材等外语;文化教育;教辅;大中专教材等1414大类,每个大类下有若干子类。大类,每个大类下有若干子类。如计算机大类下分为:图形图像;网页制作;如计算机大类下分为:图形图像;网页制作;计算机考试;英
16、文原版书;数据库;编程计算机考试;英文原版书;数据库;编程语言;操作系统;网络技术;软硬件技术语言;操作系统;网络技术;软硬件技术;输入法;基础培训;工具书;输入法;基础培训;工具书; 三家书店分类比较三家书店分类比较 1 1)根据经营特点、品种规模、读者对象、)根据经营特点、品种规模、读者对象、地区情况等地区情况等 确定类目层次,组织自家的分类体系。确定类目层次,组织自家的分类体系。 2 2)根据销售情况调整类目的级别。)根据销售情况调整类目的级别。 3 3)类名的设置使读者更容易理解。)类名的设置使读者更容易理解。 4 4)确立以陈列宣传为中心的分类原则。)确立以陈列宣传为中心的分类原则。
17、 5 5)结合主题进行分类。)结合主题进行分类。 6) 6) 在求新、求变中把握读者心理。在求新、求变中把握读者心理。 书店图书分类的特点书店图书分类的特点:3.1.6网络分类网络分类法法v网络信息的特点:网络信息的特点: 数量巨大而繁杂;数量巨大而繁杂; 内容范围广泛;内容范围广泛; 信息类型众多;信息类型众多; 动态性高;动态性高; 超文本链接;超文本链接; 有序与无序。有序与无序。1 1 网络信息的特点网络信息的特点v网络信息用户的特点:网络信息用户的特点: 用户范围极广;用户范围极广; 受教育程度差别极大;受教育程度差别极大; 利用网络信息的目的利用网络信息的目的和类型存在明显差异;和
18、类型存在明显差异; 用户使用的网络服务用户使用的网络服务不同。不同。 2 网络信息分类法与传统信息分类法的比网络信息分类法与传统信息分类法的比较较传统分类法:物传统分类法:物理的、实体的理的、实体的文献文献 ;网络分类法:信网络分类法:信息资源息资源传统分类法以文献收藏部传统分类法以文献收藏部门为使用对象,文献门为使用对象,文献的出版是受控制的、的出版是受控制的、内容是经过一定筛选内容是经过一定筛选的,分类体系具有稳的,分类体系具有稳定性。定性。网络信息分类法以搜索引网络信息分类法以搜索引擎或大型网站为使用擎或大型网站为使用对象,网络信息总体对象,网络信息总体上是不受控制的。上是不受控制的。
19、传统分类法:不传统分类法:不可缺少可缺少 网络分类法:用网络分类法:用户不需使用,户不需使用,但作为网络分但作为网络分类法的后台运类法的后台运作,需使用。作,需使用。分类对象分类对象信息知识范围信息知识范围分类标记分类标记依据依据传统分类法以文传统分类法以文献内容的学科献内容的学科属性为主要的属性为主要的聚类标准聚类标准网络分类法以主网络分类法以主题为主要标准题为主要标准 3 3 网络信息分类法的功能网络信息分类法的功能1 1)满足对互联网上各种类型信息组织的需要;)满足对互联网上各种类型信息组织的需要;2 2)满足对互联网上各个知识领域信息组织的需要;)满足对互联网上各个知识领域信息组织的需
20、要;3 3)具有科学性、实用性,能满足各类用户浏览查询的)具有科学性、实用性,能满足各类用户浏览查询的 动态分类体系;动态分类体系;4 4)充分揭示信息知识的内容相关性;)充分揭示信息知识的内容相关性;5 5)能对搜索的信息进行有效的控制和过滤;)能对搜索的信息进行有效的控制和过滤;6 6)面向最终用户;)面向最终用户;7 7)能与主题检索相互配合;)能与主题检索相互配合;8 8)有丰富的信息输出。)有丰富的信息输出。共分类共分类6363个,以加个,以加黑或加红标示重点黑或加红标示重点共分类共分类6464个,以个,以红色标示重点红色标示重点共分类共分类4242个,以黑个,以黑色标示重点色标示重
21、点v规范主题检索语言规范主题检索语言 v主题词主题词就是我们常说的主题词检索语就是我们常说的主题词检索语言,它所使用的检索标识是将言,它所使用的检索标识是将自然语言中的词汇经过人工规自然语言中的词汇经过人工规范化后的语言词汇。所以我们范化后的语言词汇。所以我们将主题词检索语言叫做规范主将主题词检索语言叫做规范主题检索语言,它是在手工信息题检索语言,它是在手工信息检索和计算机数据库检索中运检索和计算机数据库检索中运用较为广泛的检索语言。用较为广泛的检索语言。以自然语言为基础,经过标准以自然语言为基础,经过标准化处理的词语。它能直接表达化处理的词语。它能直接表达文献所论及或涉及的事物文献所论及或涉
22、及的事物主题,而不管该文献是从哪个主题,而不管该文献是从哪个角度、从什么学科来论述该事角度、从什么学科来论述该事物物主题。自然词汇具有一主题。自然词汇具有一词多义和一义多词的现象,如词多义和一义多词的现象,如学名和俗称、简称和全称等。学名和俗称、简称和全称等。3.2 3.2 规范主题检索语言规范主题检索语言3.3.1 3.3.1 关键词法关键词法1 1 原理原理关键词关键词是指那些出现在文献的是指那些出现在文献的标题、摘要以至正文中,对表标题、摘要以至正文中,对表征文献主题内容具有实质意义征文献主题内容具有实质意义的语词,或者说对揭示和描述的语词,或者说对揭示和描述文献主题内容是重要的、带有文
23、献主题内容是重要的、带有关键性的那些语词。关键性的那些语词。关键词语是直接从文献的书名、篇关键词语是直接从文献的书名、篇名、摘要和正文中选取的关键词,名、摘要和正文中选取的关键词,在标引和检索时不需词表。由于所在标引和检索时不需词表。由于所选的词汇保持了作者的用词原型,选的词汇保持了作者的用词原型,所以同义词、近义词及一词多形态所以同义词、近义词及一词多形态的词汇都同时并存。每个关键词都的词汇都同时并存。每个关键词都可以作为检索可以作为检索“入口词入口词”。3.3 3.3 非规范主题检索语言非规范主题检索语言2 用关键词检索时应注意的几个问题用关键词检索时应注意的几个问题词汇的选择词汇的选择应
24、用范围应用范围关键词与关键词与主题词主题词在选用关键词法建立在选用关键词法建立的数据库时,选择检的数据库时,选择检索词时要将所有反映索词时要将所有反映同一概念的词汇如同同一概念的词汇如同义词、近义词及一词义词、近义词及一词多形词都作为检索词多形词都作为检索词,否则将造成漏检。,否则将造成漏检。 在手工检索工具中,关在手工检索工具中,关键词只适合作为用于利键词只适合作为用于利用关键词法编制的检索用关键词法编制的检索工具检索词,而对于用工具检索词,而对于用主题词法编制的检索工主题词法编制的检索工具,关键词则不能直接具,关键词则不能直接作为检索词使用,需经作为检索词使用,需经主题表核对后方能确定主题
25、表核对后方能确定是否可以作为检索词。是否可以作为检索词。 (1 1)在文献量较少的)在文献量较少的情况下,可以用关键情况下,可以用关键词进行全文检索,以词进行全文检索,以扩大检索范围;扩大检索范围;(2 2)在文献量较多的)在文献量较多的情况下,要用主题词情况下,要用主题词检索,并进行检索字检索,并进行检索字段限制;段限制;(3 3)在检索的概念较)在检索的概念较新时,可用关键词作新时,可用关键词作检索词。检索词。3.3.2 纯自然语言法纯自然语言法1 1 原理原理2 2 检索中易出现的问检索中易出现的问题题纯自然语言法是指完全使用纯自然语言法是指完全使用自然语言,即对一条完整的自然语言,即对一条完整的信息中任何词汇都可以进行信息中任何词汇都可以进行检索。在检索过程中一般是检索。在检索过程中一般是采用全文匹配检索,只要文采用全文匹配检索,只要文中有与检索词相同的词即为中有与检索词相同的词即为命中,不用索引进行检索。命中,不用索引进行检索。纯自然语言主要是运用在计纯自然语言主要是运用在计算机全文数据库检索和算机全文数据库检索和InternetInternet信息检索。信息检索。使用纯自然语言使用纯自然语言法,在检索中最法,在检索中最大的问题是误检大的问题是误检索率极高。索率极高。