1、第四章: 检索语言检索语言概述计算机检索语言索引语言索引语言的举例主讲人:施亮联系电话:一、检索语言概述 文献存贮时,文献的内外特征按照一定的语言来加以描述,而检索时情报提问也是按照一定的语言来加以表达。所以这种把文献的存贮与检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言,就叫做情报检索语言。 检索语言,就其描述文献的有关特征而言,可分为:描述文献外表特征的语言和描述文献内容特征的语言两大范畴。外表特征:就是文献上记明的、显而易见的特征。 如:题名、著者姓名、文献序号等内容特征:带有主观性,更需要标引与检索人员的智力判断。 它是检索语言研究的核心。 外表特征语言(
2、书目引文语言)题名(书名、篇名)著者姓名文献序号(如:ISBN、ISSN 专利号、报告号等)书目引文出版事项文献类型 内容特征语言非句法语言句法语言等级制体系分类法标题词关键词叙 词单元词加标志的叙词组面词(如:组面分类法)短 语文献全文的自然语言二、索引语言 情报检索语言包括 :索引语言、检索提问语言和数据定义语言。 其中索引语言是建立书目文档(或称书目数据库)的语言,是决定书目数据库质量的重要因素也是情报提问语言的基础。所以它是整个情报检索语言的核心部分。(一)索引语言性能的评价准则 与自然语言相比,索引语言所起的作用是专门的和有限的,可以根据四种属性对其优劣进行评价和比较。1、表达性 有
3、时也称“专指度” 。这是索引语言确认一个主题事物,区分不同的主题事物、何在不同的明细度上表述一个主题事物的能力。这里是语言的表达潜力,而不是指语言使用者的技巧。2、唯一性二、索引语言 指一个词只应有一种概念,一种概念,一种概念只应由一个词来表达,即不能模棱两可、一词多义或者多词一义。3、简洁性 也可以称为压缩性或致密性。这是指表达一定情报含量所要求的一个索引词的长度与大小。4、经济性这里主要指:A、标引一个或多个索引词来表达文献主题内容是做出决策所花的时间代价;B、选择合适的检索词来表达自己情报需求的时间;C、培训人们使用这种语言的花费、辞典的编制与维护、改错的费用等。二、索引语言(二)索引语
4、言的结构与种类结构反映文献内容特征的索引语言由两部分组成: 词汇 和 句法。词汇,是索引记录中用来表达文献内容的词的集合。 例如:分类号码的集合,就是分类法这种语言的词汇。句法,是将词汇中的单元(词)组成语言单元的一套规则。这种语言单 元(句法单元)可能是基本词汇所不能表达的,因而它是扩展词 汇表达能力的手段。 例如:由句法组成的 “学校实验室” 这种概念是基本词汇所不能表达的。非句法语言句法语言等级制体系分类法标题词关键词叙 词单元词加标志的叙词组面词(如:组面分类法)短 语文献全文的自然语言2、种类二、索引语言索引语言(三)索引语言中改善查全、查准率的措施二、索引语言采用有利于改善查全率的
5、措施,就能增加检出的文献量。1、同义词控制法 是指当一个概念具有多个同义词的时候,为了保证标引与检索的一致性,避免文献的分散和漏检,指引词汇的使用者从其他的同义词找到一个被专门选择作为正式主题词的词的用法。 例如: 用符号 USE、SEE、Y (用) 从正式词引见非正式的词,则用 USE FOR、D(代)要注意,同义词有两种: 一种是 “完全等价的同义词” 另外是 “准同义词”(近义词)二、索引语言2、词的关联法索引词的关联,最普通的形式是等级上的关联。例如:A、由专指词到较泛指的词,使用符号 BT (broader term),或者 S (属) B、由泛指词到较专指的词,使用符号 NT (n
6、arrower term),或者 F (分) C、由指向近义的词,使用符号 RT (related term),或者 C (参),或 see also (参见) 二、索引语言汉语主题词表词的关联举列 交流发电机F 同步发电机 异步发电机S 发电机 交流换向电机D 交流整离子电机S 交流电机Z 电机C 调速电动机 异步电动机二、索引语言3、字形的控制法 即把具有同一词根的字组合在一起。当然这不是提供标引的措施,而是提供检索用的辅助手段。在计算机检索中,是采用截词实现的:例如: “反射”、“反射波”、“反射性”、“反射望远镜” 等。 都有 reflect,用 reflect 进行截词检索,就能检索
7、出与“反射”有关的 所有文献。 在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多的文献,从而改善查全性。例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。4、聚类法二、索引语言5、组 配即两个或两个以上概念的组合,有两种组配形式,先组和后组。 先组式是指概念之间的组合是在词表编制阶段就已经定义好的,组配后的符合概念成为供标引的完整索引词。 心理声学(是心理学与声学的组配) 蒸发冷却(是蒸发与冷却的组配) 词表中也有些特别指明某些符号需由两个或两个以上的概
8、念来组配进行标引与检索。这称为“组代”。其符号用“ USE A ,B”。 直升飞机高度指示器 USE 高度指示器直升飞机二、索引语言后组式是指在检索阶段把两个或两个以上的有关索引词进行组合。 “计算机” 与 “设计” 先组式有助于提高索引词的专指度,减少标引到每个词的文献数量,减少和避免假组配,从而有利于查准率。但是先组式的词在数量上是有限的,不能适应各种角度和深度的符合概念检索。 后组式便于各种角度和深度的检索,有利于查准率的提高,但是可能出现假组配,致使误检的增多。对于先组和后组式的评价三、索引语言的举例中国图书分类法简表中国图书馆图书分类法依次由以下几个部分组成: 马克思、列宁主义,毛泽东思想,邓小平理论 哲学1、基本部类 社会科学 5个 自然科学 综合性图书 A 马克思、列宁主义,毛泽东思想,邓小平理论 B哲学2、基本大类 C社会科学(共C-K九个文科大类 ) 22个 N自然科学(共N-U、X十个理科大类 ) Z综合性图书三、索引语言的举例4、详表,是分类表的正文部分,由类目、类号、类目注释等组成5、辅助表,也称复分表,该表包括:总论复分表,世界地区表、 中国地区表、世界时代表、中国时代表、中国民族表等。三、索引语言的举例3、简表,由大类上的进一步扩展,为第三级类目三、索引语言的举例基本大类三、索引语言的举例三、索引语言的举例简表三、索引语言的举例