1、1主要内容:一、档案信息检索系统的构成,检索效率,检索系统评价;二、档案信息组织方式,检索工具的分类及编制;三、档案信息检索的方法、技巧;四、网络环境下的档案信息组织和检索。2l大大 纲纲l1 信息检索基础信息检索基础l2 档案信息组织与检索概述档案信息组织与检索概述l3 档案检索语言档案检索语言l4 档案信息前处理(著录与标引)档案信息前处理(著录与标引)l5 档案信息组织(检索工具编制)档案信息组织(检索工具编制)l6 计算机档案信息检索系统计算机档案信息检索系统l7 档案信息检索方法与技术档案信息检索方法与技术l8 网络档案信息组织与检索网络档案信息组织与检索3l1、肖秋会编著,档案信息
2、检索,武汉:武汉大学出版社,2011l2、冯惠玲主编,档案文献检索,北京:高等教育出版社,1999l3、叶鹰,信息检索:理论与方法,北京:高等教育出版社,2004l4、焦玉英等,信息检索,武汉:武汉大学出版社,2001l5、黄如花,信息检索,武汉:武汉大学出版社,2010l第一节第一节 信息检索的概念和原理信息检索的概念和原理l第二节第二节 信息检索发展的历史及模式的演变信息检索发展的历史及模式的演变l第三节第三节 信息检索的基本模型信息检索的基本模型4l一、信息检索的概念l信息检索(information retrieval):将信息按一定的方式组织和存储,并根据用户的需要从中查找所需信息的
3、过程及所采取的一系列方法和策略。信息检索包括信息存储和检索两个方面。l广义的信息检索又称为信息存储与检索(information storage and retrieval)l狭义的信息检索仅指查找信息的过程,相当于人们通常所说的信息查询(information search)。5l二、信息检索的原理l基本原理:对大量无序的各类信息进行搜集、描述、加工、组织、存储,建立各种检索工具或检索系统,并按照一定的方法和技术,从中识别、查找和获取所需的各类信息源。l信息存储是检索的基础。存储与检索是相逆的两个过程,二者之间的关系类似于“放进去”和“拿出来”的关系。l信息检索的关键部分是信息提问与信息集合
4、的匹配和选择。6l三、信息检索的类型l信息检索可以按照不同的标准划分为不同的类型:l1.按检索对象的形式划分l(1)文献信息检索l(2)数值信息检索l(3)事实信息检索 l或者划分为l文本检索、数值检索、音频与视频检索7l2.按系统中信息组织的方法划分l(1)全文检索l(2)超文本检索l(3)超媒体检索8l3.按检索工具和检索方式划分l(1)手工检索l(2)机械检索l(3)缩微品检索l(4)光盘检索l(5)计算机检索l(6)网络信息检索9l信息检索经历了手工检索、机械检索、脱机批处理检索、联机检索和网络信息检索五个阶段。10l一、手工检索(19世纪70年代20世纪40年代)l手工检索对应于印刷
5、型文献和检索工具。通过人工方式对文献进行著录和标引,建立著录卡片,并按一定方式编排,建立卡片式或书本式检索工具。在检索时,用手翻找著录卡片或书本式目录,眼睛查看其内容,并动用大脑思考,从而作出判断来完成检索过程。l信息检索活动起源于图书馆参考咨询工作和文摘索引工作。从19世纪下半叶开始发展至20世纪初,信息检索逐渐成为图书馆的一项独立的用户服务工作。11l二、机械检索(20世纪4050年代)l即机械穿孔卡片检索。是在手工穿孔卡片基础上发展起来的,依靠探针及其辅助设备,对代表检索标识(分类号或主题词)的穿孔卡片进行选取的一种检索方式。与纯手工检索方式相比,机械检索在一定程度上提高了检索效率。但由
6、于设备笨重,操作复杂,适用范围较窄。l20世纪50年代,机械检索开始得到使用。1954年,现代情报学创始人美国的万尼瓦尔布什(Vannevar Bush)博士在其论文“As we may think”中首次提出了设计自动的、在大规模存储数据中进行查找的机器的设想,他与美国农业部图书馆馆员拉尔夫肖共同制造了一台快速检索机布什肖检索机。12l三、脱机批处理检索(20世纪5060年代)l计算机应用于信息检索的早期阶段主要以脱机检索方式为主。脱机检索利用单机的输入和输出装置,用磁带作为媒介进行检索。以脱机方式检索,计算机只能顺序检索磁带上记录的信息,每检索一次都必须从头到尾读一遍磁带,因此,一般采用批
7、处理方式实施检索。13l四、联机检索(20世纪6090年代)l联机检索产生于20世纪60年代中期到70年代初,由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索终端设备与检索系统中心计算机直接进行人机对话,从而对远距离之外的数据库进行检索。l1965年,美国系统发展公司(SDC)研制成功了联机检索软件书目情报分时联机检索(Online Retrieval of Bibliographic Information Time Shared,ORBIT),标志着联机检索的诞生。1966年,美国洛克希德导弹与宇航公司研制了世界上第一个人机对话的信息检
8、索系统DIALOG系统,开始了联机文献情报检索。14l五、网络信息检索(20世纪90年代至今)l网络信息检索是在国际联机检索和光盘检索基础上发展起来的,通过Internet对远程计算机上的信息进行的检索。l20世纪90年代,随着卫星通信、光纤通信等现代通信技术以及信息高速公路等网络基础设施的迅速发展,基于Web的网络信息检索开始出现并得到迅猛发展。在这一时期,因特网资源爆炸式增长,网络搜索引擎技术的发展应用令人瞩目,同时,传统的联机检索系统如Dialog及各类数据库检索系统的信息服务也逐渐建立了Web服务平台,面向互联网终端的用户提供服务。15l信息检索的三个基本模型是:l布尔模型 Boole
9、an Modell向量空间模型 Vector Space Model,简称VSMl概率模型 Probabilistic Model。16l一、布尔模型l布尔模型是产生最早、应用最广泛的经典信息检索模型。1957年,Y.Bar-Hillel首次探讨了布尔逻辑模型应用于计算机检索的可能性。l布尔检索模型采用了布尔代数和集合论的方法,用布尔表达式表述用户提问,通过对文献标识与提问式的逻辑运算来检索文献。l布尔检索的主要优点是形式简洁、结构简单、易学易用;主要不足之处是:检索词没有权重区别,不能体现检索项的主要程度;采用非是即否的精确匹配方式,无法描述与查询条件部分匹配的情况,导致检索结果不够精确,查
10、全率受到影响。17l二、向量空间模型l向量空间模型是一种利用统计学方法而建立的数学模型。20世纪6070年代,G萨尔斯顿基于部分匹配(“partial matching”)的检索思想,在其开发的实验性检索系统SMART中首次提出了向量空间模型,其工作原理是将检索文档和检索提问式(关键词)都看做是一组数值向量,形成向量空间图,将检索文档向量与检索提问式向量进行相似度测定,对检出的文献按文档与检索提问之间的相似度降序排列,实现文献与查询的部分匹配。18l向量空间模型的主要优点是:标引词加权处理,可以灵活地定义标引词与文献的关系深度,从而改进检索效果;部分匹配策略能检出与查询条件接近的文献,避免了布
11、尔逻辑模型非是即否的僵化的缺点;余弦公式可对检索结果按照与提问的相关度排序输出,便于用户修正检索提问。l其主要缺点是:检索过程转化为向量的计算方法,不能完全反应文献之间的复杂关系;标引词加权和检索词加权是分离的,随意性大,质量难以保证。19l三、经典概率模型l经典概率模型由S.E.Robertston和K.Sparck Jones于1976年提出,它的基本指导思想是:给定一个检索提问,则检索系统中存在着一个与该提问相关的理想命中结果集合,如果已知该集合的主要特征及其描述,则用户的检索要求不难实现。l经典概率论的优点是实现简单,文献能根据它们相关的概率以递减的顺序排列。其不足之处是:各种参数估计
12、难度较大;标引词没有考虑词频等加权因素;标引词假定为相互独立。2021第一节 档案信息特征及其组织方式第二节 档案信息检索的内容与意义第三节 档案信息检索系统第四节 档案信息检索方式、途径和检索要求第五节 档案信息管理系统22一、档案信息特征1、档案信息与载体的不可分割性;2、档案信息传递中的增值性;3、档案信息的可浓缩性;4、档案信息存储与扩散的一致性;5、档案信息的原始性。23二、档案信息组织方式1、按对档案信息内容的揭示程度:目录、索引、文摘、综述;2、按对档案信息特征揭示的角度:分类法、主题法、代码法、题名法、责任者法;3、按排序方式:编号法、字顺法、时序法、地序法。24一、档案信息检
13、索的内容档案信息检索:是将档案材料中的情报信息加以存储,编制检索工具,建立检索系统,并按一定的方法查找和利用档案材料的一种档案管理业务活动。广义理解:包括信息存储和检索两个过程狭义理解:单指信息检索过程25二、档案信息检索的意义1、档案信息检索是档案业务管理工作的一项重要内容;2、是提高档案管理水平的有效途径;3、是开发和利用档案信息资源的基本手段;4、是实现档案管理现代化的关键环节。26一、档案信息检索系统的构成1、存储子系统:通过对档案文献的著录标引、编制检索工具、建立数据库等手段使档案信息有序化和集约化。2、检索子系统:通过编制检索策略实现利用者提问与档案信息的匹配。一个完整的档案信息检
14、索系统由存储与检索共同构成。二者是互逆的作用过程,体现为“放进去”和“拿出来”的匹配关系。27二、档案信息检索系统的功能 在存储阶段,抽取和描述档案信息特征,将大量无序的档案信息有序化,使大量的一次档案文献去粗取精去粗取精,形成二次档案文献,建立数据库。在检索阶段,将用户的检索需求与数据库中的数据进行比较匹配,全面准确的检出用户需要的数据。因此,其主要功能是描述、组织、集中档案信息,满足用户迅速准确查找档案信息的需求。有利于档案信息传递、交流和报道。28三、档案信息检索系统评价评价的指标体系包括:1、数据覆盖率:数据收录范围。指一个检索系统已收录数据量与应收录数据量的百分比,反映该检索系统的资
15、源拥有状况。2、检索效率(检全率与检准率)。、检索效率(检全率与检准率)。反映系统运行结果与利用者检索要求的吻合程度,是衡量检索系统性能的最重要的最重要的指标。指标。29l(1)什么是检全率、检准率?l检全率=检出的相关文献/全部相关文献100%l检准率=检出的相关文献/检出的全部文献100%l(2)检全率与检准率的关系l二者呈现互逆的反函数关系。即检全率高检准率就低,检准率高检全率就会下降。l(3)影响检索效率的因素l检索语言的性能、检索途径的数量、著录标引的数量、检索策略的优劣、检索人员的素质等。30l3、响应时间(response time)l指一次检索过程中从利用者向检索系统提出问题到
16、检索系统完成匹配过程,交付利用者所需的全部时间。l4、可存取性(access)l指一个档案文献检索系统的易用程度。一般来讲,利用者对情报源的选择几乎是唯一地建立在可存取性这个基础之上的。l5、费用l费用/效果比、费用/效益比31l一、档案信息检索方式l1、文献单元方式:在计算机检索中又称为顺检方式、顺序文档。它以一份文献为一个条目,指明该文献的各种特征,以文献为单元进行检索,其条目按照文献顺序排列。档案部门使用的各种手工检索目录大多采用这种方式,如:案卷目录、分类目录、主题目录。32l在计算机顺序文档中,每一个文献条目按照输入次序存储在存储介质上,条目之间的逻辑顺序和物理顺序一致,在结构上又称
17、为链式文档或线性文档。由于它存储了每份文件最完整的信息,通常又称之为主文档(master file)。l文献单元方式的特点:查到某一文献标识即可见到该文献完整的著录事项,了解该文件的主要内容和特征。但是按照主题进行查找时,速度比较慢,需要逐件扫描。33l2、标识单元方式。l又称为逆检方式,倒排文档。倒排文档是从顺序文档中派生出来的一种文档,它将顺序文档中一切可检字段抽出,按某种顺序重新组织。l倒排文档的作用主要体现为对顺序文档的索引作用,它可以十人们按照文献的某种属性特征检索出有关记录。34二、档案信息检索途径1、档案内容检索途径,包括:(1)分类途径(2)主题途径(3)题名途径(4)代码途径
18、2、档案形式检索途径,包括:(1)责任者途径(2)文号途径(3)人名途径(4)地名途径(5)机构名途径35三、档案信息检索要求1、按检索目的:查证型要求、情报型要求2、按检索对象:事实型要求、文献型要求3、按利用对象:公务人员、科研人员、一般公民的检索要求4、按检索范围:较窄的要求、较宽的要求5、按对档案线索的掌握程度:已经掌握档案线索的、掌握少量线索的、未掌握线索的。36一、档案信息管理系统的结构与功能1、输入子系统;2、存储加工子系统;3、输出子系统;4、反馈子系统。二、档案信息管理系统的优化控制三、档案信息管理系统的性能评价信息的完备性、系统效率、安全性、经济性、兼容性、扩展性37第一节
19、 档案检索语言概述第二节 档案分类法第三节 档案主题法第四节 档案检索语言的发展38l档案检索语言的基本概念及特点 单义性、规范性、关联性、系统性、简明性l档案检索语言的作用 是档案主题概念转换的依据,联系档案信息存储与检索之间的桥梁l档案检索语言的分类 分类语言、描述语言、代码语言 39l一、档案分类法的原理 概念:是以国家机构和社会组织从事社会实践活动的分工为基础,按照档案的内容和特点,分门别类组成的科学体系。构成原理:体系分类法采用概念的划分与概括的逻辑方法,进行逻辑分类,形成概念等级体系。分类标准:以职能分工为主要分类标准,并结合档案记述和反映的事物的属性,选择其他辅助分类标准。40l
20、档案分类法的特点:与图书分类法比较,具有如下特点:1、分类对象不同。导致二者在分类标准、类目体系及作用方面有所不同。2、分类标准不同。职能分工学科属性。3、分类体系不同。逻辑分类体系知识分类体系。4、用途不同。档案分类法一般用于档案信息的分类标引,而不用于档案实体的分类。图书分类法则既可用于类分图书,又可组织藏书,分类排架,用途很广。41l基本部类(基本部类(5个)个)l马克思主义、列宁主义、毛泽东思想、邓小平理论l哲学、宗教l社会科学l自然科学l综合性图书42l基本大类(22个)lA 马克思主义、列宁主义、毛泽东思想、邓小平理论lB 哲学、宗教lC 社会科学总论lD 政治、法律lE 军事lF
21、 经济lG 文化、科学、教育、体育lH 语言、文字lI 文学lJ 艺术lK 历史、地理lN 自然科学总论43lO 数理科学和化学lP 天文学、地球科学lQ 生物科学lR 医药、卫生lS 农业科学lT 工业技术lU 交通运输lV 航空、航天lX 环境科学、安全科学lZ 综合性图书44 二、档案分类法的体系结构 基本大类一览表、主表、辅助表、索引。(一)基本大类一览表。共19大类。(二)主表。由类目、类目之间的关系、标记符号、注释组成。1、类目:10万条类目。2、类目之间的关系:以等级结构反映类目之间的并列、隶属关系。3、标记符号:混合号码制、层累制、八分法、双位制。还采用了以下辅助符号:+:()
22、=/4、注释 45(三)辅助表(复分表、附表)。将主表中具有共性的类目抽出来汇编而成。1、通用复分表 (1)综合复分表。如农业条例:MA13 (2)世界各国和地区表。如MD(113)(3)中国地区表。如热河省(19281955)(4)中国民族表。回族自治:B4103 (5)科技档案复分表。符号:“”2、专类和专用复分表 是主表中附加的供某大类或某大类中的部分类目作进一步区分用的复分表。专类复分表的分类号码前加“”圆点,表的两侧以印刷黑体竖线括起。专用复分表的分类号前用“=”号,复分号接在主类号之后。如:KB9121.3,E7317=1246 3、仿分 对于少量具有共性的类目在细分时统一列表。即
23、仿照某一类的下位类来设表,而不专门编表。如:NJ371 医疗设备器械 NJ3711 医疗仪器制造 NJ3712 医疗仪器检测 NS781 通用设备仪器、设备 仿NJ371分 4、组配编号 用于分类表中规定可以组配的类目,将两个互相关联的类目组配起来,表示分类表中一个复杂概念。如:石油化工机械为NJ37:NR7。47l(四)索引 将分类表中的类目名称按照字顺排列,并指出相应类号,提供按字顺主题查找的途径。索引是非常重要的辅助检索工具。分为直接索引和相关索引。三、档案分类法的管理(一)分类法修订和管理的内容 1、增加新类目,扩充加细。(1)直接增加下位类细分(2)把注释改作下位类细分(3)加注“复
24、分、仿分”进行细分(4)扩大组配编号法的使用范围 2、删除不必要的类目。3、调整类目体系。4、增设附表和注释。5、采用分类新方法。(二)中国档案分类法的修订48中国档案分类法第2版对第1版的修订:(1)确定了“一法四表”的体系结构。中华人民共和国档案分类表、民国档案分类表、清代档案分类表、新民主主义革命档案分类表。(2)类目由5000条增加到10万条。国民经济管理、工农业以及科学技术研究方面的类目增加幅度更大。对经济贸易管理、税务、外贸等重要类目作了升位处理。(3)加大了使用复分、仿分、注释、参见等现代文献分类技术的力度。增加了科技档案复分表,设置了137个专类复分表、17个专用复分表。49l
25、体系分类法的局限性:集中与分散的矛盾l(1)党政职能的交叉问题。l(2)各项职能范围中的相同职能手段问题。l(3)会议文件问题。l(4)同一类问题的部分档案入了有关专类而造成的分散。l(5)一事物概念由若干概念因素构成,这些概念因素分别属于不同类目,但该事物概念在分类表中却只能有一个位置,从而造成该类档案在一种概念因素上的集中,而在其他概念因素上的分散。l 例如:华侨教育这个主题既可以归入华侨事物类,又可以归入教育类。而分类表将其归入了华侨事物类,这对于教育问题来说,档案变被分散了。l原因:客观事物多项成族的性质与体系分类法类目单线排列原则之间的矛盾。50l国内外的图书分类法:l(1)中国图书
26、馆分类法简称中图法。由中国图书馆分类法、中国图书资料分类法、中国图书馆分类法(简本)组成。l(2)国际十进分类法(Universal Decimal Classification)简称UDC。主要用于标准文献、档案的分类标引和检索。l(3)杜威十进分类法(Dewey Decimal Classification)简称DDC。历史最为悠久,流传应用最广。l(4)美国国会图书馆分类法(Library of Congress Classification)简称LCC。l(5)冒号分类法(Colon Classification)简称CC。由印度著名的图书馆学家阮冈纳赞独创的分面组配式分类法。l(6)
27、中国科学院图书馆图书分类法简称科图法51l一、档案主题法的基本原理l(一)构成原理:以事物为中心;用规范化的自然语言语词作标识;用参照系统揭示概念之间的关系;以字顺序列进行排序,提供按照字顺+主题检索的途径。l(二)叙词组配:其实质是概念组配。将一个复杂概念分解为几个简单概念,即用几个简单概念的组配来表达一个复杂的概念。l概念组配与字面组配的区别。例如:l(1)键盘乐器制造:键盘乐器制造(字面组配);键盘乐器乐器制造(概念组配)l(2)航空病理学:航空病理学(字面组配);航空医学病理学(概念组配)52l(三)词汇控制l1、词量控制:l(1)建立一套完备的核心词汇l(2)控制专指度l(3)控制先
28、组度l2、词类控制:只选用名词和名词性词组。l3、词形控制:使概念和语词一一对应。l4、词义控制:加注限定和注释。l5、词间关系的控制:lY用;D代;S属;F分;C参;Z族。l(四)特点:直接性、专指性、灵活性53l二、档案主题词表的体系结构l 由主表、范畴索引、词族索引、附表(人名表、机构名表)等构成。l(一)主表l由款目项、标注项、参照项构成。54l中国档案主题词表中国档案主题词表款目结构款目结构lYouyong汉语拼音l游泳 GE 款目词及其范畴号lD 游水“代”项 (等同关系)lF 蝶泳“分”项l(等级关系)l 蛙泳l 仰泳l 自由泳lS 水上运动“属”项lZ 体育运动“族”项lC 水
29、球运动“参”项 (相关关系)55l款目项主要起排列和检索入口的作用。l范畴号是该词在范畴索引中的分类号。l参照项的作用是显示词间关系:l“代”项(用参照符号“D”表示)显示等同关系,说明“游水”是“游泳”的同义词,在此作为非正式主题词,用来指引和查找正式主题词,不能作为标引和检索词使用,其对应的参照项为“用”项(用参照符号“Y”表示);l“分”项,用参照符号“F”表示,“分”项中的主题词是款目词的下位词;l“属”项,参照符号“S”表示,“属”项中的主题词是款目词的上位词;l“族”项,参照符号“Z”表示,显示等级关系,l“族”项中的主题词是款目词的族首词(最上位词),其后注以“*”号;l“参”项
30、显示相关关系,用参照符号“C”表示。56l此外,为了明确主题词的含义,主表中还设有限定词和注释。l限定词用圆括号“()”注于主题词之后,作为主题词的组成部分。如:l Wangjil 旺季(商业)l注释是对主题词的含义所作的简要说明,用圆括号“()”注于主题词之下,不作为主题词的组成部分。如:l Wuaijiaoyul 五爱教育l (爱祖国、爱人民、爱劳动、爱科学、爱护公物)57l(二)范畴索引l是将主题词按照学科、专业或职能性质划分成大类,在大类之下划分若干小类,在小类之下按照字顺排列的一种索引。20个一级类、103个二级类、37个三级类。标识符号采用混合号码制度。l一、二级类目用字母标识,三
31、级类目用阿拉伯数字标识。当一词具有两个类目的属性时,在有关类目重复出现。58lG 文化、教育、卫生、体育lGA 文化lGA1 文学l八股文l白话诗l Y新诗l报告文学l传记l传记文学l传奇文学l春联l词(文学)59l(三)词族索引l所谓词族,是把属性相同的主题词按其概念等级阶梯式地排列而成的概念体系。词族索引是把主表中具有属分关系、包含关系和整体部分关系的正式主题词,按照级别展开显示的词族体系。有共同属性的一类事物称为一族,表达同族事物的词为同族词。l词族索引能增强词表的族性检索功能,是实现自动扩检、缩检及上位登录的重要手段。具有属分关系的主题词,一般以一个词入一个词族为原则,少数主题词按其属
32、性须跨两个或两个以上词族者,分别在不同词族中显示。同一词族内,有少数主题词按其属性须跨两级者,则在两级下重复显示。l词族索引与主表之间通过缀以“*”号的族首词联系,在主表中看到带有“*”号的主题词,可在族首词目录中先查到该词在词族索引中的页码,便可在词族索引中查到该族词。60lDianqigoujianl电器构件*l .电器原件l .电容器l .电子管l 电子束管l .电视摄像管l .彩色显像管61l(四)附表:人名表、机构名表l附表可以避免主表体积过于臃肿,又可以方便利用者查找专有的人名和机构名。人名表和机构名表中主题词款目的著录事项、著录格式及排列顺序与主表完全相同。l人名表收录明清以来1
33、1771位名人。l人名表的收词范围是:清时期各榜进士、三品以上命官及全国范围的知名人士;民国中央政府及执政党正部级官员(含代职),其他党派、团体主要负责人,上将、军长以上军职人员,全国范围的知名人士;中华人民共和国中央人民政府及中共中央部委局办级机构正职以上领导(含代职),其他党派、群众团体主要负责人,上将、正军级以上军职人员,全国劳动模范、战斗英雄,政治、经济、工商、教育、文学、艺术、科技、体育、宗教等各界著名人士,著名华侨与国际友人;与中国重大历史事件有关的著名外国人。62l机构名表收录1900个中央级党、政、军、社团、企业事业机构名称。l机构名表的收词范围是:l明清中央政府机构名称以及著
34、名工矿、学堂名称;辛亥革命以来,中央政府及其直属机构(不含司局级内部机构)和派出机构,中央立法、司法、军事机构及大军区,执政党中央机构和派出机构,其他政党、团体中央机构,有影响的全国性学会、协会、宗教团体,中央级企事业单位以及与上述机构有相同级别的临时机构。63l三、档案主题词表的评价l(一)词表结构评价l1.词表结构的评价l 对词表结构评价总的要求是结构简明,使用方便,功能齐全。具体可从如下几个方面进行评价:l(1)词表结构的严密性l 主要指词表的各个组成部分相互对应、相互指引的程度。主表和辅助表各司其职,功能互补,提供不同的查词途径,又相互联系,构成一个有机整体。l(2)词表结构与功能的成
35、本效益l用尽可能简明的结构达到尽可能齐全的功能。功能齐全但结构复杂、不便使用或结构简单但功能单一,都是不可取的。l(3)词表的易用性l指词表的结构模式、排检方式是否易于标引和检索,如有无详尽的使用说明,是否提供了多种查检手段或辅助工具等。64l(二)词汇水平评价l1、完备性 l词汇量是词表完备性的重要指标。一般来说,词汇量越大,词汇的完备性就越高。词汇量受词表性质、专业范围、档案数量、先组度等多种因素的制约。词汇量并非越大越好,应以能基本满足标引需要为限。l2、专指度 l专指度是表达档案主题概念的确切程度,可通过词汇的使用频率来衡量。若词汇的使用频率过高,说明专指度偏低,需要增加下位词,若使用
36、频率过低,说明专指度偏高,应予以合并或删除。l 65l3、等同率l等同率指非正式主题词与正式主题词的比率。非正式主题词也称为入口词,是在规范化处理过程中落选但保留在词表中作为检索入口的词,主要是一些具有共同关系的词如同义词、准同义词、过于专指的词。等同率越高,检索入口越多,查询就越方便。国外词表的等同率平均在50%左右,而我国几部档案主题词表的等同率低很多。l等同率的计算公式:l等同率非正式主题词/正式主题词100%66l4、参照度 l参照度指词表中主题词间等级关系和相关关系的显示程度,它是衡量词汇相关性的主要指标,参照度越高,相关性越强。参照度的计算公式:l参照度词表中有等级、等同关系的词数
37、/词表中正式主题词总数100%l l5、关联比 l关联比指词表中有关联词的词数与词表总词数的比率,它反映了词表显示概念之间相互关系的充分程度。词表有关联的词越多,关联比就越高,词表的性能就越好。l关联比的计算公式:l关联比词表中有关联词的词数/词表总词数100%67l6、先组度l先族度指词表中复合词(先组词)与主题词总数的比率。先组度的高低直接影响到词表的词汇量及其组配性能,以适中为宜,既不能过高,增加词表体积;又不能过低,增加组配误差产生的可能性,降低标引的准确性。l先组度的计算公式:l先组度词表中复合词总数/词表中主题词总数100%68l四、档案主题词表的管理l中国档案主题词表(第2版)出
38、版至今已经使用了15年,词表结构和词汇都有待再次修订、补充和更新。l在词表结构方面,可配置轮排索引、双语种对照索引,以增加词表的功能。l在词汇方面,应增补反映新概念、新事物的主题词和入口词,删除或合并使用频率过低和重复多余的主题词,将它们作为非正式主题词保留在词表中,用参照指向正式主题词。l进一步完善词表的参照系统,提高词表的等同率、参照度和关联度,控制词表的先组度,保持适当的专指度。l开发中国档案主题词表的电子版69l一、分类主题一体化l实现途径:l1、编制全新的分面叙词表。l2、将叙词表的范畴索引改造成严格的分类体系。l3、将分类表的字顺索引改造成叙词表形式。l4、选择两部分类表和词表,在
39、不变动原表的前提下,将分类号和主题词进行对应转换。7071l二、标准化和兼容化l档案检索语言的标准化主要体现在三个方面:l(1)编制全国通用的标准化的档案分类表和词表并推广使用。中国档案分类法中国档案主题词表l(2)制订分类表和词表的编制标准并推广实施。我国已经制定了中国档案分类法专业表编制规范,作为编制专业分类表的准则。主题词表的编制规则可参照国际标准单语种叙词表编制与发展规则和汉语叙词表编制规则。l(3)著录、标引规则的标准化。72l2.档案检索语言的兼容化l随着档案分类表和词表的增多,它们的体系结构、词汇上存在的差异逐渐扩大,而每一种分类表和词表都是根据特定的需要编制,适合特定的档案检索
40、系统,导致它们之间缺乏互换性,给档案检索的网络化带来了障碍。因此,有必要采取兼容化措施。l检索语言兼容化的方式有如下几种:l(1)词汇自动转化。l(2)中介词典。中介词典不能用于标引,只能作为词汇的转换中心,联接一批需兼容的检索语言。l(3)集成词表。是某个特定领域若干分类法和词表的集合和汇编,形成一种集成式的词表,用于检索语言的兼容转换。l(4)词库。将多部分类表、词表的数据汇集、保存,是众多受控词汇的集合。l(5)综合性用语言与专业性语言的兼容。将一部通用综合性分类表或词表作为主干,在此基础上编制各种专业性的分类表和词表。73l三、计算机化l我国图书情报界从20世纪80年代早期开始研制计算
41、机词表编制和管理系统,相比之下,档案检索语言的机读化水平低,计算机辅助编制档案分类表和词表是今后档案检索语言的发展趋势。l1辅助排序。l2自动生成词表的各个组成部分。人工输入各种数据后由计算机自动生成字顺表、分类索引、轮排索引、双语种对照索引等。l3根据需要随时输出机读版或印刷词表。l4管理和维护词表。自动进行词频统计,根据统计结果和标引需要随时进行词汇的增删改。74l四、自然语言化l自然语言是人们在日常交流中所使用的口头或书面语言。随着计算机检索技术和网络技术的发展和应用,出现了检索语言向自然语言的回归。自然语言用于档案信息检索的方式:l1.关键词法。所谓关键词,是指那些出现在文献的标题(篇
42、名、章节名)、摘要和正文中,对表征文献主题内容具有实质意义,可以作为检索入口的语词。关键词法指用人工或计算机将这些对表征文献主题内容具有实质意义,具有检索意义的语词抽出来加以排列组织,提供检索途径的方法。l2.文本检索。即对数据库中存储的文本(包括文献全文或摘要或篇名)不进行任何标引,检索时用检索者认为合适的关键性的字词来表达检索课题,借助各种检索方法,直接在文本(篇名、文摘、正文)中进行扫描匹配查找。如果数据库中存储的是文献的全文,则称为全文检索。文本检索最为简单,是自然语言检索最普遍的方式。l3.采用“自由标引后控词表”的方式进行档案检索l是一种前端不控制,而后端控制的方式。75l4.自动
43、标引l指由计算机自动分析档案信息内容,判别档案主题,自动归类或自动选定标引词的标引方式。具体的应用方式包括:l(1)自动抽词标引。这是最早出现的一种自动标引方式。是从文献的题名、文摘和正文中抽词,将抽出的词与禁用词表(非关键词表)对照,排除没有实质意义的词汇,并进行词频统计,将合乎要求的词作为关键词。l(2)自动赋词标引。这是在自动抽词的基础上,根据自然语言与检索词的对应表,将关键词转换成检索词(规范词),建立倒排索引文档或编成书本式检索工具。是自然语言与情报检索语言的结合。计算机检索时,既可从自然语言入手,也可从规范化的检索词入手。手工检索时,只能从规范化的检索词入手。l(3)自动归类。这是
44、在自动抽词的基础上,根据自然语言与分类号的对应表和自动分类规则,对抽取的关键词给出相应的分类号,建立倒排索引文档或编成书本式检索工具。l(4)人机结合抽词标引。通过人工对计算机抽出的关键词进行甄别,或用人工对文本加插抽词标志,然后由计算机抽取整理。这种方式可提高抽词质量。76l5.自然语言接口方式l即建立一种自然语言与情报检索检索语言的对应表(入口词表),进行概念或标识的对应转换,在规范化语言中吸取自然语言因素和手段。这种方式是使情报检索语言检索系统易用化的一种有效措施。由于自然语言大中量同义词、近义词的存在,一个主题词往往对应若干自然语言语词,采用专用的对应表(入口词表)能收录大量的入口词。
45、比如,在词表中大量增加入口词,编制专用的入口词表等。所谓入口词,是词表中作为检索入口的非正式主题词,可供标引人员由自然语言语词想规范化词转换,从而降低标引难度,提高检索效率。检索者既可以用检索语言构造检索表达式,也可用自然语言构造检索表达式,通过自动转换程序,可将自然语言转换成情报检索语言进行检索。自然语言接口的对应表(入口词表)可在使用过程中不断增补,趋于完备。l6.同时使用主题词和自由词标引77l6.同时使用主题词和自由词标引l所谓自由词,是指词表中未收的,取自档案本身,但作了适当控制的用于标引和检索的自然语言语词,主要是专有名词,其专指度高于词表中的主题词。同时使用自由词与主题词标引,是
46、指在标引档案时遇到主题词表未收录的表达新事物、新概念的语词或明显漏选的语词,可用自由词作补充标引。用自由词作补充标引,可弥补规范化语言不能及时表达新概念及其专指度偏低的缺点,是对主题词标引的一种补充。l 由于受到计算机技术水平和自然语言自身特点的限制,在我国档案信息组织与检索中,自然语言还不能完全取代规范化的人工语言,自然语言与人工语言结合使用能用其所长,避其所短。78l第一节 档案信息前处理概述l第二节 档案的著录l第三节 档案的标引l第四节 档案自由标引与自动标引79l一、什么是档案信息前处理一、什么是档案信息前处理l 对档案信息的描述,包括著录和标引两方面的内容。l二、档案信息前处理工作
47、的地位二、档案信息前处理工作的地位l 是存储档案信息的首要步骤。l三、档案信息前处理工作的意义三、档案信息前处理工作的意义l四、我国档案信息前处理工作的现状及问题四、我国档案信息前处理工作的现状及问题80l一、档案著录的概念一、档案著录的概念l 是对档案内容和形式特征进行分析、选择和记录的过程。l档案内容特征,是指文件或案卷所论述的主题内容。如分类号、主题词、摘要等记录项。l档案形式特征,是指文件或案卷的时间、数量、责任者、文种、载体等不直接揭示档案主题的记录项。l档案标题应该归入哪种特征?81l著录项目著录项目:揭示档案内容特征和形式特征的记录事项。l条目条目:档案著录的结果,称为条目条目。
48、它是反映文件或案卷内容与形式特征的著录项目的组合。l档案目录档案目录:由揭示档案特征的条目汇集而成并按照一定次序编排的条目组合。标目:标目:是排列条目顺序的依据及档案检索的媒介,标目的名称决定了条目和目录的名称。l 82l二、档案著录标准、编制依据与适用范围l1、我国档案著录标准:、我国档案著录标准:l1985:档案著录规则(GB/T3792.5-85(第1版)l1999:档案著录规则档案著录规则(DA/T18-1999)(第2版)l2、档案著录规则的编制依据:、档案著录规则的编制依据:l文献著录总则(GB3792.1-83)l档案著录国际通用标准ISAD(G-1993)l3、档案著录规则的适
49、用范围l文书档案、科技档案及其他专门档案。l明清档案著录细则、革命历史资料著录细则、中国人民解放军档案著录规则等83l二、著录项目二、著录项目l 著录项目是揭示档案内容和形式特征的记录事项。l 档案著录规则(DA/T 18-1999)根据各种类型档案的著录和目录编制的特点,将著录项目规定为七大项:l (1)题名与责任说明项l (2)稿本与文种项l (3)密级与保管期限项l (4)时间项l (5)载体形态项l (6)附注与提要项l (7)排检与编号项。l 并在各大项下设置了若干小项。84l(1)题名与责任说明项)题名与责任说明项l 包括正题名、并列题名、副题名及说明题名文字、文件编号、责任者、附
50、件六个小项。l(2)稿本与文种项)稿本与文种项l 包括稿本、文种两个小项。稿本指文件的文稿、文本和版本。包括草稿、定稿、手稿、草图、底图、蓝图、正本、副本、原版、试行本、修订本、影印本、各种文字本等。文种指文件种类。包括命令、决议、指示、通知、批复、函、会议纪要、说明书、国书、奏折等。l(3)密级与保管期限项)密级与保管期限项l 包括密级与保管期限两个小项。85l(4)时间项)时间项l 时间是指文件的形成时间和案卷内文件的起止时间,它能帮助人们了解文件产生的时代背景,对于深入理解文件内容,正确判定档案价值,有重要意义。l(5)载体形态项)载体形态项l 包括载体形态、数量及单位、规格三个小项。l