1、数据字典设计数据字典设计数据字典设计 数据库系统是一个复杂的系统,其中所包含的信息数据库系统是一个复杂的系统,其中所包含的信息除了用户数据外,还有很多非用户数据信息。例如,除了用户数据外,还有很多非用户数据信息。例如,模式和子模式的内容、模式和子模式的内容、文件间的联系、数据项的长文件间的联系、数据项的长度、类型、用户标识符、口令、索引度、类型、用户标识符、口令、索引等等。这些非等等。这些非用户数据是整个数据库系统的情报系统,如果没有用户数据是整个数据库系统的情报系统,如果没有它们或它们遭到了破坏,则整个系统将陷入瘫痪状它们或它们遭到了破坏,则整个系统将陷入瘫痪状态,即使数据库本身完好无损,也
2、将无济于事。为态,即使数据库本身完好无损,也将无济于事。为了使数据库的设计、实现、运行、维护、扩充有一了使数据库的设计、实现、运行、维护、扩充有一个共同遵循的标准和依据,并且也为了保证数据库个共同遵循的标准和依据,并且也为了保证数据库的共享性、安全性、完整性、一致性、有效性、可的共享性、安全性、完整性、一致性、有效性、可恢复性以及可扩充性,人们在数据库中设置了数据恢复性以及可扩充性,人们在数据库中设置了数据字典,来集中保存这些信息。由于数据字典是描述字典,来集中保存这些信息。由于数据字典是描述数据库中各数据属性与组成的数据集合,因此有人数据库中各数据属性与组成的数据集合,因此有人把它看做是关于
3、数据库的数据库。把它看做是关于数据库的数据库。一、一、数据字典的基本概念数据字典的基本概念 数据字典是整个数据库环境的重要组成部分,数据字典是整个数据库环境的重要组成部分,是数据库环境管理的有力工具,在数据库的是数据库环境管理的有力工具,在数据库的生命周期内起着重要作用。数据字典的用途生命周期内起着重要作用。数据字典的用途是多方面的,它是一个管理有关数据库设计、是多方面的,它是一个管理有关数据库设计、实现、运行和扩充阶段的各种信息的工具。实现、运行和扩充阶段的各种信息的工具。数据字典(数据字典(Data dictionary,缩写为缩写为 DD)是存是存放数据库各级模式结构的描述,也是访问数放
4、数据库各级模式结构的描述,也是访问数据库的接口。据库的接口。1.数据字典的功能和作用数据字典的功能和作用 归纳起来,数据字典的功能包括以下几方归纳起来,数据字典的功能包括以下几方面:面:描述数据库系统的所有对象,如属性、描述数据库系统的所有对象,如属性、实体、记录类型、数据项、实体、记录类型、数据项、用户标识、口令、用户标识、口令、物理文件名及其位置、文件组织方法等;物理文件名及其位置、文件组织方法等;描述数据库系统各种对象之间的交叉联描述数据库系统各种对象之间的交叉联系,如哪个用户使用哪个子模式,哪个记录系,如哪个用户使用哪个子模式,哪个记录分配在哪个区域,存贮在哪个物理设备上;分配在哪个区
5、域,存贮在哪个物理设备上;登记所有对象在不同场合、不同视图中登记所有对象在不同场合、不同视图中的名称对照表;的名称对照表;描述模式、子模式和物理模式的改动情描述模式、子模式和物理模式的改动情况。况。因此,在数据库系统中,数据字典的作用是:因此,在数据库系统中,数据字典的作用是:管理系统数据资源管理系统数据资源数据字典提供了管理和收集数据的数据字典提供了管理和收集数据的方法;方法;实现数据标准化实现数据标准化在数据库中,数据的名称、格式和涵在数据库中,数据的名称、格式和涵义等在不同的场合下容易混淆,数据字典提供使之标准化的义等在不同的场合下容易混淆,数据字典提供使之标准化的工具,它可以给这些内容
6、予以统一的名称、格式和涵义;工具,它可以给这些内容予以统一的名称、格式和涵义;使系统的描述文体化使系统的描述文体化所有和系统有关的描述,都可以所有和系统有关的描述,都可以对数据字典中的信息进行查询、插入、删除和修改;对数据字典中的信息进行查询、插入、删除和修改;作为设计的工具作为设计的工具由于数据字典中存放着与数据库有关由于数据字典中存放着与数据库有关的各种信息和原始资料,就为数据库设计提供了有力的工具;的各种信息和原始资料,就为数据库设计提供了有力的工具;为数据库提供存取控制和管理为数据库提供存取控制和管理数据库在接受每一个对数据库在接受每一个对数据库的存取请求时,都要检查用户标识、口令、子
7、模式、数据库的存取请求时,都要检查用户标识、口令、子模式、模式和物理模式等。所以从某种意义上讲,数据字典控制了模式和物理模式等。所以从某种意义上讲,数据字典控制了数据库的运行;数据库的运行;供数据库管理员供数据库管理员(DBA)进行各种查询,以便了解系统性能、进行各种查询,以便了解系统性能、空间使用状况和各种统计信息,及时掌握数据库的动态。所空间使用状况和各种统计信息,及时掌握数据库的动态。所以数据字典是以数据字典是 DBA 观察数据库的眼晴和窗口。观察数据库的眼晴和窗口。当然,数据字典的内容、功能和作用远远不当然,数据字典的内容、功能和作用远远不止这些。可以说,凡是与数据库系统有关的止这些。
8、可以说,凡是与数据库系统有关的信息都可以保存在数据字典中。在不同的系信息都可以保存在数据字典中。在不同的系统和不同的应用中,统和不同的应用中,DBA可以根据需要,不可以根据需要,不断利用它的潜力,发挥更大的作用。断利用它的潜力,发挥更大的作用。2.数据字典的类型与存放内容数据字典的类型与存放内容 凡是与数据库系统有关的信息都可以保存凡是与数据库系统有关的信息都可以保存在数据字典中。所以,数据字典是数据库本在数据字典中。所以,数据字典是数据库本身的信息系统。数据字典本身也是一个内容身的信息系统。数据字典本身也是一个内容丰富、功能强劲的庞大软件系统。数据字典丰富、功能强劲的庞大软件系统。数据字典根
9、据其特点和使用形式可分为代码数据字典根据其特点和使用形式可分为代码数据字典(简称代码字典简称代码字典)、模型数据字典、模型数据字典(简称模型字简称模型字典典)、方法数据字典、方法数据字典(简称方法字典简称方法字典)、综合数、综合数据字典据字典(简称综合简称综合)和技术数据字典和技术数据字典(简称(简称CASE字典)几种字典)几种(表表4-2):表表4-2 数据字典的类型和特征数据字典的类型和特征种类字典个数信息字典结构方法和类库适用范围模 型数据字典一种类型信息多个字典字典信息随运行状态而动态变化复杂有通用/专用代 码数据字典一种类型信息一个字典字典中信息相对稳定简单有通用/专用方 法数据字典
10、一种方法一个字典或同类方法一个字典字典信息随方法参数或条件而动态变化复杂有专用综 合数据字典其他数据库系统管理需要的而设的数据字典数据库系统需要的信息简单/复杂有/无通用CASE技术数据字典 复杂有设计/通用二、模型数据字典二、模型数据字典 1.概念模型管理字典概念模型管理字典(数据文件字典数据文件字典)概念模型管理字典用于存放所有关系子模型概念模型管理字典用于存放所有关系子模型的项目号、名称、关系名、关键字、关键词的项目号、名称、关系名、关键字、关键词等有关信息,同时还作为调用各关系子模式等有关信息,同时还作为调用各关系子模式的菜单的菜单(用户视图用户视图),并且具有模式之联接、选,并且具有
11、模式之联接、选择及参数调用的功能。概念模型管理字典的择及参数调用的功能。概念模型管理字典的建立,使整个系统的关系子模型便于修改、建立,使整个系统的关系子模型便于修改、扩充和自动联接。本系统的概念模型管理字扩充和自动联接。本系统的概念模型管理字典结构如图表典结构如图表4-3所示。所示。2.概念模式(关系子模式)模型字典概念模式(关系子模式)模型字典 关系子模式模型字典中对数据关系子模式进关系子模式模型字典中对数据关系子模式进行详细描述,其内容有:行详细描述,其内容有:属性名属性名(字段名字段名)、属、属性说明性说明(字段说明字段说明)、属性类型、属性类型(字段类型字段类型)、字、字段长度、小数位
12、、单位、数据项约束、属性段长度、小数位、单位、数据项约束、属性域、用户界面参数,等等域、用户界面参数,等等(表表4-4)。对已有的。对已有的属性域参数,系统将自动从属性域字典中传属性域参数,系统将自动从属性域字典中传输过来,若属性域字典没有相应的属性域参输过来,若属性域字典没有相应的属性域参数,系统将提示输入其相关参数,然后将其数,系统将提示输入其相关参数,然后将其自动存放到属性域字典中,并且传送到关系自动存放到属性域字典中,并且传送到关系模式结构描述字典中。模式结构描述字典中。3.概念模式属性字典概念模式属性字典 每一个资源勘查区的点源数据库通常都有每一个资源勘查区的点源数据库通常都有百余个
13、数据子模式,内中所含的属性可达数百余个数据子模式,内中所含的属性可达数千余项。其千余项。其有关信息包括项目名称、字段名、有关信息包括项目名称、字段名、字段类型、字段长度、小数位、单位,以及字段类型、字段长度、小数位、单位,以及有关数据存贮方式、术语字典控制等数据完有关数据存贮方式、术语字典控制等数据完整性、一致性、安全性的约束条件,可以全整性、一致性、安全性的约束条件,可以全部存放在标准数据模式字典部存放在标准数据模式字典(表表4-5)。定性描定性描述的属性,可按标准方式描述和存放约束条述的属性,可按标准方式描述和存放约束条件;定量描述的属性,只须以属性域的范围件;定量描述的属性,只须以属性域
14、的范围作为约束条件来存放。在关系子模式维护、作为约束条件来存放。在关系子模式维护、修改、扩充、重组过程中,概念模式属性字修改、扩充、重组过程中,概念模式属性字典起着恢复和传输各关系子模式属性参数的典起着恢复和传输各关系子模式属性参数的作用。作用。三、三、代码字典代码字典 代码是代表客观存在的实体或属性的符号代码是代表客观存在的实体或属性的符号(如数字、字母或它们的组合)。在信息系(如数字、字母或它们的组合)。在信息系统中,代码是人和机器的共同语言,是便于统中,代码是人和机器的共同语言,是便于进行信息分类、校对、统计和检索的关键,进行信息分类、校对、统计和检索的关键,是数据库规范化、标准化的依据
15、。代码设计是数据库规范化、标准化的依据。代码设计是实现一个信息系统的前提条件,其目的是是实现一个信息系统的前提条件,其目的是要设计出一套为系统各部分所公用的优化代要设计出一套为系统各部分所公用的优化代码系统。码系统。1.代码设计代码设计 代码设计是编制数据字典开始的,编码对象为数据代码设计是编制数据字典开始的,编码对象为数据存储中所包含的数据元素与数据结构。代码设计的存储中所包含的数据元素与数据结构。代码设计的结果是形成代码字典,作为系统设计与编程的标准。结果是形成代码字典,作为系统设计与编程的标准。现行系统中,已经存在着一套代码系统,但是,这现行系统中,已经存在着一套代码系统,但是,这种代码
16、不一定适合计算机处理,而且往往不科学、种代码不一定适合计算机处理,而且往往不科学、不统一,为此应对本系统使用的代码进行调查研究不统一,为此应对本系统使用的代码进行调查研究和统一规划,以便进行重新设计或修订,其中对重和统一规划,以便进行重新设计或修订,其中对重要代码的设计应依据国家有关编码标准。要代码的设计应依据国家有关编码标准。代码设计是一项重要的工作。如果代码设计不合代码设计是一项重要的工作。如果代码设计不合适,小修改将会引起程序的变化,大修改则会引起适,小修改将会引起程序的变化,大修改则会引起文件的重新建立。故一定要进行全面的考虑和仔细文件的重新建立。故一定要进行全面的考虑和仔细的推敲、修
17、改,逐步优化,最后确定,切忌草率行的推敲、修改,逐步优化,最后确定,切忌草率行事。事。优化的代码系统应具有如下特点:优化的代码系统应具有如下特点:唯一确定性:每一个代码都仅代表唯一的实体或属性。唯一确定性:每一个代码都仅代表唯一的实体或属性。标准化与通用性国家有关编码标准是代码设计的重要依标准化与通用性国家有关编码标准是代码设计的重要依据,此外,系统内部使用的同一种代码应做到统一,使代码据,此外,系统内部使用的同一种代码应做到统一,使代码的使用范围越广泛越好。的使用范围越广泛越好。可扩充性和稳定性:要考虑系统的发展和变化,一般考虑可扩充性和稳定性:要考虑系统的发展和变化,一般考虑三、五年的使用
18、期限。当增加新的实体或属性时,直接利用三、五年的使用期限。当增加新的实体或属性时,直接利用原代码加以扩充,而不需要重新变动代码系统。原代码加以扩充,而不需要重新变动代码系统。便于识别和记忆:为了同时适于计算机和人工处理使用,便于识别和记忆:为了同时适于计算机和人工处理使用,代码不仅要具有逻辑含义,而且要便于识别和记忆。对于一代码不仅要具有逻辑含义,而且要便于识别和记忆。对于一些易混淆的字母,如些易混淆的字母,如I、0、Z等,尽量不用。等,尽量不用。短小精悍:代码的长度不仅会影响所占据的存贮单元和信短小精悍:代码的长度不仅会影响所占据的存贮单元和信息处理的速度,而且也会影响代码输入时出错的概率和
19、输人、息处理的速度,而且也会影响代码输入时出错的概率和输人、输出的速度。输出的速度。容易修改;当某个代码在条件、特点或代表的实体关系改变容易修改;当某个代码在条件、特点或代表的实体关系改变时,容易进行变更。时,容易进行变更。代码分类代码分类图图4-是代码的基本分类,在实际设计中,可以是代码的基本分类,在实际设计中,可以根据需要进行选择,或将不同的类型组合起根据需要进行选择,或将不同的类型组合起来使用。来使用。词语代码的分类一般以结构为准,所谓的代词语代码的分类一般以结构为准,所谓的代码结构是指代码内部各个符号或符号组之间码结构是指代码内部各个符号或符号组之间的关系。就目前情况看,词语的代码结构
20、类的关系。就目前情况看,词语的代码结构类型有十种以上,但在地质上常用的有五种,型有十种以上,但在地质上常用的有五种,即特征组合结构、顺序结构、助记结构、分即特征组合结构、顺序结构、助记结构、分类结构和混合结构。其代码的种类也相应地类结构和混合结构。其代码的种类也相应地分为分为特征组合码、顺序码、助记码、分类码特征组合码、顺序码、助记码、分类码和混合码五种和混合码五种。1).特征组合码特征组合码 特征组合码由代表描述对象各种属性特征的几位特征组合码由代表描述对象各种属性特征的几位字母或数字排列组合而成。通常是一个字母或数字字母或数字排列组合而成。通常是一个字母或数字代表描述对象的一种属性特征。例
21、如,岩石和矿物代表描述对象的一种属性特征。例如,岩石和矿物的颜色可用三位数字来表示:的颜色可用三位数字来表示:第一位代表色调的深浅:第一位代表色调的深浅:“0”不清楚,不清楚,“1”浅色,浅色,“2”正常色,正常色,“3”深色;深色;第二位代表配色:第二位代表配色:“0”不清楚,不清楚,“1”红色,红色,“2”黄色,黄色,“3”褐色,褐色,“4”绿色,绿色,“5”兰色,兰色,“6”紫紫色,色,“7”灰色,灰色,“8”白色,白色,“9”黑色;黑色;第三位代表主色:第三位代表主色:“0”不清楚,不清楚,“1”红色,红色,“2”黄色,黄色,“3”褐色,褐色,“4”绿色,绿色,“5”兰色,兰色,“6”
22、紫紫色,色,“7”灰色,灰色,“8”白色,白色,“9”黑色。黑色。于是浅灰绿色可表示为于是浅灰绿色可表示为“174”,深褐黄色可表示,深褐黄色可表示为为“332”,其余类推。,其余类推。特征组合码通常被用于各个单位和个人所开特征组合码通常被用于各个单位和个人所开发的应用数据库和数据、图型处理系统中。发的应用数据库和数据、图型处理系统中。其优点是简单明了,易记易用;缺点是位数其优点是简单明了,易记易用;缺点是位数太少时容量有限,易发生重码,而位数多时太少时容量有限,易发生重码,而位数多时又不易掌握,容易产生混乱。当然,最大的又不易掌握,容易产生混乱。当然,最大的缺点还在于难于进行标准化处理,不可
23、能以缺点还在于难于进行标准化处理,不可能以此为基础实现信息共享,在主题数据库和信此为基础实现信息共享,在主题数据库和信息检索系统息检索系统(网络网络)中不宜独立使用。中不宜独立使用。2).顺序码顺序码 顺序码主要由按顺序排列的数字组成,有顺序码主要由按顺序排列的数字组成,有时也由按顺序排列的字母组成。每一组代码时也由按顺序排列的字母组成。每一组代码只代表描述对象属性在整个属性系列中的顺只代表描述对象属性在整个属性系列中的顺序。在地矿信息系统中最典型的例子是岩层序。在地矿信息系统中最典型的例子是岩层序号,从实测剖面起点开始由头至尾累计,序号,从实测剖面起点开始由头至尾累计,或从钻孔孔口开始由上而
24、下累计。作为代码或从钻孔孔口开始由上而下累计。作为代码要求长度统一,因此编码时应事先估计可能要求长度统一,因此编码时应事先估计可能出现的最大长度,然后确定代码的位数。顺出现的最大长度,然后确定代码的位数。顺序码最为简单明了。顺序码也常用于描述某序码最为简单明了。顺序码也常用于描述某些并列属性,在各种信息系统中使用十分频些并列属性,在各种信息系统中使用十分频繁,几乎每一种代码都有它的影子,但都只繁,几乎每一种代码都有它的影子,但都只有局部性意义。由于本身的特点,决定了顺有局部性意义。由于本身的特点,决定了顺序码在信息系系统中不可能形成独立的代码序码在信息系系统中不可能形成独立的代码体系。体系。3
25、).助记码助记码 顾名思义,助记码是描述对象属性的一种形象化代码,比顾名思义,助记码是描述对象属性的一种形象化代码,比较容易记忆。最常见的是采用描述对象属性的汉字拼音或外较容易记忆。最常见的是采用描述对象属性的汉字拼音或外文单词的首位字母来组合。化学元素和地层的代码都是这样文单词的首位字母来组合。化学元素和地层的代码都是这样构成的。沉积岩岩相的代码也常用这种方式编制,例如,具构成的。沉积岩岩相的代码也常用这种方式编制,例如,具有大型槽状交错层理的含砾砂岩,英文名称为有大型槽状交错层理的含砾砂岩,英文名称为Large Scale Trough Cross Bedding Gravel-beari
26、ng Sandstone,首位字母,首位字母可组合成可组合成“LSTCBGS”。但助记码通常规定有统一的长度,。但助记码通常规定有统一的长度,不能任意加长,凡是超过位数的都要进行删减。删减的原则不能任意加长,凡是超过位数的都要进行删减。删减的原则是,每一个描述方面是,每一个描述方面(一个定语或一个分词组一个定语或一个分词组)留下一个字首。留下一个字首。如果岩相的代码只取四位,则根据上述岩相英文名的组合情如果岩相的代码只取四位,则根据上述岩相英文名的组合情况,况,Large Scale 可取可取L,Trough Cross Bedding 可取可取T,Gravel-bearing 可仍取可仍取G
27、,Sandstone也可仍取也可仍取S。于是,该岩。于是,该岩相的助记码可写成相的助记码可写成“LTGS”。助记码的缺点是容量有限,很容易发生重码、乱码现象。助记码的缺点是容量有限,很容易发生重码、乱码现象。对于基层单位和个人使用的微型数据库,助记码用起来很方对于基层单位和个人使用的微型数据库,助记码用起来很方便;但对于具有共享性质的数据库,特别是对于准备纳入信便;但对于具有共享性质的数据库,特别是对于准备纳入信息系统网络的大型数据库,应当谨慎使用。息系统网络的大型数据库,应当谨慎使用。4).分类码分类码 分类码是大型信息系统通常采用的代码体分类码是大型信息系统通常采用的代码体系,主要包括面分
28、类码和线分类码两种。系,主要包括面分类码和线分类码两种。a)面分类码)面分类码 这是采用面分类法建立起来的代码系统。这是采用面分类法建立起来的代码系统。面分类法将给定的母项按分类的不同属性,面分类法将给定的母项按分类的不同属性,分成互不依赖的集合。面分类没有刚性的分分成互不依赖的集合。面分类没有刚性的分类结构和预先确定的最终集合,其中,对象类结构和预先确定的最终集合,其中,对象的母项是以一些同一属性的对象的组配来表的母项是以一些同一属性的对象的组配来表征的。这些属性的值对应着指定属性的具体征的。这些属性的值对应着指定属性的具体描述,根据需要可以分解成很多互无联系的描述,根据需要可以分解成很多互
29、无联系的分面。分面。在面分类中,分类的集合是由由具体属性的在面分类中,分类的集合是由由具体属性的组配对象构成的,这些属性取自相应的某个组配对象构成的,这些属性取自相应的某个面。面分类的容量同面的数目以及在面里属面。面分类的容量同面的数目以及在面里属性具体值的数量有关。面分类的主要优点,性具体值的数量有关。面分类的主要优点,在于其结构具有柔性,因为任何一个面的改在于其结构具有柔性,因为任何一个面的改变,不会对其余的面产生本质的影响。此外,变,不会对其余的面产生本质的影响。此外,面分类法不仅能够从已有的面中形成新的分面分类法不仅能够从已有的面中形成新的分类集合,而且还可以不加改造地将新的面列类集合
30、,而且还可以不加改造地将新的面列入分类目录,或者从中除去旧的面。面分类入分类目录,或者从中除去旧的面。面分类的柔性使对象的聚合有了可能,并可实现按的柔性使对象的聚合有了可能,并可实现按任意组配面的信息检索。面分类的不足之处任意组配面的信息检索。面分类的不足之处在于不能充分利用容量,因为许多可能组配在于不能充分利用容量,因为许多可能组配的面实际用不上。的面实际用不上。b)线分类码)线分类码 线分类码实际上是一种层次分类码。其划线分类码实际上是一种层次分类码。其划分方法如下:分方法如下:先在被划分的对象母项中选定若干个属性先在被划分的对象母项中选定若干个属性作为划分标准,组成一些大的集合,接着在作
31、为划分标准,组成一些大的集合,接着在每个大集合中相应选定划分标准,组成一系每个大集合中相应选定划分标准,组成一系列小集合,然后,再分解更小的集合,如此列小集合,然后,再分解更小的集合,如此一层层地分解下去,直到具体对象。这样,一层层地分解下去,直到具体对象。这样,在各大、小集合之间,就形成了线性的隶属在各大、小集合之间,就形成了线性的隶属关系。线分类码的突出优点是结构清晰、易关系。线分类码的突出优点是结构清晰、易成体系、容量较大,缺点是当被描述对象的成体系、容量较大,缺点是当被描述对象的属性分类层次过多时,码的长度需要约束,属性分类层次过多时,码的长度需要约束,而当各种属性分类层次参差不齐时,
32、需要借而当各种属性分类层次参差不齐时,需要借用多种编码方式来构成混合码。用多种编码方式来构成混合码。为确保线分类在各个层次上,具体的分类对为确保线分类在各个层次上,具体的分类对象只对应一个分类集合,必需遵循如下原则:象只对应一个分类集合,必需遵循如下原则:每个层次的每个分类集合,应该只对应一个每个层次的每个分类集合,应该只对应一个划分标准;每一个层次上所划分的集合应该划分标准;每一个层次上所划分的集合应该只对应上一层的一个集合,而不应该有交叉,只对应上一层的一个集合,而不应该有交叉,即不应该有重复,避免造成集合和对象互相即不应该有重复,避免造成集合和对象互相错位;划分类别应该依次进行,不应该空
33、层错位;划分类别应该依次进行,不应该空层或加层,以保证分类目录线性结构单一。或加层,以保证分类目录线性结构单一。在组建分类码时,选择属性系统是最重要和在组建分类码时,选择属性系统是最重要和最复杂的工作,这些属性既作为类别划分的最复杂的工作,这些属性既作为类别划分的基准、排列顺序,更可作为信息系统数据库基准、排列顺序,更可作为信息系统数据库的数据项选择的依据。作为线分类的基础,的数据项选择的依据。作为线分类的基础,属性的选择应当着眼于地矿信息系统的整体,属性的选择应当着眼于地矿信息系统的整体,具体地说应当着眼于整个地矿行业,这样,具体地说应当着眼于整个地矿行业,这样,建立的分类码才具有普适性和共
34、享性。最近建立的分类码才具有普适性和共享性。最近颁布的颁布的地质矿产名词术语分类代码地质矿产名词术语分类代码国家国家标准标准GB964988(国家标准局,国家标准局,1989),就是采,就是采用以分类码为基础的代码体系。用以分类码为基础的代码体系。5)混合码混合码 混合码是将特征组合码、顺序码、混合码是将特征组合码、顺序码、助记码和分类助记码和分类码按一定的规则联结起来的代码。上述码按一定的规则联结起来的代码。上述地质矿产地质矿产名词术语分类代码名词术语分类代码国家标准,就是一种以分类码国家标准,就是一种以分类码为格架的混合码形式。为格架的混合码形式。该代码系统将代码分为数据项和文字值该代码系
35、统将代码分为数据项和文字值(字符值字符值)两两个层次,其中,数据项代码由个层次,其中,数据项代码由6个英文字母个英文字母(严格地说严格地说是是2个拼音字母和个拼音字母和4个英文字母个英文字母)组成,文字值代码由组成,文字值代码由18个阿拉伯数字组成。数据项代码的第一、二位个阿拉伯数字组成。数据项代码的第一、二位是地质学二级学科名前两个字的汉语拚音缩写,兼是地质学二级学科名前两个字的汉语拚音缩写,兼有面分类码和助记码性质,例如,岩石学取有面分类码和助记码性质,例如,岩石学取YS、矿、矿床学取床学取KC、煤地质学取、煤地质学取MD、石油地质学取、石油地质学取SY、水、水文地质学取文地质学取SW、工
36、程地质学取、工程地质学取GC、构造地质学取、构造地质学取GZ。从第三位开始都是按从第三位开始都是按AZ顺序排列的英文字母,其中第三和顺序排列的英文字母,其中第三和第四位通常是二级学科内的层次分类,兼有线分类码和顺序第四位通常是二级学科内的层次分类,兼有线分类码和顺序码的性质,例如码的性质,例如YSA是岩石学序言、是岩石学序言、YSB是岩石成分、是岩石成分、YSC是岩石结构、是岩石结构、YSD是岩石构造,而是岩石构造,而YSBB是岩石的其它物质组是岩石的其它物质组分、分、YSBC是沉积岩结构组分等等;第五位代表组合数据项或是沉积岩结构组分等等;第五位代表组合数据项或数据项,例如,数据项,例如,Y
37、SBCA代表碎屑颗粒、代表碎屑颗粒、YSBCB代表碳酸盐代表碳酸盐异化粒、异化粒、YSBCD代表碎屑岩胶结物,也兼有线分类码和顺序代表碎屑岩胶结物,也兼有线分类码和顺序码的性质;第六位必定是数据项,例如,码的性质;第六位必定是数据项,例如,YSBCBA代表碳酸代表碳酸盐异化粒的内碎屑、盐异化粒的内碎屑、YSBCBB代表碳酸盐异化粒的球粒、代表碳酸盐异化粒的球粒、YSBCBC代表碳酸盐异化粒的团块、代表碳酸盐异化粒的团块、YSBCBD代表碳酸盐异代表碳酸盐异化粒的包粒等等,通常是顺序码。有些时候,二级学科内层化粒的包粒等等,通常是顺序码。有些时候,二级学科内层次分类较少且最后一层数据项的量又过大
38、,也有采用第五、次分类较少且最后一层数据项的量又过大,也有采用第五、六位顺序组合的编码方式,即由第五、六位联合起来描述一六位顺序组合的编码方式,即由第五、六位联合起来描述一个具体的属性。如果二级学科内的层次分类很少,也有第四个具体的属性。如果二级学科内的层次分类很少,也有第四位就是属性的顺序码的。位就是属性的顺序码的。字符值代码可长可短,通常只用字符值代码可长可短,通常只用12位阿拉伯数字的顺序码。位阿拉伯数字的顺序码。但是,在某些二级学科中,由于内部层次结构复杂,数字值但是,在某些二级学科中,由于内部层次结构复杂,数字值又太多,也有采用又太多,也有采用48个阿拉伯数字作为补充混合码的,例个阿
39、拉伯数字作为补充混合码的,例如,矿物学、岩石学和古生物学都是如此。在矿物学代码中,如,矿物学、岩石学和古生物学都是如此。在矿物学代码中,头两位码代表矿物的化学类型,例如,头两位码代表矿物的化学类型,例如,01是单质、是单质、02是碳化是碳化物物-硅化物硅化物-氮化物和磷化物、氮化物和磷化物、06是氧化物;第三位代表矿物的是氧化物;第三位代表矿物的晶体格架类型,例如,晶体格架类型,例如,011是单质配位基型、是单质配位基型、013是单质环状是单质环状基型、基型、015是单质链状基型等等;第四位代表晶体结构的复杂是单质链状基型等等;第四位代表晶体结构的复杂程度,例如,程度,例如,0611是简单的配
40、位基型氧化物、是简单的配位基型氧化物、0612是复杂的是复杂的配位基型氧化物;第五、六位代表矿物的族分类,例如,配位基型氧化物;第五、六位代表矿物的族分类,例如,061101是简单的配位基型氧化物的方铈石族、是简单的配位基型氧化物的方铈石族、061102是简单是简单的配位基型氧化物的斜锆石族、的配位基型氧化物的斜锆石族、061201是复杂的配位基型氧是复杂的配位基型氧化物的晶质铀矿族,化物的晶质铀矿族,061202是复杂的配位基型氧化物的褐钇是复杂的配位基型氧化物的褐钇铌矿族,以上六位码均兼有线分类码、特征组合码和顺序码铌矿族,以上六位码均兼有线分类码、特征组合码和顺序码的性质。第七、八位码代
41、表具体矿物种,例如,的性质。第七、八位码代表具体矿物种,例如,06110101是是简单的配位基型氧化物方铈石族的方铈石矿、简单的配位基型氧化物方铈石族的方铈石矿、06110201是简是简单的配位基型氧化物斜锆石族的斜锆石矿、单的配位基型氧化物斜锆石族的斜锆石矿、06120101是复杂是复杂的配位基型氧化物晶质铀矿族的晶质铀矿,的配位基型氧化物晶质铀矿族的晶质铀矿,06120201是复杂是复杂的配位基型氧化物褐钇铌矿族的褐钇铌矿,这末尾两位码均的配位基型氧化物褐钇铌矿族的褐钇铌矿,这末尾两位码均为联合顺序码。为联合顺序码。混合码的最大优点是唯一性好,作为国家标混合码的最大优点是唯一性好,作为国家
42、标准,这是首先必须考虑的。在我们这样大的准,这是首先必须考虑的。在我们这样大的国家中,建设地质矿产信息系统,如果发生国家中,建设地质矿产信息系统,如果发生重码和乱码的情况,后果是不堪设想的。有重码和乱码的情况,后果是不堪设想的。有人曾提议建立部门代码,然后通过译码,与人曾提议建立部门代码,然后通过译码,与国家标准系统对话,这样作花费的代价可能国家标准系统对话,这样作花费的代价可能更大。因为不管那一个矿产部门,所涉及的更大。因为不管那一个矿产部门,所涉及的名词术语不会少,最后的结果可能会导致每名词术语不会少,最后的结果可能会导致每个部门都搞出一个很大的代码系统,这不但个部门都搞出一个很大的代码系统,这不但加大了信息系统的负担,而且将带来极大的加大了信息系统的负担,而且将带来极大的麻烦。因此,使用国家标准代码,是各种地麻烦。因此,使用国家标准代码,是各种地质矿产资源勘查区点源数据库系统的最佳选质矿产资源勘查区点源数据库系统的最佳选择。在这一标准编码的系统下,我们还可以择。在这一标准编码的系统下,我们还可以有的放矢地进行补充,以满足数据存取的需有的放矢地进行补充,以满足数据存取的需要。要。