1、1讲课人:何建邦,曹彦荣时 间:2006年5月24日2主要内容主要内容一一编制背景编制背景二二标准总体结构标准总体结构三三标准内容要点解析标准内容要点解析四四标准使用标准使用3简介简介4科学数据分类与编码方案p1 1范围范围p2 2规范性引用文件规范性引用文件p3 3术语和定义术语和定义p4 4分类原则分类原则p5 5分类方法分类方法p6 6编码规则编码规则p7 7分类与编码的使用分类与编码的使用p8 8 分类代码表分类代码表5分类类目释义p6 6大门类、大门类、3131亚门类、亚门类、234234大大类和类和10081008中类,共中类,共12791279条类条类目的释义目的释义 6电子词典
2、p主要功能主要功能n分类类目的管理分类类目的管理n分类类目的查询分类类目的查询n数据集标引数据集标引n分类映射分类映射n 7转换实例mapping机制p分别对每个试点的分类作相分别对每个试点的分类作相应的应的CrosswalkCrosswalk,实现标准之,实现标准之间的映射;间的映射;p试点已有的标引结果可以通试点已有的标引结果可以通过软件直接映射。过软件直接映射。8一、编制背景一、编制背景9背景背景p海量科学数据的共享需求海量科学数据的共享需求p海量科学数据需要有序组织、管理海量科学数据需要有序组织、管理p科学数据共享工程门户网站需要按照分类来组织数据科学数据共享工程门户网站需要按照分类来
3、组织数据目录目录p数据用户需要从分类编码中查询数据数据用户需要从分类编码中查询数据10解决的问题解决的问题p多学科、跨行业部门科学数据的分类多学科、跨行业部门科学数据的分类p分类编码如何应用分类编码如何应用p如何支持网络信息化的数据集分类和共享如何支持网络信息化的数据集分类和共享p与已有科学数据共享工程中诸多试点的分类标准之间与已有科学数据共享工程中诸多试点的分类标准之间如何交互如何交互11二、标准总体结构二、标准总体结构12标准目次标准目次p1 1范围范围p2 2规范性引用文件规范性引用文件p3 3术语和定义术语和定义p4 4分类原则分类原则p5 5分类方法分类方法p6 6编码规则编码规则p
4、7 7分类编码的使用分类编码的使用p8 8 分类代码表分类代码表p附录附录A A 资料性附录资料性附录 科学数据共享科学数据共享工程分类编码标准的使用实例工程分类编码标准的使用实例p附录附录B B 资料性附录资料性附录 本标准与科学本标准与科学数据共享工程中试点单位的分类标数据共享工程中试点单位的分类标准之间的映射准之间的映射p附录附录C C 资料性附录资料性附录 科学数据共享科学数据共享工程数据分类编码标准工程数据分类编码标准XMLXML文件文件13门类门类门类代码代码基础科学基础科学F F资源环境科学资源环境科学R R农业科学农业科学A A工程技术科学工程技术科学T T医药医药卫生卫生科学
5、科学H H区域与综合领域区域与综合领域C C14亚门类(资源环境科学为例)资资源源环环境境亚门类亚门类代码代码气象气候气象气候W W水文水资源水文水资源H H海洋海洋S S地矿与土地资源科学地矿与土地资源科学L L 15大类门类门类亚门类亚门类 大类大类代码代码资源环境科资源环境科学学海洋科海洋科学学海洋资源海洋资源1111海洋经济海洋经济1212海洋环境海洋环境1313海洋生态海洋生态1414海洋灾害海洋灾害151516中类门类门类亚门亚门类类大类大类中类中类代码代码总代码总代码资源资源环境环境科学科学海洋海洋科学科学海洋海洋资源资源海洋自然资源海洋自然资源1111RS1111RS1111海
6、洋生物资源海洋生物资源1212RS1112RS1112大洋矿产资源大洋矿产资源1313RS1113RS1113海水化学资源海水化学资源1414RS1114RS111417编码规则p门类、亚门类各为门类、亚门类各为1 1位英文字母码,大类、中类各位英文字母码,大类、中类各2 2位数字码。位数字码。采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。第第1 1位位第第2 2位位第第3 3位位第第4 4位位第第5 5位位第第6 6位位门类门类亚门类亚门类大类大类中类中类字母码字母码字母码字母码数字码数字码数字码数字码18三、标准内容要点解析
7、三、标准内容要点解析19分类依据(分类依据(1 1)p遵循遵循“数据分类与编码基本原则与方法数据分类与编码基本原则与方法”标准标准 p数据分类的基本单元(或者说分类的对象)是数据集数据分类的基本单元(或者说分类的对象)是数据集p保证高层数据分类统一,低层数据分类由各单位自行保证高层数据分类统一,低层数据分类由各单位自行研制研制p以数据中心有效管理、组织数据,最终用户快捷地查以数据中心有效管理、组织数据,最终用户快捷地查找数据为目的找数据为目的 20分类依据(分类依据(2 2)p以科学数据共享工程的规划为依托以科学数据共享工程的规划为依托 p充分考虑各个数据共享中心的分类编码充分考虑各个数据共享
8、中心的分类编码p结合学科分类标准、行业分类标准结合学科分类标准、行业分类标准21分类编码标准的应用分类编码标准的应用p该标准只适用于数据集的分类,并将分类结果组织形该标准只适用于数据集的分类,并将分类结果组织形成数据目录。该标准不适用于数据库的改造,数据项成数据目录。该标准不适用于数据库的改造,数据项的改造,数据项内容的代码填写等。的改造,数据项内容的代码填写等。22分类编码标准的维护分类编码标准的维护p随着科学数据共享工程的不断推进,该分类编码标准随着科学数据共享工程的不断推进,该分类编码标准必定会不断扩展和修订。必定会不断扩展和修订。p这种扩展必须是在遵从这种扩展必须是在遵从“数据分类与编
9、码基本原则与数据分类与编码基本原则与方法方法”的基础上的扩充。的基础上的扩充。23数据集的分类标引数据集的分类标引p分类标引的对象是数据集分类标引的对象是数据集 p分类标引是在数据集外部进行的分类标引是在数据集外部进行的 p分类标引的最终结果是标引结果集(数据库)分类标引的最终结果是标引结果集(数据库)24标引过程中组配方法的应用标引过程中组配方法的应用p在分类标引时,针对数据集的内容,从类目中找出与在分类标引时,针对数据集的内容,从类目中找出与数据集内容相对应的各个类目,用它们的编码组配表数据集内容相对应的各个类目,用它们的编码组配表达所标引的数据集内容。达所标引的数据集内容。25标准的映射
10、及标引结果集的转换标准的映射及标引结果集的转换p把各个数据中心采用的分类编码标准中的类目和科学把各个数据中心采用的分类编码标准中的类目和科学数据分类编码标准中的类目对应起来。数据分类编码标准中的类目对应起来。p把用数据中心分类编码标准标引的结果集,直接导入把用数据中心分类编码标准标引的结果集,直接导入到以科学数据分类编码标准为依据的标引结果集中。到以科学数据分类编码标准为依据的标引结果集中。26四、标准的使用四、标准的使用27示例一:林业科学数据中心的“森林资源概况表”数据集p通过分析该数据集的内容,应该属于通过分析该数据集的内容,应该属于“农业科学农业科学林林业科学业科学森林资源数据森林资源
11、数据”,在,在“森林资源数据森林资源数据”这个这个大类下,有大类下,有“全国森林资源数据全国森林资源数据”、“省级森林资源省级森林资源数据数据”等小类,可以根据查阅数据集的具体内容,得等小类,可以根据查阅数据集的具体内容,得出应该属于哪个小类。如,这个数据集是全国范围内出应该属于哪个小类。如,这个数据集是全国范围内的森林资源概况,则最后的类就是的森林资源概况,则最后的类就是“农业科学农业科学林业林业科学科学森林资源数据森林资源数据全国森林资源数据全国森林资源数据”,具体编,具体编码为:码为:AF1112AF1112。28示例二:农业科学数据中心的“主要农作物种质资源评价数据库”p通过分析该数据
12、集的内容,应该属于通过分析该数据集的内容,应该属于“农业科学农业科学农农业科学数据业科学数据作物科学作物科学-主要农作物种质资源评价数主要农作物种质资源评价数据据”,则具体编码为:,则具体编码为:AS1211AS1211。29示例三:农业科学数据中心的“中国湖泊数据库”p通过分析该数据集的内容,发现其既可以属于通过分析该数据集的内容,发现其既可以属于“农业农业科学科学农业科学数据农业科学数据水产科学水产科学”(编码为:(编码为:AS2113AS2113),又可以属于),又可以属于“资源环境科学资源环境科学水文水资源水文水资源科学科学水资源水资源水资源调查水资源调查”(编码为:(编码为:RH12
13、11RH1211)。)。因此,可以采用组配的方式,将这两个类目的代码,因此,可以采用组配的方式,将这两个类目的代码,全部标注在这个数据集上。全部标注在这个数据集上。30示例四示例四:医药卫生科学数据集使用范例医药卫生科学数据集使用范例序号 数据集名称 编码 1 病原细菌数据集 HB111111 2 单基因遗传病数据集 HB111312 3 脑干图像数据集 HB141211 4 最新国际心血管病临床试验 HC151311 5 数字人脑图片数据集 HC111314 6 卫生经济学数据 HC151200 31科学数据分类编码工具软件科学数据分类编码工具软件32电子词典软件框架33电子词典功能p标准的
14、管理和维护标准的管理和维护p查询查询n以类名查询,以代码查询,以释义查询;以类名查询,以代码查询,以释义查询;n精确查询,模糊查询。精确查询,模糊查询。p标引标引p映射映射34标引保证标准和数据之间的关系SDCC数数据据集集A标引数据标引数据库库用户用户1用户用户2检索检索1检索检索2得到数据集得到数据集A A标引标引系统轮排系统轮排从外部进行标引,从外部进行标引,数据集本身无需任何变动数据集本身无需任何变动35关键技术(1)p高效的信息管理和查询高效的信息管理和查询n灵活地管理机制,可实现多层次的分类树的高效存储;灵活地管理机制,可实现多层次的分类树的高效存储;n实现了类目和代码的双向查询采用了高效的算法,可以支持实现了类目和代码的双向查询采用了高效的算法,可以支持1010万级别万级别以上,乃至以上,乃至100100万级别万级别的类目的快速查询;的类目的快速查询;n可快速提取分类树的信息及标引结果集信息。可快速提取分类树的信息及标引结果集信息。36关键技术(2)p数据的标引数据的标引n电子词典及辅助编码器使得用户对数据的分类可以不再依赖电子词典及辅助编码器使得用户对数据的分类可以不再依赖于文件系统,可以在后台数据库的支持下直接完成,最后打于文件系统,可以在后台数据库的支持下直接完成,最后打包提交即可。包提交即可。37演示演示