1、科学数据库生态研究元数据科学数据库生态研究元数据标准及其应用标准及其应用侯艳飞中国科学院计算机网络信息中心2004.8.25 北京科学数据库技术培训1思 考n元数据标准之于实际数据管理的作用n中国科学院科学数据库生态研究元数据标准的主要内容n如何基于元数据标准进行实际管理系统的分析设计?2目 录1.元数据标准与实际的数据管理2.中国科学院科学数据库生态研究元数据标准(SDB-ERM)简介3.SDB-ERM在实际数据管理中的具体应用实例31.元数据标准与实际的数据管理n元数据标准对实际数据管理有何作用?思考:元数据标准规定了什么?元数据元素元素之间的关系发展应用方案的扩展规则 只分析一种情形下的
2、作用:Metadata is recorded outside of the file in which the data being described is saved.4nspecifies information content,but not how to organize this information in a computer system There are several reasons:There are many means by which metadata could be organized in a computer.There include incorpo
3、rating data as part of an information system,in a separate data base,and as a text file.nOrganizations can choose the approach which suits their data management strategy,budget,and other institutional and technical factors.-引自:CSDGM2.05需求说明书元数据标准元数据标准需求分析Information system analysts and developers元数据
4、元数据需求需求功能需求系统设计说明书管理系统(利用元数据管理数据)Creators of records元数据记录拟组织和管理的数据资源用户发现、理解、选择和获取数据,实现元数据的功能总体设计数据结数据结构设计构设计6n代替数据管理系统分析人员完成一部分需求分析工作n约束和在一定程度上统一系统设计人员对系统数据结构的设计n对元数据著录人员理解和著录元数据元素起帮助作用7元数据标准的使用方式元数据标准元数据标准拟组织和管理的数据资源元数据需求对比扩扩展展使使用用应用方案应用方案直直接接使使用用扩展规则需求说明书功能及其他需求预算、技术、管理策略等因素系统设计说明书开发实现8元数据标准结合实际需求
5、进行应用流程:Step by stepn1.需求访谈需求访谈-需求访谈的目的是为了解拟要组织和管理的数据资源的内容、系统建设目标、基本元数据需求等。n2.需求工作表的说明和填写需求工作表的说明和填写-需求分析人员向内容专家发放元数据需求工作表单,专家对各自的需求进行初步分析和填写。n3.收回需求工作表,进行初步分析收回需求工作表,进行初步分析-分析人员对反馈回来的需求工作表进行初步分析,理解用户的真正需求,初步确定参考的元数据标准。9n4.参考元数据标准的选取、比对和调整参考元数据标准的选取、比对和调整/扩展扩展-进行需求和参考元数据标准的初步比对与分析,对元数据标准于本数据管理系统案例的适用
6、性进行评估,在此基础上,决定直接使用标准还是扩展使用标准,形成本案例需要的元数据方案(格式架构),包括基本元素的设置以及元素与元素之间的基本关系等。n5.与内容专家讨论和确认元数据方案与内容专家讨论和确认元数据方案-将元数据方案反馈给内容专家,讨论调整确定该基本架构。n6.元数据需求说明书元数据需求说明书-与系统设计人员一起编写完成元数据需求说明书,作为系统需求说明书的一部分10n7.采用或研发系统雏形及测试采用或研发系统雏形及测试n8.在系统中进行元数据著录,并从著录者和数据管理者角度在系统中进行元数据著录,并从著录者和数据管理者角度对元数据方案进行评估对元数据方案进行评估n9.系统对外提供
7、元数据服务,并从用户角度对元数据方案进系统对外提供元数据服务,并从用户角度对元数据方案进行评估行评估n10.根据评估结果,可能需要对元数据方案和系统进行改进根据评估结果,可能需要对元数据方案和系统进行改进n11.在实际应用中发现元数据标准可能存在的问题,向元数在实际应用中发现元数据标准可能存在的问题,向元数据标准制定者反馈,供修订时参考据标准制定者反馈,供修订时参考112.SDB-ERM简介n制定背景“十五”科学数据库元数据标准体系建设 生态学研究具有明显的时空性特点,需要丰富而易于存取和共享的数据作为研究支撑 长期性 由定性走向定量,由静态走向动态,由小尺度走向大尺度,跨站点、大范围甚至全球
8、尺度的大规模研究成为热点 在对生态学有关建库单位数据资源调研过程中,发现数据资源特别是观测、试验数据资源的分散保存及缺乏有效的数据组织和管理问题12制定过程nCNIC联合南京土壤所、西北水保所、成都山地所、东北农业所等制定2002.8 启动项目2002.9 需求和基础调研工作2002.11 SDB-ERM草案2002.12 召开SDB-ERM工作研讨会2003.1 SDB-ERM1.02003.2-5 标准试应用,用户反馈,部分调整标准2003.8 SDB-ERM1.1和通用元数据管理工具2003.9-12 通用元数据管理工具试应用和用户反馈2004.2-4 列表类型生态学数据管理系统(关系数
9、据库系统)需求 调研和分析2004.4-7 系统设计、开发13标准范围和目标n范围 主要针对列表类型生态学数据资源,主要包括关系表格、Excel文件以及具有一定结构的文本文件 数据集层次n目标为列表类型生态学数据集资源提供一套完整而规范的描述元素,用以指导这类资源的组织和管理。14标准特点n基于科学数据库核心元数据标准(SDBCM),结合列表类型生态学数据资源的特点进行扩展n模块性n可扩展性n兼容性15标准主要内容n内容结构 8个主要模块,3个辅助模块,200多个元数据元素n语义结构 语义定义规则和定义方法n语法结构 推荐采用XML语言及其相关语法结构160.数据集描述信息数据集分发信息研究项
10、目信息元数据参考信息服务描述信息研究方法信息研究场地信息结构描述信息SDB-ERM范围信息联系信息引用信息0.0.0.主要主要模块模块辅助辅助模块模块17n应用实例1通用元数据管理系统 直接使用(不针对更特定的数据资源)“虚拟的”数据管理系统(元数据和数据不在同一系统中保存)利用XML技术,元数据记录保存为XML文档 通用元数据管理工具(A desktop application used to create metadata and to store that metadata record both locally and on a shared network server locate
11、d in SDB Center)元数据管理系统(A metadata database on a server located in SDB Center,for storing metadata,for data users to search and retrieve metadata,and for others)。3.SDB-ERM在实际数据管理中的应用实例18应用实例2试验观测类生态数据管理系统n关键词/句 扩展使用(针对特定需求)利用关系数据库技术开发的管理系统,B/S架构 元数据与数据在同一系统中保存 有效防止数据资产流失,保证数据共享和保护的均衡19需求分析n背景/问题 数据的
12、不可再生:观测/试验的不可重复 历史性试验/观测原始数据的亟待抢救 数据的分散保存和异构:来自观测、试验的原始数据分别保存在专家、项目组手中,数据的保存和组织方法五花八门 数据的不完整保存:数据的相关信息完整保存意识的缺乏和不完整保存现状 通用元数据管理系统相对于需求的局限性20需求分析(Cont.)n所针对的资源范围“原始的”列表类型生态观测/试验数据 价值珍贵的历史性原始数据 刚产生及正在产生的原始数据n使用范围 机构的信息/数据中心、科技档案处或其他类似部门n系统目的 来自观测、试验的原始数据的挽救和保值 来自观测、试验的原始数据的集中保存 充分尊重和有效保证数据生产者利益和权利基础上的
13、数据管理和服务21需求分析(Cont.)n元数据需求数数据据集集描描述述信信息息(M,1)数据集名称数据集名称(M,1)数据集中文名称(M,1)未变数据集其他名称(O,1)未变数据集标识(O,1)未变主题主题(M,1)学科主题词学科主题词(O,n)主题词(M,1)删除理由:成本因素;无合适词表。相应地,自由关键词变为必填。主题词表(M,1)删除自由关键词(M,n)修改OM描述(M,1)未变目的(O,1)未变类型(O,1)删除理由:可通过实体类型反映数据量数据量(O,1)记录数(O,1)删除理由:记录实体的数据量更合理存储量(O,1)删除22理由:资源粒度;可通过场地反映删除空间范围(O,1)结
14、束时间n1;理由:同上修改开始时间时间段(O,1)理由:数据资源的时间范围特点删除时间点(O,n)时间范围(O,1)学科分类表(M,1)n1;一个系统宜使用一个分类表整个系统使用同一个分类表修改学科类别(M,n)学科范围(M,1)数据集范围数据集范围(O,1)理由:涉及的引用只可能在研究方法删除数据集引用(数据集引用(O,1)理由:相对完整且独立删除关联数据集关联数据集(O,n)理由:数据与元数据存于同一系统删除URL(O,1)理由:皆为汉语删除语种(O,1)未变数据集最近修改时间(O,1)未变数据集创建时间(M,1)数据集时间删除更新频率(O,1)未变数据集贡献者(O,n)理由:创建数据集,
15、需突出。添加数据集编写者(M,n)未变数据提供者(M,n)理由:针对原始观测和试验数据删除数据来源(O,1)数数据据集集描描述述信信息息(M,1)续续删除23数据集数据集分发信分发信息息(OM,1)数据格式(O,1)删除理由:可通过实体反映技术要求(O,1)删除理由:无需特殊技术收费策略(O,1)未变权限声明(O,1)未变订购指南(O,1)删除理由:因系统的数据管理策略访问时间(O,1)删除理由:必要性很小分发联系信息(M,1)修改n1;删除职务名称、主页24元元数数据据参参考考信信息息(M,1)元数据时间元数据时间(M,1)元数据创建时间(M,1)未变元数据最近修改时间(O,1)未变元数据联
16、系信息(M,1)未变是否通过审核(O,1)添加理由:数据质量保证方面的需求记录审核人(C,1)添加理由:同上记录审核时间(C,1)添加理由:同上元数据标准(O,1)删除理由:整个系统相同2526n删除服务参考信息模块 理由:服务信息之用户的独特性n研究项目信息模块元素设置未变更,最大出现次数变为1n研究方法信息模块更改 从研究方法信息的实际存在形式、著录成本和原先设定的适用性方面考虑,将该重新设定为包括观测/试验方案和观测/试验过程两个子元素 原先的元素设定变更为对目前所设定的两个子元素在描述内容上的规范和约束 最大出现次数由n变更为12728应用方案数据集描述信息数据集分发信息元数据参考信息
17、结构信息研究项目信息研究方法信息研究场地信息29树状结构关系数据模型nStep 1 先将每个主要模块作为一个实体 数据集描述数据集标题(M,1)数据集中文标题(M,1)数据集其他标题(O,1)数据集标识(O,1)主题(M,1)自由关键词(M,n)描述(M,1)目的(O,1)数据集时间(M,1)数据集创建时间(M,1)数据集最近修改时间(O,1数据集范围(M,1)学科范围(M,1)学科类别(M,n)时间范围(O,1)时间段(M,1)开始时间(M,1)结束时间(M,1)数据集分发权限声明(O,1)收费策略(O,1)分发联系信息(M,1)联系人(M,1)姓名(M,1)单位(O,1)联系地址(O,1)
18、国家(O,1)省(市/自治区)城市(M,1)地址(M,1)邮政编码(M,1)联系方式(O,1)传真(O,1)电话(O,1)电子邮箱(O,1)元数据参考元数据时间(M,1)元数据创建时间(M,元数据最近修改时间元数据联系信息(M,1 联系人(M,1)姓名(M,1)单位(O,1)联系地址(O,1)国家(O,1)省(市/自治区)(城市(M,1)地址(M,1)邮政编码(M,1)联系方式(O,1)传真(O,1)电话(O,1)电子邮箱(O,1)是否通过审核(M,1)记录审核人(C,1)记录审核时间(C,1)结构描述实体(M,1)实体名称(M,1)实体标识(M,1)实体类型(M,1)实体定义(O,1)实体文
19、件(M,1)文件后缀(M,1)属性(M,n)属性名称(M,1)属性标识(M,1)属性定义(O,1)数据类型(O,1)计量单位(O,1)精度(O,1)值域(O,1)漏测值说明(O,n)漏测值代码(M,1 漏测值含义(M,130 研究项目项目名称(M,1)项目代码(O,1)项目来源(M,1)项目负责人(M,n)项目主要参与人员(O,n)项目描述(O,1)项目时间(M,1)开始时间(M,1)结束时间(M,1)父项目名称(O,1)父项目代码(O,1)研究方法观测/试验方案(C,1)观测/试验过程(C,1)研究场地场地名称(O,1)场地类型(O,1)地理位置(M,1)气候信息(O,1)生境信息(O,1)
20、地质信息(O,1)水文信息(O,1)高程信息(O,1)场地历史(O,1)31nStep 2:每个实体内 可重复复合元素 包含2个或以上子元素,视情况:独立出来成为一个实体 包含子元素少且每个子元素皆为简单元素时,可考虑将整个元素作为一个字段(字段内,子元素值间以及每个组合元素值间用分隔符分隔)结构描述实体基本信息(M,1)实体名称(M,1)实体标识(M,1)实体类型(M,1)实体定义(O,1)实体文件(M,1)文件后缀(M,1)属性(M,n)属性名称(M,1)属性标识(M,1)属性定义(O,1)数据类型(O,1)计量单位(O,1)精度(O,1)值域(O,1)漏测值说明(O,n)漏测值代码(M,
21、1 漏测值含义(M,1 结构描述实体基本信息(M,1)实体名称(M,1)实体标识(M,1)实体类型(M,1)实体定义(O,1)实体文件(M,1)文件后缀(M,1)属性信息属性名称(M,1)属性标识(M,1)属性定义(O,1)数据类型(O,1)计量单位(O,1)精度(O,1)值域(O,1)漏测值说明(O,n)E.g.:-9999(仪器设备故障);-1(技术人员错误)32 可重复复合元素(续)只包含一个子元素 该复合元素的可重复性转移为其子元素的可重复性,子元素上升为当前实体中的直接复合元素或简单元素,然后按step2中的规则分析该子元素。33 不可重复复合元素 视是否引用辅助模块、该辅助模块是否
22、也被其他实体引用、可选性等 子元素上升为当前实体中的直接复合元素或简单元素,然后按step2中的规则分析该子元素。所引用的辅助模块独立为一个实体,该复合元素变为一个外键值,与此实体建立1:1或n:1关联关系。数据集描述数据集标题(M,1)数据集中文标题(M,1)数据集其他标题(O,1)数据集标识(O,1)主题(M,1)自由关键词(M,n)描述(M,1)数据集范围(M,1)学科范围(M,1)学科类别(M,n)时间范围(O,1)时间段(M,1)开始时间(M,1)结束时间(M,1)数据集描述数据集中文标题(M,1)数据集其他标题(O,1)数据集标识(O,1)自由关键词(M,n)描述(M,1)目的(O
23、,1)学科范围(M,1)学科类别(M,n)时间范围(O,1)时间段(M,1)开始时间(M,1)结束时间(M,1)数据集描述数据集中文标题(M,1)数据集其他标题(O,1)数据集标识(O,1)自由关键词(M,n)描述(M,1)目的(O,1)学科类别(M,n)时间段(O,1)开始时间(M,1)结束时间(M,1)34 数据集分发权限声明(O,1)收费策略(O,1)分发联系信息(M,1)联系人(M,1)姓名(M,1)单位(O,1)联系地址(O,1)国家(O,1)省(市/自治区)城市(M,1)地址(M,1)邮政编码(M,1)联系方式(O,1)传真(O,1)电话(O,n)电子邮箱(O,n)元数据参考元数据
24、时间(M,1)元数据创建时间(M,元数据最近修改时间元数据联系信息(M,1 联系人(M,1)姓名(M,1)单位(O,1)联系地址(O,1)国家(O,1)省(市/自治区)(城市(M,1)地址(M,1)邮政编码(M,1)联系方式(O,1)传真(O,1)电话(O,n)电子邮箱(O,n)是否通过审核(M,1)记录审核人(C,1)记录审核时间(C,1)数据集分发权限声明(O,1)收费策略(O,1)分发联系信息(M,1)元数据参考元数据创建时间(M,1元数据最近修改时间(元数据联系信息(M,1是否通过审核(M,1)记录审核人(C,1)记录审核时间(C,1)人员信息姓名(M,1)单位(O,1)国家(O,1)
25、省(市/自治区)(C城市(C,1)地址(C,1)邮政编码(C,1)传真(C,1)电话(C,n)电子邮箱(C,n)35 简单子元素 不可重复子元素:直接成为实体中的一个字段 可重复子元素:作为一个字段,元素值之间用固定分隔符分隔 是否作为检索入口:是否为其建立索引 数据集描述数据集中文标题(M,1)数据集其他标题(O,1)数据集标识(O,1)自由关键词(M,n)描述(M,1)目的(O,1)数据提供者(M,1)数据集编写者(M,1)数据集创建日期(M,1)数据集最近修改日期(O,1)学科类别(M,n)开始时间(C,1)结束时间(C,1)分别建立索引 人员信息姓名(M,1)单位(O,1)国家(O,1
26、)省(市/自治区)(C城市(C,1)地址(C,1)邮政编码(C,1)传真(C,1)电话(C,n)电子邮箱(C,n)不建立索引36nStep 3 确定实体之间的关系:1:1;1:n;m:n。Step 4 代码表字典表371.*0.*0.10.10.*n:11:n1:1n:11:11:nm:n1:1n:138需求分析(Cont.)n用户角色39需求分析(Cont.)n功能需求用户管理数据录入数据集授权系统管理数据查询数据浏览40系统数据结构4142总结n元数据标准具体如何使用因具体需求而异n基于元数据标准设计开发实际的数据管理系统有一定的流程可循nSDB-ERM是一个面向列表类型生态学数据的元数据标准,是一个可扩展的标准n如其他元数据标准一样,SDB-ERM可直接使用,也可扩展使用,如何扩展受扩展规则约束,因所针对具体资源及其组织和管理需求而定n使用SDB-ERM的两个实例 直接使用SDB-ERM,利用XML技术开发的通用元数据管理系统;扩展使用SDB-ERM,利用关系数据库技术开发的管理系统,通过强大的权限管理功能,实现数据共享和产权保护的均衡43Thanks!44