学位论文元数据元数据草案课件.ppt

上传人(卖家):晟晟文业 文档编号:5090867 上传时间:2023-02-10 格式:PPT 页数:32 大小:279.50KB
下载 相关 举报
学位论文元数据元数据草案课件.ppt_第1页
第1页 / 共32页
学位论文元数据元数据草案课件.ppt_第2页
第2页 / 共32页
学位论文元数据元数据草案课件.ppt_第3页
第3页 / 共32页
学位论文元数据元数据草案课件.ppt_第4页
第4页 / 共32页
学位论文元数据元数据草案课件.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、基于基于OAIOAI和和METSMETS远程收集数据的远程收集数据的方法和流程方法和流程 赵阳清华大学图书馆 学位论文项目组2007.09.27 南京主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW“CALIS 学位论文数据库学位论文数据库”服务体系架构服务体系架构参建馆参建馆本地系统本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工学位论文提交与发布系统DRM阅读器读者读者DRM数字版权保护

2、浏览器CALIS高校高校学位论文数据库学位论文数据库分中心分中心CALIS 学位论文参建馆本地系统涉及到三个层面:学位论文参建馆本地系统涉及到三个层面:n本馆层面n满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求n符合相关标准、规范n开放架构nCALIS子项目(分中心)层面n纳入“CALIS高校学位论文数据库”服务体系nCALIS中心层面n纳入“CALIS高等教育数字图书馆”服务体系学位论文参建馆本地系统结构图学位论文参建馆本地系统结构图Web检索全文检索引擎专业编目文档标准化论文回溯发布管理论文元数据库论文(PDF)对象库服务接口层应用层存储层学位论文提交与发布系统安全通信层

3、DRM版权保护系统(PDF)纸本扫描加工系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析学位论文参建馆本地系统结构图学位论文参建馆本地系统结构图读者读者浏览器浏览器DRM阅读器阅读器Web审核Web提交参建馆本地系统与参建馆本地系统与CALISCALIS子项目中心的互操作关系子项目中心的互操作关系服务接口层安全通信层MQ服务器METS接口模块OAI收割服务器CALIS-OID访问数字对象请求中心论文元数据仓库论文(前16页)对象仓库仓储层服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权数字

4、版权保护系统保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析学位论文提交与发布系统与学位论文提交与发布系统与CALIS中心的互操作关系中心的互操作关系CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆服务门户服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析本地系统升级的主要接口本地系统升级的主要接口nOAI和METS数据收割接

5、口,实现元数据和对象数据的收集;nCALIS_OID解析接口,实现数字对象的解析和获取;n数字对象安全下载接口,实现数字对象的安全下载;nCALIS ODL接口,实现CADLIS各系统之间的统一检索;nCADLIS认证/计费接口,实现认证计费。本地系统升级的主要接口本地系统升级的主要接口主要内容:主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW基于基于OAI和和METS数据收割模式数据收割模式n模式一:模式一:OAI-DP/METS-DP+

6、MQ联动联动n模式二:模式二:仅采用仅采用OAI-DP模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -收割方式收割方式(1)n实时自动收割实时自动收割 元数据通过元数据通过OAI-DPOAI-DP发布。发布。OAI-DPOAI-DP所发布出来的所发布出来的OAI RecordOAI Record采用采用“CALIS OAI Record V1.0CALIS OAI Record V1.0”数据格式;数据格式;本地系统的数字对象通过本地系统的数字对象通过METS-DP+MQMETS-DP+MQ发布。发布。METS-DPMETS-DP负责将数字负责将数字对象封装成对象封装成METSM

7、ETS数据包,然后通过数据包,然后通过MQMQ服务器发布出去,数据格服务器发布出去,数据格式记为式记为“CALIS METS Record V1.0CALIS METS Record V1.0”;元数据和数字对象之间的关系通过元数据和数字对象之间的关系通过OAI RecordOAI Record中的中的CALIS_OBJ:objInfoCALIS_OBJ:objInfo 子元素所包含的子元素所包含的MetaIDMetaID进行关联;进行关联;学位论文中心系统接收到学位论文中心系统接收到 OAI-DPOAI-DP或或METS-DP+MQMETS-DP+MQ请求,自动收割请求,自动收割参建馆本地系

8、统中的数据;参建馆本地系统中的数据;模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -收割方式收割方式(2)n手动收割手动收割 用用OAIOAI数据导出工具将数据导出工具将OAI-DPOAI-DP中的元数据导出成为包含中的元数据导出成为包含OAI OAI RecordRecord数据的数据的XMLXML文件,该文件称为文件,该文件称为OAIOAI记录文件,数据格式为记录文件,数据格式为“CALIS OAI Record V1.0CALIS OAI Record V1.0”;用用METSMETS数据导出工具将数据导出工具将METS-DPMETS-DP中的数字对象数据导出成为包含中的数

9、字对象数据导出成为包含METS RecordMETS Record数据的数据的XMLXML文件,该文件称为文件,该文件称为METSMETS记录文件,数据记录文件,数据格式记为格式记为“CALIS METS Record V1.0CALIS METS Record V1.0”;本地系统管理员手工将上述两类文件通过本地系统管理员手工将上述两类文件通过FTPFTP上传至上传至CALISCALIS学位学位论文中心,由其完成数据汇总、统计工作;论文中心,由其完成数据汇总、统计工作;模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -数据格式数据格式(元数据元数据)CALIS RECORD V1

10、.0用于维护元数据与用于维护元数据与METS一致的四项信息一致的四项信息模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -数据格式数据格式(对象数据对象数据)模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试n2006.032006.03月月-2006.07-2006.07月月n学位论文和特色库项目验收前,采用学位论文和特色库项目验收前,采用模式一模式一方式收割方式收割n学位论文学位论文本地系统在部分参建馆完成升级、本地系统在部分参建馆完成升级、数据迁移和发布工作;数据迁移和发布工作;n在厂商和参建馆配合下,在厂商和参建馆配合下,CALISCAL

11、IS技术中心和学技术中心和学位论文子项目组共同进行数据收割位论文子项目组共同进行数据收割;n参加测试的学校参加测试的学校:TPI:TPI:中国人民大学中国人民大学,中国农业大学中国农业大学TRS:TRS:清华大学清华大学北大方正北大方正:北京大学北京大学杭州麦达杭州麦达:北京大学医学院北京大学医学院模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试n收割结果收割结果实时自动收割:实时自动收割:n本地系统和数据都存在问题本地系统和数据都存在问题n中心系统对本地系统的自动收割难以有效进行中心系统对本地系统的自动收割难以有效进行手工收割手工收割:n本地系统能顺利提

12、交数据本地系统能顺利提交数据n但所上传的数据仍存在问题但所上传的数据仍存在问题n本地系统存在的主要问题本地系统存在的主要问题系统系统bugs数据问题数据问题模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(系统系统bugs)nOAI-DP本身的本身的bugs比较容易发现。但本地管理员仍缺乏有效易用的工具比较容易发现。但本地管理员仍缺乏有效易用的工具;nMETS-DP本身的本身的bug问题以及问题以及MQ配置问题配置问题难以由本地管理员自行发现难以由本地管理员自行发现;nOAI-DP+METS-DP+MQ联动问题联动问题厂商技术人员和本地管理员都难以测试和发

13、现厂商技术人员和本地管理员都难以测试和发现;n其他问题其他问题著录和导入工具不完备著录和导入工具不完备;本地本地DP所在机器软硬件系统的不稳定所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题本身的稳定性和可靠性问题;METS包传输丢包问题包传输丢包问题;模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(数据问题数据问题)n数据不符合数据不符合schema导出的导出的OAI和和METS包文件,其数据不符合包文件,其数据不符合scheman数据必备性问题数据必备性问题很多数据项缺乏,不符合子项目组的数据规范性要求很多数据项缺乏,不符合子项目组的数据规范

14、性要求CALIS元数据元数据schema本身不支持必备性机制,而厂商本地系统也本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能未能提供相应的必备性检测功能n数据内容不一致问题(尤其是数据内容不一致问题(尤其是OAI记录和记录和METS记录之间的不一致)记录之间的不一致)OAI记录中的记录中的about内容不合逻辑内容不合逻辑n如:有时间戳或类型而没有如:有时间戳或类型而没有calis-oid;有;有calis-oid而没有时间而没有时间戳。戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,

15、才能保证联动收割时对这条记录重收。更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与包中的时间戳应与OAI-about中的时间戳一致等。中的时间戳一致等。n数据的语义问题数据的语义问题张冠李戴张冠李戴模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(问题原因问题原因)n本地系统的著录工具问题本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问单条入库的元数据和数字对象在必备性、一致性等方面存在问题。题。n本地系统的批量导入工具问题本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一致性等方面存在

16、问批量入库的元数据和数字对象在必备性、一致性等方面存在问题;题;批量导入的数据的时间戳都为同一个时间点,这给批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带带来很大压力。来很大压力。n统计结果的一致性问题统计结果的一致性问题本地本地OAI-DP、METS-DP实际发布的记录数与本地系统的数实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。据库查询模块提供的记录数不一致,给管理员造成困惑。由内部检索机制不一致因素所造成。由内部检索机制不一致因素所造成。n 本地系统缺乏有效的本地系统缺乏有效的“数据质量检测工具数据质量检测工具/模块模块”在在OAI-DP和和

17、METS-DP发布之前,系统本身对数据没有进行发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。这种质量检测(包括必备性、一致性等)。管理员无法自行发现上面的管理员无法自行发现上面的“数据问题数据问题”。模式二:仅采用模式二:仅采用OAI-DP收割收割 n为解决模式一收割中的系统和数据问题为解决模式一收割中的系统和数据问题,CALIS管理中心于管理中心于2006年年10月招集厂商开会月招集厂商开会,提出模式二提出模式二;n厂商依据规范要求厂商依据规范要求,改进和完善系统改进和完善系统;n模式二模式二:收割方式收割方式实时自动收割实时自动收割手动收割手动收割模式二:仅采用模式

18、二:仅采用OAI-DP收割收割 -收割方式收割方式(1)n实时自动收割实时自动收割 元数据和数字对象元数据和数字对象仅仅通过通过OAI-DPOAI-DP发布。发布出来的发布。发布出来的OAI RecordOAI Record采用采用“CALIS OAI Record V2.0CALIS OAI Record V2.0”数据格式;数据格式;学位论文中心系统接收到学位论文中心系统接收到 OAI-DPOAI-DP或或METS-DP+MQMETS-DP+MQ请求,自动收割请求,自动收割参建馆本地系统中的数据;参建馆本地系统中的数据;n手动收割手动收割 用新的用新的OAIOAI数据导出工具将本地系统中的

19、元数据和数字对象合数据导出工具将本地系统中的元数据和数字对象合并为一条并为一条OAIOAI记录导出为记录导出为OAIOAI记录文件。该文件中的数据格式记录文件。该文件中的数据格式为为“CALIS OAI Record V2.0CALIS OAI Record V2.0”;METS-DPMETS-DP中的数字对象数据无需再单独导出;中的数字对象数据无需再单独导出;本地系统管理员手工将上述两类文件通过本地系统管理员手工将上述两类文件通过FTPFTP上传至上传至CALISCALIS学学位论文中心,由其完成数据汇总、统计工作;位论文中心,由其完成数据汇总、统计工作;模式二:仅采用模式二:仅采用OAI-

20、DP收割收割 -收割方式收割方式(2)模式二:仅采用模式二:仅采用OAI-DP收割收割 -数据格式数据格式CALIS Record V1CALIS Record V2模式二:仅采用模式二:仅采用OAI-DP收割收割 -数据格式数据格式CALIS Record V2,无Mets模式二:仅采用模式二:仅采用OAI-DP收割收割 -实际收割测试实际收割测试n2007.09月月n参加测试的学校参加测试的学校:nTPI:中国农业大学中国农业大学nTRS:清华大学清华大学n北大方正北大方正:北京大学北京大学n杭州麦达杭州麦达:北京大学医学院北京大学医学院比较比较:模式一与模式二模式一与模式二 -在系统部署

21、和维护方面在系统部署和维护方面类型类型模式模式1 模式模式2 说明说明部署内容部署内容部署部署OAI-DP服务器服务器部署部署METS-DP服务器服务器部署部署MQ服务器服务器只需部署只需部署OAI-DP服务器服务器前者部署、培训、前者部署、培训、管理成本都较大管理成本都较大数据校验数据校验和错误排和错误排查查OAI文件文件METS文件文件OAI文件和文件和METS文件对应文件对应关系(如相关文件个数一致关系(如相关文件个数一致、ID一致等)一致等)OAI文件(可文件(可含含METS数据)数据)对两类文件之间对两类文件之间的对应关系的问的对应关系的问题题,模式模式1排查工排查工作量很大,排查作

22、量很大,排查难度很大难度很大系统故障系统故障排查排查OAI-DP服务器服务器METS-DP服务器、服务器、MQ服务服务器以上三个系统之间的联动器以上三个系统之间的联动OAI-DP服务器服务器前者工作量和难前者工作量和难度(尤其是系统度(尤其是系统之间联动)都很大之间联动)都很大厂商技术支厂商技术支持工作量持工作量较大,当出现复杂问题时,需较大,当出现复杂问题时,需厂商和厂商和CALIS全力配合才能发全力配合才能发现现大为降低大为降低比较比较:模式一与模式二模式一与模式二 -优缺点比较优缺点比较类型类型模式模式1 模式模式2 优点优点OAI-DP无需考虑大容量数据记录的传输问无需考虑大容量数据记

23、录的传输问题,因此,模式题,因此,模式1对对OAI-DP在性能和超时在性能和超时处理等方面的要求较低;处理等方面的要求较低;n只需部署与只需部署与OAI-DP,无需部,无需部署署METS-DP和和MQ服务器;服务器;nOAI记录和记录和METS记录不再分记录不再分离,一般不会出现一致性问题;离,一般不会出现一致性问题;n系统出现故障或数据出现问题系统出现故障或数据出现问题时,时,管理员利用相关工具能够自管理员利用相关工具能够自己检测出来己检测出来;缺点缺点n需要部署需要部署METS-DP和和MQ服务器,需要这服务器,需要这两个服务器与两个服务器与OAI-DP服务器联动;服务器联动;nOAI记录

24、和记录和METS记录之间的一致性较难记录之间的一致性较难维护;维护;n特别是:特别是:当上述三个服务器联动出现故障当上述三个服务器联动出现故障或者当或者当OAI记录和记录和METS记录之间出现不一记录之间出现不一致性时,致性时,系统管理员没有有效的问题排查手系统管理员没有有效的问题排查手段段,厂商也难以为管理员开发出来这种有效厂商也难以为管理员开发出来这种有效的检测工具的检测工具;对对OAI-DP在性能方面有较高要在性能方面有较高要求,求,OAI-DP应能对超大容量的应能对超大容量的数据记录予以正确响应数据记录予以正确响应。比较比较:模式一与模式二模式一与模式二 -结论结论n“模式二模式二”是

25、对是对”模式一模式一”的简化,相应的系统改造、升级、部署、的简化,相应的系统改造、升级、部署、维护等。维护等。工作量和难度都得大为减少工作量和难度都得大为减少,模式二模式二 的易用性和可管理性都大为提的易用性和可管理性都大为提高高;n其中其中“模式二模式二”的手动收割的手动收割,更为安全稳定更为安全稳定,CALIS特色库的大批量特色库的大批量数据收割均采用该方式数据收割均采用该方式;n学位论文本地系统的收割模块学位论文本地系统的收割模块:TPI:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;北大方正北大方正:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;麦达麦达:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;TRS:支持支持模式二模式二的手动收割的手动收割;主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW基于基于OAIOAI和和METSMETS数据收割实施步骤数据收割实施步骤 -针对模式二针对模式二(手动收割手动收割)n1)现有系统升级-公司介绍n2)数据导出-公司介绍n3)数据质量检测n4)通过FTP方式提交 谢谢大家!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(学位论文元数据元数据草案课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|