1、数字图书馆元数据标准体系建设刘刘 炜炜上海图书馆系统网络中心上海图书馆系统网络中心2讨论的主题n数字图书馆建设的标准规范体系n数字图书馆资源组织规范元数据标准体系n有关知识本体ontology的研究n上图建设数字图书馆的一些想法3资源检索资源管理资源存储资源转换数字图书馆技术标准体系信息流法(肖珑法)资源加工资源描述资源组织资源发布资源存取数据编码对象标识文件格式资源创建元数据标引置标encoding网络协议互操作协议对象管理检索协议DL建设流程DL标准体系STARTSDOI URN PURL 开放链接SFX XML/RDF HTML DC MARC FGDCEAD TEI TCP/IP HT
2、TPMIME ILL CORBA DCOMSOAP Z39.50/SDLIPOAI UNICODE GBK JPG MPG GIF PNG MP3 PDF 系统/通信平台操作系统 数据库通信 安全 4n关于数字内容创建的标准规范:内容编码;数据格式;内容标识;n数字对象描述(元数据)的标准规范:元数据应用原则;标准选择;内容主体描述语言选择;n资源组织体系描述的标准规范:对资源集合的描述;对资源组织机制的描述;对资源管理机制的描述;资源组织建设的过程、原则、方法及相应的标准规范进行描述;对资源组织的描述数据的要求;n关于数字资源系统服务的标准规范:接入条件;检索条件;数据应用条件;分布数字对象
3、机制;n关于数字资源长期保护的标准规范数字图书馆技术标准体系生命周期法(张晓林法)5技术类型分类(经过补充的林宁法)n字符编码n多媒体信息编码n数据元素n描述语言n电子图书n数据格式n影像压缩n操作系统n安全规范n程序语言n网络协议n数据库n界面与人机交互6技术应用分类(真溱、黄奇法)n信息采集与编码标准Capture and Encoding n信息组织与存档标准Organizing and Archiving资源标识标准 Resource identification standards 资源描述标准 Resource description standards 记录管理标准 Record
4、s management standardsn信息检索与服务标准Retrieval and Services互操作标准 Interoperability standards n信息权益管理Rights Managementn信息安全标准System Securityn信息评价标准Measure Metrix7采用标准的问题n标准太多了!都是我要关心的吗?n不要发明轮子,但要用好轮子;n不是标准的标准;n标准的适用性问题;n标准有生命周期;n大胆探索实践。8标准规范类型分类n标准Standardn规范Specificationn指南Guidelinen体系架构System Frameworkn应
5、用方案Application Profilen典型案例Best Practice9标准规范的作用n异构系统的互操作性,信息资源的共享便利;n技术、方案、代码、组件的重用;n数据独立于软件和系统;n系统升级、迁移方便;n有利于数据的“永久”保存。10重要的相关标准规范nXML家族n元数据及DCn多媒体文件格式n通信协议n面向对象技术n中间件11DL建设必须/常用的标准n数字化的各项标准;多媒体数据格式、字符编码标准n信息组织(内容管理)标准;各类置标方案XML/RDF/DTD/XML Schema;各类元数据方案;各类知识规范体系:叙词表、分类表、知识本体等;n信息系统设计方面的标准:数据库、网
6、络通信、信息安全等12数字图书馆“核心”标准n知识(资源)的表达、组织方面的标准W3C大公司13SGML/XML实现了内容与表现形式的分离实现了内容与表现形式的分离ContentStructurePresentationDocumentXMLDTD,XML SchemaHTML,CSS,XSL好处:易扩展、跨平台、适宜永久保存。资料来源:台湾陳昭珍?14元数据体系研究n元数据标准:传统的理解n元数据体系:从数字图书馆体系结构角度设计元数据方案元数据方案作为一个完整的体系n数字图书馆的宏观微观结构n知识本体与元数据方案的关系15元数据的一般概念元数据的一般概念n元数据:关于数据的(结构化)数据元
7、数据:关于数据的(结构化)数据n作用:作用:资源发现与书目控制资源发现与书目控制(resources discovery)认证(认证(authentication)数据连接与交换数据连接与交换互操作(互操作(interoperability)内容组织与管理(内容组织与管理(data management)版权管理与访问控制(版权管理与访问控制(rights management)存取管理与数字化保存(存取管理与数字化保存(digital preservation)内容分级(内容分级(content rating services)16元数据方案的应用流程系统需求分析系统需求分析现有标准现有标准
8、可用可用?形成元数据形成元数据应用规范应用规范自行研制方案自行研制方案进行限定进行限定可用可用?混合标准混合标准可用可用?扩展元素扩展元素可用可用?YYYYNNNN定义置标方式定义置标方式制定著录方法制定著录方法标引标引/置标置标装载入库装载入库/提供检索提供检索17元数据的作用n摘要摘要Summary n查找查找Finding n建议建议Advisement n选择选择Selectionn检索检索Retrieval n限制限制Restrictionn解析解析Interpretationn规范规范Specifications n追溯追溯History n数据管理数据管理Data adminis
9、tration n数据链接数据链接Data linkages or relationships n数据结构数据结构Data structure摘自Carl Lagoze等人的论文18元数据的种类元数据的种类19描述性元数据的分类描述性元数据的分类描述能力描述能力低高20各类元数据标准和协议各类元数据标准和协议n 元数据的存在形态元数据的存在形态人能理解但机器难以理解(卡片目录)人能理解但机器难以理解(卡片目录)机器能理解而人不容易理解(机器能理解而人不容易理解(MARC)人与机器或机器之间都易于理解(人与机器或机器之间都易于理解(SGML/XML)n 元数据根据标准而结构化元数据根据标准而结构
10、化MARC,EAD,CIMI,TEI.Dublin Core XML,RDFn 元数据按照某种协议被应用元数据按照某种协议被应用Z39.50,whois+,LDAP21n元数据语义与结构元数据语义与结构属性元素与值:属性元素与值:DCMICIFGDC GILSAATLCSH结构:结构:RDFn元数据语法元数据语法SGMLXMLHTMLn元数据查询元数据查询OAIZ39.50n元数据显示元数据显示Style Sheet22n根据不同领域的数据特点和应用需要,90年代以来出现了许多Metadata格式和方案:网络资源:Dublin Core、IAFA Template、CDF、Web Collec
11、tions、PICS文献资料:MARC(with 856 Field),Dublic Core人文科学:TEI Header社会科学数据集:ICPSR SGML Codebook博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS、AGILS地理空间信息:FGDC/CSDGM数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images档案库与资源集合:EAD技术报告:RFC 180
12、7视频图像:MPEG-723n国家试验型数字图书馆项目初期提出元数据方案:以DC为基础加以扩展;n国家图书馆正在制定的元数据方案:基于OAIS参考模型;n国家地理信息元数据方案(参考FGDC?);n北京大学古籍/拓片元数据方案;n清华大学中国建筑数字图书馆元数据方案。24目前元数据方案的缺陷n不具有普遍适用性。特殊性与一般性的矛盾与生俱来,无法克服;n难以实现元数据方案本身的进化,数据元素定义的含糊、矛盾无法克服;n难以对不同知识体系、不同“粒度”的资源进行描述,以及实现语义联系;n缺乏对数字资源的整个生命周期的描述;n缺乏对版权属性的描述机制;n缺乏灵活性和可扩展性,增加了互操作的难度;n停
13、留于信息集成,无法满足数字图书馆服务集成的需要25从数字图书馆体系结构角度看元数据从数字图书馆体系结构角度看元数据n元数据体系决定数字图书馆的结构,元数据体系决定数字图书馆的结构,定义了数字图书馆中数字对象:定义了数字图书馆中数字对象:如何表示?如何表示?如何关联?如何关联?如何使用?如何使用?n元数据体系主要解决两个问题:元数据体系主要解决两个问题:定义数字图书馆中数字对象的信息结构定义数字图书馆中数字对象的信息结构定义由数字对象构成的资源库的组织结定义由数字对象构成的资源库的组织结构构26数字图书馆微观结构:KWF资源创建者资源创建者 数字对象数字对象数据数据句柄句柄/调调度码度码仓储仓储
14、RAP(仓储仓储存取协议存取协议)句柄服务器句柄服务器创建包含由句柄(调度)系统创建包含在被存取句柄注册于27数字图书馆宏观结构资源库服务资源库服务索引服务索引服务馆藏服务馆藏服务句柄句柄名字服务名字服务数字资源对象数字资源对象用户访问网关服务用户访问网关服务数字图书馆数字图书馆门户门户资料来源:Sandra Payette“Computing Methods for Digital Libraries”,April 20,2000”28Data ProviderData ProviderRepositoryRepositoryRepositoryData ProviderOAI VerbRe
15、cordRequestResponseData ProviderData ProviderService ProviderUserOAI的体系结构资料来源:台湾陳昭珍?29資資料簡目簡目OAI Service Provider(即聯合目錄)知識工作者InternetOAI contentProvider資料詳目調閱全文或多媒體物件InternetDOIHandle System台湾數位典藏聯合目錄 建置方案OAI and handle system 架構圖(陳昭珍)典藏單位OAI Repository典藏單位OAI Repository30元数据层次体系n系统级system leveln资源库
16、级collection leveln资源级resource level(object)n次资源级element level(object)31元数据的层次体系32元数据层次体系描述上述信息内容的规则、方法和机制信息服务过程和服务系统模式作品与对象集合信息内容作品与对象作品/对象及其集合的管理和服务机制元数据元数据元数据元数据元数据元数据引自张晓林引自张晓林开放元数据机制开放元数据机制33知识表示的层次n基于元数据的(Meta-data based)DC,RDF,MARC,n基于表层特征的(Superficial-feature based)向量空间模型,词频,tf*idfn基于深层特征的(De
17、ep-feature based)知网及相关工作n基于语义模版的(Semantic-template based)信息提取和消息理解n基于本体论的(Ontology based)CYC工程引自白硕引自白硕信息资源与知识体系结构信息资源与知识体系结构34元数据体系设计n资源对象的描述方案;n管理元数据方案;n元数据置标方案;n资源集合元数据方案;n元数据体系映射方案;n资源的著录方案;n技术实现方案。35Ontology(知识本体)的应用n从元数据体系方案上升到知识本体;n知识本体:领域知识的规范的抽象和描述,表达、共享、重用知识的方法;n与数字图书馆元数据方案体系的关系;36知识本体在数字图书
18、馆中的应用n提供描述型元数据有关语义描述的知识地图;n提供资源库领域知识的规范描述;n提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分;n提供智能代理与信息环境之间基于语义的理解机制;n跨平台、跨系统之间的通信中介;n分布环境下查询请求的语义理解、自动分发;n提供CSCW(计算机支持的协同工作);n用于数字图书馆中的数据挖掘。37本体论描述n基于资源对象生命周期的“事件敏感性(event-awareness)”本体论描述;n提供所有元数据方案映射的方法论基础;n各元数据方案的本体论层次:概念Conception表达Expression显现Manifestation物化
19、Materialization Digitalization实例Instance38图片来自 IFLA“Functional Requirement for Bibliographic Records”http:/www.ifla.org/VII/s13/frbr/frbr.pdf 知识本体框架中元数据元素的关系图示39上图数字图书馆元数据方案设计n解决元数据模型问题:确立DL的元数据方案(元数据模型),包括核心元素和置标方案;n解决元数据映射问题:支持各主要资源描述型元数据方案的相互映射,包括予以映射和结构映射;n元数据模型的实现:满足资源描述、存储、互操作、检索、分布式知识发现等各相关构件
20、或模块对元数据模型提出的功能需求。40实现一定的元数据服务n系统对于元数据的功能需求通过元数据服务实现;n元数据服务内容包括:元数据模型代理:提供资源的元数据语义;元数据模型转换/映射;向搜索代理提供元数据表达工具;本地元数据库(可以是动态cache)41Infobus体系结构FIRMUPAISTARTSSMADLIOPProxyProxyProxyProxyDataDataDataUI ClientsotherClientsInfoBusServiceLayersRepositoriesServicesInfoBus Objects,e.g.-attribute models-payment
21、 records-digital contracts42上图元数据方案(规划)n本地资源描述DC为核心元数据,适当扩展XML/RDF置标,XML存储与资源对象的连接:URL连接/DOI解析n站点描述以本体论(ontology)方法提供站点组织依据,拓展无环有向图方式;通过各类元数据方案的语义映射和结构映射,提供异构站点互操作能力;提供对于站点的Mediator/Wrapper方案43元数据映射的考虑n动态映射/静态自动抽取转换建库;n支持目前实用的大多数主流资源描述元数据方案:MARC/DC/OAIMS/GILS等;n进一步支持Z39.50bib-1/OAI44工作计划n完善元数据置标方案;n
22、实现对特定类型资源的元数据自动抽取;n以本体论(ontology)方法提供站点组织依据,拓展目前的无环有向图方案;n通过各类元数据方案的语义映射和结构映射,提供异构站点互操作能力;n构建测试平台;n关注METS和MODS的应用进展。n关注语义网络的技术动向,了解MOF/XMI元数据建模方案;45元数据体系总结n元数据为分布的、由多种数字化资源有机构成的信息体系(数字图书馆)提供整合的工具与纽带,与体系结构、互操作、存储、检索、查询处理、发布等密切相关,不能割裂;n元数据方案应该具有灵活性、扩展性、可操作性,并尽可能避免多义性;n构件化的、独立的元数据服务必须能够满足数字图书馆中其他构件或模块对
23、元数据所提出的功能需求,该构件中封装的站点元数据模型、元数据映射模型等应该基于标准,而逐步使元数据服务成为数字图书馆中的标准构件;n对数字图书馆的宏观微观结构的认识的统一使得对元数据描述体系的认识也逐步在走向统一和简化。Warwick框架允许在统一的数据描述格式之下包容各种不同的具体数据表现形式,而RDF的出现是应用推广更为容易,前景更加明朗。n元数据互操作问题的彻底解决,必须依赖于高层互操作协议的标准化和广泛应用,因此应该关注W3C倡导的语义网络的元数据解决方案,应用将最终决定技术;46上图数字图书馆实践n为什么要建设数字图书馆(Vision)n怎样建设数字图书馆(Mission)n建设怎样
24、的数字图书馆(Goals)47为什么要建设数字图书馆图书馆信息环境发生了根本的变化n馆藏的变化;n馆藏揭示体系的变化;n服务业务模式的变化。48怎样建设数字图书馆n数字化n数据库建设n数字资源发展规划n网站建设n网上读书n网上服务n门户建设n资源整合n统一查询n个性化定制n内容管理n技术研发n全文检索n基于多媒体的内容检索n49怎样建设数字图书馆国外三个热点问题:n数字资源的永久保存;n数字参考服务(虚拟参考服务);n资源整合50怎样建设数字图书馆n建立标准体系指南/手册;n定期培训,开办workshop;n开展元数据体系以及有关知识本体研究;n基于开放方案,建立参考模型或示范工程;n成立协会
25、或联盟,促进技术应用,以非营利为目的。51数字信息的保存美国总统信息技术咨询委员会(PITAC)两度提出报告:n信息技术:投资我们的未来中将数字图书馆的研发列入美国十项“国家级挑战”之一(1999年2月)n2001年2月向布什总统提出报告数字图书馆:实现对人类知识的普遍访问52全球信息总量纸纸胶片胶片录象带录象带CDs数字影像数字影像磁带磁带硬盘硬盘文件系统文件系统300 Exabytes20 Exabytes1000 Petabytes100 Terabytes模拟模拟数据数据离线离线在线在线Internet.10HTMLSource:Information TYO (June 1999)b
26、y Ashok Chandra,IBM Research-Almaden53数字图书馆技术环境的进化复杂性e-mailftp/gopherhttpLTRS,e-print,Netlib,etc.httpDienstKWF结构的应用时间我们目前所处的位置传统情报检索,数据库,CD-ROMs,等.资料来源:Michael L.Nelson 54摘自大英图书馆研究报告55摘自大英图书馆研究报告56哪些资源需要整合?哪些资源需要整合?n OPACn 馆藏馆藏n 文摘索引数据库文摘索引数据库n 电子期刊电子期刊n 技术文档技术文档n 主题网关主题网关n 新闻新闻n 搜索引擎搜索引擎摘自exlibris公
27、司产品演示报告57美国国会图书图书馆系统架构图Digital objectURLs or URNsDigital objectDigital objectDigital objectDigital objectDigital content(at LC orawardeeinstitution)Digital objectDigital objectDigital objectLinks:globalidentifiersURL or URN(handle)URL or URNURLsor URNsSearchBrowselists of termsNavigate thesaurusOthe
28、r userinterfacesRead paperBrowsebibliographyVisitexhibitionAccess aids(not at LC)Item-leveldescriptiverecord(non-MARC)Finding aid(EAD)withitem-level linksItem-levelMARC recorde.g.non-MARCdatabase atawardeeinstitutione.g.archive of finding aids atawardee institutionOther indexesor catalogse.g.catalog
29、 atawardee institution58现代图书馆信息架构图示PrintElectronic Full TextMultimediaInternet ResourcesDigital LibrariesLibrariesStoresArchives InternetCommercial VendorsInternet PublicDomain ProvidersGovernmentMirrorsCachesArchivesLibraryCataloguesCommercialDirectoricsDigital librarySearch serversInternet Directo
30、riesZ39.50Search EnginesWebPointers/linksto subjectspecificinformationUser authenticationhelp screensSearch and mergeSupply optionsRequest supplyBilling/paymentFeedbackDiscussion listsDownload facilitiesViewingLicensingarrangementCopy rightmanagementInformationResources/suppliersDistributed DigitalAccessSearch/DiscoveryInterfacesValue-addedSubject GatewaysGeneric GatewayMechanismsOAI59上图正在建设怎样的数字图书馆n传统图书馆建设数字图书馆,必须走以实体图书馆为基础的道路。趋势:LAS与DL必然结合。然而怎样结合;LAS的目的:业务规范/资源索引DL的目的:资源整合/服务门户结合点:链接/数字化/Web服务案例:下一代Ilas/exlibris500/XMDL-XMLAS60欢迎讨论!