1、2022-12-16信息管理系1第四讲 元数据2022-12-16信息管理系2 元数据(MetaData),就是“描述数据的数据”或“关于数据的结构化数据”。哈佛大学数字图书馆项目定义:元数据是帮助查找、存取、使用和管理信息资源的信息。一、元数据概念2022-12-16信息管理系3具体:元数据是用来描述数据本身的内容特征和其它特征的数据,目地是加强对网络信息资源的发现、识别、开发、组织和评价,而且对相关的信息资源进行选择、定位、调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。2022-12-16信息管理系4例如:文献信息资源,元数据可以是目录、索引、摘要及主题等文献特
2、征和属性。从元数据的提供者角度来看,元数据能改进针对文档的检索能力,特别是搜索的精确度、以及对资源的控制和管理问题。对于电子文档所存在的格式和控制方法多样性问题,元数据能支持用户决策过程。2022-12-16信息管理系5DL信息体系结构2022-12-16信息管理系6元数据是关于数据的数据(data about data),此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。元数据是关于数据的结构化的数据(structured data about data)。2022-12-16信息管理系7元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。元数
3、据是对信息包(Information package)的编码描述,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择而无需检索大量不相关的全文文本。2022-12-16信息管理系8元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检索。2022-12-16信息管理系9应用于不同领域的应用于不同领域的Metadata格式格式:DublicCore、ROADSTemplate、CDF(ChannelDefinitionFormat)、WebCollections:MARC(with856Field),Dubli
4、cCore:TEIHeader(TextEncodingInitiativeHeader):ICPSRSGMLCodebook(Inter-universityConsortiumforPoliticalandSocialResearch):CIMI(ComputerInterchangeofMuseumInformation)、CDWA(CategoriesfortheDescriptionofWorksofArts)、RLG REACH Element Set.2022-12-16信息管理系10:VRA(Visual Resources Association)Core Categorie
5、s for Visual Resources:SMDL(Standard Music Description Language):GILS(Government Information Locator Service)FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata)2022-12-16信息管理系11MOA2metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical
6、 Metadata for Images:EAD(Encoding Archival Description):RFC1807:A format for Bibliographic Records:IAFA Templates(Internet Anonymous FTP Archives Templates):MPEG-72022-12-16信息管理系12二、元数据的目的2022-12-16信息管理系132022-12-16信息管理系142022-12-16信息管理系152022-12-16信息管理系16三、元数据结构2022-12-16信息管理系172022-12-16信息管理系18202
7、2-12-16信息管理系192022-12-16信息管理系202022-12-16信息管理系213 语义结构:2022-12-16信息管理系222022-12-16信息管理系232022-12-16信息管理系242022-12-16信息管理系252022-12-16信息管理系262022-12-16信息管理系272022-12-16信息管理系282022-12-16信息管理系292022-12-16信息管理系30资源描述框架资源描述框架(Resource Description Framework)数据描述模式而且采用基于数据描述模式而且采用基于 XML的句法的句法提供语义、结构、句法三个层次
8、的互操作能力提供语义、结构、句法三个层次的互操作能力模块化的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用。对集成这些元数据非常有用。四、元数据描述框架四、元数据描述框架RDF2022-12-16信息管理系31RDF是一个与任何特定语法无关的抽象的资源表达模是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(式,用来反映资源(Resource)、属性()、属性(Property)与)与属性值(属性值(Value)资源资源resource属性属性property属性值属性值value语句语句stateme
9、nt2022-12-16信息管理系32换言之换言之“张三是由以下网址所标识的资源的作者:张三是由以下网址所标识的资源的作者:http:/ 作者作者author张三张三2022-12-16信息管理系33http:/ 作者作者author张三张三 张三张三 RDF基于XML的描述实例:RDF描述实例2022-12-16信息管理系34http:/ Core基于基于RDF的描述:的描述:张三张三 基于RDF的DC描述实例2022-12-16信息管理系351)http:/www.w3.org/1999/02/22-rdf-syntax-ns#RDF标准申明2)dc=http:/purl.org/dc/e
10、lements/1.0/DC标准申明Notes:2022-12-16信息管理系36五、元数据种类 由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不一样,因此现在有多种描述网络数字资源的元数据格式,到目前为止还没有出现成熟的统一格式。两种:Marc、DC2022-12-16信息管理系371 MARC(Machine-Readable Catalogue)元数据元数据 机读目录格式MARC 是图书情报领域广泛应用的标准格式,国际通用的MARC 标准为USMARC和UNIMARC标准。我国的MARC 标准(CNMARC)是在U
11、NIMARC 标准的基础上加以补充规定形成的。由于多语种图书文献的存在,目前我国的机读书目数据实际上是以CNMARC 和US-MARC为主,其他MARC格式为辅的现状。2022-12-16信息管理系38MARC 格式可由四个部分组成,其中记录头标区固定为24 个字符长,为记录处理提供基本参数。地址目次区由若干目次项组成,每个目次项为定长12 个字符,标识某MARC 字段在整个MARC 流中的位置。数据字段区由一些可变长的数据字段组成,除了001 字段和005 字段由数据和一个字段分隔符组成外,其余每个字段都有两个指示符,后接若干子字段。2022-12-16信息管理系39整个MARC 数据流经检
12、测有效才能成为书目数据库的正式书目数据。MARC 元数据格式主要用于描述图书文献资源。2022-12-16信息管理系40MARC 局限性:(1)MARC 描述手段往往只适用于图书馆;(2)MARC 需要在专门的软件系统中使用,而且不太适应互联网的环境;(3)修订程序相当复杂,而且非常缓慢;(4)适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;(5)编制一条机读目录不仅需要经过严格的专门训练,而且需要花一定的时间。2022-12-16信息管理系41 2、DC 元数据简介元数据简介 1995 年3 月,在美国俄亥俄州的都柏林召开的第一届元数据研讨会上,52位来自图书馆界、电脑网络界专
13、家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。经过与会代表的商讨和辩论,产生了一个精简的元数据集都柏林核心元素集(Dublin Core Elem ent Set),简称都柏林核心(DC)。2022-12-16信息管理系42 DC由15 个基本元素构成。由于它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能,能较好地解决网络资源的发现、控制和管理问题,使它成为一个较好的网络资源描述元数据集,已经成为美国国家标准,并正在逐步成为世界
14、公认的标准。2022-12-16信息管理系43DC产生与发展届次举办时间主办国举办地主办组织DC11995.3美国美国Dublin,OhioOCLC、NCSADC21996.4英国英国WarwickOCLC、UKOLNDC31996.9美国美国Dublin,OhioOCLC、CNIDC41997.3澳大利亚澳大利亚CanberraOCLC、DSTC、NLADC51997.10芬兰芬兰HelsinkiOCLC、NLFDC61998.11美国美国Washington D.C.OCLC、TLCDC71999.10德国德国FrankfurtOCLCDC82000.10加拿大加拿大OttawaOCLC、
15、CNI、IFLADC92001.10日本日本TokyoOCLC、NII、JSTDC20022002.10意大利意大利FlorenceOCLCDC20032003.9美国美国西雅图西雅图OCLC2022-12-16信息管理系441)、DC元数据的类型2022-12-16信息管理系452)详细描述2022-12-16信息管理系462022-12-16信息管理系472022-12-16信息管理系482022-12-16信息管理系492022-12-16信息管理系502022-12-16信息管理系512022-12-16信息管理系522022-12-16信息管理系533)DC 修饰词(分为两类):(1
16、)元素的进一步限制 该类修饰词使元素的含义更为狭窄或专指,进一步限定的元素继承了未限定元素的外延,便具有更为严格的内涵。如果使用者不明白经过进一步限定的术语的特指含义,可以忽略修饰词,直接将它作为未修饰的元数据元素来理解。用于修饰元素的进一步限定的定义应该可以方便的得到。2022-12-16信息管理系54元素 限定属性 说明Title Alternative 替代标题Creater 暂无限制属性2022-12-16信息管理系552022-12-16信息管理系56元素 限定属性 说明Subject LCSH 国会图书馆主题词表*MeSH 国家医学图书馆主题词表*DDC 杜威十进分类表*LCC 国
17、会图书馆分类表*UDC 国际十进分类表*2022-12-16信息管理系572022-12-16信息管理系58元素 限定属性 说明Description tableOfContents 目次 Abstract 文摘Publisher 暂无限制属性2022-12-16信息管理系592022-12-16信息管理系602022-12-16信息管理系612022-12-16信息管理系622022-12-16信息管理系63元素 限定属性 说明Contributor 暂无限制词Date Created 制作日期 Valid 有效日期 Available 可获得日期 Issued 发表日期 Modified
18、修改日期 DCMI Period DCMI日期编码*W3C-DTF W3C-DTF日期编码*2022-12-16信息管理系642022-12-16信息管理系65元素 限定属性 说明Type DCMIType DCMI资源类别编码*2022-12-16信息管理系662022-12-16信息管理系67元素 限定属性 说明Format Extent 资源范围 Medium 物理载体 IMT internet 资源格式*2022-12-16信息管理系682022-12-16信息管理系692022-12-16信息管理系702022-12-16信息管理系712022-12-16信息管理系722022-12
19、-16信息管理系732022-12-16信息管理系742022-12-16信息管理系75元素 限定属性 说明Identifier URI 资源唯一标识符号*2022-12-16信息管理系762022-12-16信息管理系772022-12-16信息管理系78元素 限定属性 说明Source 暂无限制词Language ISO 639-2 ISO 639-2 语种代码*RFC 1766 RFC 1766语种代码*2022-12-16信息管理系792022-12-16信息管理系802022-12-16信息管理系81元素 限定属性 说明Relation IsVersionOf 是另一种资源的一个版本
20、 HasVersion 有其他资源作为其他版本 IsreplacedBy 被另一资源取代 RePlaces 取代另一资源 IsRequiredBy 被另一资源所需要 Requires 需要一资源 IsPartOf 是另一资源的一部分 HasPart 有另一资源作为一部分 IsReferencedBy 被另一资源所参见2022-12-16信息管理系82元素 限定属性 说明Relation References 参见另一资源 IsFormatOf 是另一资源的另一格式 HasFormat 有另外格式 URI 使用URI描述关联资源*2022-12-16信息管理系832022-12-16信息管理系8
21、42022-12-16信息管理系852022-12-16信息管理系862022-12-16信息管理系872022-12-16信息管理系882022-12-16信息管理系892022-12-16信息管理系902022-12-16信息管理系912022-12-16信息管理系922022-12-16信息管理系932022-12-16信息管理系942022-12-16信息管理系952022-12-16信息管理系962022-12-16信息管理系972022-12-16信息管理系982022-12-16信息管理系992022-12-16信息管理系1002022-12-16信息管理系1012022-12-
22、16信息管理系1022022-12-16信息管理系1032022-12-16信息管理系1042022-12-16信息管理系1052022-12-16信息管理系1062022-12-16信息管理系107元素 限定属性 说明Rights 暂无限制词2022-12-16信息管理系108元素 限定属性 说明Coverage Spatial 空间范围 DCMI Point DCMI空间坐标系统*ISO 3166 ISO3166国家名称代码*DCMI Box DCMI 地理区限描述体系*TGN Getty地理名称叙词表*temporal 时间范围 DCMI Period DCMI时期体系*W3C-DTF
23、W3C-DTF 时间编码体系*2022-12-16信息管理系1092022-12-16信息管理系1102022-12-16信息管理系1112022-12-16信息管理系1122022-12-16信息管理系1132022-12-16信息管理系114(2)编码体系 该类修饰词说明元素值所属的编码体系,以帮助理解值的含义。采用来自控制词表的表征符号(例如分类法主题词标中的术语)具有特定意义,或以一定形式组成的字符串表示正规的符号。如果一种编码体系无法被客户机或代理所理解,它的值仍能被人类所理解。用于修饰的编码体系必须有清晰明确的说明,并能够方便的得到.2022-12-16信息管理系115DCMI自己
24、的编码规则:2022-12-16信息管理系1162022-12-16信息管理系1172022-12-16信息管理系1182022-12-16信息管理系1192022-12-16信息管理系1204)、DC 的作用是:(1)支持简单而含有信息量的元数据,以满足广大用户和群体的需要。(2)提供一个共享语义学标准,使得用各种不同规则编目的元数据可以直接交换。2022-12-16信息管理系1211)简单性。)简单性。DC 是非专业层面提出来的是非专业层面提出来的,其目的是为网页制其目的是为网页制作者提供一种网络信息的著录格式作者提供一种网络信息的著录格式,以供用户查找以供用户查找与定位所需信息。与传统的
25、目录卡片及与定位所需信息。与传统的目录卡片及MARC格格式相比式相比,DC 简单。简单。2)灵活性。)灵活性。DC 的每一著录项目都是可以选择的的每一著录项目都是可以选择的,也是可以也是可以重复的。网络制作人员可以根据网页的内容与特征重复的。网络制作人员可以根据网页的内容与特征选择需要项目选择需要项目,允许不同专业团体根据专业要求对允许不同专业团体根据专业要求对其进行调整。其进行调整。5)DC特点:2022-12-16信息管理系1223)扩展性。)扩展性。DC 的整个框架是可以扩展的的整个框架是可以扩展的,每个标记每个标记元素均可重复使用或有选择地使用。允许在元素均可重复使用或有选择地使用。允
26、许在原有的基础上原有的基础上,加上更精确的语义及结构加上更精确的语义及结构,对对信息资源进行更详细的描述。因此信息资源进行更详细的描述。因此,既能兼容既能兼容其它元数据其它元数据,又能不断修正和发展。又能不断修正和发展。4)国际通用性。)国际通用性。DC 已有英语、德语、日语、葡语、西已有英语、德语、日语、葡语、西语等到语等到10 余种不同语种的版本。余种不同语种的版本。2022-12-16信息管理系1235)互操作性。)互操作性。通过对通过对DC 的应用的应用,明确使用中的修饰元明确使用中的修饰元素素,并明确特定环境中的一系列修饰的值并明确特定环境中的一系列修饰的值,有有助于提高元数据的互操
27、作性助于提高元数据的互操作性,便于交换与检便于交换与检索。索。2022-12-16信息管理系124DC标记实例标记实例1、基于、基于HTML的的DC元数据标记元数据标记2022-12-16信息管理系1252022-12-16信息管理系1262、XML标记2022-12-16信息管理系1272022-12-16信息管理系1282022-12-16信息管理系1292022-12-16信息管理系130Notes:2022-12-16信息管理系131DC与MARC比较2022-12-16信息管理系132MARC与DC比较2022-12-16信息管理系133DC与图书馆编目数据的区别与图书馆编目数据的区
28、别 创建者不同创建者不同的制作者的范围比较广泛的制作者的范围比较广泛,包括内容提包括内容提供者供者,即作者、出版发行者等即作者、出版发行者等,而且这些人员不需要而且这些人员不需要经过专业培训。经过专业培训。的制作者则是经过专门培训的图书馆编目的制作者则是经过专门培训的图书馆编目人员。人员。可靠程度不同可靠程度不同使用受控词表和规范控制来增强用户发现使用受控词表和规范控制来增强用户发现资源的能力,对原始数据进行了增值处理。资源的能力,对原始数据进行了增值处理。没有建立规则和过程来控制数据元素的没有建立规则和过程来控制数据元素的内容内容,且所有元素都是可选的。且所有元素都是可选的。元数据的可靠性低
29、于编目数据。元数据的可靠性低于编目数据。2022-12-16信息管理系134知识检索有效度不同知识检索有效度不同整体框架简洁明了,主要由整体框架简洁明了,主要由15个核心元素个核心元素构成,只能大略反映资源状况。构成,只能大略反映资源状况。一直追求著录完整、详尽,对著录源的描述更一直追求著录完整、详尽,对著录源的描述更为丰富。为丰富。编目数据的知识检索有效度比元数据高。编目数据的知识检索有效度比元数据高。适应对象不同适应对象不同是用来描述网络信息资源的,是分布式的,是用来描述网络信息资源的,是分布式的,具有严格的格式化特征。具有严格的格式化特征。则是基于传统的印刷型文献的。则是基于传统的印刷型文献的。标准化程度不同标准化程度不同标准目前仍处在不断发展研究之中标准目前仍处在不断发展研究之中的标准化发展已相对成熟的标准化发展已相对成熟,它遵循已被接受的它遵循已被接受的规则和国家标准。规则和国家标准。2022-12-16信息管理系135参考资料 网上资源:中国数字图书馆标准与规范建设2022-12-16信息管理系136END