1、1知识管理知识管理Knowledge ManagementKnowledge Management2课程邮箱3与知识管理相关的Topic 信息检索 Information Retrieval 知识工程 Knowledge Engineering 语义网 Semantic Web 本体 Ontology 资源描述框架 Resource Description Framework 本体描述语言 Ontology Web Language 知识网格 Knowledge Grid 面向服务的架构 Service-Oriented Architecture 知识管理成熟度模型 Knowledge Man
2、agement Maturity Model(K3M)知识管理案例 4知识管理标准 知识管理标准国家标准GB/T 23703.1欧洲标准澳大利亚国家标准加拿大国家标准英国国家标准美国APQC标准(美国生产力与质量中心American Productivity and Quality Center)5知识管理国家标准 框架 术语 组织文化 知识活动 实施指南 评价6 知识管理业务流程 知识管理成熟度模型K3M 知识管理评估模型7上次课程内容回顾 元数据 召回率(Recall)检索出的相关文档数和文档库中所有的相关文档数的比率衡量的是搜索引擎的查全率 精度(Precision)检索出的相关文档数与
3、检索出的文档总数的比率 衡量的是搜索引擎的查准率8语义Web语义语义Web的基础架构的基础架构Tim Berners-Lee,2000 9语义网书籍推荐10语义网书籍推荐11元数据表示语言 标记语言 标准通用标记语言SGML超文本标记语言HTML可扩展标记语言XML虚拟现实模型语言VRML无线标记语言WML 元数据标准 Dublin Core HL7(描述医学网络资源的元数据)教育资源元数据 机读目录(MARC)12XML 性质W3C于1998年2月发布的一种标准 是SGML的一个简化子集 可扩展标记语言 特点较好地解决了HTML无法表达数据内容等问题允许各个组织、个人建立适合自己需要的标记集
4、合 13XML与HTML比较 文档的3个要素数据、结构以及显示方式 HTML 显示方式内嵌在数据中 在创建文本时,要时时考虑输出格式 创建文档的重复工作量大 不易抽取语义信息 XML显示格式从数据内容中独立出来,保存在样式单文件(Style Sheet)中 自我描述性质能够很好地表现许多复杂的数据关系 14XML结构 文件头 与HTML类似,是可选的 文件主体 包括一个或多个元素 形式是一棵分级的树 混杂的“结尾部分”由注释、处理指令和空白组成 注释用表示,可在文档中任意位置 15元素(Element)表示方法由开始标记、结束标识以及标识之间的数据构成 标记之间的数据被认为是元素的值 每个元素
5、都有不同的标记名 王力元素名是director 元素值是“王力”王力 元素名是actor元素值是“王力”16元素要点 关键的3点 所有元素必须有结束标记 所有元素必须正确嵌套,不允许交迭 所有属性值必须加引号 注意点XML文档主体有且仅有一个XML根元素 可以嵌套XML元素,形成一棵树形结构 17XML文档例子 数据结构 许卓群等 数据挖掘 韩家炜等 18例子的树状结构 书类 书 书 标题 作者 标题 作者 19XML属性 给元素提供进一步的说明信息 必须出现在起始标记中 以名称/取值对出现,属性名不能重复 名称与取值之间用等号“=”分隔 用引号把取值引起来 例如 100000说明了工资的货币
6、单位是人民币元 20XML处理器 目的解析XML文档提供对XML文档内容和结构的访问 文档对象模型(Document Object Model,DOM)将完整的XML转换成一棵树的形式放在内存中 供随机访问元素、属性 XML简单API(Simple API for XML,SAX)采用事件驱动模型 通过标记的起止来触发事件 DOM与SAX的比较(讨论)21处理指令(Processing Instruction)目的给XML处理器提供信息,使其能够正确解释文档内容 表示起始标记是“”方法XML分析器把这些信息原封不动地传给应用程序 由应用程序来解释这个指令 遵照它所提供的信息进行处理 22两种处
7、理指令 XML声明 必须包括version属性,指明所采用的XML的版本号,而且它必须在属性列表中排在第一位standalone属性表明该XML文档是否和一个外部文档类型定义DTD配套使用 encoding属性则指明了数据所采用的编码标准 XSL样式单引用 告诉XSL样式单解析器,样式单的类型是text-xsl 类型text-xsl可以在文档contacts.xsl中找到 23XML的名字空间 背景由于XML对互操作性的支持,每个人都可以创建属于自己的XML词汇 不同的开发者会用相同的元素来代表不同的实体 作用为XML文档元素提供了一个上下文 允许开发者按一定的语义来处理元素 为什么引入NS(
8、命名空间)讨论24XML NS 例子?xml version=1.0?hamburgersxmlns:purchase=xmlns:purchase=http:/fastfood.org/franchise/pricesxmlns:sales=xmlns:sales=http:/fastfood.org/customer/priceshamburger lowfat=dream onnameCowBurger/namedescriptionGreasy and good./descriptionpurchase:pricepurchase:price0.99/pricesales:prices
9、ales:price2.99/price/hamburger/hamburgers25XSL(Extensible Stylesheet Language)背景用标准的DOM API来实现XML数据的交互,是十分单调乏味的 如想找到所有满足某些条件的元素,或转换为简单的HTML表格,必须手工书写代码遍历整棵树来寻找 目的为标准化及简化人们完成这些任务所需做的工作 26食品的例子 XML文档 月饼 中秋节食用的传统食品 2.99 HTML文档 食品 月饼,中秋节的传统 食品,2元 27XSL文件 28XSL用途 增强了互操作性 XML数据转换为HTML从一种XML格式到另一种XML格式之间的转换
10、 开发人员不用为了描述某种类型的数据而采用通用的词汇某个人向你的系统发送了一篇XML文档,而你的系统不认识它所采用的XML词汇只要进行一次简单的XSL转换就可以得到自己熟悉的词汇 29文档类型定义 DTD 目的定义XML文档结构,即其中的元素、属性以及元素之间关系的 定义了文件中的元素能用什么名字,能放在什么位置,应该怎样组合 可以检测XML文档的结构是否正确 例如描述一组,其中每个又可以包含若干个DTD中应该有语句:生成的表:管乐弦乐器乐 30DTD 引用 内部引用包含在XML文档的前导说明部分 如 文档体 外部引用作为一个外部文档被引用 如 文档体SYSTEMSYSTEM指一个作者或组织所
11、编写的通用的DTD 或是 PUBLIC 指由权威机构制订的、提供给特定行业或公众使用的DTD 31DTD中ETD(元素类型声明)作用声明所有有效的文档元素 结构 类型 空元素类型 使用空元素标记,元素中没有内容 ANY元素类型 元素中可以包含任何内容 父元素类型 元素中可以包含子元素在DTD中通过正则表达式规定子元素出现的顺序和次数 混合元素类型 元素中可以包含文本文本之间可以有选择地插入子元素,子元素出现的顺序和次数不受限制 32XML Schema DTD缺点 采用了非XML的语法规则不支持数据类型扩展性较差 XML模式己经渐有取代DTD的趋势拥有比DTD更强大的功能 用于更精确和有效地描
12、述XML文档结构33XML模式的优点 一致性直接借助XML自身的特性利用XML的基本语法规则定义XML文档的结构 不必再利用一种特定的形式化的语言 扩展性 引入了数据类型、命名空间在基本数据类型基础上用户可自己扩展数据类型 互换性 利用模式能够书写XML文档并验证文档的合法性 对不同的模式进行转换,以实现更高层次的数据交换 规范性 利用元素的内容和属性来定义XML文档的整体结构 基于XML,更具有规范性 34数据类型 用途为Element Type和Attribute Type指定数据类型 基本数据类型(10种)entity,entities,enumeration,id,idref,idre
13、fs,nmtoken,nmtokens,notation和string 扩展数据类型 bin.baSe64,bin.heX,boolean,char,date,dateTime,dateTime.tz,fixed.14.4,float,int,number,timetime.tz,i1,i2,i4,r4,r8,ui1,ui2,ui4,uri,uuid 35XMLS元素类型 基本格式 取值及含义(略)36XMLS属性类型 基本格式 取值及含义(略)37数据类型的使用例子(1)定义元素“名字”和“生日”其中string和date类型都是Schema中自带的基本数据类型 minOccurs和maxO
14、ccurs是最少和最多出现次数的约束,这里表示有而且只出现一次 38数据类型的使用例子(2)扩展数据类型Schema中没有规定的类型,如“性别”类型 定义例子 注释name属性是该数据类型的名称 数据类型由restriction子元素进行约束该元素中的base属性是基类型 39元数据自动抽取技术 预处理 剔除在格式、内容、语言等方面存在问题或严重缺失的文档 产生格式相对规整的文本文档 提取元数据 由数字化文档元数据的规范定义,产生提取元数据的各种模式 依据元数据模式进行数字化文档的挖掘与匹配 利用与数字化文档相关的启发式规则和经验规则,有效提取元数据 各 类文档 格 式文档 预处理 元数据提取
15、 元 数 据信 息 元数据模式 启发规则 40MathML 含义Mathematical Markup Language 用途用来描述数学符号、纪录其结构和内容 目标是在Web上实现能像HTML处理文本一样,处理数学问题 41例:x2+4x+4=0 applyplus/plus/applypower/power/cix/cicn2/cn/applyapplytimes/times/cn4/cncix/ci/applycn4/cn/apply42SMIL 含义Synchronized Multimedia Integration Language 用途一种基于XML的表述多媒体演示的语言 将一组
16、独立的多媒体对象整合为一个多媒体演示 43SMIL例子HTMLHEADSTYLE.time behavior:url(#default#time);/STYLE/HEADBODYDIV CLASS=time t:timeline=seqDIV CLASS=time t:timeline=seqP class=time t:dur=1 T h i s a p p e a r s f o r o n e s e c o n d a n d g o e s a w a y/P P class=time t:dur=1 This appears after one second,remains vis
17、ible for one second and goes away /PP class=time t:dur=1 This appears after two seconds,remains visible for one second and goes away/P/DIV/BODY/HTML44CDF 含义Channel Definition Format 一种开放的规格允许Web的发布者经常更新信息或是频道 CDF起到了频道内容目录的作用用户仅需选择一下频道 信息就会从Web服务器定时的传递到客户端 45资源描述语言RDF46资源描述框架语言RDF 采用元数据来索引网络上的信息 使用RD
18、F(Resource Description Framework)来描述元数据以及元数据之间的关系 元数据是“关于数据的数据”,是用来描述网络资源的数据。RDF是处理元数据的基础,它为在应用程序之间交换机器可理解的网络数据提供了可互操作性。47RDF的应用领域 RDF可以应用在很多领域中在资源发现中,RDF可以增强搜索引擎语义处理能力在编目领域中,RDF可以用来描述某个网站、网页之间或者数字图书馆中的内容及内容之间的关系采用RDF的智能主体(Agent)能够提高机构之间知识共享和交换的能力48RDF的作用?RDF(Resource Description Framework)来描述元数据以及元
19、数据之间的关系 长江的XML描述文档Here is data about the Yangtze River.It has a length of 6300 kilometers.Its startingLocation is western Chinas Qinghai-Tibet Plateau.Its endingLocationis the East China Sea.49XML-RDF 6300 kilometers western Chinas Qinghai-Tibet Plateau East China SeaXML将XML文档修改为有效的RDF文档:6300 kilome
20、ters western Chinas Qinghai-Tibet Plateau East China SeaRDFYangtze.xmlYangtze.rdfconvert to50RDF格式RDF provides an ID attribute for identifying the resource being described.The ID attribute is in the RDF namespace.Add the fragment identifier symbol to the namespace.12351RDF格式(cont.)6300 kilometers we
21、stern Chinas Qinghai-Tibet Plateau East China SeaIdentifies the type(class)of the resource being described.Identifies the resource being described.Thisresource is an instance of River.These are properties,or attributes,of thetype(class).Values of the properties123452命名规则xmlns=http:/www.geodesy.org/r
22、iver#Question:为什么在命名空间后放置#?E.g.,Answer:RDF is very concerned about uniquely identifying things-uniquely identifying the type(class)and uniquely identifying the properties.If we concatenate the namespace with the type then we get a uniqueidentifier for the type,e.g.,http:/www.geodesy.org/river#RiverI
23、f we concatenate the namespace with a property then we get a uniqueidentifier for the property,e.g.,http:/www.geodesy.org/river#lengthhttp:/www.geodesy.org/river#startingLocationhttp:/www.geodesy.org/river#endingLocationThus,the#symbol is simply a mechanism for separating the namespace from the type
24、 name and the property name.Best PracticeBest Practice53RDF格式54使用RDF格式的好处The RDF format,if widely used,will help to make XML more interoperable:Tools can instantly characterize the structure,this element is a type(class),and here are its properties”.RDF promotes the use of standardized vocabularies.
25、standardized types(classes)and standardized properties.The RDF format gives you a structured approach to designing your XML documents.The RDF format is a regular,recurring pattern.It enables you to quickly identify weaknesses and inconsistencies of non-RDF-compliant XML designs.It helps you to bette
26、r understand your data!You reap the benefits of both worlds:You can use standard XML editors and validators to create,edit,and validate your XML.You can use the RDF tools to apply inferencing to the data.It positions your data for the Semantic Web!Network effectInteroperability55使用RDF格式的缺点 受限制:在设计XM
27、L文件时受到RDF格式的约束.RDF使用命名空间来唯一识别类(types/classes),属性和资源。要求对命名空间有准确的理解。必须掌握RDF格式的语法。56唯一识别资源 Earlier we said that RDF is very concerned about uniquely identifying the type(class)and the properties.RDF is also very concerned about uniquely identifying the resource,e.g.,This is the resource being described
28、.We want to uniquelyidentify this resource.57rdf:IDThe value of rdf:ID is a relative URI.The complete URI is obtained by concatenating the URL of the XML document with#and then the value of rdf:ID,e.g.,Suppose that this RDF/XML document is located at this URL:http:/www.china.org/geography/rivers.Thu
29、s,the complete URI for this resource is:Yangtze.rdf58xml:baseOn the previous slide we showed how the URL of the document provided the base URI.Depending on the location of the document is brittle:it will break if the document is moved,or is copied to another location.A more robust solution is to spe
30、cify the base URI in the document,e.g.,Resource URI=concatenation(xml:base,#,rdf:ID)=concatenation(http:/www.china.org/geography/rivers,#,Yangtze)=http:/www.china.org/geography/rivers#Yangtze59rdf:about 不使用相对的URI,而是用rdf:about 标识出完整的资源URI。60RDF三元组-资源/属性/值http:/www.china.org/geography/rivers#Yangtze h
31、as a http:/www.geodesy.org/river#length of 6300 kilometersresourcepropertyvaluehttp:/www.china.org/geography/rivers#Yangtze has a http:/www.geodesy.org/river#startingLocation of western Chinas.resourcepropertyvaluehttp:/www.china.org/geography/rivers#Yangtze has a http:/www.geodesy.org/river#endingL
32、ocation of East China Searesourcepropertyvalue61The RDF Format=triples!The fundamental design pattern of RDF is to structure your XML data as resource/property/value triples!The value of a property can be a literal(e.g.,length has a value of 6300 kilometers).Also,the value of a property can be a res
33、ource,as shown above(e.g.,property-Ahas a value of Resource-B,property-B has a value of Resource-C).We will see examplesof properties having a resource value in a little bit.Value-C value of property-Avalue of property-BNotice that the RDF design pattern is analternating sequence of resource-propert
34、y.This pattern is known as striping.62命名规范 类名的第一个字母大写,属性名的第一个字母小写。便于快速识别类名,属性名。uppercaselowercase63RDF Model(graph)Legend:Ellipse indicates Resource Rectangle indicates literal string value64rdf:Description+rdf:typeThere is still another way of representing the XML.This way makes it very clear that
35、you are describing something,and it makes it very clear what the type(class)is of the thing you are describing:This is read as:This is a Description about the resource http:/www.china.org/geography/rivers#Yangtze.This resource is an instance of the River type(class).The http:/www.china.org/geography
36、/rivers#Yangtzeresource has a length of 6300 kilometers,a startingLocation of western Chinas Qinghai-Tibet Plateau,and an endingLocation of the East China Sea.Note:this form of describing a resource is called the long form.The form we have seen previously is anabbreviation of this long form.An RDF P
37、arser interprets the abbreviated form as if it were this long form.65Alternative Alternatively we can use rdf:ID rather than rdf:about,as shown here:66Equivalent Representations!6300 kilometers western Chinas Qinghai-Tibet Plateau East China Sea 6300 kilometers western Chinas Qinghai-Tibet Plateau E
38、ast China Sea 6300 kilometers western Chinas Qinghai-Tibet Plateau East China SeaNote:In the RDF literature the examplesare typically shown in this form.67RDF Namespacehttp:/www.w3.org/1999/02/22-rdf-syntax-ns#IDabouttyperesourceDescription68术语 As you read the RDF literature you may see the followin
39、g terminology:Subject:this term refers to the item that is playing the role of the resource.predicate:this term refers to the item that is playing the role of the property.Object:this term refers to the item that is playing the role of the value.SubjectObjectpredicateResourceValuepropertyEquivalent!
40、69RDF Parser There is a nice RDF parser at the W3 Web site:This RDF parser will tell you if your XMLis in the proper RDF format.70Example#2Yangtze2.xmlModify the following XML document so that it is RDF-compliant:71Note the two types(classes)RiverDamInstance:YangtzeProperties:lengthstartingLocatione
41、ndingLocationInstance:ThreeGorgesProperties:namewidthheightcost72Dam-out of placeDamTypes(classes)contain properties.Here we see the River type containing the properties-length,startingLocation,and endingLocation.It also shows River containing a type-Dam.Thus,there is a Resource that contains anothe
42、r Resource.This is inconsistent with RDF design pattern.(We are seeing one of the benefits of using the RDF format-to identify inconsistencies in an XML design.)73Property value must be a Literal or a Resource6300 kilometerspropertyValue is a LiteralpropertyValue is a Resource74Modified XML(to make
43、it consistent)Yangtze2,v2.xmlThe Yangtze River has an obstacle that is the ThreeGorges Dam.The Damhas a name-The Three Gorges Dam.It has a width of 1.5 miles,a height of 610 feet,and a cost of$30 billion.75RDF FormatChanged id to rdf:IDAdded the#symbolAs always,the other representations using rdf:ab
44、out and rdf:Description are available.76RDF Model(graph)77 6300 kilometers western Chinas Qinghai-Tibet Plateau East China Sea Three-Gorges-Dam.rdfAlternatively,suppose that someone has already created a document containing information about the Three Gorges Dam:Yangtze.rdfThen we can simply referen
45、ce the Three Gorges Dam resource using rdf:resource,as shown here:78Note:reference is to a resource,not to a fileWhy was this the reference:and not this:That is,why wasnt the reference to a file?Answer:1.What if the file moved?Then the reference would break.2.By using an identifier of the Three Gorg
46、es Dam,and keeping a particular file unspecified,then an aggregator tool will be able to collect information from all the files that talk about the Three Gorges Dam resource(see next slide).Do Lab279Anyone,Anywhere,Anytime Can Talk About a Resource In all of our examples we have provided a unique id
47、entifier to resources,e.g.,Consequently,if another RDF document identifies the same resource then the data that it specifies gives additional data about that resource.An aggregator tool will be able to collect all data about a resource and present a consolidated set of data for the resource.Thats po
48、werful!80rdf:ID versus rdf:about When should rdf:ID be used?When should rdf:about be used?When you want to introduce a resource,and provide an initial set of information about a resource use rdf:IDWhen you want to extend the information about a resource use rdf:aboutThe RDF philosophy is akin to the
49、 Web philosophy.That is,anyone,anywhere,anytime can provide information about a resource.81http:/www.china.org/geography/rivers/yangtze.rdfhttp:/www.encyclopedia.org/yangtze-alternate-names.rdfAggregated Data!Aggregator tool collectsdata about the YangtzeA distributed network of data!82 6300 kilomet
50、ers western Chinas Qinghai-Tibet Plateau East China Sea http:/www.encyclopedia.org/three-gorges-dam.rdfAggregate!Note that the reference to the ThreeGorges Dam resource has been replaced by whatever information the aggregator could find on this resource!Another Example of Aggregation83Example#3Notic