1、Artificial IntelligenceOntology: 1 Graduate University , Chinese academy of Sciences. 人工智能人工智能Artificial IntelligenceArtificial IntelligenceOntology: 2 Graduate University , Chinese academy of Sciences. 本体知识系统本体知识系统Artificial IntelligenceOntology: 3 Graduate University , Chinese academy of Sciences.
2、 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOntology: 4 Graduate University , Chinese academy of Sciences. 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOnto
3、logy: 5 Graduate University , Chinese academy of Sciences. 本体的基本概念(本体的基本概念(1) 本体:本体: 哲学界:最初本体是哲学理论的术语,关于存在及其本质规律的学说哲学界:最初本体是哲学理论的术语,关于存在及其本质规律的学说,是表示对象及其相互关系的理论。,是表示对象及其相互关系的理论。 信息科学:常用于指层次化的数据结构,其中包含了对象及其关系,信息科学:常用于指层次化的数据结构,其中包含了对象及其关系,以及相关领域的规则以及相关领域的规则 人工智能:被用于知识管理、自然语言处理、电子商务、教育以及语人工智能:被用于知识管理、
4、自然语言处理、电子商务、教育以及语义义WEB等领域。语义等领域。语义WEB需要构造不同的本体,用于不同的表示语需要构造不同的本体,用于不同的表示语言、查询语言和推理语言。言、查询语言和推理语言。 一个本体定义了组成主题领域的词汇的基本术语和关系,以及用一个本体定义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和关系以及定义词汇外延的规则于组合术语和关系以及定义词汇外延的规则Neches1991-即即要建立一个本体,首先要识别所面对领域的基本术语和这些术语要建立一个本体,首先要识别所面对领域的基本术语和这些术语的关系,然后要识别组合这些术语和关系的规则,并提供这些术的关系,然后要识别组合
5、这些术语和关系的规则,并提供这些术语和关系的规则语和关系的规则Artificial IntelligenceOntology: 6 Graduate University , Chinese academy of Sciences. 本体的基本概念(本体的基本概念(2)Gruber和和Borst1997的定义:的定义: 本体是概念化的一个显式的规格说明本体是概念化的一个显式的规格说明Gruber 1993 本体可定义为被共享的概念化的一个形式的规格说明本体可定义为被共享的概念化的一个形式的规格说明Borst1997共同点:都强调了给出形式解释的可能性共同点:都强调了给出形式解释的可能性主要缺点
6、:对主要缺点:对“概念化概念化”一词并没有给出明确地解释一词并没有给出明确地解释概念化涉及通过标示某个现象的相关概念而得到的这个现象的抽象模型。显式地概念化涉及通过标示某个现象的相关概念而得到的这个现象的抽象模型。显式地指出所用的概念的类型,以及定义概念所使用的约束。形式化是指本体应该是机指出所用的概念的类型,以及定义概念所使用的约束。形式化是指本体应该是机器可读的。共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个器可读的。共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个体私有的,而是可以被一个群体所接受的。体私有的,而是可以被一个群体所接受的。Studer1998Ar
7、tificial IntelligenceOntology: 7 Graduate University , Chinese academy of Sciences. 本体的基本概念(本体的基本概念(3) 本体的作用本体的作用 1.人与组织之间的信息交流。本体的核心概念是知识共享,通过减少概念和术语上的歧义,本体描述为某一组织或是工作小组提供了一个统一框架或是规范模型,使得来自不同背景、持不同观点和目的的人员之间的理解和交流成为可能,并保持语义上的一致性。2.系统之间的互操作。应用程序使用本体论实现异构系统之间的互操作,即不同系统或工具之间的数据传输。如语义Web服务就属于此类。3.需求分析和
8、系统设计的基础。4.支持知识重用。5. 显式地定义对领域的认识。以往在处理领域相关问题时,领域知识往往被隐含地硬编码到程序中去,这样领域知识既难以发现,又不便于改变。使用本体可以显式的描述这种领域相关的知识,使得知识能够清晰的从代码中独立出来。6.将领域知识同使用领域知识的操作性知识分离开来。 Artificial IntelligenceOntology: 8 Graduate University , Chinese academy of Sciences. 本体的基本概念(本体的基本概念(4)本体的种类本体的种类Artificial IntelligenceOntology: 9 Gra
9、duate University , Chinese academy of Sciences. 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOntology: 10 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (1)本体在本体在Web上的应用导致了语义上的应用导致了语义Web的诞生,其目的是解决的诞生,其目的是解决Web上信上信息
10、共享时的语义问题。息共享时的语义问题。语义语义Web提供了一个通用的框架,允许跨越不同应用程序、企业和团提供了一个通用的框架,允许跨越不同应用程序、企业和团体的边界共享和重用数据。体的边界共享和重用数据。语义语义Web以资源描述框架(以资源描述框架(RDF)为基础。)为基础。RDF以以XML作为语法、作为语法、URI作为命名机制,将各种不同的应用集成在一起,对作为命名机制,将各种不同的应用集成在一起,对Web上的数据上的数据所进行的一种抽象表示。语义所进行的一种抽象表示。语义Web所指的所指的“语义语义”是是“机器可处理的机器可处理的”语义,而不是自然语言语义和人的推理等目前计算机所不能够处理
11、语义,而不是自然语言语义和人的推理等目前计算机所不能够处理的信息。的信息。从技术上讲,语义从技术上讲,语义Web要提供足够而又合适的语义描述机制。然而,要提供足够而又合适的语义描述机制。然而,从整个应用构想来看,语义从整个应用构想来看,语义Web要实现的是信息在知识级别上的共享要实现的是信息在知识级别上的共享和语义级别上的互操作性,这需要不同系统间有一个语义上的和语义级别上的互操作性,这需要不同系统间有一个语义上的“共同共同理解理解”才行。于是,本体自然地成为指导语义才行。于是,本体自然地成为指导语义Web发展的理论基础。发展的理论基础。 Artificial IntelligenceOnto
12、logy: 11 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (2)语义语义Web的基础架构的基础架构Tim Berners-Lee,2000 Artificial IntelligenceOntology: 12 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (3)语义语义Web的基本构建元素的基本构建元素URI(Uniform Resource Identifiers)作为资源(任何东)作为资源(任何东西都可以看作资源)标识机制,提供
13、对资源的标准化的名字西都可以看作资源)标识机制,提供对资源的标准化的名字描述;描述;Unicode提供世界上各种语言的统一的字符编码标准;提供世界上各种语言的统一的字符编码标准;XML(Extensible Markup Language)定义了结构化的数据定义了结构化的数据描述方式,是数据互操作的语法基础;描述方式,是数据互操作的语法基础;Namespace提供将名字分类的机制,使得重名但含义不同提供将名字分类的机制,使得重名但含义不同的资源能够一起使用。的资源能够一起使用。Artificial IntelligenceOntology: 13 Graduate University , C
14、hinese academy of Sciences. 语义语义WebWeb (4)语义语义Web的层次模型的层次模型(1)RDFRDF Schema Layer: RDF(Resource Description Framework)是描述数据语义的基础,它定义了描述资源以及陈述事实的三类对象:资源(resource)、属性(property)和值(value)。资源是指网络上的数据,属性是指用来描述资源的一个方面、特征、属性以及关系,陈述则用来表示一个特定的资源,它包括一个命了名的属性和它对应资源的值,因此一个RDF描述实际上就是一个三元组: (objectresource, attrib
15、uteproperty, valueresource or literal)Artificial IntelligenceOntology: 14 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (5)语义语义Web的层次模型的层次模型(2)本体层:本体给出了数据的语义信息,即元数据。本体)本体层:本体给出了数据的语义信息,即元数据。本体的定义可以直接基于的定义可以直接基于RDF Schema。但是。但是RDF Schema的的词汇集的表达能力有限,因此词汇集的表达能力有限,因此W3C在参考了在参考了DAMLOIL(D
16、ARPA Agent Markup Language with Ontology Inference Layer)之后,又在之后,又在RDF之上制定了之上制定了OWL(Web Ontology Language)。(3)逻辑:逻辑层在本体所描述的知识之上提供逻辑推理能)逻辑:逻辑层在本体所描述的知识之上提供逻辑推理能力(基于规则)。力(基于规则)。Artificial IntelligenceOntology: 15 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (6)语义语义Web的层次模型的层次模型(4)证明层:
17、在语义)证明层:在语义Web的开放环境中进行推理是一个困难的任务,因为任何一个推论的开放环境中进行推理是一个困难的任务,因为任何一个推论都可能涉及到大量信息的处理。研究者由此提出了语义都可能涉及到大量信息的处理。研究者由此提出了语义Web总线总线(Semantic Web Bus)的设想。的设想。 语义语义Web中充斥着各种信息处理器(图中圆形所示),其中一些仅仅提供本体数据中充斥着各种信息处理器(图中圆形所示),其中一些仅仅提供本体数据供其它处理器使用,另外一些则根据这些本体数据构建逻辑规则,启发式引擎则负供其它处理器使用,另外一些则根据这些本体数据构建逻辑规则,启发式引擎则负责根据本体、数
18、据和逻辑规则进行推理,得到责根据本体、数据和逻辑规则进行推理,得到“结论结论”(Proof),并把这种结论返回,并把这种结论返回到逻辑规则和本体数据中去。到逻辑规则和本体数据中去。Artificial IntelligenceOntology: 16 Graduate University , Chinese academy of Sciences. 语义语义WebWeb (7)语义语义Web的层次模型的层次模型(5)可信层:在之前所有层次的基础之上,会形成无数对于)可信层:在之前所有层次的基础之上,会形成无数对于某一事实的陈述,这些陈述合理与否依赖于它们所处的上下某一事实的陈述,这些陈述合理
19、与否依赖于它们所处的上下文环境。因此当人或计算机访问这些陈述时,需要根据上下文环境。因此当人或计算机访问这些陈述时,需要根据上下文和自己的需求自行判定该陈述是否可信(文和自己的需求自行判定该陈述是否可信(Trust)。采用)。采用加密技术和数字签名技术(渗透到每个层次的规范中去)是加密技术和数字签名技术(渗透到每个层次的规范中去)是实现判定可信性的一个重要手段,并可以由此形成一个可信实现判定可信性的一个重要手段,并可以由此形成一个可信的的Web。 Artificial IntelligenceOntology: 17 Graduate University , Chinese academy
20、of Sciences. 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOntology: 18 Graduate University , Chinese academy of Sciences. 本体描述语言(本体描述语言(1) 本体描述语言起源于人工智能领域对知识表示的研究。本本体描述语言起源于人工智能领域对知识表示的研究。本体表示语言一般要具有丰富而直观的表达能力,用该语言体表示语言一般要具有丰富而直观
21、的表达能力,用该语言表示的本体要能方便地被计算机理解、处理和应用。表示的本体要能方便地被计算机理解、处理和应用。 现在的本体表示语言多数采用了现在的本体表示语言多数采用了XML语法。语法。 本体描述语言还需解决一些重要问题,如对推理的有效支本体描述语言还需解决一些重要问题,如对推理的有效支持(包括计算复杂性和可判定性等),规范和充足的语义持(包括计算复杂性和可判定性等),规范和充足的语义表示机制,以及标准化问题。这将依靠基于描述逻辑的本表示机制,以及标准化问题。这将依靠基于描述逻辑的本体语言的发展。体语言的发展。Artificial IntelligenceOntology: 19 Gradu
22、ate University , Chinese academy of Sciences. 本体描述语言(本体描述语言(2) RDF/S : 在提供了简单的机器可理解语义模型的同时,为领域在提供了简单的机器可理解语义模型的同时,为领域化的本休语言提供了建模基础,并使得基于化的本休语言提供了建模基础,并使得基于RDF的应的应用可以方便地与这些本体语言所生成的本体进行合并用可以方便地与这些本体语言所生成的本体进行合并。 RDF的这一特性使得基于的这一特性使得基于RDF的语义描述结果具备了的语义描述结果具备了可以和更多的领域知识进行交互的能力,也使基于可以和更多的领域知识进行交互的能力,也使基于XM
23、L和和RDF的的Web数据描述具备了良好的生命力。数据描述具备了良好的生命力。 OWL: 目前是本体的标准描述语言。目前是本体的标准描述语言。OWL建立在建立在RDF基础上基础上,以,以XML为书写工具。主要用来表达需要计算机应用为书写工具。主要用来表达需要计算机应用程序来处理的文件中的知识信息,程序来处理的文件中的知识信息, Artificial IntelligenceOntology: 20 Graduate University , Chinese academy of Sciences. 本体描述语言(本体描述语言(3) 都柏林核心元数据集都柏林核心元数据集 都柏林核心元数据集都柏林
24、核心元数据集(Dublin Core)是由美国是由美国OCLC公司发起,国际公司发起,国际性合作项目性合作项目Dublin Core Metadata Initiative设计的一套描述设计的一套描述Web资资源源(任何有标识的数据任何有标识的数据)的元数据的规范,主要用于出版信息的描述,的元数据的规范,主要用于出版信息的描述,也被用于描述其他领域的信息,在很多本体描述规范中都有引用。也被用于描述其他领域的信息,在很多本体描述规范中都有引用。 Dublin Core定义了一组基本元素来描述资源的元数据,很多知识描定义了一组基本元素来描述资源的元数据,很多知识描述标准和规范如述标准和规范如RDF
25、、DAML+OIL里都有对里都有对Dublin Core的直接引用的直接引用,用来描述作者、主题等元数据。但另一方面,严格讲,用来描述作者、主题等元数据。但另一方面,严格讲Dublin Core还不是一个真正的本体描述语言,它只是一组还不是一个真正的本体描述语言,它只是一组“标准词汇集标准词汇集”而已。而已。 CycL 本质上讲,本质上讲,CycL是一阶逻辑语言。但是为了增强知识表示的灵活性是一阶逻辑语言。但是为了增强知识表示的灵活性,CycL在一阶逻辑的基础上增加缺省知识的表示、二阶谓词等,所在一阶逻辑的基础上增加缺省知识的表示、二阶谓词等,所以是一阶谓词逻辑的一种扩展。以是一阶谓词逻辑的一
26、种扩展。CycL中有大量的类和类之间的关系中有大量的类和类之间的关系Artificial IntelligenceOntology: 21 Graduate University , Chinese academy of Sciences. 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOntology: 22 Graduate University , Chinese academy of Sciences.
27、 本体构造(本体构造(1) 本体构建是从某个领域中抽取知识,形成描述该领域数据的本体构建是从某个领域中抽取知识,形成描述该领域数据的语义概念、实例和其间的关系。语义概念、实例和其间的关系。 本体构建包括本体语言和本体构建方法两个领域的研究。本体构建包括本体语言和本体构建方法两个领域的研究。 本体构建方法目前大多采用手工方式,即知识工程师借助于本体构建方法目前大多采用手工方式,即知识工程师借助于本体编辑器全手工的构建本体。本体编辑器全手工的构建本体。 TOVE:是多伦多大学的本体研究项目:是多伦多大学的本体研究项目,它重点论述了本体设计和手它重点论述了本体设计和手工演化过程中遇到的关键问题工演化
28、过程中遇到的关键问题,包括应用情景收集、术语的抽取和定包括应用情景收集、术语的抽取和定义、问题的形式化等。义、问题的形式化等。 METHONTOLOGY:根据进化原型法的思想,提出本体生命周期的根据进化原型法的思想,提出本体生命周期的概念来管理整个本体生命过程。它采用了类似于软件工程的开发过程概念来管理整个本体生命过程。它采用了类似于软件工程的开发过程和方法,将本体生成过程和本体生命周期区分开来,在不同阶段使用和方法,将本体生成过程和本体生命周期区分开来,在不同阶段使用不同的技术予以支持。不同的技术予以支持。 Artificial IntelligenceOntology: 23 Gradua
29、te University , Chinese academy of Sciences. 本体构造(本体构造(2)企业建模法:是多伦多大学企业集成实验室的研究人员在企业建模法:是多伦多大学企业集成实验室的研究人员在TOVE项目实施时提出来的,通过构建的一个虚拟企业本体项目实施时提出来的,通过构建的一个虚拟企业本体,用来模拟企业中的生产、管理过程,目标是建立一套为商,用来模拟企业中的生产、管理过程,目标是建立一套为商业和公共企业建模的集成本体。作为该项目的一部分,他们业和公共企业建模的集成本体。作为该项目的一部分,他们设计了一套创建和评价本体的方法。设计了一套创建和评价本体的方法。激发场景:给出
30、一个应用领域的场景,即确定目标领域激发场景:给出一个应用领域的场景,即确定目标领域非形式化的能力问题:以应用情景为基础,用问题形式提出本体构非形式化的能力问题:以应用情景为基础,用问题形式提出本体构造需求造需求术语的规范化:用一种(本体)形式化语言定义对其进行词汇;术语的规范化:用一种(本体)形式化语言定义对其进行词汇;形式化的能力问题:把能力问题用形式化的术语定义出来;形式化的能力问题:把能力问题用形式化的术语定义出来;形式化公理:将本体中的公理用一阶谓词逻辑表示出来形式化公理:将本体中的公理用一阶谓词逻辑表示出来完备性定理:当能力问题被形式化表述之后,定义在什么条件下这完备性定理:当能力问
31、题被形式化表述之后,定义在什么条件下这些问题的解决方案是完备的。些问题的解决方案是完备的。Artificial IntelligenceOntology: 24 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(3) METHONTOLOGY框架方法:框架方法:该方法是在骨架法的基础上该方法是在骨架法的基础上提出的一种更为通用的本体建设方法。本体开发过程包括:提出的一种更为通用的本体建设方法。本体开发过程包括: 项目管理活动:主要指本体开发项目的计划、控制和质量保证项目管理活动:主要指本体开发项目的计划、控制和质量保证 面
32、向开发的活动:包括规格说明、概念化、形式化和实现等步骤面向开发的活动:包括规格说明、概念化、形式化和实现等步骤 支持活动。与面向开发的活动同时展开,包括知识获取、知识评价、支持活动。与面向开发的活动同时展开,包括知识获取、知识评价、知识集成、产生文档和配置管理等。知识集成、产生文档和配置管理等。 该模式根据进化原型法的思想,提出本体生命周期的概念来该模式根据进化原型法的思想,提出本体生命周期的概念来管理整个本体的开发过程,使得本体开发过程更接近于软件管理整个本体的开发过程,使得本体开发过程更接近于软件工程中的软件开发过程。工程中的软件开发过程。 Artificial IntelligenceO
33、ntology: 25 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(4)本体构建方法学:本体构建实际上是一个知识获取的过程。本体构建方法学:本体构建实际上是一个知识获取的过程。设计本体的基本准则可以归纳为如下五条:设计本体的基本准则可以归纳为如下五条:1. 明确性和客观性明确性和客观性(Clarity):本体应该有效地传达所定义的术语的内:本体应该有效地传达所定义的术语的内涵。涵。2. 一致性一致性(Coherence):一个本体应该是前后一致的,也就是说,由:一个本体应该是前后一致的,也就是说,由它推断出来的概念定
34、义应该与本体中的概念定义一致。至少。所有它推断出来的概念定义应该与本体中的概念定义一致。至少。所有的公理应该具有逻辑一致性。的公理应该具有逻辑一致性。3. 可扩展性可扩展性(Extensibility):一个本体提供一个共享的词汇,它应该在:一个本体提供一个共享的词汇,它应该在预期的任务范围内提供概念的基础,同时,它的表示应该使得人们预期的任务范围内提供概念的基础,同时,它的表示应该使得人们能够单调地扩展和专门化对这个词汇的说明;也就是说,人们应该能够单调地扩展和专门化对这个词汇的说明;也就是说,人们应该能够在不改变原有定义的前提下,以这组存在的词汇为基础定义新能够在不改变原有定义的前提下,以
35、这组存在的词汇为基础定义新的术语。的术语。 Artificial IntelligenceOntology: 26 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(5)本体构建方法学:本体构建实际上是一个知识获取的过程。本体构建方法学:本体构建实际上是一个知识获取的过程。设计本体的基本准则可以归纳为如下五条:设计本体的基本准则可以归纳为如下五条:4. 最小编码偏差最小编码偏差(Minimal encoding bias):本体应该处于知识的层次:本体应该处于知识的层次,而与特定的符号级编码无关。,而与特定的符号级编码无关
36、。5. 最小本体承诺最小本体承诺(Minimal commitment):一个本体应该在提供必须的:一个本体应该在提供必须的共享知识的条件下,要求有最小的本体承诺。也就是说,它应该对共享知识的条件下,要求有最小的本体承诺。也就是说,它应该对所模拟的事物产生尽可能少的推断,而让共享者自由地按照他们的所模拟的事物产生尽可能少的推断,而让共享者自由地按照他们的需要去专门化和实例化这个本体。需要去专门化和实例化这个本体。Artificial IntelligenceOntology: 27 Graduate University , Chinese academy of Sciences. 本体构造(
37、本体构造(6)在具体实施一个领域本体的构建时,可以分为在具体实施一个领域本体的构建时,可以分为8个步骤:个步骤:1. 本体需求分析本体需求分析2. 本体构建规划本体构建规划3. 获取本体信息获取本体信息4. 确定本体概念及关系确定本体概念及关系5. 本体形式化编码本体形式化编码6. 本体的评价本体的评价7. 本体的演化本体的演化8. 本体的表示等过程。本体的表示等过程。Artificial IntelligenceOntology: 28 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(7)基于文本的本体自动构建:对文本
38、集合应用自然语言处理技基于文本的本体自动构建:对文本集合应用自然语言处理技术实现构建本体所需要素的抽取:术实现构建本体所需要素的抽取:基于字典的本体构建基于字典的本体构建从机器可理解的字典中抽取相关概念以及从机器可理解的字典中抽取相关概念以及概念间的关系;概念间的关系;基于知识库的本体构建基于知识库的本体构建将现有的知识库作为知识来源实现本体将现有的知识库作为知识来源实现本体抽取;抽取;基于半结构模式的本体构建基于半结构模式的本体构建从预先定义结构的知识来源(如从预先定义结构的知识来源(如 XML Schema)中抽取本体;)中抽取本体;基于关系型模式的本体构建基于关系型模式的本体构建从数据库
39、中抽取相关概念以及概念从数据库中抽取相关概念以及概念间的关系形成本体。间的关系形成本体。 Artificial IntelligenceOntology: 29 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(8)从基于文本的本体构建方法来看,实现技术和手段可以分为从基于文本的本体构建方法来看,实现技术和手段可以分为以下几类:以下几类:基于模式的抽取:通过词语的出现模式刻画词语之间的关系,并匹基于模式的抽取:通过词语的出现模式刻画词语之间的关系,并匹配文本中连续词语的出现模式以识别词语之间的关系。配文本中连续词语的出现模
40、式以识别词语之间的关系。关联规则:关联规则可以利用已有的概念层次结构作为背景知识来关联规则:关联规则可以利用已有的概念层次结构作为背景知识来发现概念之间的非分类学关系。发现概念之间的非分类学关系。概念聚类:概念之间因为语义距离的差异而形成概念集合并产生层概念聚类:概念之间因为语义距离的差异而形成概念集合并产生层次结构次结构本体修剪:目的是基于不同的异构的知识来源生成领域本体。本体修剪:目的是基于不同的异构的知识来源生成领域本体。 概念学习:从现实世界的文本集合中获取新的概念并添加到已有的概念学习:从现实世界的文本集合中获取新的概念并添加到已有的本体中。本体中。Artificial Intell
41、igenceOntology: 30 Graduate University , Chinese academy of Sciences. 本体构造(本体构造(9)基于结构化数据的本体构建基于结构化数据的本体构建 :从关系数据库中学习本体是:从关系数据库中学习本体是一个半自动化的本体学习过程,它需要通过机器学习和手工一个半自动化的本体学习过程,它需要通过机器学习和手工的方法来进行本体学习。手工方法构造的本体一般具有较高的方法来进行本体学习。手工方法构造的本体一般具有较高的质量和丰富的语义。但这种本体构建方法枯燥单调、效率的质量和丰富的语义。但这种本体构建方法枯燥单调、效率低而且代价高。低而且代
42、价高。 第一次扫描数据库的模式:用来创建概念,得到最初的一些粗糙的第一次扫描数据库的模式:用来创建概念,得到最初的一些粗糙的概念集合。扫描一趟关系数据库每张表,得到每张表的元数据,从概念集合。扫描一趟关系数据库每张表,得到每张表的元数据,从而可以知道这张表是否有主键。如果有主键,我们就创建一个概念而可以知道这张表是否有主键。如果有主键,我们就创建一个概念第二趟数据库模式的扫描:找到概念与概念之间的对象属性关系。第二趟数据库模式的扫描:找到概念与概念之间的对象属性关系。具体来说就是,对于关系数据库中那些有外键的表,认为至少存在具体来说就是,对于关系数据库中那些有外键的表,认为至少存在一个对象属性
43、关系,通过外键找到前面对应的概念,然后再建立概一个对象属性关系,通过外键找到前面对应的概念,然后再建立概念之间的属性关系。念之间的属性关系。 Artificial IntelligenceOntology: 31 Graduate University , Chinese academy of Sciences. 主要内容主要内容 本体的基本概念本体的基本概念 语义语义WebWeb 本体描述语言本体描述语言 本体构造本体构造 本体映射本体映射 本体知识管理本体知识管理 大规模知识系统大规模知识系统Artificial IntelligenceOntology: 32 Graduate Univ
44、ersity , Chinese academy of Sciences. 本体映射(本体映射(1) 本体映射问题可以归结为以下三个原因:本体映射问题可以归结为以下三个原因: 本体之间知识共享的需要:同一领域知识的共同理解。本体之间知识共享的需要:同一领域知识的共同理解。 人机交互的需要:解决已有本体的维护和本体重用,以及本体的服务人机交互的需要:解决已有本体的维护和本体重用,以及本体的服务。 本体匹配(本体匹配(ontology matching)的需要:本体间的知识推理。)的需要:本体间的知识推理。 由于通过手工方式去发现和操作这些本体之间的映射是一项由于通过手工方式去发现和操作这些本体之
45、间的映射是一项费时、费力、易错的过程,显然是不可取的。因此,研究和费时、费力、易错的过程,显然是不可取的。因此,研究和开发本体映射工具、建立本体映射的机制和环境,可以看作开发本体映射工具、建立本体映射的机制和环境,可以看作是对大量的已有本体的有效利用,进而达到真正意义上的知是对大量的已有本体的有效利用,进而达到真正意义上的知识共享的关键问题。识共享的关键问题。 Artificial IntelligenceOntology: 33 Graduate University , Chinese academy of Sciences. 本体映射(本体映射(2) 本体映射体系结构本体映射体系结构 :
46、本体映射的基本体系结构有三种:本体映射的基本体系结构有三种: 单本体结构:一个全局的本体为具体的语义说明提供了一个共享的词单本体结构:一个全局的本体为具体的语义说明提供了一个共享的词汇表。所有的信息源都联系到这个全局本体上,因而它们在语义上是汇表。所有的信息源都联系到这个全局本体上,因而它们在语义上是一致的。一致的。 多本体结构:每一个信息源都有自己的本地本体,它们并不一定使用多本体结构:每一个信息源都有自己的本地本体,它们并不一定使用同样的词汇表。每个本体都是独立发展的,它们之间有松散的联系。同样的词汇表。每个本体都是独立发展的,它们之间有松散的联系。要完成本体之间的互操作,必须建立映射的规
47、则。要完成本体之间的互操作,必须建立映射的规则。 混合结构:它综合了前两种方法的基本特征以克服它们的不足之处。混合结构:它综合了前两种方法的基本特征以克服它们的不足之处。像多本体方法一样,每个信息源都有自己的本地本体。但本地本体是像多本体方法一样,每个信息源都有自己的本地本体。但本地本体是在一个全局共享的词汇表下发展起来的。共享词汇表定义了领域内的在一个全局共享的词汇表下发展起来的。共享词汇表定义了领域内的基本术语,在本地本体中这些术语可以组合起来表达复杂的语义。基本术语,在本地本体中这些术语可以组合起来表达复杂的语义。 Artificial IntelligenceOntology: 34
48、Graduate University , Chinese academy of Sciences. 本体映射(本体映射(3)本体映射方法分类本体映射方法分类 :可以将本体映射方法分类如下:可以将本体映射方法分类如下 Artificial IntelligenceOntology: 35 Graduate University , Chinese academy of Sciences. 本体映射(本体映射(4) 本体映射原型系统本体映射原型系统 斯坦福大学的本体代数斯坦福大学的本体代数 :在此方法中,本体的映射由本体代数来:在此方法中,本体的映射由本体代数来执行。它包括三个操作符,即集合交、
49、集合并和集合差。本体代数执行。它包括三个操作符,即集合交、集合并和集合差。本体代数的目标是提供一的目标是提供一种能力用来咨询那些存在大量语义且互斥的知识资种能力用来咨询那些存在大量语义且互斥的知识资源。源。 CupidCupid:是一种基于元素级匹配和结构级匹配的混合方法。它可用:是一种基于元素级匹配和结构级匹配的混合方法。它可用于数据库、本体论等多种领域的匹配任务。其思想是,如果两个概于数据库、本体论等多种领域的匹配任务。其思想是,如果两个概念的子概念是相似的,那么这两个概念就趋向于相似念的子概念是相似的,那么这两个概念就趋向于相似; ; 如果两个概如果两个概念具有相似的祖先,那么它们也趋于
50、相似。念具有相似的祖先,那么它们也趋于相似。GLUEGLUE:用机器学习的方法来完成不同本体之间的匹配任务,其思想:用机器学习的方法来完成不同本体之间的匹配任务,其思想是多策略学习。它代表了一种自动合并不同匹配器是多策略学习。它代表了一种自动合并不同匹配器(learner)(learner)匹配匹配结果的组合方法,产生的是原子级的结果的组合方法,产生的是原子级的1: 11: 1的映射关系。的映射关系。Artificial IntelligenceOntology: 36 Graduate University , Chinese academy of Sciences. 主要内容主要内容 本体