1、知识图谱 知识知识图谱(图谱(Knowledge GraphKnowledge Graph)是一种)是一种揭示实体之间关系的语义网络。揭示实体之间关系的语义网络。20122012年年5 5月月1717日,日,GoogleGoogle正式提出了知识图谱的概念,其初衷是优化正式提出了知识图谱的概念,其初衷是优化搜索引擎返回的结果,增强用户搜索质量及体验。搜索引擎返回的结果,增强用户搜索质量及体验。知识知识图谱以结构化的形式描述客观世界中概念、实图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供
2、了一种更好地组织、管理和理解互联网海量信息的能式,提供了一种更好地组织、管理和理解互联网海量信息的能力。力。知识知识图谱图谱本质本质上是一种语义上是一种语义网络,其中的节点代表实体(网络,其中的节点代表实体(EntityEntity)或者)或者概念(概念(ConceptConcept),边代表实体),边代表实体/概念之间的概念之间的各种语义关系。各种语义关系。知识图谱的发展历史1 1第一阶段(第一阶段(19551955年年19771977年)年)第一第一阶段是知识图谱的起源阶段,阶段是知识图谱的起源阶段,在这一阶段中研究者们提出了引文网络和语在这一阶段中研究者们提出了引文网络和语义网络的概念义
3、网络的概念2 2第二阶段(第二阶段(19771977年年20122012年)年)第二第二阶段是知识图谱的发展阶段,语义网阶段是知识图谱的发展阶段,语义网络得到快速发展,络得到快速发展,“知识本体知识本体”的研究开始成为计的研究开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加于在计算机之间和计算机与人之间交换、流通和加工。工。3 3第三阶段(第三阶段(20122012年至今)年至今)第三第三阶段是知识图谱的繁荣阶
4、阶段是知识图谱的繁荣阶段,段,20122012年谷歌提出年谷歌提出Google Knowledge Google Knowledge GraphGraph,知识图谱正式得名,谷歌通过知识图,知识图谱正式得名,谷歌通过知识图谱技术改善了搜索引擎性能。在人工智能的谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉及的知识抽取、表蓬勃发展下,知识图谱涉及的知识抽取、表示、融合、推理、问答等关键问题得到一定示、融合、推理、问答等关键问题得到一定程度的解决和突破,知识图谱成为知识服务程度的解决和突破,知识图谱成为知识服务领域的一个新热点领域的一个新热点知识图谱的类型(1 1)事实知识)事实知识
5、 事实事实知识是知识图谱中最常见知识是知识图谱中最常见的知识类型。大部分事实都是在描述实体的的知识类型。大部分事实都是在描述实体的特定属性或者关系,例如:三元组(柏拉图特定属性或者关系,例如:三元组(柏拉图,出生地出生地,雅典)中的雅典)中的“出生地出生地”就是其中一个就是其中一个属性。属性。(2 2)概念知识)概念知识 概念概念知识分为两类,一类是实体与知识分为两类,一类是实体与概念之间的类属关系,另一类是子概念与父概念之间的类属关系,另一类是子概念与父概念之间的子类关系。概念之间的子类关系。(3 3)词汇知识)词汇知识 词汇词汇知识主要包括知识主要包括实体与词汇之间的关系(实体的命名、实体
6、与词汇之间的关系(实体的命名、称谓、英文名等)以及词汇之间的关系称谓、英文名等)以及词汇之间的关系(同义关系、反义关系、缩略词关系、(同义关系、反义关系、缩略词关系、上下位词关系等)。例如,上下位词关系等)。例如,(“PlatoPlato”,中文名,柏拉图)、,中文名,柏拉图)、(赵匡胤,庙号,宋太祖)、(妻子,(赵匡胤,庙号,宋太祖)、(妻子,同义,老婆)。同义,老婆)。(4 4)常识知识)常识知识 常识常识是人类通过身体与世界交互是人类通过身体与世界交互而积累的经验与知识,是人们在交流时无须而积累的经验与知识,是人们在交流时无须言明就能理解的知识。例如,我们都知道鸟言明就能理解的知识。例如
7、,我们都知道鸟有翅膀、鸟能飞等;又如,如果有翅膀、鸟能飞等;又如,如果X X 是一个人,是一个人,则则X X要么是男人要么是女人。常识知识的获取要么是男人要么是女人。常识知识的获取是构建知识图谱时的一大难点。是构建知识图谱时的一大难点。知识图谱的重要性 知识知识图谱已成为推动机器基图谱已成为推动机器基于人类知识获取认知能力的重要途径,并将于人类知识获取认知能力的重要途径,并将逐渐成为未来智能社会的重要生产资料。逐渐成为未来智能社会的重要生产资料。1 1知识图谱是人工智能的重要基石知识图谱是人工智能的重要基石2 2知识图谱推动智能应用知识图谱推动智能应用3 3知识图谱是强人工智能发展的核心驱动力
8、之一知识图谱是强人工智能发展的核心驱动力之一知识表示和知识建模 知识表示知识表示与知识建模是知识图谱中的与知识建模是知识图谱中的重要内容,在构建知识图谱的时候,首先要建立知重要内容,在构建知识图谱的时候,首先要建立知识表达的数据模型,也就是知识图谱的整个数据组识表达的数据模型,也就是知识图谱的整个数据组织体系。织体系。知识表示知识表示学习主要是面向知识学习主要是面向知识图谱中的实体和关系进行表示学习,使用建图谱中的实体和关系进行表示学习,使用建模方法将实体和向量表示在低维稠密向量空模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。间中,然后进行计算和推理。知识知识是人类在认识和改
9、造客观世界是人类在认识和改造客观世界的过程中总结出的客观事实、概念、定理和的过程中总结出的客观事实、概念、定理和公理的集合。知识具有不同的分类方式,例公理的集合。知识具有不同的分类方式,例如,按照知识的作用范围可分为常识性知识如,按照知识的作用范围可分为常识性知识与领域性知识。知识表示是将现实世界中存与领域性知识。知识表示是将现实世界中存在的知识转换成计算机可识别和处理的内容,在的知识转换成计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的是一种描述知识的数据结构,用于对知识的描述或约定。描述或约定。知识表示方法知识表示方法主要分为基于符号的知识表示方法与基于表示学习的知识表示方
10、法。知识表示方法主要分为基于符号的知识表示方法与基于表示学习的知识表示方法。(1 1)基于符号的知识表示)基于符号的知识表示方法方法基于符号的知识表示方法分为一阶谓词逻辑表示法、产生式规则表示法、框架表基于符号的知识表示方法分为一阶谓词逻辑表示法、产生式规则表示法、框架表示法与语义网络表示法。示法与语义网络表示法。(2 2)基于表示学习的知识表示方法)基于表示学习的知识表示方法 早期早期知识表示方法与语义网知识表示法通过符号显式地表示概念及其知识表示方法与语义网知识表示法通过符号显式地表示概念及其关系。事实上,许多知识具有不易符号化、隐含性等特点,因此仅通过显式表关系。事实上,许多知识具有不易
11、符号化、隐含性等特点,因此仅通过显式表示的知识无法获得全面的知识特征。此外,语义计算是知识表示的重要目标,示的知识无法获得全面的知识特征。此外,语义计算是知识表示的重要目标,基于符号的知识表示方法无法有效计算实体间的语义关系。基于符号的知识表示方法无法有效计算实体间的语义关系。技术发展趋势(1 1)符号与表示学习的融合统一)符号与表示学习的融合统一(2 2)面向事理逻辑的知识表示)面向事理逻辑的知识表示(3 3)融合时空间维度的知识表示)融合时空间维度的知识表示(4 4)融合跨媒体元素的知识表示)融合跨媒体元素的知识表示知识建模 知识知识建模是通过各种知识获取方法建模是通过各种知识获取方法获得
12、突发事件领域的主要概念和概念之间的关系,获得突发事件领域的主要概念和概念之间的关系,用精确的语言加以描述的过程。用精确的语言加以描述的过程。知识知识建模是指建立知识图谱的数据模型,建模是指建立知识图谱的数据模型,即采用什么样的方式来表达知识,构建一个本体模即采用什么样的方式来表达知识,构建一个本体模型对知识进行描述。型对知识进行描述。知识知识建模一般有自顶向下和自底向上两种构建方建模一般有自顶向下和自底向上两种构建方法。自顶向下的方法是指在构建知识图谱时首先定义数据模式法。自顶向下的方法是指在构建知识图谱时首先定义数据模式即本体,一般通过领域专家人工编制。从最顶层的概念开始定即本体,一般通过领
13、域专家人工编制。从最顶层的概念开始定义,然后逐步细化,形成结构良好的分类层次结构义,然后逐步细化,形成结构良好的分类层次结构。知识建模方法 知识知识建模目前的实际建模目前的实际操作过程,可分为手工建模方式和半自操作过程,可分为手工建模方式和半自动建模方式。手工建模方式适用于容量动建模方式。手工建模方式适用于容量小、质量要求高的知识图谱,但是无法小、质量要求高的知识图谱,但是无法满足大规模的知识构建,是一个耗时、满足大规模的知识构建,是一个耗时、昂贵、需要专业知识的任务;半自动建昂贵、需要专业知识的任务;半自动建模方式将自然语言处理与手工方式结合,模方式将自然语言处理与手工方式结合,适于规模大且
14、语义复杂的知识图谱。适于规模大且语义复杂的知识图谱。(1 1)手工建模方式)手工建模方式 手工手工建模方式过程主要可以分为建模方式过程主要可以分为6 6个步骤:明确个步骤:明确领域本体及任务、模型复用、列出本体涉及领域中领域本体及任务、模型复用、列出本体涉及领域中的元素、明确分类体系、定义属性及关系和定义约的元素、明确分类体系、定义属性及关系和定义约束条件束条件。(2 2)半自动建模方式)半自动建模方式 半自动半自动建模方式先通过自动方式获取知建模方式先通过自动方式获取知识图谱,然后再进行大量的人工干预。运用自然语识图谱,然后再进行大量的人工干预。运用自然语言处理技术半自动建模的方法可以分为言
15、处理技术半自动建模的方法可以分为3 3大类:基于大类:基于结构化数据的知识建模方法、基于半结构化数据的结构化数据的知识建模方法、基于半结构化数据的知识建模方法和基于非结构化数据的知识建模方法。知识建模方法和基于非结构化数据的知识建模方法。(3 3)知识建模评价)知识建模评价 对对知识建模质量评价也是知识建模的知识建模质量评价也是知识建模的重要组成部分,通常与实体对齐任务一起进重要组成部分,通常与实体对齐任务一起进行。质量评价的作用在于可以对知识模型的行。质量评价的作用在于可以对知识模型的可信度进行量化,通过舍弃置信度较低的知可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。识来保障知
16、识库的质量。知识抽取 知识知识抽取指从不同来源、抽取指从不同来源、不同结构的数据中进行知识提取,形成不同结构的数据中进行知识提取,形成知识的过程。为了提供令用户满意的知知识的过程。为了提供令用户满意的知识服务,知识图谱不仅要包含其涉及领识服务,知识图谱不仅要包含其涉及领域已知的知识,还要能及时发现并添加域已知的知识,还要能及时发现并添加新的知识。新的知识。实体抽取 实体实体抽取也被称抽取也被称为命名实体识别(为命名实体识别(Named Entity Named Entity RecognitionRecognition,NERNER),指从原始数),指从原始数据中自动识别出命名实体。据中自动识
17、别出命名实体。实体实体抽取的方法主要有基于规则与抽取的方法主要有基于规则与词典的方法、基于机器学习的方法以及面向开放域词典的方法、基于机器学习的方法以及面向开放域的抽取方法。的抽取方法。关系抽取 关系关系抽取的目标是抽取语料中命名实体的抽取的目标是抽取语料中命名实体的语义关系。实体抽取技术会在原始的语料上标记一语义关系。实体抽取技术会在原始的语料上标记一些命名实体。为了形成知识结构,还需要从中抽取些命名实体。为了形成知识结构,还需要从中抽取命名实体间的关联信息,从而利用这些信息将离散命名实体间的关联信息,从而利用这些信息将离散的命名实体连接起来,这就是关系抽取技术。的命名实体连接起来,这就是关
18、系抽取技术。属性抽取 实体实体的属性可以使实体对象更加丰满。属的属性可以使实体对象更加丰满。属性抽取的目的是从多种来源的数据中抽取目标实体性抽取的目的是从多种来源的数据中抽取目标实体的属性内容。实体的属性可以看作是连接实体与属的属性内容。实体的属性可以看作是连接实体与属性值的关系,因此,在实际应用中,一些学者将属性值的关系,因此,在实际应用中,一些学者将属性抽取问题转化为关系抽取问题。性抽取问题转化为关系抽取问题。知识存储 知识知识存储是针对知识图谱的知识表示形存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,式设计底层存储方式,完成各类知识的存储,以支持对大规模数据的有效
19、管理和计算。以支持对大规模数据的有效管理和计算。知识知识存储的对象包括基存储的对象包括基本属性知识、关联知识、事件知识、时序知本属性知识、关联知识、事件知识、时序知识和资源类知识等。知识存储方式的质量直识和资源类知识等。知识存储方式的质量直接影响知识图谱中知识查询、知识计算及知接影响知识图谱中知识查询、知识计算及知识更新的效率。识更新的效率。从从存储结构划分,知识存储分为基于存储结构划分,知识存储分为基于表结构的存储和基于图结构的表结构的存储和基于图结构的存储存储。知识存储工具 知识知识图谱的存储并不依赖特定的底层图谱的存储并不依赖特定的底层结构,一般的做法是按数据和应用的需求采用不同结构,一
20、般的做法是按数据和应用的需求采用不同的底层存储,甚至可以基于现有的关系数据库进行的底层存储,甚至可以基于现有的关系数据库进行构建构建。1 1关系型数据库关系型数据库2 2图数据库图数据库知识融合 知识知识融合即合并两个知识图融合即合并两个知识图谱(本体),基本的问题是研究将来自多个谱(本体),基本的问题是研究将来自多个来源的关于同一个实体或概念的描述信息融来源的关于同一个实体或概念的描述信息融合起来的方法。合起来的方法。知识知识融合的概念最早出现在霍尔萨普融合的概念最早出现在霍尔萨普尔(尔(HolsappleHolsapple)和温士顿()和温士顿(WhinstonWhinston)在)在19
21、831983年发年发表的文章表的文章A Software Tools For Knowledge FusionA Software Tools For Knowledge Fusion中,并在中,并在2020世纪世纪9090年代得到研究者的广泛关注。年代得到研究者的广泛关注。知识知识融合是面向知识服务和决策问融合是面向知识服务和决策问题,以多源异构数据为基础,在本体库和规则库的题,以多源异构数据为基础,在本体库和规则库的支持下,通过知识抽取和转换获得隐藏在数据资源支持下,通过知识抽取和转换获得隐藏在数据资源中的知识因子及其关联关系,进而在语义层次上组中的知识因子及其关联关系,进而在语义层次上组
22、合、推理、创造出新知识的过程,并且这个过程需合、推理、创造出新知识的过程,并且这个过程需要根据数据源的变化和用户反馈进行实时动态调整。要根据数据源的变化和用户反馈进行实时动态调整。知识推理 知识知识图谱的表示图谱的表示(RepresentationRepresentation)指的是用什么数据结构)指的是用什么数据结构来表示一个知识图谱。顾名思义,知识图谱来表示一个知识图谱。顾名思义,知识图谱是以图的方式来展示知识,但是这并不代表是以图的方式来展示知识,但是这并不代表知识图谱必须采用图的表示。从图的角度看,知识图谱必须采用图的表示。从图的角度看,知识图谱是一个语义网络,即一种用互联的知识图谱是
23、一个语义网络,即一种用互联的节点和边来表示知识的结构。节点和边来表示知识的结构。语义网络语义网络中的语义主要体现中的语义主要体现在图中边的含义上,为了赋予这些边语义,在图中边的含义上,为了赋予这些边语义,研究人员先是提出了术语语言研究人员先是提出了术语语言(Terminological LanguageTerminological Language),并最终提出),并最终提出了描述逻辑(了描述逻辑(Description LogicDescription Logic),描述逻),描述逻辑是一阶谓词逻辑的一个子集,推理复杂度辑是一阶谓词逻辑的一个子集,推理复杂度是可判定的(是可判定的(Decid
24、ableDecidable)。)。W3CW3C采用了以描采用了以描述逻辑为逻辑基础的本体语言述逻辑为逻辑基础的本体语言OWLOWL(Ontology Ontology Web LanguageWeb Language)作为定义)作为定义WebWeb术语的标准语言,术语的标准语言,还推出了另外一种用于表示还推出了另外一种用于表示WebWeb本体的语言本体的语言RDF SchemaRDF Schema(简称(简称RDFSRDFS)。)。并行知识推理 现有现有的并行推理方法的并行推理方法主要集中在前向链推理,即应用推理规则到主要集中在前向链推理,即应用推理规则到知识图谱生成新的三元组,所以对于动态知
25、知识图谱生成新的三元组,所以对于动态知识图谱的推理处理效果不佳。另外,前向链识图谱的推理处理效果不佳。另外,前向链推理会导致知识图谱存储大量冗余知识,也推理会导致知识图谱存储大量冗余知识,也不利于高效的知识检索和查询。不利于高效的知识检索和查询。知识图谱的应用 知识知识图谱的应用场图谱的应用场景很多,在不同行业、不同领域都有广景很多,在不同行业、不同领域都有广泛应用,知识图谱在商业领域的应用主泛应用,知识图谱在商业领域的应用主要体现在语义搜索和问答系统这两方面。要体现在语义搜索和问答系统这两方面。语义搜索 语义语义搜索的研究涉及多搜索的研究涉及多个领域,包括搜索引擎、语义网、数据个领域,包括搜
26、索引擎、语义网、数据挖掘和知识推理等。运用的主要方法有挖掘和知识推理等。运用的主要方法有图论、匹配算法和逻辑(特别是描述逻图论、匹配算法和逻辑(特别是描述逻辑、模糊逻辑等方法)。辑、模糊逻辑等方法)。问答系统 问答问答系统也是知识图谱应系统也是知识图谱应用较为广泛的领域,问答系统需要理解查询用较为广泛的领域,问答系统需要理解查询的语义信息,将输入的自然语言转化为知识的语义信息,将输入的自然语言转化为知识库中的实体和关系的映射。例如,输入库中的实体和关系的映射。例如,输入“阿阿里巴巴的创始人里巴巴的创始人”,系统会到知识库中寻找,系统会到知识库中寻找“马云马云”这个实体,并搜索该实体下这个实体,
27、并搜索该实体下“创始创始人人”这个属性的值,将其展现在系统页面上。这个属性的值,将其展现在系统页面上。小结(1 1)知识图谱以结构化的形式描述客观世界中概念、实体及其关系。)知识图谱以结构化的形式描述客观世界中概念、实体及其关系。(2 2)知识表示方法主要分为基于符号的知识表示方法、基于表示学习的知识表示方法)知识表示方法主要分为基于符号的知识表示方法、基于表示学习的知识表示方法2 2种。种。(3 3)知识抽取指从不同来源、不同结构的数据中进行知识提取,形成知识的过程。)知识抽取指从不同来源、不同结构的数据中进行知识提取,形成知识的过程。(4 4)知识存储是针对知识图谱的知识表示形式设计底层存
28、储方式,完成各类知识的存储,以)知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模数据的有效管理和计算。支持对大规模数据的有效管理和计算。(5 5)知识融合的目标是产生新的知识,是对松耦合来源中的知识进行集成,构成一个合成的)知识融合的目标是产生新的知识,是对松耦合来源中的知识进行集成,构成一个合成的资源,用来补充不完全的知识和获取新知识。资源,用来补充不完全的知识和获取新知识。(6 6)知识图谱的推理首先需要考虑的是知识如何表达的问题,即知识图谱的知识表示,它包)知识图谱的推理首先需要考虑的是知识如何表达的问题,即知识图谱的知识表示,它包括基于图结构的表
29、示以及相应的逻辑基础,还有基于张量的表示。括基于图结构的表示以及相应的逻辑基础,还有基于张量的表示。(7 7)语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现)语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户的真实意图,并依此来进行搜索,从而更准确地向用户返回象看本质,准确地捕捉到用户的真实意图,并依此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。最符合其需求的搜索结果。(8 8)知识库问答系统在回答用户问题时,需要正确理解用户所提出的自然语言问题,抽取其)知识库问答系统在回答用户问题时,需要正确理解用户所提出的自然语言问题,抽取其中的关键语义信息,然后在已有单个或多个知识库中通过检索、推理等手段获取答案并返中的关键语义信息,然后在已有单个或多个知识库中通过检索、推理等手段获取答案并返回给用户。回给用户。