《自然语言处理》课件新模板第七章知识图谱.pptx_163文库

资源描述

1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第七章第七章自然语言处理自然语言处理任务任务之一之一知识图谱知识图谱目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍 1998年，Tim Berners-Lee提出了Semantic Web（语义网）的概念。Semantic Web仍然基于图和链接的组织方式，只是图中的节点代表的不只是网页，而是客观世界中的实体，而超链接也被增加了语义描述，具体标明

2、实体之间的关系。在Semantic Web被提出之后，出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase，作为IBM Waston后端的DBpedia和Yago，作为Amazon Alexa后端的True Knowledge，作为苹果Siri后端的Wolfram Alpha，以及开放的Semantic Web SchemaSchema.ORG。2010年谷歌收购了早期语义网公司MetaWeb，并以其开发的Freebase作为数据基础之一，于2012年正式推出了称为知识图谱的搜索引擎服务，而知识图谱这一概念也由Google公司于2012年提出。随后，知识图谱逐步在语义搜索、智

3、能问答、辅助语言理解、辅助大数据分析等多个领域发挥出越来越重要的作用。章节概述C H A P T E R O V E R V I E WTWO章节概述小节介绍S E C T I O N I N T R O D U C T I O NTHREE7、知识图谱定义、发展历程基本介绍7.1 知识图谱的类型、应用场景7.27.3 知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.1.1 定义定义知识图谱旨在描述真实世界中存在的各种实体或概念。其中，每个实体或概念用一个全局唯一确定的ID来标识，这个ID被称为它们的标识符。“属性-值”对用来刻画实体的内在特征，而关系用来连接两个实体，刻画

4、他们之间的关联。王昊奋王昊奋从本质上来看，可以将知识图谱理解成一张由不同实体相互连接形成的语义网络。任何一种网络都是由节点和边构成的，因此，知识图谱也是由节点节点和边边构成的。7.1.1 定义节点节点分为以下两种：l 实体：指现实世界中存在的事物，如一个人、一座城市、一种商品等，某个时刻、某个地点、某个数值也可以作为实体。实体是一个知识图谱中最基本的元素。l 语义类/概念：语义类指具有某种共同属性的实体的集合，如国家、民族、性别等；而概念则反映一组实体的种类或对象类型，如人物、气候、地理等。7.1.1 定义边边分为以下两种：l 属性：指某个实体可能具有的特征、特性、特点以及参数，是从某个实体

5、指向它的属性值的“边”，不同的属性对应不同的边，而属性值是实体在某一个特定属性下的值，属性值可作为一个节点。l 关系：是连接不同实体的“边”，可以是因果关系、相近关系、推论关系、组成关系等。在知识图谱中，将关系形式化为一个函数。这个函数把若干个节点映射到布尔值，其取值反映实体间是否具有某种关系。7.1.2 发展历程 1968年，奎林（J.R.Quillian）提出了语义网络（Semantic Network）的概念。语义网络的本质是一种用图表示知识的结构化方式，可以看成一种用于存储知识的图的数据结构。1977年，美国斯坦福大学的计算机科学家费根鲍姆教授在第五届国际人工智能大会上提

6、出了知识工程（Knowledge Engineering）的概念。知识工程是通过存储现有的专家知识对用户的提问进行求解的系统。随后，作为知识工程的一个重要组成部分，知识库（Knowledge Base）应运而生，并成为知识图谱技术发展史上的重要阶段。进入21世纪，语义网（Semantic Web）和链接数据（Linked Data）的出现开启了语义网络应用的新场景。语义网和链接数据是万维网之父Tim Berners Lee分别在 1998年和2006年提出的。相对于语义网络，语义网和链接数据倾向于描述万维网中资源、数据之间的关系。语义网希望将数据相互链接，组成一个庞大的信息网络，正如互联网中相

7、互链接的网页，只不过基本单位变为粒度更小的数据。2012年11月，Google公司率先提出知识图谱的概念，表示将在其搜索结果中加入知识图谱的功能。7、知识图谱定义、发展历程基本介绍7.1知识图谱的类型和应用场景7.27.3 知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.2.1 类型通用型知识图谱通用知识图谱不面向特定领域，可将其类比为“结构化的百科知识”。这类知识图谱包含了大量常识性知识，强调知识的广度。具有代表性的大规模通用知识图谱有：WikiData、DBPedia、YAGO、Concept Graph等；中文通用知识图谱：OpenKG、Zhishi.me、CN-Pr

8、obase、XLore、PKU-PIE、Belief-Engine等。7.2.1 类型垂直领域知识图谱垂直领域知识图谱则面向特定领域，基于行业数据构建，强调知识的深度。垂直领域知识图谱可以看做基于语义技术的行业知识库，其潜在使用者是行业的专业人员。垂直领域知识图谱有中医药知识图谱、海洋知识图谱和企业知识图谱等。在医疗领域，目前我国已有中国医学科学院医学研究所创建并维护的医药卫生知识服务系统，目前已涵盖乳腺癌、子宫颈癌、哮喘、脑卒中、肺炎、流感心律失常、心肌炎、慢性支气管炎等病症的知识图谱。SciKG是一个以科研为中心的大规模知识图谱，目前包含计算机科学领域，由概念、专家和论文组成。SciKG

9、可用于更好地了解计算机科学领域的动态和演化，并帮助用户进行计算机领域中专家和论文的搜索与推荐。7.2.2 应用场景知识图谱的应用场景l 语义搜索l 智能问答l 推荐系统l 辅助决策风险评估和反欺诈风险预测临床医学预测7、知识图谱定义、发展历程基本介绍7.1知识图谱的类型和应用场景7.27.3知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.3.1 生命周期知识图谱生命周期包括知识表示、知识抽取、知识存储、知识融合、知识推理和知识应用多个方面。一般流程为：首先确定知识表示模型，然后根据数据来源选择不同的知识抽取手段抽取知识，并进行知识存储，接着综合利用知识融合、知识推理等

10、技术对构建的知识图谱进行质量提升，最后根据场景需求设计不同的应用方法，如语义搜索、智能问答等，而在实际应用中积累的知识又可以重新利用起来。7.3.2 知识表示知识表示的原则l 具备足够的表示能力针对特定的应用领域，能正确有效地涵盖该领域的各种知识，而且能够处理知识中的模糊性和不确定性。l 适合计算机处理知识表示的最终目的是通过计算机进行知识的分析、处理，因此适合机器推理的表达方式才能挖掘数据的价值。l 清晰自然的模块结构知识库通常要不断地扩充和完善，具有模块性结构的表示模式有利于新知识的扩充及新旧知识的融合。7.3.2 知识表示知识表示的形式7.3.2 知识表示知识表示的形式l 产生式表

11、示产生式表示产生式表示，又称规则表示，有的时候被称为IF-THEN 表示，它表示一种条件-结果形式，是一种比较简单表示知识的方法。IF 后面部分描述了规则的先决条件，而THEN 后面部分描述了规则的结论。规则表示方法主要用于描述知识和陈述各种过程知识之间的控制，及其相互作用的机制。举例如下：r1:IF 动物有犬齿 AND 有爪 AND 眼盯前方 THEN 该动物是食肉动物其中，r1是该产生式的编号；“动物有犬齿 AND 有爪 AND 眼盯前方”是产生式的前提P；“该动物是食肉动物”是产生式的结论Q。7.3.2 知识表示知识表示的形式l 框架表示框架(Frame)是把某一特殊事件或对象的所有

12、知识储存在一起的一种复杂的数据结构。其主体是固定的，表示某个固定的概念、对象或事件，其下层由一些槽(Slot)组成，表示主体每个方面的属性。在槽中填入具体值，就可以得到一个描述具体对象的框架，每一个槽都可以从不同的侧面（Facet）表示，每个侧面可以有一个或多个值。例如“教师”框架，其中姓名、年龄、职称、电话都是槽名，而办公电话、家庭电话是槽电话的侧面，如表所示：框架名：姓名：名字年龄：数字职称：教授、讲师等部门：单位住址：地址电话：办公电话：号码家庭电话：号码7.3.2 知识表示知识表示的形式l 语义网络语义网络是知识表示中最重要的方法之一，是一种表达能力强而且灵活的知识表示方法。它是通

13、过实体及其语义关系来表达知识的一种网络图。从图论的观点看，它是一个“带标识的有向图”。语义网络利用节点和带标记的边构成的有向图描述实体、概念、属性及它们之间的关系，如图所示：7.3.2 知识表示知识表示的形式l 基于本体的知识表示基于本体的知识表示本体是对特定领域内实体存在本质的抽象，以苹果举例，中文的“苹果”、英文的“apple”以及苹果的图片都可以表示苹果这个东西，而苹果这个东西就是本体，“苹果”、“apple”、图片都是描述苹果这个本体的符号。因此通过上面这个例子我们就可以体会到，“本体”这个概念在哲学层面上是形而上的，是只可意会不可言传的，因为所有的描述都成为了“本体”的外在符号，我

14、们世界上的所有图像、语言、我们看到的、听到的、感受到的，都可以成为符号到本体的某种映射。基于本体的知识表示则是将本体抽象化，一般本体表示一个领域，如“大学”这个本体，本体里有老师、学生、职工等多个实体，而基于本体的知识表示强调实体间的关联，并通过多种知识表示元素将这些关联表达和反映出来，这些知识表示元素也被称为元本体，主要包括：概念、属性、关系、函数、公理、实例。7.3.2 知识表示知识表示的形式l 基于基于语义网语义网的知识表示的知识表示框架框架RDF 资源描述框架(Resource Description Framework)是一种数据模型，所有以RDF表示法来描述的东西都叫做资源。在RD

15、F中，资源是以统一资源标识(URI)来命名。RDF用来描述资源的特性，及资源与资源之间的关系。RDF使用属性来描述资源的特定特征或关系，每一个属性都有特定的意义，用来定义它的属性值和它所描述的资源形态，以及和其它属性的关系。特定的资源以一个被命名的属性与相应的属性值来描述，称为一个RDF陈述，其中资源是主语(Subject)，属性是谓语(Predicate)，属性值则是宾语(Object)，因此一个RDF陈述也叫做一个SPO三元组，陈述的宾语除了可能是一个数值，也可能是一个资源或其他的资料形态，而属性也可以描述两个资源的关系。一个RDF数据集由一组相关的SPO三元组组成。由于这个三元组集合可以

16、抽象为一张图谱，因此也被称为RDF图谱，并通过边将不同的资源链接起来，形成语义网。7.3.2 知识表示知识表示的形式 RDF是一种数据模式，即RDF是从概念层面描述资源，而不是序列化的格式，其具体的存储表现形式有以下几种：XML：顾名思义，就是利用XML的格式来描述RDF数据，以罗纳尔多知识图为例，该知识图描述了罗纳尔多的姓名、生日、身高、体重等信息，如图所示：7.3.2 知识表示知识表示的形式 N-Triples：即用多个三元组来表示RDF数据集，是最直观的表示方法。在文件中，每一行表示一个三元组，方便机器解析和处理。开放领域知识图谱DBpedia通常是用这种格式来发布数据的，如图所示：7.

17、3.2 知识表示知识表示的形式 Turtle：使用得最多的一种RDF序列化方式。它比RDF/XML紧凑，且可读性比N-Triples好，示例如图所示：7.3.2 知识表示知识表示的形式l 基于基于语义网语义网的知识表示的知识表示框架框架RDFS 资源描述框架模式（RDF Schema）是对RDF 的一种扩展，是用来描述RDF数据的，即一般所说的数据的模式层（Schema）。为了不显得那么抽象，我们用关系数据库中的概念作比较，我们可以认为数据库中的每一张表都是一个类，表中的每一行都是该类的一个实例或者对象，表中的每一列就是这个类所包含的属性。如果我们是在数据库中来表示人和地点这两个类别，那么为他

18、们分别建一张表就行了；再用另外一张表来表示人和地点之间的关系。因此RDFS就在RDF的基础上提供了“建表”的能力，其实RDFS本质上是一些预定义词汇构成的集合，利用这些词汇对RDF数据定义类和类中的属性。7.3.2 知识表示知识表示的形式l 基于基于语义网语义网的知识表示的知识表示框架框架RDFS 同样以罗纳尔多知识图为例，我们在概念、抽象层面对RDF数据进行定义，如图所示：7.3.2 知识表示知识表示的形式l 基于基于语义网语义网的知识表示的知识表示框架框架OWL 前面提到，RDFS本质上是一些预定义词汇构成的集合，是对RDF词汇的一个扩展。但后来人们发现RDFS的表达能力还是相当有限，因此

19、提出了OWL（Ontology Web Language)。我们可以把OWL当做是RDFS的一个扩展，其添加了额外的预定义词汇。网络本体语言（Ontology Web Language)是对RDFS的一种扩展，弥补了RDFS在表达能力的一些缺陷，是W3C 组织于2002年7月31日发布的本体语言。OWL也是遵循RDF规范的，比RDF更加严谨，丰富了属性以及属性约束，定义域、值域的约束等等。7.3.2 知识表示知识表示的形式l 基于基于语义网语义网的知识表示的知识表示框架框架OWL 同样以罗纳尔多知识图为例，利用OWL进行数据建模，示例如图所示：7.3.3 知识抽取与知识挖掘知识抽取知识图谱的

20、典型数据类型可分为三大类，分别是结构化数据、半结构数据和非结构化数据，各类数据的知识抽取方式各不相同。l结构化数据结构化数据结构化数据的抽取通常对应两类知识抽取工作：一种是将关系数据库数据映射为RDF格式数据，可采用的标准化工具有Direct Mapping和R2RML,该工作的难点是复杂表数据的处理，例如嵌套表；另一种是从链接数据（通常是已有的通用知识图谱）中提取出一个子集，形成行业知识图谱，其主要实现方式是图映射，即将通用知识图谱映射到定义好的行业知识图谱Schema上。7.3.3 知识抽取与知识挖掘知识抽取知识图谱的典型数据类型可分为三大类，分别是结构化数据、半结构数据和非结构化数据

21、，各类数据的知识抽取方式各不相同。l半半结构化数据结构化数据半结构化数据通常分为两类，分别是百科类数据和普通网页数据。百科类数据（如Wikipedia)知识结构较为明确，易于抽取。基于这类数据，已经形成较为成熟的知识图谱，如DBpedia和Zhishi.me。普通网页类数据的通用抽取方法被称为包装器，它是一类能够将数据从HTML网页中抽取出来，并且将其还原为结构化数据的技术。半结构化数据也可以通过半监督学习的方式进行信息抽取，基于半监督学习的文本知识抽取技术，把蕴含于信息源中的非结构化知识经过识别、理解、筛选、归纳等过程抽取出来，存储形成知识库。7.3.3 知识抽取与知识挖掘知识抽取知识图谱

22、的典型数据类型可分为三大类，分别是结构化数据、半结构数据和非结构化数据，各类数据的知识抽取方式各不相同。l非结非结构化数据构化数据典型的非结构化数据有文本、图片、音频、视频等，它们占据了互联网数据的绝大部分。现阶段，人们更多的是从文本这类非结构化数据中抽取知识。信息抽取于20世纪70年代后期出现在自然语言处理领域，目标是自动化地从文本中发现和抽取相关信息，并从多个文本碎片中合并信息。文本信息抽取主要由几个子任务构成，分别是实体抽取（实体识别）、关系抽取、事件抽取。知识图谱以图模型进行表示时，实体抽取产生的便是节点；关系抽取产生的是节点之间的连接边；事件抽取抽取的是文本中的实际实体和事件关系。

23、7.3.3 知识抽取与知识挖掘知识抽取实体抽取实体抽取实体抽取指的是抽取文本中的原子信息元素，通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签，具体的标签定义可根据任务不同而调整，形成实体节点，可作为命名实体识别任务，即为文本中的每一个字或词预测一个类别标签。实体抽取可作为一个序列标注问题，因此可以使用机器学习中的隐马尔可夫模型（HMM)、条件随机场（CRF)、神经网络等算法进行标注。实体抽取要考虑文本分词的特征，包括词本身的特征（例如词性）、前后缀特征（例如地名中会出现省、市）、字本身的特征（例如是否为数字）。提取特征的模型的选择有隐马尔可夫模型、条件随机场等，目前流行的做

24、法是将传统方法与深度学习结合，例如利用长短期记忆网络（LSTM）、注意力机制（Attention）等进行特征自动提取，再结合CRF模型，利用模型各自的优势进行实体抽取。7.3.3 知识抽取与知识挖掘知识抽取关系抽取关系抽取关系抽取指的是从文本中抽取出两个或者多个实体之间的语义关系，常见的关系有二元关系、配偶关系、父子关系、雇佣关系、部分整体关系、会员关系、地理坐标关系。例如：张大明谈起儿子张小明：“我希望他开心一点。”这个句子中的关系为“父子（张大明，张小明）”。7.3.3 知识抽取与知识挖掘知识抽取关系抽取关系抽取根据关系抽取方法的不同，可以将其分为以下几种方法：基于模板的方法：基于触

25、发词的模板：首先人工定义模板，例如从邓超老婆是孙俪，姚明妻子是叶莉等文本中定义模板：X 老婆 Y，当遇到触发词老婆、妻子等，就可以找出这种夫妻关系。基于语法树分析的模板：即首先根据文本中的语法结构构建语法树，然后根据人工定义好的规则（语法树结构）去匹配已构建好的语法树，匹配成功的子树则生成对应的三元组，最后对三元组进行评价。7.3.3 知识抽取与知识挖掘知识抽取关系抽取关系抽取基于监督学习的方法（机器学习方法）：在给定实体对的情况下，根据句子上下文对实体关系进行预测，预先定义好关系的类别，然后人工标注一些数据，设计特征提取的模型，接着设计分类方法，最后进行评估。其优点为准确率高，标注的数据

26、越多越准确，缺点为标注数据的成本太高，不能扩展新的关系。7.3.3 知识抽取与知识挖掘知识抽取关系抽取关系抽取远程监督方法：通过知识库与非结构化文本对齐从而自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。该方法认为若两个实体在知识库中存在某种关系,则包含这两个实体的非结构化句子均能表示出这种关系。如在某知识库中存在“创始人(乔布斯，苹果公司)”，那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系，因此可构建训练正例：乔布斯是苹果公司的联合创始人和CEO。远程监督首先从知识库中抽取存在关系的实体对，然后从非结构化文本中抽取含有实体对的句子作为训练样例。远程

27、监督可以利用丰富的知识库信息，减少一定的人工标注，但它的假设过于肯定，如乔布斯被赶出苹果公司。这句话表达的就不是创始人的例子，因此会引入大量的噪声，同时由于是在知识库中抽取存在的实体关系对，因此很难发现新的关系。7.3.3 知识抽取与知识挖掘知识抽取关系抽取关系抽取 Bootstrapping：首先确定一定的种子实体，然后从文本中找出含有种子实体的文本集合，在集合中抽取出一定的模板，然后再利用模板去匹配新的文本，再将匹配成功的新文本当作种子继续抽取模板，如此迭代下去。举例：首先从文档中抽取出包含种子实体（姚明、叶莉）的新闻，如：“姚明老婆叶莉简历身高曝光”，“姚明与妻子叶莉外出赴约”等，进而

28、抽取出模板“X老婆Y 简历身高曝光”，“X 与妻子 Y 外出赴约”。接着将抽取出的模板去其他文档集中匹配，可以匹配出“小明与妻子小红外出赴约”，根据模板抽取出的新文档可当作种子库,继续迭代。7.3.3 知识抽取与知识挖掘知识抽取事件抽取事件抽取事件抽取指的是从自然语言中抽取出用户感兴趣的事件，并用结构化的形式呈现出来。事件通常具有时间、地点、参与者等属性，因此需要进行属性抽取，而属性抽取包括属性和属性值的抽取，这样才能够将知识图谱中的实体概念维度构建完整，事件的发生可能是因为一个动作的产生或者系统状态的改变。事件抽取任务包括：识别事件触发词及事件类型、抽取事件元素，同时判断其角色、抽出描述

29、事件的词组或句子等。事件抽取问题可转化为多阶段的分类问题，需要的分类器包括用于判断词汇是否为事件触发词的分类器、判别词组是否为事件元素的分类器以及判定元素角色类别的分类器等。事件抽取的方法有：基于模式匹配的方法、基于人工标注语料的有监督学习、基于弱监督的学习等。7.3.3 知识抽取与知识挖掘知识挖掘知识挖掘最新的描述性定义是由Usama M.Fayyyad 等人给出的：知识挖掘是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。知识控掘的基本任务是洞察真相、因果推理和规律探寻，其本质是对目标或事件的来龙去脉、前因后果、特点规律进行建模和表现。知识挖掘的流程为以下3步

30、：数据准备知识挖掘模式评估7.3.4 知识存储知识存储知识存储解决如何管理大量的结构化数据的问题。当经过知识抽取得到了结构化的数据，并选择了适当的知识表示方法后，下一步就是如何持久性地存储这些数据。我们可以使用不同的数据库工具解决这个问题。知识存储主要有3种选择：基于表结构的知识存储、图数据库和RDF数据库。7.3.4 知识存储知识存储知识图谱的典型数据类型可分为三大类，分别是结构化数据、半结构数据和非结构化数据，各类数据的知识抽取方式各不相同。l基于表结构的知识存储基于表结构的知识存储基于表结构的知识存储利用二维的数据表对知识图谱中的数据进行存储，典型的有关系型数据库、三元组表、类型

31、表。关系型数据库关系型数据库：表中每一列称为一个属性，也称字段。三元组表三元组表：表中的每一行表示一个三元组。类型表类型表：每个类型的数据表只记录属于该类型的特有属性，不同类别的公共属性保存在上一级类别对应的数据表中，下级表继承上级表的所有属性，可以将类型表与面向对象编程语言的父类和子类相类比。7.3.4 知识存储知识存储l基于图结构的知识存储基于图结构的知识存储基于图结构的知识存储利用图的方式对知识图谱中的数据进行存储。图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系体现的，也可处理键值对。常用的一些原生图数据库有Neo4j、OrientDB、Iype

32、rGraphDB。7.3.4 知识存储知识存储l基于原生基于原生RDF结构的知识存储结构的知识存储 Weikum在2008年提出了基于原生数据存储格式的 RDF 管理系统RDF3x，设计 RDF 管理系统，并开发了多个针对RDF的优化技巧，使得RDF3x成为当时单机性能最好的RDF管理系统。RDF3x沿用了传统数据库的查询优化思路，对用户的查询先通过优化器找到一个合适的查询计划，然后再执行查询，获得结果。另外，RDF3x采用精心设计的多种索引结构减少外存的I/O操作，提升了查询性能。常用的一些开源的RDF数据库有：RDF4j、gStore。7.3.5 知识融合知识融合知识融合是通过高层次的知

33、识组织，使来自不同知识源的知识在同一框架规范下通过异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。知识融合技术产生的原因，一方面是通过知识抽取与挖掘获取的结果数据中可能包含大量的冗余与错误信息，有必要进行清理和整合；另一方面，知识来源广泛，存在重复、良莠不齐、关联不够明确等问题。知识融合通常由两部分构成，分别是本体匹配本体匹配和实体对齐实体对齐。7.3.5 知识融合本体匹配本体匹配是指计算两个不同本体之间的相似度的过程，通过相似度的值来建立来自不同本体中的实体之间的语义关系，这些关系可以是实体间的等价、包含、不交或者相交等关系

34、，从而实现本体的语义之间的映射。本体匹配技术就是解决异构本体之间的相互通信的问题，发现不同本体中实体的语义关系，最后实现本体合并，本体集成等应用。从技术实现上，本体匹配可分为基于文本的方法、基于结构的方法（相似度传播算法、随机游走策略）、基于机器学习的方法和基于逻辑推理的方法。7.3.5 知识融合实体对齐实体对齐也被称为实体匹配或实体解析，是判断来自不同信息来源的实体是否指向真实世界同一对象的过程。7.3.5 知识融合实体消歧由于实体的相关任务有很多，为了使理清楚，在此介绍实体对齐、实体消歧、实体链接任务的区别。实体消歧主要是把具有歧义性质的命名性指称映射到它实际所指的实体中，它是解决“一

35、词多义”问题，根据上下文信息消除歧义，实体消歧主要应用在实体抽取过程中，将命名实体识别出的实体进行语义消歧，举例如图所示：7.3.5 知识融合实体链接实体链接主要体现在知识图谱的应用上，如基于知识图谱的问答系统，用户提出问题，首先将问题中的实体识别出来，之后将每个实体映射到知识图谱已有的实体中。举例如图所示，最终Michael Jordan映射到知识图谱中的Michael I.Jordan：7.3.6 知识推理推理策略知识推理是指是利用知识图谱中现有的知识（三元组），得到一些新的实体间的关系或者实体的属性，也可以指在知识表示的基础上进行问题分析、解答的过程，即根据一个或者一些已知条件得出结

36、论的过程。常见的知识推理策略包括正向推理和反向推理。正向推理正向推理又被称为数据驱动策略或者自底向上策略，是由原始数据按照一定的方法，运用知识库中的先验知识推断出结论的方法。反向推理反向推理又被称为目标驱动策略或者自顶向下策略，先假设或者结论，然后验证支持这个假设或者结论成立的条件和证据是否存在。如果条件满足，结论就成立；否则，再提出新假设重复上述过程，直至产生结果。7.3.6 知识推理知识推理方式常见的知识推理方式包括以下几种：（1）语义推理（2）间接推理（3）基于规则引擎的推理（4）基于表示学习的推理（5）基于图计算的推理7、知识图谱定义、发展历程基本介绍7.1知识图谱的类型和应用场景

37、7.27.4知识图谱的发展趋势和挑战知识图谱的生命周期和关键性技术7.37.4.1 知识图谱的发展趋势发展趋势随着关注度越来越高，知识图谱的发展正呈现出诸多趋势。针对基础理论和应用技术，人们展开进一步的研究。同时随着技术的发展和广泛的关注，知识图谱已经从学术研究逐步转移到行业应用中，落实在相关产业发展，应用领域也日趋广泛。目前，知识图谱技术正在呈现如下趋势：（1）与机器学习结合（2）向更多行业渗透（3）从学术界转移到产业界7.4.2 知识图谱的挑战挑战目前，人们对知识图谱的研究已有一定的进展，也陆续形成了一些开放知识图谱和相应的应用工具。但是，成熟、大规模的知识图谱应用仍然非常有限。除了搜

38、索、问答、推荐等少数场景外，知识图谱在不同行业中的应用仍然处于非常初级的阶段，有非常广阔的研究和扩展空间。对于客户而言，按照目前学术界提出的方法构建的知识图谱未必能够在实际中直接投入使用，更多时候需要融合不同的行业经验或已积累的大量规则。因此，知识图谱仍然面临着诸多挑战：（1）知识获取效率较低（2）知识融合的困难（3）知识推理应用进展缓慢（4）缺乏高质量知识库（5）行业知识图谱构建困难（6）商业模式面临阻碍本章总结C H A P T E R S U M M A R YFOUR本章总结本章首先介绍了知识图谱的概念与定义，接着介绍了知识图谱的发展历程，然后介绍了多个国内外已有的知识图谱以及知识图

39、谱的应用场景。紧接着，本章重点介绍了知识图谱的生命周期，包括知识表示、知识抽取、知识存储、知识融合和知识推理。在知识表示中，基于语义网的表示框架（RDF、RDFS、OWL）尤为重要；知识抽取则是构建知识图谱的核心任务，包括实体抽取、关系抽取和事件抽取；知识融合则包含了两大任务：实体对齐和实体消歧。最后本章介绍了知识图谱发展趋势和面临的挑战。思考题1.知识图谱的表现形式是什么，由哪两部分构成，分别表示什么含义？2.简述知识图谱的发展历程，分析知识图谱、语义网、语义网络、知识库的区别。3.简述知识图谱的生命周期。4.国内外已有的知识图谱有哪些？5.知识表示的方法有哪些，特点是什么？6.RDF、RDFS、OWL表示法有什么区别？7.非结构化数据的知识抽取包含哪些子任务？8.知识挖掘、知识融合、知识推理的目的是什么？9.实体对齐、实体链接、实体消歧的区别是什么？

展开阅读全文

《自然语言处理》课件新模板 第七章 知识图谱.pptx

《自然语言处理》课件新模板第七章知识图谱.pptx