知识库构建与应用PPT课件.pptx_163文库

资源描述

1、移动生活与新媒体实验室移动生活与新媒体实验室徐源徐源北京邮电大学北京邮电大学知识库构建与应用目录目录n语义信息抽取n知识库n语义检索n海量数据处理n语义信息抽取n泛网资源与信息n语义抽取内容n模式抽取n层级构建语义信息抽取海量资源与信息泛在网为我们提供了无所不在的资源及信息。l如何在海量信息中获取我们需要的信息？l如何快捷的获取？机器理解？l如何让机器更好的理解？语义抽取语义信息抽取语义抽取内容n 实体抽取(Named entity extraction) ：人物、地点、机构、疾病，等命名或专有实体。 n 属性抽取(Attribute extraction)：实体的自身属性。n 关系挖掘(Re

2、lation mining)：实体之间的关系。 n 事件挖掘(Event mining)：由多个关系元组所构成。语义信息抽取实体抽取n 识别识别文本中出现的实体文本中出现的实体 MUC MUC (1997): Person, Location, Organization, Date/Time/Currency (1997): Person, Location, Organization, Date/Time/Currency ACE ACE (2005): 100(2005): 100多种更具体的类型多种更具体的类型 n 针对针对不同实体类型与领域考虑不同方法不同实体类型与领域考虑不同方法封

3、闭类封闭类(e.g., geographical locations, disease names, (e.g., geographical locations, disease names, gene gene & protein & protein namesnames) )：人工规则人工规则+ +词典词典语法相关语法相关(e.g., phone numbers, zip codes(e.g., phone numbers, zip codes) )：正则表达式正则表达式语义相关语义相关(e.g., person and company names(e.g., person and c

4、ompany names) )：综合考虑上下综合考虑上下文文, ,句法特征句法特征, ,词词典典, ,启发式规则启发式规则等等语义信息抽取实体抽取n 人工规则方法某些情况构建简单: 电话号码、邮政编码等。调试和维护简单拓展性问题n 机器学习方法当容易构建大量训练数据时适合采用能够捕捉复杂的模板主要方法：Naive Bayes；Hidden Markov Models；Maximum Entropy Markov Models；Conditional Random Fields (CRF) 语义信息抽取属性抽取属性包括：属性名属性值语义信息抽取属性抽取语义信息抽取属性抽取n 基于无

5、结构化基于无结构化与前面方法类与前面方法类似似模板改变模板改变: A of IA of I is V; V is A of I 种子改变种子改变: (China, capital)(China, capital, Beijing) n 基于基于Wikipedia Infobox n 基于基于HTML表格表格语义信息抽取关系抽取n ACE（Automatic Content Extraction）会议将关系抽取任务表述为：探测和识别文档中特定类型的关系，并对这些抽取出的关系进行规范化表示。 n 一个比较完整的关系抽取系统应包括依次相连的5个模块：NLP处理和实体抽取、模式匹配或分类、共指消

6、解、新关系处理以及规范化输出。n 关系抽取的困难可以归纳为3个方面：特定领域标引数据集的获取模式的获取共指消解语义信息抽取关系抽取n 基于模式匹配的关系抽取先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。 n 基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活，新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。 n 基于机器学习的关系抽取将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类

7、器，然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法。n 混合抽取方法基于词汇：基于词汇：“ located in ” “ located in ” 基于句法结构：基于句法结构：“(“(ObjObj ) (Verb located) ( ) (Verb located) (* *) () (SubjSubj )” )” n 机器学习方法机器学习方法有监督学习：基于人工标注数据训练模型（有监督学习：基于人工标注数据训练模型（SVM, SVM, MaxEntMaxEnt, KNN, KNN等）等） 1. 1. 基于基于特征的特征的方法方法 2. 2

8、. 核方法核方法：核核函数函数Kernel (x, y)Kernel (x, y)定义对象定义对象x x与与y y之间的相似度之间的相似度, ,则可则可直接直接使用核函数使用核函数代替上述公式中基于显式特征的点积运算代替上述公式中基于显式特征的点积运算半监督学习半监督学习：基于自举方法从种子样基于自举方法从种子样例中训练模型例中训练模型自举自举方法方法(Bootstrapping) (Bootstrapping) 轮流发现实体关系对与抽取模板。轮流发现实体关系对与抽取模板。无监督学习：无监督学习：自动发现主要的关系与相应的对自动发现主要的关系与相应的对象象基于对象对与关基于对象对与关系

9、上下文的对偶性系上下文的对偶性利用聚类利用聚类算法算法语义信息抽取事件抽取n 事件由事件触发词和描述事件结构的元素构成，通常需要共指消解，消岐，去重，推理。n 事件抽取由两个步骤组成：事件类别识别：事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。事件元素识别：事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素，并为其标上正确的元素标签。语义信息抽取事件抽取n 事件抽取主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。机器学习的方法把事件抽取

10、任务看作分类问题，把主要的精力放在分类器的构建和特征的发现、选择上。语义信息抽取模式抽取n 一阶共现：模版（PB）Hours may vary on holidays, such as Easter, Thanksgiving and Christmas. Pattern: (such as | including) T ,T* (and|,|.) Easter, Thanksgiving, Christmas n 二阶共现：分布式相似性（DS）前提是假设：出现在相似上下文出现在相似上下文(词语、句法词语、句法) 中的词语比较中的词语比较相似相似。定义上下定义上下文（句法文（句法上下文上下文

11、, 词语上下文词语上下文. ）将每个短语表示为一个将每个短语表示为一个特征特征向量（特向量（特征征:短语出现的一个上下文短语出现的一个上下文；特征值；特征值:上下文针对短语的权上下文针对短语的权重）重）计算短语相似性计算短语相似性（特征向量之间特征向量之间的的相似性：相似性：Cosine,Jaccard）语义信息抽取语义层级构建n 为短语(term)赋予类标签或上位词(label) Beijing Beijingcitycity，capitalcapital ；AppleApplecompanycompany，fruitfruit 方法方法: Pattern matching + : Pa

12、ttern matching + countingcounting n 为语义类(semantic class)赋予类标签(label) Beijing, Shanghai, Dalian.Beijing, Shanghai, Dalian. citiescities, Chinese cities. , Chinese cities. 方法方法: : 投票投票(Voting)(Voting)n 构建层级构建层级 n知识库n典型知识库n构建方式n应用知识库知识库典型知识库典型知识库n 人工构建的知识库人工构建的知识库 WordNetWordNet: : 专家构建、专家构建、英语英语 Wikip

13、edia Wikipedia: : 社区网民构建社区网民构建, ,实体实体/ /属属性性 n 自动抽自动抽取得到的知识库取得到的知识库 YAGO YAGO: Wikipedia + : Wikipedia + WordNetWordNet, , 自动构建自动构建, , 准确率高准确率高 DBpediaDBpedia: Wikipedia + : Wikipedia + 社区网民创建的映射规则社区网民创建的映射规则, , 召回率高召回率高 Freebase Freebase: Wikipedia + : Wikipedia + 其他数据库其他数据库+ + 用户编辑用户编辑知识库知识库构建方式构

14、建方式n YAGOYAGO自动自动构建方式构建方式1. 1. 利用利用WordNetWordNet和和WikipediaWikipedia（InfoboxInfobox和和CategoriesCategories）抽）抽取相关知识，再合并构成联通取相关知识，再合并构成联通本体。本体。2 2. . 一致性检查：包括实体的一致性检查：包括实体的唯一性；关系领域与范围；唯一性；关系领域与范围；类型的一致性。类型的一致性。http:/www.mpi-inf.mpg.de/yago-naga/yago/ 知识库知识库构建方式构建方式n DbpediaDbpedia自动自动构建构建方式方式1. 1. 人工

15、构建分类体系人工构建分类体系ontologyontology：259 259 classes, 6 classes, 6 levels, 1200 levels, 1200 propertiesproperties。2 2. . 映射规则：将映射规则：将Wikipedia Wikipedia infoboxesinfoboxes and tables and tables映射到其映射到其自有的自有的ontologyontology，人工映射规则。，人工映射规则。http:/dbpedia.org 知识库知识库构建方式构建方式n FreebaseFreebase自动自动构构建建方式方式1. 1.

16、从从WikipediaWikipedia，ChefMozChefMoz，NNDBNNDB和和MusicBrainzMusicBrainz等多个数据源导入数据。等多个数据源导入数据。2. 2. 用户可贡献数据。用户可贡献数据。Total triples: 1.9 billion https:/ 知识库知识库应用应用n 自动问答系统n 语义相似性计算 n 情感倾向n Web数据标注n 地图标注n 侧面搜索n THANK YOUSUCCESS2022-5-19可编辑n语义检索n语义解析n语义计算n文本推理n文本复述语义检索语义解析（词法分析）n 词法分析（英语：lexical analysis）是

17、计算机科学中将字符序列转换为单词（Token）序列的过程。如下所示句法分析语义解析（短语结构分析）n 短语结构指的是词法分析之后词和词之间的结构关系，包括并列，动宾等等。如下所示句法分析语义解析（依存关系分析）n 依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。如下所示句法分析语义解析（语义角色标注）n 语义角色标注是指在语法分析的基础上，对句子中各种词语进行更深一层的角色分析。如下所示语义计算n 词汇语义计算是语义计算的基础，也是关键技术点语义计算应用问答系

18、统知识检索其他语义计算情感分析文本推理与复述语义抽取句子与篇章级语义计算语义角色标注篇章分析代指分析词汇级语义计算词汇语义相关度词义消歧语义计算词汇语义计算n 词语相似度的计算主要分两类：（1）基于语义词典的方法，如wordnet、知网等（2）基于语料统计的方法语义计算基于语义词典的词汇n 语义词典一般由多个同义词集合组成，每个集合里面是表示相同词义的词的集合。每个词条包括多个同义词集合，同义词集合通过不同的词义关系相连。使用同义集合代表概念，词汇关系在词语之间体现，语义关系在概念之间体现。n 基于语义词典的词汇语义计算方法很多，如下介绍几种典型的：（1）WuAndPalmer算法通过与概念词

19、最近的公共父结点概念词的位置关系来计算其相似度；（2）LeacockAnd-Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算；（3）在基于信息内容的算法上,Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法。语义计算基于语义词典n 语义词典方法的缺点：（1）对于很多语言并没有好用的语义词典（2）有些词不被语义词典包含，例如实体、新词等（3）大部分方法依赖于上下位层次关系：这限于名词，对于形容词和动词并不完善语义计算基于语料统计n 上下文共现向量方法n 潜在语义分析LSA（Latent Semantic Analysis）n 词向量语义计算

20、上下文共现向量方法n 构建上下文向量，每个词为一个1xV(V为所有词总数)的向量，记录其他词是否与该词一起出现n 基于向量距离/相似度公式（典型的胃余弦距离）进行计算两个词的相似度语义计算潜在语义分析LSAn 构建词和文档的矩阵An 给词赋予权重，例如TF-IDF权重n 对矩阵进行SVD（Singular Value Decomposition）分解n 留下奇异值不为0对应的k行和k列n 矩阵U中的每一行表示相应词语与隐含语义空间中语义维度之间的关联语义计算词向量n 词向量是用来将语言中的词用数学方式表示成一个向量的形式，一种最简单的词向量方式是one-hot representation，就

21、是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个 1，其他全为 0， 1 的位置对应该词在词典中的位置。但这种词表示有两个缺点：（1）容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；（2）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇鸿沟”）。n 针对这种情况，Hinton于1986年提出Distributed Representation，之后对词向量的研究成为学术界的热点，尤其是在2000年之后，提出了多种词向量训练模型。语义计算词向量解释n 模型中的隐层有多少个节点，词向量就是多少维，隐层中的每一个节点相当于一个语义，从输入

22、层到隐层的映射，相当于将一个词映射到不同的语义维度上。语义越相近的词，向量相似度越高。n 语料库越大，训练出来的词向量越准确。语义计算文本推理n 从自然语言表示角度，在词法层，句法层，语义层，将文本依次看成字符串形式，成分结构或依存关系和语义表达/逻辑表达式。在基于各个表达层级选择推理逻辑方法。n 文本推理的难点：需要大量背景知识的支持句式结构、语义表达的多样化需要构建使用完整的推理规则语义计算文本复述n 根据在知识库索引中找到的信息，进行文本组织复述，反馈给查询者n 复述生成方法：基于规则的方法基于词典的方法基于自然语言生成的方法基于机器翻译的方法n海量数据处理nNesperN

23、esperNEsper概念概念n 背景：针对实时信息的高并发性和高吞吐量的需求而设计n Esper是用于CEP（复杂事件处理）和ESP（事件流处理）应用程序的组件，是一个适合实时分析数据的内存计算引擎。（Java）高吞吐量低延迟复杂计算n Nesper 引擎（类似数据库倒置）设定查询条件实时数据通过这些查询条件，引擎对其进行数据过滤n 核心包 NEsper.dll：EPL语法解析引擎，事件监听机制，事件处理核心模块 NEsper.IO.dll：与excel,database,msmq,http,socket,XML等数据源读 Nesper事件处理流程事件处理流程n 程序先获取数据n

24、把数据传入EPL语句进行执行（执行时可以进行筛选处理）n 监听获取处理后的数据，进行处理 Esper提供提供2种机制来处理事件种机制来处理事件事件流查询（Epl实现）基于表达式的事件模式匹配（CEP）NesperEPLn 在复杂事件处理中，为了要达到高吞吐量(throughput)、高度利用性(availability)、以及低度延迟 (latency)，让企业能够达到实时决策，因此使用事件串流处理(event stream processing)。n 使用EPL(Event Processing Language)为SQL-LIKE 的语言，可以方便的对事件串流提供复杂的逻辑处理，使事件串流在内存中做模式比对处理，及查询的动作。这些过程中，都在内存内进行，不须经由储存装置。n Epl是Esper的核心 SqlEpl数据在那里，你每次执行SQL就会触发一次查询；查询在这里，数据输入达到一定条件即可触发查询。THANK YOUSUCCESS2022-5-19可编辑

展开阅读全文