1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 六 章第 六 章 信 息 抽 取信 息 抽 取目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍 我们在享受大数据时代带来的便捷的同时,互联网中过度丰富的信息导致了有效信息的淹没,这导致我们很难在短时间内从成堆的信息中检索出真正感兴趣的信息。因此,如果存在一种工具能够方便我们从大量信息中快速发现有效信息,并将这些信息自动地进行分类、提取和重构,那么我们将能更加高效便捷地使用互联网。在这种背景下,信息抽
2、取技术应运而生。背景介绍 我们习惯阅读的自然语言文本是非结构化信息非结构化信息,例如小说中的文本,非结构化信息经过分析后,可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,这种经过分析后得到的数据形式称为结构化数据结构化数据,通常使用数据库对其进行管理,这种结构化的形式便于用户的查询和进一步分析。从广义上讲,信息抽取处理的对象可以是文本、图像、语音和视频等多种媒体,但随着文本信息抽取研究的快速发展,信息抽取往往被用来专指文本信息抽取(text information extraction)。文本信文本信息抽取息抽取指的是这样一类文本处理技术,它从自然语言文本中自动抽取实体、关系、事
3、件等事实信息,并形成结构化数据输出,其目标是从大量数据中准确、快速地获取目标信息,提高信息的利用率。章节概述C H A P T E R O V E R V I E WTWO章节概述 本章将带领读者走进信息抽取的世界,首先在第1节介绍信息抽取的任务定义,并对其子任务做简要介绍;其次在2至5节分别对命名实体识别、实体链指、关系抽取、事件抽取这四个信息抽取的子任务及相关技术方法进行阐述;最后在第6节介绍信息抽取的前沿技术,并对其未来发展趋势进行展望。读完本章,读者将了解信息抽取在自然语言抽取领域中的重要地位,并对信息抽取的发展历程和技术路线有个大致的认识。小节介绍S E C T I O N I N
4、T R O D U C T I O NTHREE6.1 信息抽取任务定义 文本信息抽取广义上主要包括三个阶段:1)自动处理非结构化的自然语言文本;2)选择性抽取文本中指定的信息;3)就抽取的信息形成结构化数据表示。具体技术路线上,信息抽取包含了这四个关键子任务四个关键子任务:1)命名实体识别(Named Entity Recognition);2)实体链指(Entity Linking);3)关系抽取(Relation Extraction);4)事件抽取(Event Extraction)1)命命名实体识名实体识别别 它是信息抽取的基础性工作,其任务是从自然语言文本中识别出诸如人名、组织名、
5、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续工作提供便利6.1 信息抽取任务定义 2)实体链指)实体链指 自然语言文本经过命名实体识别之后,需要通过实体链指技术简化、统一实体的表述方式,这对提高信息抽取结果的准确度有很大的促进作用 3)关系抽关系抽取取 当获取了文本中的实体,接下来通过关系抽取技术识别实体之间存在的语义上的联系 4)事件抽取)事件抽取 从含有事件信息的文本中抽取出用户感兴趣的事件信息,将非结构化的自然语言文本以结构化的形式呈现出来。6.2 命名实体识别命名实体识别基本概念6.2.1命名实体识别演化过程6.2.26.2.3命名实体识别案例分析6
6、.2.1 命名实体识别基本概念 命名实体命名实体一般被认为是专有名词,它可以是文本中的人名、地名、组织机构名、日期等实体类型。命命名实体识别任务名实体识别任务于1991年被首次提出,随后从1996年开始,命名实体识别任务被加入信息抽取领域,该任务的目的是识别出文本中表示命名识别出文本中表示命名实体的成分,并对其进行分类实体的成分,并对其进行分类。因此有时也称为命名实体识别和分类(Named Entity Recognition and Classification,NERC),例如“当地时间14日下午,叙利亚一架军用直升机在阿勒坡西部乡村被一枚恶意飞弹击中。”这句话中包含的实体有:日期实体“1
7、4日下午”、组织机构实体“叙利亚”、地名实体“阿勒坡西部乡村”、装备实体“军用直升机”和“飞弹”。由此可见,命名实体识别是文本意义理解的基础,对实体的正确标识和划分可以实现对文本更加准确深入的理解,因此我们需要特别关注文本中的命名实体部分和这些命名实体的类别。6.2.2 命名实体识别命名实体识别基本概念6.2.1命名实体识别演化过程6.2.26.2.3命名实体识别案例分析6.2.2 命名实体识别演化过程 1)基于规则)基于规则 早期的命名实体识别主要是基于规则的方法,由语言学家依据数据集特征人工构建特定规则模板。通过观察实体名称自身的特征和短语的常见搭配,人为制定一些规则来构建规则集合。其中,
8、制定规则采用的特征包括统计信息、标点符号、关键字、位置词、中心词等。制定好规则后,通常将文本与规则匹配以实现命名实体识别。局限性非常明显,不仅要观察和分析实体名称的特征,还要有相关领域专业研究者的参与,这将消耗巨大的时间和人力成本。此外,规则一般只在某一特定的领域内有效,要想应用到其它的领域中则必须修改规则集合。由于人工进行规则迁移的代价比较高,此方法在不同的领域之间缺乏很好的可移植性,且不容易在其他实体类型或数据集上扩展,无法适应数据的变化。6.2.2 命名实体识别演化过程 2)基于统计学习)基于统计学习 自20世纪90年代后期以来,尤其是进入21世纪之后,基于大规模语料库的统计学习方法逐渐
9、成为自然语言处理的主流,一大批统计学习方法被成功应用于自然语言处理的各个方面。命名实体识别的研究也逐渐由基于规则的方法转向了基于统计学习的方法,其大多采用有监督有监督的统计学习模型的统计学习模型。有监督学习使用已标注样本类别的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出样本类别进行判断,从而实现预测和分类的目的。基于有监督统计学习的命名实体识别首先根据标注好的数据,应用领域知识和工程技巧设计复杂的特征来表征每个训练样本。然后,通过对训练语料所包含的语义信息进行统计和分析,从训练语料中不断发现有效特征。有效特征可以分为停用词特征、上下文特征、词典及词性特征、
10、单词特征、核心词特征以及语义特征等。最后,应用统计学习算法,训练模型对数据的模式进行学习。6.2.2 命名实体识别演化过程序列标注是目前最为有效,也是最普遍的命名实体识别方法。当使用序列标注处理时,文本中每个词有若干个候选的类别标签,此时命名实体识别的任务就是对文本中的每个词进行序列化的自动标注。一些经典模型如隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、支持向量机(Support Vector Machine,SVM)、条件随机场(Co
11、nditional Random Fields,CRF)等都被成功地用来进行命名实体的序列化标注,且获得了较好的效果。基于有监督统计学习的命名实体识别方法对特征选取的依赖较高,需要从文本中分析选择对于此项任务影响较大的特征,并将这些特征加入到特征模板中,特征选取的优劣将直接影响最终模型的效果。同时,特征需要通过复杂的特征工程获取,因此该方法成本较高。6.2.2 命名实体识别演化过程6.2.2 命名实体识别演化过程 3)基于深度学习)基于深度学习 随着深度学习的不断发展,命名实体识别的研究重点已转向基于深度学习的研究方法。该技术几乎不需要基于统计学习方法中必需的特征工程和领域知识。基于深度学习的
12、命名实体识别通常包括三个部分:输入分布式表示、上下文编码和标签解码。首先,对输入的样本进行分布式表示;其次,利用输入分布式表示学习上下文编码,获取文本上下文编码的过程可以让模型学习文本的深层次信息,常见的上下文编码结构有卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent Neural Network)、递归神经网络(Recursive Neural Network)、神经语言模型(Neural Language Model)等;标签解码是命名实体模型中的最后一个阶段,在得到了文本的上下文编码之后,标签解码模块以其作为输入并预测相应文本对应
13、的标签序列,主流的标签解码结构有条件随机场(Conditional Random Fields)、循环神经网络等。6.2.2 命名实体识别演化过程 基于深度学习的命名实体识别方法无需人工设计复杂的特征,能够自动地从海量数据中提取文本的特征,可以有效减少特征对领域的依赖,拥有很好的泛化性能。另一方面,命名实体识别可以利用深度学习非线性的特点,从输入到输出建立非线性的映射,相比于线性模型,深度学习模型可以利用大量数据学习得到更加有效的特征。因此,基于深度学习的命名实体识别方法已成为当下命名实体识别的主流方法。6.2 命名实体识别命名实体识别基本概念6.2.1实体链指演化过程6.2.26.2.3实体
14、链指案例分析6.2.3 命名实体识别案例分析 案案例一例一 下图是命名实体识别领域中的一个经典模型,它使用了基于深度学习的方法。首先,将每个单词拆分为字符嵌入形式输入CNN,经过卷积和最大池化,得到单词的字符表示。6.2.3 命名实体识别案例分析 其次,如右图所示,把单词的字符表示和词嵌入拼接起来,得到单词的最终表示。然后,将句中每个单词的最终表示输入BiLSTM(原理详见第三章),对词与词之间的联系进行建模,得到每个位置的单词融合上下文语义的向量表示。最后,将每个单词的向量表示输入条件随机场,输出得到最终预测结果。知识点总结命名实体一般被认为是专有名词,它可以是文本中的人名、地名、组织机构名
15、、日期等实体类型命名实体的概念命名实体识别任务于1991年被首次提出,随后自1996年开始,命名实体识别任务被加入信息抽取领域命名实体识别的发展史命名实体识别的目的是识别出文本中表示命名实体的成分,并对其进行分类命名实体识别的概念早期的命名实体识别主要是基于规则的方法,之后逐渐转向了基于统计学习的方法,其大多采用有监督的统计学习模型,随着深度学习的不断发展,命名实体识别的研究重点已转向基于深度学习的研究方法命名实体识别技术方法的演化过程:命名实体识别总结6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.1 实体链指基本概念 2009年NIST
16、在其主办的TAC(Text Analysis Conference)会议上提出了实体链指评测任务,该任务旨在确定文中实体所代指的具体对象确定文中实体所代指的具体对象。实实体链指体链指是在给定文本中,将实体指称与目标知识库中若干候选实体关将实体指称与目标知识库中若干候选实体关联起来的过程联起来的过程,也被称为命名实体链接、实体消歧、实体共指消解等,用于将出现在文章中的名称链接到其所指代的实体上去。目前大部分实体链指方法都可以分为候选实体生成候选实体生成和实体消歧实体消歧两个步骤。生成候选实体是指根据在文本中识别出的实体指称,从知识库中选出一组实体作为实体链指的候选实体,将不可能是目标实体的其他实
17、体排除在外。给定实体指称,实体链指任务将根据知识、规则等信息尽可能地找到实体指称的所有候选实体。实体歧义是指同一个实体指称在不同上下文中或在特定知识库中对应着多个不同实体。6.3.1 实体链指基本概念 实体链指任务与命名实体识别任务的研究对象都是实体,那么二者之间的区别是什么呢?虽然两者的研究对象都是实体,但其主要区别则在于,命名实体识别只需区分实体的类别(如人名,地名和机构名等),而实体链指则需要找到所指代的具体对象。例如,“他去年搬到了华盛顿。”这句话,在命名实体识别任务中只需要知道“华盛顿”指代的是一个地点即可,而在实体链指任务中则需知道“华盛顿”具体指的是华盛顿州、还是华盛顿特区或者是
18、其他什么地方,可见,实体链指的主要侧重点和难点在于如实体链指的主要侧重点和难点在于如何消解字面的歧义何消解字面的歧义。6.3.1 实体链指基本概念 实体链指任务所使用的数据包括知识库知识库和标注语料标注语料两部分。知识库:实体链指中最常用的知识库是Wikipedia,它是一个由互联网用户自愿编辑的在线百科全书,其内容涵盖了政治、经济、历史、文化、科技、教育等众多领域,并且大多数著名人物、机构、地区、事件在维基百科中都已著有相应条目。维基百科的开放协作式编辑机制和文章编辑规范则保证了其内容质量,同时也使得其规模仍在不断增长中。截止2014年,英文版维基百科的文章数已经超过了450万篇,中文维基百
19、科的文章数也超过了74万篇。标注语料:Wikipedia的文章包含了大量人工标注过的链接文本,这些文本即可用作实体链指的训练和评测语料。此外,除了从Wikipedia中收集标注语料,还可以使用研究者公布的数据,包括MSNBC、AQUAINT、ACE、IITB和AI-DA等。6.3.1 实体链指基本概念 实体链指应用场景应用场景 该任务对许多自然语言处理和信息检索任务都能产生积极的助力作用。例如,实体链指将有助于机器翻译的最佳实现。我们可以发现,在一门语言里同名的两个实体,在另一门语言中却可能具有不同的翻译。比如“Rice”指农作物时应该翻译成“大米”,指人名时,则应该翻译成“赖斯”。应用实体链
20、指技术找到这个词在当前上下文中的指代对象,就可以直接根据知识库中的跨语言链接而真正获得目标语言的准确翻译。此外,实体链指还可以应用到自动问答当中。在问答当中,所涉及的实体表述很有可能会具有歧义。例如,问“美洲豹的奔跑速度最快能达到多少?”,问答系统搜集的文本可能包含了“美洲豹牌汽车”的最高时速信息,返回这样的信息答案自然是不正确的。而应用实体链指技术,即可清楚识别在此文本中出现的“美洲豹”指的是问题所关心的那个哺乳动物实体“美洲豹”,从而避免类似的错误发生。6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.2 实体链指演化过程 实体链指研究的
21、主要任务是计算实体指称与知识库中实体的相似度,确定一批候选实体,并对候选实体进行排序和选择,如上图所示,分为候候选实体生成选实体生成和实体消歧实体消歧两个步骤6.3.2 实体链指演化过程 1)生成候选实)生成候选实体体生成候选实体的方法包括:基于字典的方法、基于字面形式扩展的方法、基于搜索引擎的方法等。基基于字典于字典的方法通过在外部词典等数据源中,以字面匹配的方式进行实体识别,从而获取候选实体集,字典中往往包括实体的多种表达方式,如变体、缩写、混淆名称等。基基于字面形式扩展于字面形式扩展的方法旨在识别相关文档中实体指称的其他可能的扩展形式,并利用这些扩展形式来生成候选实体集。基基于搜索引擎于
22、搜索引擎的方法是指将实体指称在搜索引擎中检索出一定数量的相关页面,并这些页面加入候选实体集。候选实体生成不是实体链指的核心问题,因此我们这里不展开介绍。6.3.2 实体链指演化过程 2)实实体体消消歧歧 实体消歧过程对于实体链指十分重要,我们将围绕实体消歧的两种研究方法:基于统计学习的方法和基于深度学习的方法展开介绍。基基于统计学于统计学习习 它是实体消歧研究工作中常用的传统方法。该类方法往往利用一些统计学特征,例如,实体相关的统计信息、实体分布信息、实体相似度、文本主题信息等,对实体指称和候选实体进行向量表示,并通过计算实体指称向量和候选实体向量之间的相似度进行实体排序和选择。主流的实体排序
23、方法将候选实体排序问题视为二分类问题,使用二元分类器判断给定的一对实体指称和候选实体是否存在指向关系。典型的二元分类器包括支持向量机、向量空间模型和K近邻分类器等。虽然基于统计学习的实体消歧方法在早期研究阶段取得了一定成果,但该方法缺乏对实体语义层面的考量。6.3.2 实体链指演化过程 基于基于深度深度学习学习 通过神经网络学习实体、实体指称、上下文及其相互之间关联关系的向量表示,从而为不同实体及实体之间的语义关系构建统一的表示,并映射在相同的特征空间,最终通过计算语义向量相似度,经排序得到目标实体主流的实体排序方法将候选实体排序问题视为二分类问题,使用二元分类器判断给定的一对实体指称和候选实
24、体是否存在指向关系。典型的二元分类器包括支持向量机、向量空间模型和K近邻分类器等。基于深度学习的方法的主要优势在于无需人为构造特征,该方法将实体以及实体间的语义特征进行表示,能够取得更优的实体消歧效果;同时,相较于基于统计学习的实体消歧方法,基于深度学习的方法可以对实体从语义层面进行更深层次的挖掘6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.3 实体链指案例分析案案例二例二 本案例是实体链指领域中具有代表性的使用深度学习的方法。实体链指的一个最大挑战是解决实体歧义问题,为了解决这个问题,该模型对实体指称及其上下文信息与其候选实体进行语义相
25、似度建模,同时利用文本主题信息衡量实体指称与候选实体在表征同一主题的能力以及它们之间的相似度。如下所示,首先,我们将源文本中的实体、上下文和整个文本使用CNN进行向量表示(图中左部虚线框);其次,对候选实体和该候选实体在目标知识库中的文本(代表文本主题信息)使用CNN进行向量表示(图中右部虚线框);最后,将这些信息进行余弦相似度计算(图中中部虚线框),综合计算结果,即可选出最为匹配的候选实体6.3.3 实体链指案例分析 为什么我们需要使用除了实体以外的文本信息呢?这是因为这些实体的上下文信息有助于我们更准确地进行匹配。例如上图中,我们正在考虑Pink Floyd是否会链指到知识库Wikiped
26、ia上的候选实体Gavin Floyd。如果我们看一下源文档,我们会发现关于Pink Floyd在源文档中是与乐队相关,而候选实体的Wikipedia文本主要是关于体育的。使用除了实体以外的文本信息进行比较,有助于告诉我们Pink Floyd是不可能链指到Gavin Floyd的知识点总结实体链指是在给定文本中,将实体指称与目标知识库中若干候选实体关联起来的过程,也被称为命名实体链接、实体消歧、实体共指消解等,用于将出现在文章中的名称链接到其所指代的实体上去实体链指的概念2009年NIST在其主办的TAC会议上提出了实体链指评测任务实体链指的发展史实体链指分为候选实体生成和实体消歧两个步骤。生
27、成候选实体的方法包括:基于字典的方法、基于字面形式扩展的方法、基于搜索引擎的方法等;实体消歧的方法包括基于统计学习的方法和基于深度学习的方法,其中后者逐渐成为主流方法实体链指技术方法的演化过程:实体链指总结6.4 关系抽取关系抽取基本概念6.4.1关系抽取演化过程6.4.26.4.3关系抽取案例分析6.4.1 关系抽取基本概念 关系抽取的研究起源于20世纪90年代,在1998年的MUC会议上被首次提出,之后一直是信息抽取领域的热点问题。关系抽取关系抽取任务的内容很容易从字面上理解,其目的是识别出文本中实体对之间的语义关系识别出文本中实体对之间的语义关系,该任务是在已完成实体识别的基础上的,即在
28、已标注出实体及实体类型的句子上确定实体间的关系类别。例如,对于句子“外交部发言人洪磊昨天就钓鱼岛问题表明中方立场”,关系抽取任务需要识别出句子中的实体“外交部”和“洪磊”之间存在“雇佣”类别的关系。作为信息抽取的重要子任务之一,关系抽取能够对样本数据中的信息进行语义关系分析,通过对海量信息进行关系抽取,实现从非结构化文本中获取关系信息。6.4.1 关系抽取基本概念 关系抽取与知识图谱知识图谱的联系 目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。例如,用户搜索的关键词为梵高,引擎就会给出梵高的详细生平、艺术生涯信息、不同时期的代表作品等属性,并
29、列举出与其有关系的其他实体及相关属性。知识图谱的构建需要四个步骤:知识抽取、知识表示、知识融合、知识推理。1)知识抽取)知识抽取通过知识抽取,从一些半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。2)知识表示)知识表示将知识要素表示成分布式的向量形式,为接下来的融合和推理打下基础。6.4.1 关系抽取基本概念 3)知识融)知识融合合知识融合可对实体、关系、属性等指称项与事实对象之间进行消歧,形成高质量的知识库。4)知识推知识推理理借助知识推理,在已有的知识库基础上挖掘隐含的知识,以丰富和扩展知识库。知识抽取步骤抽取出的知识单元主要包括实体、关系以及属性三个知识要素,其中,关系这一知
30、识要素需要借助关系抽取技术来实现。关系抽取效果的优劣,直接决定了知识图谱的准确性与完备性6.4.1 关系抽取基本概念 关系抽取与自动问答自动问答的联系 自动问答系统旨在让用户直接用自然语言提问并获得答案。例如,用户询问“北邮在哪儿?”,问答系统回答“北京市海淀区西土城路10号”。传统的搜索引擎是根据关键词检索并将返回大量相关文档集合,需要用户亲自去查找自己相关的资料。问答系统的实现将使用户在海量数据中查找相关资料时节省大量的时间。问答系统一般包括三个主要部分:问题处理、信息检索和答案抽取。搜索引擎首先对问题进行分析,划分该问题所属的关系类型(例如,地理位置)。接着,根据模式(例如,地理位置),
31、去匹配由关系抽取的结果所构建的知识库,获取了目标实体(例如,北京市海淀区西土城路10号),最终将查询结果返回给搜索引擎。自动问答系统中的匹配环节需要关系抽取的参与,因此关系抽取的效果也直接决定了自动问答系统的优劣。6.4 关系抽取关系抽取基本概念6.4.1关系抽取演化过程6.4.26.4.3关系抽取案例分析6.4.2 关系抽取演化过程 如图所示,类似于命名实体识别的研究方法演化过程,关系抽取的研究方法也可以分为基于规则、基于统计学习、基于深度学习三种。早期研究阶段主要是基于规则的方法;随着统计学习的广泛应用,关系抽取的研究也由基于规则的方法转为基于统计学习的方法;近年来神经网络的迅速发展又将关
32、系抽取的主流研究方向转为基于深度学习的研究方法6.4.2 关系抽取演化过程 1)基于规则)基于规则 早期,关系抽取领域通常使用基于规则的方法,基于规则的关系抽取需领域专家针对目标关系的语义特点,手工设定符合某种词法、句法和语义规则的规则集合,并将待识别的句子与规则集合进行匹配,匹配成功则认为该句子具有对应规则的关系。该方法需事先人工构造规则集合,这会耗费大量的时间和人力,且由于规则是针对领域构建的,其移植性较差。因此,基于规则的关系抽取方法仅在关系抽取研究初期拥有较多成果,近年来相关研究寥寥。2)基于统计学习)基于统计学习 基于统计学习的关系抽取一般将关系抽取问题转化为分类问题,通过特征工程选
33、取文本表征中具有代表性的特征训练分类模型,以判定实体对之间的语义关系。基于统计学习的关系抽取方法可分为有监督统计学习方法、半监督统计学习方法和无监督统计学习方法。6.4.2 关系抽取演化过程 有有监督统计学习方法监督统计学习方法的概念已在本章的第二节中提及,该方法通过人工标注训练数据来获取样本,并将样本输入到预先选择的特征集中以训练分类模型。根据输入样本的文本语义表示方式的不同,可以将有监督统计学习方法分为基于特征向量和基于核函数的方法。基于特征向量方法基于特征向量方法的核心是特征工程,通过启发式的方法选取特征集合,使用多层次的语言特征构造向量,以实现对输入样本文本的语义进行表征。基于特征向量
34、的方法无需专家预先设定模式集合,节约了很多人力成本,但该方法很难再找出适合关系抽取任务的新特征,因此一些研究者转向基于核函数的方法。6.4.2 关系抽取演化过程 基于核函数的方法基于核函数的方法无需像基于特征向量的方法一样构建特征集合,而是以文本的句法分析结果及其各类变形作为核函数的输入,通过计算输入示例之间的相似度,训练分类模型。但是,基于核函数的方法使用隐式方式表示特征,没有显式构造和处理语义信息,这使得这些方法的泛化能力很差。同时,较高的计算复杂度限制了该类方法在大型语料库上的应用6.4.2 关系抽取演化过程 有监督统计学习方法依赖人工标注的语料库资源,但人工标注过程费时费力,因此如何实
35、现在较少的人工参与和标注语料资源的情况下进行关系抽取,成为研究界的新热点,半监督统计学习方法在这个场景下被学界关注。什么是半监督统计学习半监督统计学习呢?半监督统计学习是有监督统计学习与无监督统计学习相结合的一种学习方法。半监督统计学习同时使用大量的未标记数据和已标记的数据,来进行模型学习。该方法解决关系抽取问题时,主要采取基于自举的思路,首先人工构造少量关系示例作为初始种子集合,然后利用模式学习或者模型训练的方法,通过迭代过程,不断扩展该关系示例集合,最终获取足够规模的关系示例,完成关系抽取的任务。半监督统计学习方法可以有效地减少人工参与和对标注语料的依赖,但是,半监督统计学习方法存在语义漂
36、移(Semantic Drift)的问题,这将影响抽取结果的准确率。同时,该方法依旧无法对文本语义进行深入分析,导致模型泛化能力差。6.4.2 关系抽取演化过程 有监督和半监督统计学习方法需要事先确定关系类型,而在大规模语料中,人们往往无法预知所有的实体关系类型,这时候无监督统计学习就被拿来当做一种解决方案。无无监督学习监督学习的训练样本是未经标注的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是“聚类”(clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。无监督统计学习方法
37、无需对大规模语料进行关系类型的标注,可自动实现将关系示例对应到正确的关系类型,该方法主要基于聚类的思想。无监督统计学习方法无需对大规模语料的标注,大大节约了人工标注的成本。该方法的不足之处在于关系名称难以准确描述,低频关系示例的召回率较低。同时,在有监督、半监督统计学习方法中面临的泛化能力差的问题,依旧没有得到很好的解决。6.4.2 关系抽取演化过程 基于统计学习的关系抽取不依赖于语料的内容与格式,不需要语言学资源和专家领域知识,相比于基于规则的方法具有更好的移植性。但该方法没有显式地构造和处理语义信息,导致该方法不具备对文本语义进行分析的能力,因此模型的泛化能力较差;并且,该方法严重依赖特征
38、提取的效果,特征的好坏直接决定了模型效果的优劣。关系抽取的主流研究方向开始由基于统计学习的关系抽取方法逐渐转向基于深度学习的关系抽取方法。6.4.2 关系抽取演化过程 3)基于深度学习)基于深度学习 基于深度学习的关系抽取首先通过人工标注或与知识数据库对齐来获得有标签数据。其次,该方法对句子中的单词进行向量表征,并自动提取特征。最后,通过神经网络对关系进行分类并评估性能。依据数据集标注量级的差异,基于深度学习的关系抽取任务分为有监督和远程监督两类。有监督 基于深度学习的有监督关系抽取方法可免除基于统计学习的关系抽取方法中人工特征选择等步骤,缓解特征抽取过程中的误差积累问题。这些方法的焦点问题是
39、多种自然语言的融合方式,一些基于循环神经网络、卷积神经网络等网络结构及其变形的有监督深度学习模型被陆续提出。6.4.2 关系抽取演化过程 远程监督 面临大量无标签数据时,有监督的关系抽取消耗大量人力,显得力不从心。因此,远程监督实体关系抽取应运而生。什么是远程监督学习?它是一种不同于有监督学习的模型学习方式,其与后者的主要差异在于数据标签的来源上,有监督学习的标签是人工标注的,远程监督的数据标签是自动标注的。具体而言,给定一个预先定义的知识数据库,该知识数据库包含实体对和对应关系的信息,远程监督方法假定,如果句子中的实体对出现在该知识数据库中,则使用知识数据库中该实体对所对应的关系对句子进行关
40、系标注。显然,远程监督方法是一种快速、自动标注数据的方法,但是,该方法有时会带来错误标签问题,即自动化标注方式导致一些样本的关系标签标注错误。为解决错误标签问题,学界提出了各种方案试图缓解噪声的影响。6.4.2 关系抽取演化过程 基于深度学习的关系抽取使用文本的语义表征来进行关系的抽取,在效果上大大超越了之前的基于知识工程的方法和基于统计学习的方法,并成为关系抽取任务的主流方式。基于深度学习的有监督关系抽取方法面临的最大问题是神经网络的训练需要大量的带标签语料,语料的标注是一个十分费时费力的过程,且语料的质量也大大影响模型训练的效果。近年来逐渐兴起的远程监督方法一定程度上可以克服这个问题,但是
41、远程监督带来的噪声问题又成为了一个新的难点,基于深度学习的关系抽取的研究方兴未艾6.4 关系抽取关系抽取基本概念6.4.1关系抽取演化过程6.4.26.4.3关系抽取案例分析6.4.3 关系抽取案例分析案例三案例三 如图所示,首先,该模型对文本中的每个单词进行向量表示(包含词向量和该单词与两个实体的相对位置向量),将这些单词的向量表示输入CNN或PCNN(一种CNN的变形)得到该文本的向量表示6.4.3 关系抽取案例分析 按照相同的方式,我们可以得到语料中所有样本的向量表示,接下来,我们需要使用这些数据进行模型学习。在有监督学习中,我们将直接使用所有样本数据来学习模型,但由于远程监督关系抽取的
42、样本标签存在噪声,如果简单地使用全体数据则会引发噪声干扰,降低模型效果,因此我们需要考虑一些策略来实现降噪。该模型采用的方式是结合多实例学习和注意力机制。6.4.3 关系抽取案例分析 我们将包含相同实体对的样本划分为同一个包,右图为针对每一个包的操作:将每个包中的文本向量表示根据其与标注关系的相似程度按权相加,得到包表示,最终,输入分类器进行分类。这种方法使得模型为它所认为的标注最为正确的样本赋予更高的权值,让模型更加关注正确标注的样本,进而有效实现降噪。知识点总结抽取出文本中实体对之间的语义关系关系抽取的概念关系抽取的研究起源于20世纪90年代,在1998年的MUC会议上被首次提出关系抽取的
43、发展史关系抽取在人工智能领域有广阔的应用范围和使用前景,其研究成果主要应用在知识图谱、自动问答、生物信息挖掘、机器翻译等关系抽取的应用场景早期,关系抽取领域通常使用基于规则的方法;随着统计学习的广泛应用,关系抽取的研究也由基于规则的方法转为基于统计学习的方法;近年来神经网络的迅速发展又将关系抽取的主流研究方向转为基于深度学习的研究方法关系抽取总结关系抽取技术方法 的演化过程6.5 事件抽取事件抽取基本概念6.5.1事件抽取演化过程6.5.26.5.3事件抽取案例分析6.5.1 事件抽取基本概念 事事件件作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。组成事件
44、的各元素包括:触发词、事件类型、论元及论元角色。触触发词发词代表能够触动事件发生的词,是决定该事件所属类型的重要特征词 事件的论元论元则是指与该事件相关的人物、时间、地点、事物等实体 论论元角色元角色描述了论元在事件中扮演的角色,体现了论元与该事件的语义关系。6.5.1 事件抽取基本概念 事事件抽取件抽取的目标是从非结构化文本中准确有效的发现特定的事件及事件元从非结构化文本中准确有效的发现特定的事件及事件元素,将用自然语言表达的事件以结构化的形式呈现出来素,将用自然语言表达的事件以结构化的形式呈现出来,供我们浏览、查询或进一步分析利用。例如“在A市,一辆坦克向酒店开火时,一名摄影师死亡。”这条
45、文本中包含两个事件,第一个事件是“袭击”(触发词:开火),包括三个论元:A市(论元角色:地点),酒店和摄影师(论元角色:目标)以及坦克(论元角色:武器);第二个事件是“死亡”(触发词:死亡),也由三个论元构成:A市(论元角色:地点),摄影师(论元角色:受害者)和坦克(论元角色:工具)。事件抽取在网络舆情监控、突发事件告警、情报收集等领域有着重要应用。6.5 事件抽取事件抽取基本概念6.5.1事件抽取演化过程6.5.26.5.3事件抽取案例分析6.5.2 事件抽取演化过程 如图所示,事件抽取方法经历了由模式匹配方法到基于统计学习的方法,再到基于深度学习的方法三个阶段6.5.2 事件抽取演化过程
46、1)基于模式匹配)基于模式匹配 事件抽取领域早期主要使用基于模式匹配的方法,该方法可分为两个步骤:首先构建事件模式,然后通过模式匹配算法发现符合模式约束条件的信息完成事件抽取。由于模式匹配算法的设计较为简单,因此模式构建决定了事件抽取的效果模式构建决定了事件抽取的效果,早期构建事件模式的方法为人工构建模式。该方法通过领域专家制定特定领域内事件抽取的规则作为模式,包含被抽取的对象及上下文语义语法约束。虽然人工模式构建方法在早期取得了一定效果,但该方法对开发人员的领域知识要求极高,且人工构造规则费时费力,故此方法逐渐被后继方法取代。6.5.2 事件抽取演化过程 2)基于统计学习)基于统计学习 类似
47、于信息抽取的另外三个子任务,事件抽取也逐渐转向了基于统计学习的方法。该方法的目标是在大量的数据中寻找文本特征与标注结果之间统计层面上的规律,其核心是将事件抽取任务构造为事件检测事件检测和论元信息发掘论元信息发掘两个多分类子任务。事件检测 该子任务侧重于统计词的构成、词性、触发词频率等词本身的信息,以及词与其上下文间的统计规律,基于上述信息构造一个与事件类型数量规模相当的多分类器。论元信息发掘 该子任务在已有触发词、事件类型的基础上,针对每个候选实体,寻找其与所在语句的事件类型和触发词的统计规律,构造多分类器进行论元角色的预测。6.5.2 事件抽取演化过程 基于统计学习的方法不依赖于语料的内容与
48、格式,不需要专家领域知识(其在基于模式匹配的方法中是必需的),相比于模式匹配方法具有更好的移植性。但此类方法仅关注文本的统计规律,没有显式地构造和处理语义信息。而事件抽取任务本身的难度及文本描述的复杂性决定了其统计规律不明显,限制了统计学习方法所能达到的性能上限。因此主流研究方向开始逐渐转向具有语义分析能力的深度学习方法。6.5.2 事件抽取演化过程 3)基于深度学习)基于深度学习 从2015年开始,基于深度学习的方法由于其强大的自动特征抽取特性而在事件抽取任务中逐步获得应用,并迅速成为主流研究方式。延续了基于统计学习的方法的研究内容,基于深度学习的方法也将事件抽取构造为事件检测事件检测和论元
49、信息发掘论元信息发掘两个多分类子任务 事件检测模型 它通常是论元信息发掘模型的基础。事件检测神经网络模型通常被构造为序列预测模型,首先用若干层神经网络自动生成每个词在文本中的特征向量,然后使用Softmax分类器对每个词进行分类判断。在分类过程中,触发词被分类到其所属的事件类别,非触发词则被统一归类为“其它”。6.5.2 事件抽取演化过程 论元信息发掘模型 它本质上也是一种分类模型,此类模型先使用若干层神经网络对文本中每个实体与触发词的关联进行建模并生成相应的关联向量,再使用Softmax分类器对关联向量进行角色分类。分类时,论元实体被识别并分类为所属的论元角色,非论元实体则被统一归类为“其它
50、”基于神经网络的深度学习方法使用文本的语义表征来进行事件信息的抽取,在效果上大大超越了之前的基于模式匹配方法和基于统计学习的方法,并且由于可以自动的进行特征抽取,因此在研发难度上也下降了一个台阶,已经成为事件抽取任务的主流方式6.5 事件抽取事件抽取基本概念6.5.1事件抽取演化过程6.5.26.5.3事件抽取案例分析6.5.3 事件抽取案例分析案例四案例四 以下的案例是使用基于深度学习的方法实现事件抽取的一个典型模型,我们将这个模型作为案例进行分析。如图所示,对于句子“a man died when a tank fires in Baghdad”,“man”和“Baghdad”是句中的两个
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。