1、第0页第第7 7章章 深度学习基础算法建模深度学习基础算法建模第1页目录目录1.深度学习概述深度学习概述2.常见深度学习算法常见深度学习算法3.计算机视觉与深度学习计算机视觉与深度学习4.自然语言处理与深度学习自然语言处理与深度学习5.语音与深度学习语音与深度学习第2页自然语言处理与深度学习自然语言处理与深度学习l随着深度学习逐渐在语音和图像领域获得突破,基于深度学习的机器学习方法在自然语言处理方面的研究也越来越多。l深度学习被应用到不同类型的自然语言处理任务中,词向量模型、信息抽取、情感分析、语义分析和机器翻译等。第3页词向量模型词向量模型l词向量(Word embedding)是自然语言处
2、理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。词向量将自然语言处理任务分成了预训练产生词向量和对词向量操作(即下游具体NLP任务)两部分。l词向量模型是一个用以实现词向量的工具。第4页词向量模型词向量模型常用的词向量化工具Word2vecELMoOpenAI GPTBERT第5页词向量模型词向量模型Word2veclWord2vec是一群用于产生词向量的相关模型。这些模型是浅而双层的神经网络,用于训练以重新建构语言学上的词文本。l网络以词表现,并且需猜测相邻位置的输入词,在word2vec中的词袋模型假设下,词的顺序是不重要的。训练完成之后,word2v
3、ec模型可用于将每个词映射到一个向量,可用于表示词对词之间的关系,该向量是神经网络之隐藏层。l这个模型的神奇之处是说明了高维空间映射的词向量可以很好体现真实世界中词与词之间之间的关系如kingmanqueenwoman。第6页词向量模型词向量模型Word2veclword2vec模型使用负采样的方法对模型进行训练。p因为训练词向量模型的目标不是为了得到一个精准的语言模型,而是为了获得语言模型的副产物(词向量),所以要做到的不是在大量的词语中通过softmax计算并获得最优的词,而只需能做到在几个词中找到对的词即可。p这几个词包括一个正例(即直接给定的下一词),和随机产生的噪声词(采样抽取的几个
4、负例),就是说训练一个sigmoid二分类器,只要模型能够从中找出正确的词就认为完成任务。lword2vec模型的缺点p上下文无关。因而为了让句子有一个整体含义,在下游具体的NLP任务中需要基与词向量的序列做encoding操作。第7页词向量模型词向量模型ELMol词语言模型嵌入(Embeddings from Language Models,ELMo)是一种新型深度语境化词表征,可对词的复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多义词进行建模)。l对于ELMo而言,词向量是在一个大型文本语料库中训练的深度双向语言模型(biLM)内部状态学习的函数。第8页词向量模型词向量模型
5、ELMolELMo算法的特点p每一个词语的表征都是整个输入语句的函数。具体做法是先在大语料上以语言模型为目标训练出双向LSTM模型,然后利用LSTM产生词语的表征。ELMo故而得名。l为了应用在下游的NLP任务中,一般先利用下游任务的语料库(注意这里忽略掉标签(label)进行语言模型的微调,再利用标签的信息进行有监督学习。第9页词向量模型词向量模型ELMol相比于word2vec,ELMo的优势ELMo的假设前提一个词的词向量不应该是固定的,所以在一词多意方面ELMo的效果一定比word2vec好。word2vec的学习词向量的过程是通过中心词的上下窗口学习,学习的范围小。而ELMo在学习语
6、言模型时是从整个语料库去学习的,而后再通过语言模型生成的词向量就相当于基于整个语料库学习的词向量,更加准确代表一个词的意思。ELMo建立语言模型时,可以运用非任务的超大语料库去学习,一旦学习好后,便可以平行的运用到相似问题。第10页词向量模型词向量模型OpenAI GPTlOpenAI GPT提出一种半监督的方式来处理语言理解的任务。使用非监督的预训练和监督方式的微调。lOpenAI GPT模型的目标p学习一个通用的语言表示,可以经过很小的调整就应用在各种任务中。这个模型的设置不需要目标任务和非标注的数据集在同一个领域。lOpenAI GPT模型有两个过程p第一个过程是使用语言模型学习一个深度
7、模型;p第二个过程是使用相应的监督目标将深度模型的参数调整到目标任务中。第11页词向量模型词向量模型OpenAI GPTlOpenAI GPT的核心思想p先通过无标签的文本去训练生成语言模型;p再根据具体的NLP任务(如文本蕴涵、QA、文本分类等),通过有标签的数据对模型进行Fine-tuning。lOpenAI GPT结合了无监督的预训练和有监督的Fine-tuning,采用两阶段训练。p在未标记数据集上训练语言模型学习神经网络模型的初始参数;p使用相应NLP任务中的有标签的数据微调这些参数,来适应当前任务。第12页词向量模型词向量模型BERTlBERT是基于Transformer的双向编码
8、器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。l这种“双向”的来源在于BERT与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。第13页词向量模型词向量模型BERTlBERT、GPT、ELMo3种预训练模型的网络结构图pBERT和ELMo都使用双向信息;pOpenAI GPT使用单向信息。第14页词向量模型词向量模型BERTlBERT可以视为结合了OpenAI GPT和ELMo优势的新模型。其中ELMo使用两条独立训练的LSTM获取双向信息,而OpenAI GPT使用新型的Tran
9、sformer和经典语言模型只能获取单向信息。lBERT的主要目标p在OpenAI GPT的基础上对预训练任务做一些改进,以同时利用Transformer深度模型与双向信息的优势。第15页词向量模型词向量模型BERTlBERT的核心过程(非常简洁)先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型Transformer模型,并通过两个损失函数同时学习上面两个目标就能完成训练。第16页信息抽取信息抽取l信息抽取是指从自然语言文本中抽取指
10、定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取的任务(主要有3类)实体识别与抽取;命名实体消歧;关系抽取。第17页信息抽取信息抽取实体识别与抽取实体识别与抽取实体识别 实体识别的任务是识别出待处理文本中7类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。实体识别通常可以分成两个子任务:实体边界识别和确定实体类型。在识别过程中,人名、地名、机构名的识别难度较大,因为在识别人名、地名、机构名时,语句内部结构复杂,形式多变,并且上下文密切相关。第18页信息抽取信息抽取实体识别与抽取实体识别与抽取l考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不
11、同的识别模型。l实体识别的方式有多种方式可以选择,如HMM、MEMM和CRF。同时,使用深度学习算法CNN、RNN进行人名实体识别也越来越普遍。识别人名时,倾向于用基于字的模型描述其内部结构;识别地名时,则倾向于用基于词的模型描述。第19页信息抽取信息抽取实体识别与抽取实体识别与抽取l常见实体识别方法及简介算法名称算法名称简介简介HMM隐马尔可夫模型(Hidden Markov Model,HMM)是马尔可夫链的一种。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫
12、模型是一个双重随机过程MEMM最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM),与HMM不同,MEMM是判别式模型。因为MEMM是判别模型,所以其中心思想是寻找不同类别之间的最优分类面,如序列求概率(分类)问题,直接考虑找出函数分类边界CRF条件随机场算法(Conditional Random Field Algorithm,CRF),中心思想是给定条件随机场P(Y|X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注第20页信息抽取信息抽取实体识别与抽取实体识别与抽取开放式实体抽取 开放式实体抽取的任务是在给出特
13、定语义类的若干实体(称为“种子”)的情况下,找出该语义类包含的其他实体,其中特定语义类的标签可能显式给出,也可能隐式给出。如给出“中国、美国、俄罗斯”这3个实体,要求找出“国家”这个语义类的其他实体,如“德国、法国、日本”。开放式实体抽取关注的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表。第21页信息抽取信息抽取实体识别与抽取实体识别与抽取l相对而言,实体抽取比实体识别在任务上更加底层,实体抽取的结果可以作为列表支撑实体的识别。l在互联网应用领域,开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索、问答系统等都具有重要应用价值。第22页信息抽取信息抽取实体识别与抽取
14、实体识别与抽取l开放式实体抽取过程(有两个步骤)p通常包括候选实体获取;p候选实体置信度计算与排序。l开放式实体抽取的主要方法的思路图第23页信息抽取信息抽取实体识别与抽取实体识别与抽取从种子实体出发,通过分析种子实体在语料中的上下文特征得到模板。根据模板得到更多候选实体,选取置信度高的候选实体作为新种子进行迭代。满足一定条件后停止迭代,返回历次置信度高的候选实体作为结果输出。l开放式实体抽取的主要方法的思路l目前绝大多数开放式实体抽取方法都基于上述思路,具体区别在于目标语料来源不同,例如,从网页中进行实体抽取,从具有特殊性质的文本(查询日志、网页表格、维基百科)中进行实体抽取等。第24页信息
15、抽取信息抽取实体识别与抽取实体识别与抽取l开放式实体抽取主要方法算法名称算法名称简介简介使用网页语料网络上存在大量含有同类实体列表的网页,可以利用这类网页的结构信息辅助类别实例抽取使用某种具有特殊性质的文本作为语料这种方法基于出现在同一个网页中同一个表格中的文本串,很有可能是同类实体这一假设,将文本串和表格作为两类不同的节点构建二分图,通过图算法对文本串进行打分并排序综合使用多种资源针对不同数据源设计不同的抽取器来抽取实体,同时从不同数据源中抽取特征,构建排序函数,对于不同数据源抽取得到的实体进行融合和排序,输出最终结果。这种方法有效地利用了多源数据的冗余特性,利用大规模数据中的统计特征对于目
16、标实体进行抽取第25页信息抽取信息抽取命名实体消歧命名实体消歧l命名实体消歧指的是确定一个实体名称所指向的真实世界实体(或称为实体概念)。l命名实体消歧任务与普通的词义消歧任务有很多相似之处,但是有其自身的难点:命名实体消歧目标难以确定、具有指称项多样性(Name Variation)和指称项歧义性(Name Ambiguity)。第26页信息抽取信息抽取命名实体消歧命名实体消歧l一般而言,命名实体消歧可以利用两方面的知识。p一方面是上下文知识,如命名实体周围出现的文本、词语等。p另一方面是本体知识,如命名实体的分类体系、实体之间的关联架构等。命名实体消歧方法基于聚类的实体消歧;基于链接的实体
17、消歧。第27页信息抽取信息抽取命名实体消歧命名实体消歧基于聚类的实体消歧 基于聚类的实体消歧的基本思路是同一指称项具有近似的上下文,利用聚类算法进行消歧。基于聚类的实体消歧的核心问题是选取何种特征对指称项进行表示,根据特征的不同,共有基于词袋模型、基于语义特征、基于社会化网络、基于维基百科的知识、基于多源异构语义知识融合这5种消歧方法。目前基于聚类的实体消歧的主要研究集中在实体指称项的语义表示,已有工作大多都是通过扩展特征,增加更多的知识来提高消歧精度。第28页信息抽取信息抽取命名实体消歧命名实体消歧基于链接的实体消歧 基于链接的实体消歧的任务是给定实体指称项和它所在的文本,将其链接至给定知识
18、库中的相应实体。基于链接的实体消歧主要的步骤分为两步:候选实体的发现和候选实体的链接。候选实体的发现主要有两种方法:利用维基百科信息和利用上下文信息。候选实体的链接的基本方法是计算实体指称项和候选实体的相似度,选择相似度最大的候选实体。目前实体链接方法主要是如何更有效地挖掘实体指称项信息,如何更准确地计算实体指称项和实体概念之间的相似度。第29页信息抽取信息抽取关系抽取关系抽取lAlexander Schutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。l结构化与半结构化的关系抽取方法一般需要利用语句的特定结构。l非结构化的文本关系抽取一般可以分为传统关系抽取、开
19、放域关系抽取。第30页信息抽取信息抽取关系抽取关系抽取传统关系抽取 传统关系抽取的主要任务为给定实体关系类别,给定语料,抽取目标关系对。在该类任务中,有专家标注的语料,语料质量高,而且有公认的评价方式。常用的评测集有MUC、ACE、KBP、SemEval。在抽取方法上,目前主要采用统计机器学习的方法,将关系实例转换成高维空间中的特征向量或直接用离散结构表示,在标注语料库上训练后生成分类模型,然后再识别实体间关系。传统关系抽取的方法主要包括基于特征向量、基于核函数和基于神经网络3类。第31页信息抽取信息抽取关系抽取关系抽取 基于特征向量方法的主要问题是如何获取各种有效的词法、句法、语义等特征,并
20、将它们有效地集成起来,从而产生描述实体语义关系的各种局部特征和简单的全局特征。基于特征向量方法的特征选取过程是从自由文本及其句法结构中抽取出各种表面特征和结构化特征。基于特征向量方法可以利用的分类器有最大熵模型和SVM。基于特征向量方法第32页信息抽取信息抽取关系抽取关系抽取 基于核函数方法主要问题是如何有效地挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度。基于核函数方法可以使用如浅层树核、依存树核、最短依存树核、卷积树核的核函数进行运行,每一个不同的核函数都有各自的特点。基于核函数方法第33页信息抽取信息抽取关系抽取关系抽取 基于神经网络的方法的主要问题是如何设计合理的网络
21、结构,从而捕捉更多的信息,进而更准确地完成关系的抽取。基于神经网络的方法使用递归神经网络时,网络的构建过程更多的考虑到句子的句法结构,但是需要依赖复杂的句法分析工具。基于神经网络的方法卷积神经网络时,通过卷积操作完成句子级信息的捕获,不需要复杂的NLP工具。基于神经网络的方法第34页信息抽取信息抽取关系抽取关系抽取开放域抽取 开放域抽取的特点是不限定关系类别、不限定目标文本。难点在于如何获取训练语料、如何获取实体关系类别、如何针对不同类型目标文本抽取关系。目前开放域关系抽取主要有按需抽取、开放抽取和知识监督开放抽取3种。第35页信息抽取信息抽取关系抽取关系抽取 Bootstrapping的流程
22、是模板生成到实例抽取直至迭代收敛,但是存在语义漂移问题,即迭代会引入噪音实例和噪音模板。按需抽取Bootstrapping第36页信息抽取信息抽取关系抽取关系抽取 通过识别表达语义关系的短语抽取实体之间的关系,同时使用句法和统计数据过滤抽取出来的三元组。关系短语应是一个以动词为核心的短语,且应当匹配多个不同实体对。开放抽取的优点在于无需预先定义关系类别,但是也存在语义没有归一化,同一关系有不同表示等问题。开放抽取(OPEN IE)第37页信息抽取信息抽取关系抽取关系抽取 开放域信息抽取的一个主要问题是缺乏标注后的语料,Distant Supervision使用知识库中的关系,启发式的标注训练语
23、料。知识监督开放抽取Distant Supervision第38页情感分析情感分析l情感分析又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。l互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。潜在的用户可以通过浏览这些主观色彩的评论了解大众舆论对于某一事件或产品的看法。第39页情感分析情感分析情感分析的层次情感分析的层次l按照处理文本的粒度不同,情感分析大致可分为篇章级、句子级和词语级3个研究层次。篇章级 篇章级别的情感分类是指定一个整
24、体的情绪方向,即确定该文章是否传达总体正面或负面的意见,是一个二元分类任务。篇章级别的情感分类也可以是回归任务,如审查推断的一篇文章的总体评分是1-5中的哪个级别。第40页情感分析情感分析情感分析的层次情感分析的层次l一般篇章级情感分析可以分为以下3个步骤。p定义情感种类,在模糊情感词典中标注情感类别及其强度。每个词语可以属于多个情感类别。p对比采用词频、与长度相关的特征、语义倾向、情感PMIIR、强调词和特殊符号等不同特征时的结果。p对文章的积极或消极性进行判断。第41页情感分析情感分析情感分析的层次情感分析的层次句子级 由于句子的情感分析离不开构成句子的词语的情感,其方法划分为3大类:基于
25、知识库的分析方法、基于网络的分析方法和基于语料库的分析方法。在对文本信息中句子的情感进行识别时,通常创建的情感数据库会包含一些情感符号、缩写、情感词、修饰词等。在具体的实验中会定义几种情感,如“生气”“憎恨”“害怕”“内疚”“感兴趣”“高兴”“悲伤”等,对句子标注其中一种情感类别及其强度值实现对句子的情感分类。第42页情感分析情感分析情感分析的层次情感分析的层次词语级 词语级的情感是句子级或篇章级情感分析的基础。早期的情感分析主要集中在对文本正负极性的判断。词语的情感分析方法主要可归纳为3类:基于词典的分析方法、基于网络的分析方法和基于语料库的分析方法。第43页情感分析情感分析情感分析的层次情
26、感分析的层次l语情感分析方法简介算法名称算法名称简介简介基于词典的分析方法利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之间的语义相似度,根据语义的远近对词语的情感进行分类基于网络的分析方法利用万维网的搜索引擎获取查询的统计信息,计算词语与正、负极性种子词汇之间的语义关联度,从而对词语的情感进行分类基于语料库的分析方法运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分类模型学习训练数据中的规律,然后用训练好的模型对测试数据进行预测第44页情感分析情感分析情感信息的抽取情感信息的抽取l情感分析的最底层的任务是抽取情感评论文本中有意义的信息单元,情
27、感信息抽取可提炼出对情感分析有贡献的词或短语元素,其结果对特征降维、提高系统性能有重要作用,常用的统计分析方法有信息增益、互信息、期望交差熵、词频、文档频次等。情感信息的抽取主要内容评价词语的抽取和判别;评价对象的抽取;观点持有者的抽取。第45页情感分析情感分析情感信息的抽取情感信息的抽取评价词语的抽取和判别 评价词语的抽取和判别包括了识别评价词语,判别词语的极性两部分。在实际情感分析任务中,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法。第46页情感分析情感分析情感信息的抽取情感信息的抽取 基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,通过观察
28、一些现象挖掘语料库中的评价词语,并判断极性。基于语料库的评价词语抽取和判别最重要的优点在于简单易行,缺点在于评论语料库有限,同时评论词语在大语料库中的分布等现象不易归纳。基于语料库的评价词语抽取和判别第47页情感分析情感分析情感信息的抽取情感信息的抽取 基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系挖掘评价词,其中难度最大的是词典的实时更新,因为词典决定了词义分析。基于词典的评价词语抽取及判别方法第48页情感分析情感分析情感信息的抽取情感信息的抽取评价对象的抽取 评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。传统方法中采取基于规则的方法抽取
29、评价对象,规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、句法分析等。相应地,制定的规则也包括词序列规则、词性规则和句法规则等形式。可以直接针对待解决的问题制定相应的规则去抽取评价对象。评价对象的抽取的缺点在于人工编写工作量太大,成本较高。第49页情感分析情感分析情感信息的抽取情感信息的抽取观点持有者的抽取 观点持有者的抽取目的在于辨别情感文本的意见主体,有时对客户群体进行更加精细的分类和分析会对不同意见的评论有更加深刻的理解。例如,在美国大选中,对观点持有者进行分类可以甄别出,哪一部分群众是拥护者,哪一部分是反对者,甚至可以分析出哪一部分是对方的攻击者。事实上可以将观点和观点持
30、有者的识别作为一个任务同时解决,在抽取出情感句中的观点单元之后,分析句中观点和动词的句法关系,即可同步获取观点持有者。产品评论中一般默认观点持有者是用户本身,因此很少有研究者在产品评论领域研究这一任务。第50页情感分析情感分析情感分析的方法情感分析的方法l现有的文本情感分析的途径大致可以分为关键词识别、词汇关联、统计方法和概念级技术4类。l目前有很多开源软件使用机器学习与自然语言处理的技术计算大型文本集的情感分析,这些大型文本集合包括网络新闻、网上讨论群、网络评论、博客和社交媒介。算法类别算法类别简介简介关键词识别利用文本中出现的清楚定义的情感词(如“开心”“难过”“伤心”“害怕”“无聊”等)
31、来确定分类词汇关联在关键词识别的基础之上,增加了某个情感词汇和某项情绪的“关联”值统计方法通过机器学习实现情感分类。如潜在语意分析、SVM和词袋等概念级技术通过权衡知识表达的元素,如知识本体、语意网络等实现情感分类。这种算法可以探查到文字间比较微妙的情绪表达第51页语义分析语义分析l语义分析是NLP领域的一个重要问题。l语义分析分为词汇级语义分析和句子级语义分析两个部分。第52页语义分析语义分析词汇级语义分析词汇级语义分析l词汇级语义分析的内容主要分为词义消歧和词语相似度。p词义消歧是自然语言处理中的基本问题之一,在机器翻译、文本分类、信息检索、语音识别、语义网络构建等方面都具有重要意义;p词
32、语语义相似度计算在信息检索、信息抽取、词义排歧、机器翻译、句法分析等处理中有很重要的作用。第53页语义分析语义分析词汇级语义分析词汇级语义分析词义消歧 自然语言中一个词具有多种含义的现象非常普遍。如何自动获悉某个词的多种含义;或者已知某个词有多种含义,如何根据上下文确认其含义,是词义消歧研究的内容。在英语中,bank这个词可能表示银行,也可能表示河岸;而在汉语中,这样的例子就更多了。于是,基于这样的现状,词义消歧的任务就是给定输入,根据词语的上下文对词语的意思进行判断。语义消歧的方法大概分为4类:基于规则的词义消歧、基于词典的词义消歧、基于统计学习的词义消歧,以及基于实例的词义消歧。第54页语
33、义分析语义分析词汇级语义分析词汇级语义分析 早期是利用语言学家给出的语言知识作为依据进行词义消歧。从歧义词汇左右邻接的词汇单元中提取出语言学信息,并将这些语言学信息进行整理和分析,将符合条件和规则的语言学知识作为消歧特征来确定歧义词汇的真实含义。当时的消歧方法是根据规则来实施消歧,规则是由很多语言学专家来进行编写的,都是人工确定的规则,存在着一定的主观性,准确率也难以达到满意的效果。并且这也很难保证知识库的一致性、可扩展性以及完备性。需要更好的方法来解决词义消歧的问题。基于规则的词义消歧第55页语义分析语义分析词汇级语义分析词汇级语义分析l基于规则的方法主要有两类。p一类是利用语义网的方法,比
34、较具有说服力的是Quillian使用已经建立好的语义网和对应的节点来表示词汇,节点之间的变量用于确定多个词汇之间的联系和区别,并根据已有字典里的定义,来进行词义消歧。p另一类是利用语言学知识的方法,从歧义词汇所处的上下文环境中提取出有用的特征来进行词义消歧。第56页语义分析语义分析词汇级语义分析词汇级语义分析 在上个世纪80年代后期,研究学者们利用词典资源来进行词义消歧,这种方法在当时受到了普遍的青睐。到目前为止,对于词典资源的获取仍然是一个比较大的难题,需要更进一步的研究和探索。但是这种方法在一些开放的文本领域中会更好的被使用。随着人工智能的不断发展壮大,机读辞典的不段完善,词典资源可以不断
35、的扩大和补充,这样在词义消歧领域就可以使用这种方法来提高消歧性能。基于词典的词义消歧第57页语义分析语义分析词汇级语义分析词汇级语义分析l著名的机器可读的英语词典有Roges International Thesaurus(1977)和Word Net(1990),汉语词典有同义词词林和How Net,都是研究学者花费很多时间和心血整理出来的词典。第58页语义分析语义分析词汇级语义分析词汇级语义分析 利用统计学中的方法改善词义消歧系统的性能,提高了词义消歧领域发展的速度。相比基于规则的方法,统计学方法不会自己去指定规则和条件,不需要语言学专家的加入,而是从大量的语料和文本中提取出语言学信息,将
36、这些信息作为特征来进行词义消歧。基于统计学习的词义消歧具有更好的适应能力,能够及时跟上日益变化的语言学发展进程,也具有更好的发展空间。在词义消歧领域也逐渐的得到学者和专家们的认可,从而成为了目前词义消歧领域的具有代表性的研究方法。目前,根据训练语料的不同分为有监督词义消歧和无监督词义消歧。基于统计学习的词义消歧第59页语义分析语义分析词汇级语义分析词汇级语义分析l有监督词义消歧p基于有监督机器学习的词义消歧模型是利用已经人工标注的训练语料进行词义消歧。l有监督词义消歧的优点p在目前的消歧性能上表现较好,它对歧义词汇的判别能力要强于无监督的词义消歧方法。主要原因是消歧特征提取这一方面已经有较好的
37、质量,提高了词义消歧系统的分类性能。l有监督词义消歧的缺点p该方法需要使用人工标注的语料,对于目前人才紧张的环境,语料质量越高,其成本也就更昂贵。p该方法十分的依赖语料库的质量,所以如果语料库规模不够大,其分类性能也会有所下降。第60页语义分析语义分析词汇级语义分析词汇级语义分析l对于语料规模较小的问题可以使用核方法(Kernel Methods)来扩大训练语料的规模。l该方法利用无标注语料加入到机器学习中,从而扩大训练语料的规模,克服了数据稀疏的问题,提高了有指导词义消歧方法的适用性,改善了词义消歧系统的性能。第61页语义分析语义分析词汇级语义分析词汇级语义分析l无监督词义消歧p无监督词义消
38、歧不需要人工语义标注的语料,也是一种聚类的方法。p将训练语料中歧义词汇的上下文提取出来,将这些上下文信息聚集成多个分类,其中每个分类都有一个词义对应,通过判别这些类别的词义从而进行词义消歧。p该方法不需要结合人工语料指导消歧,而是可以自主的对大量无标注语料进行学习和分类,将相同含义的词汇划分到一类,而不需要知道其具体含义,从而可以解决日益变化的词语,相比有监督词义消歧方法有更强的适应能力和学习能力。第62页语义分析语义分析词汇级语义分析词汇级语义分析l无监督词义消歧的优点p无监督的方法可以无限的扩大训练语料的规模,不需要限制语料的来源和质量,能够更好的适应词义消歧任务,也因此具有更强的扩展能力
39、。p无指导的方法由于不考虑训练语料的成本,具有更强的适应性,能够根据需要扩大语料规模。l无监督词义消歧的缺点p无监督词义消歧的消歧准确率有所降低。第63页语义分析语义分析词汇级语义分析词汇级语义分析 基于实例的词义消歧方法需要从已经人工标注的训练语料中抽取出有用的语言学知识,并将这些知识作为消歧特征,构造成特征集合,将待消歧的汉语词汇的上下文中抽取其特征信息,将这些信息提取出来和构造好的特征集合进行对比,对比匹配度最高的词义为该歧义词汇的真实含义,从而来实施词义消歧。该方法消歧性能的好坏有两个决定性因素:特征集的提取和构建,如何提取出高质量的特征集是其关键;对于待消歧的词汇,如何计算其上下文和
40、特征集合之间的相似度也将会直接决定消歧系统的性能。基于词典的词义消歧第64页语义分析语义分析词汇级语义分析词汇级语义分析词语相似度 词语相似度是指两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。在不同的上下文中可以互相替换且不改变文本句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。相似度以一个数值表示,一般取值范围在0,1之间。一个词语与其本身的语义相似度为1;如果两个词语在任何上下文中都不可替换,那么其相似度为0。第65页语义分析语义分析词汇级语义分析词汇级语义分析l与词语相似度相关的一个概念是词语相关性。l词语相关性反映的是两个词语互相关联的程度,
41、可以用这两个词语在同一个语境中共现的可能性来衡量。例如,“医生”和“疾病”这两个词之间的相似度很低,但是相关性很高。第66页语义分析语义分析词汇级语义分析词汇级语义分析l词语相似性和词语相关性p词语相似性反映的是词语之间的聚合特点;p词语相关性反映的是词语之间的组合特点。p词语相关性和词语相似性有着密切的联系。如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。第67页语义分析语义分析句子级语义分析句子级语义分析l句子级语义分析,包含两方面内容:句义分析和句义相似度分析。句义分析 义分析分的方法可以
42、分为以句法分析为中心的句义分析和以语义为中心的句义分析。第68页语义分析语义分析句子级语义分析句子级语义分析 在这种方法中,句法分析是句义分析的核心。句法分析大体上可分为基于规则的句法分析和基于统计的句法分析两大类。规则句法分析以语言学家建立的句法规则为基础,采用规则描述或解释句子歧义行为或歧义特性。统计句法分析以语料库为基础,利用概率评价模型评价并选择概率值最高的候选句法树作为最终的句法分析结果。以句法为中心的句义分析第69页语义分析语义分析句子级语义分析句子级语义分析 在这种方法中将语义作为首要的考虑因素,摒弃语法的一切形式。这种方法主要以某种语义分析理论为基础对句义进行直接分析。典型的语
43、义分析理论有格语法和概念依存理论。以语义为中心的句义分析第70页语义分析语义分析句子级语义分析句子级语义分析l格语法p美国语言学家菲尔默于1968年提出的一种语法分析模式。l基于格语法的句义分析思路p首先,识别待分析句子的主要动词,在动词词典中找出该词的格框架。p其次,识别必要的格并查找格的填充物;若格框架还需要其他必要的格,则查找其他名词的语义信息,并按要求进行相应的填充。p最后,识别可选格并查找相应填充物。第71页语义分析语义分析句子级语义分析句子级语义分析l概念依存理论p美国学者R.Schank于1973年提出的一种句义分析模式。p该理论分3个层次刻画人的行为,分别为计划、脚本和概念依存
44、层次。p运用该理论进行句义分析时,以概念依存层事先规定好的动作基元为核心概念就可以形成一种概念依存关系,这样就可以用最简单的一组动作基元来表示很多复杂的行为。p该理论的最大特点是用概念的依存分析而不是句法成分(词、短语)的分析来表达句义。第72页语义分析语义分析句子级语义分析句子级语义分析句子语义相似度分析 从不同的句子分析形式来看,当前句义相似度计算主要分为基于句子词汇层面的句义相似度计算和基于句子结构层面的句义相似度计算。第73页语义分析语义分析句子级语义分析句子级语义分析l句子语义相似度分析算法算法类别类别简介简介基于句子词汇层面的句义相似度计算基于句子词汇层面的句义相似度计算方法主要是
45、通过考虑词频、词性等信息度量句子间的相似度,如向量空间模型的方法,它将语料库中的句子表示为特征词向量,相似度用向量的夹角余弦表示。该方法未考虑句子结构、语义等特征,只有当语料具有一定的规模时这种统计的效果才会体现出来。基于词汇语义特征的方法主要依赖How Net、Word Net和同义词林等词汇语义词典基于句子结构层面的句义相似度计算基于句子结构层面的句义相似度计算主要是在句法分析基础上,按照分析出的句子结构来衡量句子之间的相似度第74页机器翻译机器翻译l机器翻译(Machine Translation,MT),又称自动翻译,是指利用计算机将一种自然语言(源语)转换为另一种自然语言(译语)的过
46、程,传统上隶属于计算语言学研究范畴。l机器翻译自20世纪30年代初露端倪以来,如今已取得了突破性进展。机器翻译在提高翻译效率、改变翻译作业方式、促进翻译多元发展中起着至关重要的作用。l机器翻译方法是机器翻译系统建构的核心,也是其原理的直接体现,对机器翻译的性能起着决定性作用。第75页机器翻译机器翻译l由于算法和核心技术不同,机器翻译的实现方式各异。l依据知识处理方式,机器翻译的实现方式可分为3类:p一类为规则法,该类包括直接法、转换法、中间语法;p另一类为语料库法,该类可细分为实例法、统计法、神经网络法;p还有一类为混合法。第76页机器翻译机器翻译规则法规则法l规则法,又称理性主义法,是指机器
47、翻译系统建立在语言规则或知识基础之上。l规则法具体包括p直接法;p转换法;p中间语法。第77页机器翻译机器翻译规则法规则法l即逐词翻译法,是指在尚不分析源语的情况下,把源语单词、短语直接替换成相应的译语单词、短语,必要时对词序进行调整,其翻译流程大致为源语输入、双语词典查询、词序调整、译语输出。l对于亲缘关系密切的语言,该法较为实用,此外,翻译效果差强人意,认知过程泛化严重,因而现在已弃而不用。直接法第78页机器翻译机器翻译规则法规则法l转换法是指利用中间表示在源语和译语之间过渡,一般包括源语分析、源语转换和译语生成3个步骤。l转换时,先将源语句子转换成深层结构表示,再将源语深层结构表示转换成
48、译语深层结构表示,最后将译语深层结构表示映射成译语。l转换法在早期较为流行,当时大多数系统都采用转换法。转换法第79页机器翻译机器翻译规则法规则法l中间语法把源语转换成一种无歧义、对任何语言都通用的中间语言表示,然后借助该中间语言表示生成译语。l中间语法理论上颇为经济,但目前尚无成功案例。实际上,转换法与中间语法原理类似,均需借助中间表示,区别在于二者抽象程度不同,后者抽象程度更高。此外,前者的中间表示与源语或译语的结构相关,而后者则独立于任何自然语言。规则法是20世纪90年代前的主流方法,主要借助基于人工定制的规则库、词典库以及各类知识库,需高度依赖人类经验知识,因而往往实用性欠佳。中间语法
49、第80页机器翻译机器翻译语料库法语料库法 语料库法,又称经验主义法,是一种由标注语料(特别是双语或多语平行语料)构成知识源的数据驱动型机器翻译系统构建方式。该法既无需词典亦不用规则,而是以语料统计为主。语料库法主要得益于当代语料技术的发展,目前仍是机器翻译系统的主流构建方式,具体包括实例法、统计法、神经网络法。语料库法语料库法第81页机器翻译机器翻译语料库法语料库法l语料库法,又称经验主义法,是一种由标注语料,特别是双语或多语平行语料,构成知识源的数据驱动型机器翻译系统构建方式。该法既无需词典亦不用规则,而是以语料统计为主。l语料库法主要得益于当代语料技术的发展,目前仍是机器翻译系统的主流构建
50、方式,具体包括实例法、统计法、神经网络法。第82页机器翻译机器翻译语料库法语料库法l实例法、统计法和神经网络法p3者翻译知识的来源均为语料库。p它们的区别在于实例法在翻译过程中仍需使用语料库,且语料库本身就是翻译知识的一种表现形式,而统计法和神经网络法在翻译过程中无需再使用语料库,其知识的表示是统计数据,而非语料库本身。第83页机器翻译机器翻译语料库法语料库法实例法 实例法最早由日本著名机器翻译专家长尾真于1981年提出,并于1984年发表。实例法的思想是:先在机器中存储一些原文及其对应译文的实例,让系统参照这些实例进行类比翻译。翻译时,系统会先将源语句子切分为短语片段,再将切分后的短语片段与