《自然语言处理》课件新模板第八章机器翻译.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

《自然语言处理》课件新模板第八章机器翻译.pptx

1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第八章第八章机器翻译机器翻译目录章节概述Contents1小节介绍2本章总结3ONE章节概述C H A P T E R O V E R V I E W章节概述随着全球化进程的不断发展，人们跨语言交流的场景愈发常见，而人工翻译成本高昂，难以普及。因此，研究者开始研发一种新型工具一种能自动、准确地将一段外文表述翻译成客户熟悉的语言表述的工具，以便能专注理解文本表述的语义，而不是表述方式。在这种背景情况下，机器翻译技术的需求就显得尤为迫切。机器翻译技术旨利

2、用计算机将一段文本从一种自然语言无语义损失地转换为另一种自然语言的过程，也被称为自动翻译。一章节概述本章将就机器翻译技术进行讨论，以时间为主线分别梳理机器翻译的历史发展进程与实现方法，最后评析机器翻译领域现有的前沿技术以及该领域的发展趋势与挑战。TWO小节介绍S E C T I O N I N T R O D U C T I O N定义8.1 机器翻译任务定义8.1.1平行语料8.1.28.1.1 机器翻译定义机器翻译指利用计算机将一段文本从一种自然语言无语义损失地转换为另一种自然语言的过程，也被称为自动翻译。假定源语言为A，目标语言为B，若给出一段A语言文本X，机器翻译系统的输出为B语言文

3、本Y，则X与Y的语义相等，且Y的描述方式（包括语法结构、词性、短语组成方式等）符合语言B的常规描述。语义等价性（“X与Y的语义相等”）和语法合法性（“Y的描述方式符合语言B的常规描述”）是构建一个优秀的机器翻译系统的两个核心目标。8.1.1 机器翻译定义数学表示：若输入X满足Syntax(A,X)=True，则Y=System(X),满足 Semantic(Y)=Semantic(X)Syntax(B,Y)=TrueSemantic(text)与Syntax(language,text)分别为语义抽取函数与语法检查函数。机器翻译的核心任务就是找到一个System函数，使得对于任何输入文本，翻

4、译器的输出均满足条件和条件。定义8.1 机器翻译任务定义8.1.1平行语料8.1.28.1.2 平行语料WMTWMTUS-CorpusUS-CorpusOpenSubtitlesOpenSubtitles平行语料是指每个样本的源语言文本和目标语言文本是语义相等的。WMT数据集全称是CONFERENCE ON MACHINE TRANSLATION，是目前水平最高的国际机器翻译大赛之一，每次大赛都会发布包含多个语种的高质量平行语料库。例如，WMT 2018数据集来源为新闻文本，涉及以欧洲语言为主的多个语料对，具体包括汉英、捷克-英语、爱沙尼亚语-英语、芬兰语-英语、德语-英语、哈萨克语-英语、俄

5、语-英语、土耳其语-英语等。US-Corpus数据集US-Corpus是现有最大规模的中英平行语料库。US-Corpus被设计为一个多领域、样本平衡的平行语料库。该数据集提供了200万对的中英平行语料，并被分为八个不同的文本领域，涵盖了几个主题和文本类型，包括：教育、法律、微博、新闻、科学、口语、字幕和论文。8.1.2 平行语料WMTWMTUS-CorpusUS-CorpusOpenSubtitlesOpenSubtitles平行语料是指每个样本的源语言文本和目标语言文本是语义相等的语料。OpenSubtitles数据集OpenSubtitles是一个来源电影字幕的机器翻译数据集，覆盖了65个

6、语言。NT数据集实验中常使用WMT 2014的英德平行语料作为训练集，NT 2013的英德平行语料作为验证集，NT 2014-NT2016作为测试集。遇到的困难8.2 评估标准8.2.1现有评估标准8.2.28.2.1 遇到的困难条件:也许，条件的判断并不困难，因为我们总是认为一门语言的语法规则是一个封闭集合，只要输出文本的语法规则不属于这个封闭集合，我们就能轻易下结论：条件不满足；反之，条件满足。问题是封闭集合的定义和检测当前文本语法与该集合的从属关系均是一个高成本、高复杂度的问题。那条件呢？由于文本的语义本身就是一个抽象概念，是隐藏在表述下的逻辑关系，无论怎么表达，都只是从一种表述转换为

7、另一种表述，深层逻辑关系通常需要人类去感受。因此，自动抽取语义一直是自然语言处理的基础研究点之一，隶属于文本表示学习领域。8.2.1 遇到的困难机器翻译不同于其它拥有单一正确答案的任务（如事件抽取任务），一个源语言文本往往可以有目标语言的多种表述，并且这些表述都符合常规的表述规则。:例如，很多外国文献都有不同译本，而这些译本通常都被认为是正确的。考虑到实际情况下，我们无法枚举出所有合法译文，因此，不能直接用字符串匹配来计算机器翻译系统的效果，导致评估一个机器翻译系统的性能成为一个难题。人工评估是一种最简单且最符合实际标准的评估方法。早期机器翻译的评估就是由一些语言专家完成的。但人工评估往往成

8、本较高，且受主观性的影响，不同专家的评估结果不同。遇到的困难8.2 评估标准8.2.1现有评估标准8.2.28.2.2 现有评估标准机器翻译关键指标以忠诚度和流利度为主。忠诚度是指机器翻译系统翻译的结果与源文本在语义上的相似度，用以衡量语义等价性。流利度是指机器翻译系统输出结果在目标语言中出现的可能性，用以衡量语法合法性。BLEU是目前机器翻译学术领域最常用的评估算法，也是最接近人类评分的。BLEU评估了机器翻译与专业人工翻译之间的对应关系，核心思想是机器翻译越接近专业人工翻译（这里接近指字符串匹配程度），质量就越好。BLEU具体算法包括机器翻译与人工翻译不同N的N元文法的匹配数与总文法数的比

9、值，并对所有N元文法的比值进行加权平均，最后乘以对翻译结果长度惩罚因子。8.2.2 现有评估标准8.2.2 现有评估标准 BLEU中不同N元文法的权值是相等的。优点：可以自动评估机器翻译系统，成本较低且快速。缺点：语法无关的、常用词干扰大且未考虑同义词。NIST针对BLEU的加权平均进行改进，对不同N元文法根据出现频率分配相应权重而不是简单地分配相同的权重。不同于BLEU和NIST仅关注准确率，METEOR侧重召回率，通过引入词干、同义词信息，稍微优化了语义评估的标准。可以看到机器翻译的复杂性不仅体现在其建模复杂，也体现在评估标准模糊。上面介绍的三种自动评估算法都未深入评估语法和语义，仅在字符

10、串层面进行匹配。基于规则的机器翻译8.3 发展历程8.3.1基于实例的机器翻译8.3.2统计机器翻译8.3.38.3.1 基于规则的机器翻译基于规则的机器翻译系统主要包含双语词典和针对每种语言制定一套语言规则，前者负责进行词语在源语言和目标语言的转换，语言规则负责译文的流利度。如果有必要，系统还可以补充各种技巧性的规则，如名字、拼写纠正、以及音译词等。8.3.1 基于规则的机器翻译这个方法是模拟语言初学者的翻译流程，即先对源文本进行分词，然后查双语字典找到目标词汇，最后对这些词汇进行语态、语法上的微调。转换翻译法在直译法中增加了一步-分析句法结构，先分析源文本的句法结构，将源文本结构按一定规则

11、转换为目标语言结构，之后的步骤与直译法相同。中间语言法的核心是设计一个通用语言作为不同自然语言间的通用桥梁，先将一个源语言文本转换为中间语言文本，再将中间语言文本转换为目标语言文本，实质上为两次转换翻译。直接翻译法转换翻译法中间翻译法直接翻译法直接翻译法简称直译法，是模拟语言初学者的翻译流程（本章开头的第二种方法），即先对源文本进行分词，然后查双语字典找到目标词汇，最后对这些词汇进行语态、语法上的微调。直接翻译法直接翻译法极其简单，但缺少对源文本的整体分析，效果较差，译文往往看起来有些蹩脚。语言学家花费了大量的时间为每个单词制定规则，而直接翻译法带来的回报远远低于了预期。不甘于白白浪费力气，因

12、此，语言学家提出转换翻译法。转换翻译法转换翻译法在直译法中增加了一步分析句法结构，如图。像我们在小学英语课上学习的一样，转换翻译法先分析源文本的句法结构，将源文本结构按一定规则转换为目标语言结构，之后的步骤与直译法相同。转换翻译法整个方法从语法树的角度增加了译文的忠实度，但仍缺少语义分析。同时，转换翻译法依然依赖语言学家，而词汇结构的数量与单个单词相比大幅度增加，从而导致翻译更加复杂。中间语言法中间语言法的核心是设计一个通用语言作为不同自然语言间的通用桥梁，如图。类似于不同物品可以通过通用货币进行等价转换，不同语言可以通过这个中间语言进行等价转换。中间语言法机器翻译系统会先将一个源语言文本转换

13、为中间语言文本，再将中间语言文本转换为目标语言文本，实质上为两次转换翻译。中间语言法的语言规则并不同时涉及互译的语言对，每个规则仅针对一种自然语言和中间语言。中间语言法中间语言法降低了多种语言间的建模成本，翻译器个数由原来的语言对个数降低到语言数，增加了系统的可迁移性和可扩展性。但设计这样一种中间语言的难度不低于，甚至高于设计任何一个自然语言，所以中间语言翻译器未能达到预期效果。8.3.1 基于规则的机器翻译基于规则的机器翻译失败的原因：基于规则的机器翻译按照语言学专家制定的规则进行翻译，在特定领域可以获得不错的效果，但单纯依靠查字典的方式获得译文词组，会导致翻译器无法输出一些虚词，必须依靠规

14、则补充。各种语言的形成都有较复杂的历史，语言学家制定的规则难以完备，往往有特例未被覆盖。更重要的，大多单词的译文会被其上下文所影响。例如，对于英文语句“I saw a man on a hill with telescope.”，利用基于规则的机器翻译方法可能得到如下几种结果：1）我看到山上有个男人拿着望远镜。2）我站在山上透过望远镜看到一个男人。3）我透过望远镜看到山上站着一个男人。基于规则的机器翻译8.3 发展历程8.3.1基于实例的机器翻译8.3.2统计机器翻译8.3.3基于实例的机器翻译的成功证明了基于语料库的机器翻译的可行性。平行语料库：Im going to the theater

15、我要去看戏源语言文本：Im going to the cinema翻译器：找到跟重合度最高的句子（假设是“Im going to the theater”），拷贝翻译的前半部分（“我要去看”），再根据字典中cinema的意思，输出结果“我要去看电影”。仅学习了文本的表面字符串。翻译器分析输入文本与其“背”下来的样本原文进行比对，找到最相似的样本，将输入文本与样本相同的词语对应的译文复制到本次翻译中，将不同的词语通过查双语字典的方式找到译文。8.3.2 基于实例的机器翻译基于规则的机器翻译8.3 发展历程8.3.1基于实例的机器翻译8.3.2统计机器翻译8.3.38.3.3 统计机器翻译SMT

16、统计每个源语言单词被翻译成不同目标语言单词的次数以及单词在输出译文通常所在的位置。对句子N元文法的翻译进行统计，将机器翻译的精度提升到了商业可用的标准。翻译时对输入进行精确地语法分析，构建语法树，以此来解决单词对齐问题。基于单词的SMT基于短语的SMT基于语法的SMT基于单词的SMT 基于单词的SMT以单词为基本单元。构建时，统计每个源语言单词被翻译成不同目标语言单词的次数以及单词在输出译文通常所在的位置；翻译时，根据每个源语言单词的译文概率分布选择最可能的侯选翻译，并对译文侯选单词进行重排，最后增加助动词等新词。早期基于单词的SMT虽然考虑了单词的对齐，但却没有进行重新排序。例如，形容词通常

17、都需要与名词交换位置。后来，有研究者引入了“相对顺序”的概念，强调翻译器应学习两个单词是否应该互换位置，以保持相对顺序不变。这个模块就是机器翻译里的单词对齐模块。基于短语的SMT 基于单词的SMT的“目光”太过狭窄，未考虑上下文信息，所以译文的质量仍不高。相比之下，基于短语的SMT以短语为基本单元，通过对句子N元文法的翻译进行统计，将机器翻译的精度提升到了商业可用的标准。2006年后的十年中，各大最先进商业翻译器均采用基于短语的SMT。基于语法的SMT 语言结构千变万化，一些句子进行简单的语法结构变换就能让基于短语的SMT输出逻辑不通的译文，基于语法的SMT被提出。基于语法的SMT融合了基于规

18、则的机器翻译思想，认为翻译时需要对输入进行精确地语法分析，构建语法树，以此来解决单词对齐问题。然而，构建语法树也是自然语言处理的一个难题，在研究者还未找到可用的构建方法时，神经机器翻译横空出世并吸引了绝大多数研究者。编码器-解码器模型8.4 神经机器翻译8.4.1三大范式8.4.2信息控制8.4.38.4.1 编码器-解码器模型8.4.1 编码器-解码器模型通常，编码器和解码器进行联合训练，训练的损失函数如下：8.4.1 编码器-解码器模型8.4.1 编码器-解码器模型中间语言法没有得到广泛应用的原因是其设计难度太高，语言学家没有找到一种合理的中间语言。然而，编码器-解码器的语义特征向量完全是

19、计算机依据语料库自动生成的，即将中间语言的制定规则也交给神经网络去搜索。由于现在计算能力已远超过人类，所以，神经网络在搜索时遍历的规则组合数可以基本保证其能找到一种较合理的“中间语言”，克服了当时中间语言法面对的难题。编码器-解码器模型8.4 神经机器翻译8.4.1三大范式8.4.2信息控制8.4.38.4.2 三大范式基于循环神经网络的神经机器翻译是指编码器和解码器的基本单元为循环神经元的机器翻译方法。循环神经元在多个任务中被证明可以有效建模序列信息，是大多数编码器-解码器模型的基本单元。最具代表性的基于循环神经网络的神经机器翻译模型是Google-NMT，如图所示。8.4.2 三大范式 G

20、oogle-NMT的基本单元为长短期记忆神经网络LSTM，编码器和解码器都是利用多层LSTM进行堆叠搭配残差的跨层连接结构。编码器底层为一个双向LSTM层，实验证明融合双向信息流能生成更有效的序列编码。利用注意力机制处理编码器生成的序列特征，输入到解码器的每层中。为了更好的处理低词频的词，Google-NMT在输入和输出中使用了sub-word units（常被称为token）也叫wordpieces。8.4.2 三大范式图中注意力机制负责的是统计机器翻译的单词对齐，该模块可独立于编码器和解码器结构，被广泛应用于各种神经机器翻译模型。为了解决翻译速度较慢的问题，Google-NMT在实际翻译

21、过程中使用低精度的算法（将模型中的部分参数限制为8bit）并采用TPU作为运算部件。8.4.2 三大范式卷积编码了局部信息（类似N元文法），通过多层卷积扩大感受野就可以建模整个序列信息。Gehring等人提出基于卷积神经网络的神经机器翻译模型ConvS2S，模型结构如右图。ConvS2S的编码器和解码器均采用多层卷积层以及门控线性单元进行建模。不同于常规的二维卷积神经网络，ConvS2S的卷积核步长均为1，这是因为语言不具备图像的可伸缩性，图像经过下采样可以保持图片的特征，而一个句子如果间隔着单词分析，很可能遗漏重要信息。同时，作者在每一层仅设置一个卷积核，导致ConvS2S每层仅能拟合一种模

22、式（pattern）。8.4.2 三大范式与Google-NMT一样，注意力机制的作用仍是单词对齐。在解码器端，当前解码层的输出同编码器最后一层的各单词输出进行点积运算（图中Dot products矩形，黄色表示当前时间步输出的单词应与被激活位置的输入单词存在对齐关系），得到attention值。与循环神经网络不同，卷积具有平移不变性，所以作者在编码器端的输出显式添加了位置编码信息，以此来建模时序信息。同时，利用卷积神经元取代LSTM，可以提高并行计算效率，进一步提高神经机器翻译器的实用性。论文中位置编码向量长度与词向量长度相等，但这种设置实际并没有带来显著的性能提升。8.4.2 三大范式注

23、意力机制建模了人类的注意力分配方案，通常认为，越重要的信息应被分配越多的注意力。而上面两种范式均使用了注意力机制进行单词对齐，表明注意力机制本身就可以建模序列信息。因此，Vaswani等人提出了完全由自注意力机制（Self-Attention）构成的Transformer模型（右图），性能显著超过了当时其它神经机器翻译模型。8.4.2 三大范式编码器的基本模块包含了多头注意力网络、层归一化和残差连接，若干个基本模块的叠加组成了整个编码器。解码器额外包含了一个掩码多头注意力网络和跨注意力层，前者负责指示当前翻译到第几个单词，后者负责接受编码器的输出信息。多头注意力网络在编码器和解码器上的成功证

24、明了ConvS2S的单个卷积核的缺陷。注意力机制最大的问题是顺序无关性所以作者引入了位置信息编码，编码方式为正弦和余弦函数，使得神经网络可以通过绝对位置编码推导相对位置编码。8.4.2 三大范式深入思考注意力机制在机器翻译任务上成功的原因是其具备极大的“灵活性”。机器翻译任务的高复杂度导致大多数神经网络结构不能找到一套“完美的”中间语言规则。而注意力机制的核心在于注意力得分（attention score）的计算，具体指query向量和key向量的点积。不同于卷积核或全连接等结构，注意力机制的运算符两边的向量均随输入变化而变化，即对于每个文本均需要重新计算这两个向量。正如Hinton教授（20

25、18年图灵奖获得者）在43届AAAI上的演讲，“注意力机制实际上在发掘两个输入单元的巧合”，机器翻译里输入单元就是输入单词。编码器-解码器模型8.4 神经机器翻译8.4.1三大范式8.4.2信息控制8.4.38.4.3 信息控制不同自然语言的基本构成单元不同，同一自然语言也可以有多种基本单元。在编码器或解码器端采用不同的翻译单元粒度可以使神经机器模型建模不同的信息。虽然统计机器翻译已经被神经机器翻译所取代，但统计机器翻译的一些成果仍可以被神经机器翻译研究者所利用，如采用统计机器翻译的词对齐信息作为监督信息。有监督模型的高性能严重依赖大量高质量的平行语料库。然而，获取大量高质量的平行语料库的成本

26、极高。因此，部分研究者探究利用语言模型来达到无监督学习的方法。翻译单元粒度引入统计信息无监督学习引入统计信息虽然统计机器翻译已经被神经机器翻译所取代，但统计机器翻译的一些成果仍可以被神经机器翻译研究者所利用。当前大多数编码器-解码器模型均使用注意力机制来进行单词对齐。与传统统计机器翻译的硬对齐方法相比，注意力机制通常被称为单词“软对齐”机制，因为它对目标语言词语和源语言词语对齐长度不作限制。分析注意力网络结构可以发现，注意力得分的生成是无监督学习，得分表示两个随输入变化而变化的向量的余弦相似度。这种无监督机制使得注意力机制足够灵活，可以处理千变万化的输入，但也可能导致它对齐信息不准确。引入统计

27、信息单词对齐的好坏显著影响译文的流利度，因此，有必要引入可信的单词对齐信息，指导翻译器在翻译时合适地转换译文单词位置。另一方面，统计机器翻译的词对齐信息较准确。因此，文献提出有监督的注意力机制，采用统计机器翻译的词对齐信息作为监督信息。此方法在NIST 2008语料库上比起采用常规注意力机制的神经机器翻译模型，提升了2.2个BLEU。既然统计机器翻译与神经机器翻译各有所长，各取所长应该能提升翻译器的性能。例如，Zhou等人采用集成学习思想来利用神经机器翻译和统计机器翻译各自的优点。具体实现为在解码时，使用多个注意力机制分别处理不同机器翻译系统，十分简单但有效。无监督学习无监督学习MGNMT架

28、构的核心思想分为两部分：1）采用回译法进行无监督学习。MGNMT会将已有的非平行语料作为源语言输入到翻译模型，获得目标语言输出，再将目标语言输出作为源语言输入到反向的翻译模型，对比反向翻译模型的输出与原始非平行语料进行翻译模型的参数更新。2）引入隐变量将各个模型关联起来。无监督学习前沿技术8.5 前沿技术与发展趋势8.5.1发展趋势8.5.28.5.1 前沿技术现有的质量评估算法仍未在深层语义上评估参考译文与翻译器的输出译文。即时翻译，也被称为同声传译，目标是在读取源语言输入的同时完成翻译的输出，翻译过程仅有几个单词的延迟。即时翻译的商业价值巨大，是各大商业机构的重点发展方向之一。以MGNMT

29、为代表的无监督神经机器翻译逐渐吸引学术界和工业界的关注。质量评估算法即时翻译无监督神经翻译前沿技术8.5 前沿技术与发展趋势8.5.1发展趋势8.5.28.5.2 发展趋势无论是8.4.1中“中间语言再现”，还是8.4.3节“引入统计信息”都在向我们传递一个信息-“利用过去的研究成果是一个提升神经机器翻译模型效果的捷径”。在本章节中，机器翻译以文本翻译为例进行了详细描述，但实际上语音（8.5.1节的即时翻译）、图像、视频等都是良好的数据源。多语言翻译指输入端有多种自然语言描述文本且其语义等价，或输出端将输出与源语言文本语义等价的多种语言描述文本。当前神经机器翻译属于中间语言法的再发展。中间语言

30、的核心特点（任何语言对在中间语言已知时均是独立的）为多语言翻译提供了前提。同时，无监督神经机器翻译的发展必然会使语言对的依赖性逐渐减弱，使得多语言翻译有潜力成为热点研究方向。融合外部知识多模态机器翻译多语言翻译本章总结C H A P T E R S U M M A R YTHREE本章总结1.机器翻译是指利用计算机将一段文本从一种自然语言无语义损失地转换为另一种自然语言的过程。2.在过去70年里，机器翻译一直是自然语言处理中非常活跃的研究领域，推出了诸多实用的商业系统，例如Google翻译等。3.在经过了几次技术革新后，现在以神经网络为核心的神经机器翻译主导了机器翻译领域的发展。4.在过去的研究中，研究者从评估算法、模型结构、学习方案等不同角度出发提出了不计其数的解决方案。5.但由于机器翻译任务的复杂性，现有方案仍存在一定问题，使得未来会有越来越多的研究者投入到该领域的研究。思考题1.请详述机器翻译的定义。2.请描述评估机器翻译的难点。3.请分析现有机器翻译评估标准的优缺点。4.请简述机器翻译的发展历程。5.请简述神经机器翻译的研究现状。6.请简述“单词对齐”的意义和几种方法。7.请简述机器翻译的发展趋势。8.请试用现有机器翻译系统，分析其优缺点和实现方法。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

《自然语言处理》课件新模板 第八章 机器翻译.pptx