ImageVerifierCode 换一换
格式:PPT , 页数:22 ,大小:78.50KB ,
文档编号:2871070      下载积分:22 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-2871070.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(计算机辅助翻译系统漫谈课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

计算机辅助翻译系统漫谈课件.ppt

1、陈群秀清华大学计算机科学与技术系智能技术与系统国家实验室 北京 摘要 本文首先简单介绍机器翻译研究发展简史和研究动向。然后本文阐述机器翻译系统的分类及特点:机器翻译系统从系统研制的方法分为基于规则的机器翻译系统和基于语料库的机器翻译系统,后者又分为基于统计的机器翻译系统、基于实例的机器翻译系统和翻译记忆系统;从自动化程度分为全自动机器翻译系统、人助机译系统和机助人译系统,后两种合称为计算机辅助翻译系统;从翻译转换方式分为直译式系统、基于转换方式的翻译系统和基于中间语言(枢轴式)的翻译系统;从翻译用户的需求分为为浏览者研制、为修订者研制、为翻译者研制和为写作者研制的系统等四种类型。进而本文提出机

2、器辅助翻译系统最好同时包含基于翻译记忆技术和基于实例模式翻译这两种翻译功能并且这两种翻译方法和翻译过程最好分阶段进行。最后本文对基于翻译记忆技术的辅助翻译有关技术和基于实例模式翻译的有关技术进行了讨论。 关键词 计算机辅助翻译系统;机器翻译系统的分类及特点;基于翻译记忆技术的辅助翻译有关技术;基于实例模式翻译的有关技 1. 机器翻译研究发展简史和研究动向 随着因特网的日益普及应用和全球一体化日益进展,不同语种间人们交流的语言障碍日益显得更为突出。为解决这一难题而进行的机器翻译研究是一个涉及语言学、计算机科学、认知科学等多学科的综合性研究领域。目前,机器翻译研究是国际上激烈竞争的高科技研究领域之

3、一,也是信息处理的实用学科。机器翻译研究是1946年计算机产生后的第一个应用。机器翻译研究自1947年美国洛克菲勒基金会自然科学部主任华伦韦弗提出用现代电子计算机进行语言翻译的设想至今,已有五十多年近六十年的历史,它的发展历史波波折折、起起复复。它经历过最初近二十年的初创期和第一个兴旺期,但由于当时人们对机器翻译的期望值过高,而机器翻译当时的研究水平和技术的历史局限,也因为当时的大学科人工智能研究没抓住本质而又头脑发热盲目乐观,致使人工智能和机器翻译的研究进入了低谷期,即机器翻译自1966年美国发表了ALPAC报告(黑皮书)后经历了1966年1976年长达十年的萧条低迷期。到二十世纪七十年代中

4、期机器翻译研究才开始逐渐复苏并进入了第二个兴旺期。特别是八十年代以来,机器翻译研究得到了长足的发展,进入了发展的黄金时代。这个时代有四个显著特点: (1) 机器翻译研究走出实验室开始进入实用阶段。 这个阶段相继出现了一些实用型的机器翻译系统,例如美国的SYSTRAN系统(1975年)、加拿大蒙特利尔大学的TAUMMETEO系统(1976年)、日本富士通公司的ATLAS系统、法国纺织研究所的TITUSIV系统(翻译编织专业文摘)等。机器翻译研究面向应用、走向应用、迈向商品化,同时又以应用推动更高层次的研究,是这一时代最主要的特点。 (2) 电子和软件产业部门直接卷入机器翻译研究是这个时代的第二个

5、特点。产业部门的直接卷入对机器翻译研究发展产生深远的影响。 (3) 国际间的交流与合作十分活跃是这个时代的又一特点。 国家政府间的合作、民间组织间的合作形式都有。国家间的合作主要有欧洲共同体EUROTRA计划和亚洲由日本政府支持的ODA计划。EUROTRA计划开始于1978年,主要目的在于开发一个能处理欧洲共同体成员国语言的机器翻译系统,当时就投入4000万美元,参加的国家有法国、德国、比利时、丹麦、荷兰、希腊、爱尔兰、意大利、卢森保和美国,大约有100多名的研究人员。ODA计划是由日本通产省发起和资助、由日本国际情报协力中心CICC组织、有中国、泰国、马来西亚和印度尼西亚参加的机译合作计划,

6、开始于1987年,预定1992年完成(实际1993年结束),政府投资60亿日元,翻译策略为中间语言表示和概念词典。 (4) 加速吸收和采用新理论和新技术是这个时代的第四个特点。 机器翻译研究虽然进入了全面发展的黄金时代,但仍然面临着重重的困难,困难归困难,但因机器翻译的市场是巨大的,前景也是远大的,因此各个国家对机器翻译研究的兴趣正在持续增长,特别是日本,热情有增无减。全世界从事机器翻译的研究人员有几千人,其中日本就将近占了一半。机器翻译面临一些严峻问题,例如,机器翻译系统的译准率长期徘徊在70%左右(大规模真实语料文本下更低),译文的可读性、系统对语言现象的覆盖面、系统的鲁棒性尤其是开放性都

7、不尽人意。社会迫切需要对真实文本(尤其是网上海量文本)进行大规模的处理,而机器翻译系统同当今社会对大规模真实文本处理的期望相差甚远。机器翻译系统的译准率和译文可读性(可理解度,可懂度)之所以不尽人意是因为在翻译过程中存在着下列问题:源文句子分析时语法结构和语义结构存在歧义;多义词在不同语境中存在译词选择问题;译文生成时存在介词、助词的多义选择问题;译文生成时还存在性、数、格一致性问题、时态、语态、语气、尊称选择问题和符合母语语言习惯、语序选择问题;代词指代问题、相关词照应问题、省略成分复原问题,等等。 目前,机器翻译研究领域有几个研究动向值得注意: (1) 为解决机器翻译系统面临的重重困难,采

8、用多种翻译分析策略、多种翻译方法的结合是当前机器翻译研究的动向和前沿性研究; 现有基于规则的翻译技术和基于语料统计的翻译技术各有其不足之处,考虑到语言的规律性和重复性,一些研究者又提出了一种基于翻译记忆技术的机器翻译方法,即利用先验的或者人机交互过程中生成的翻译记忆,实现对输入文本的翻译,例如欧共体(德国TRADOS公司)开发的“Trados Translators workbench”系统、美国的CMU大学研究开发的Pangloss系统等,并已取得了很好的效果。不过由于它们是基于例子的完全匹配,有下面三方面的问题:一方面这种例子库无法包容所有的现实自然语言句子;另一方面由于例子的适应性不强,

9、如要使这种例子库具有一定的语言现象覆盖面的话,势必会使例子库非常庞大,并且细微差别不能够有效泛化,冗余度很大;第三方面是例子库的译文构造基本局限在模式匹配的语言处理层次上,译文近似构造能力很低。但是基于实例模式库的基于实例的翻译方法则能克服以上问题,是对基于简单翻译记忆方法的改造和完善。实际上现在很多机器翻译系统或研究基本上都是采用基于规则翻译方法和基于语料库翻译方法相结合,形成一种研究的潮流和动向。 (2) 在机器翻译系统中实现参数化,这也是现在机器翻译系统的一个发展方向和新动向。 为了提高机器翻译的译文质量,有效的方法是将通用的机器翻译系统进行专一领域化(可在很大程度上提高机器翻译系统的翻

10、译质量),而专一领域化又必须对每一个领域构造不同的专业领域词典加上通用词典,这就必须花费巨大的人力、物力和时间。为了既能对机器翻译系统实现专一领域化而又不必对每一个领域构造不同的专业领域词典,对机器翻译系统实现参数化是一种解决办法。参数化的机器翻译系统有一个翻译核心,而且只有一套词典和一套语法规则,但在模型的建立中设置了很多的参数。对于不同领域的需求,参数化的机器翻译系统采用自动学习的方法来调整参数的设置,以达到符合这个领域的要求。台湾清华大学的苏克毅教授与英群公司研制的英汉机器翻译系统ARCHTRAN(采用ATN、RULE、统计方法三结合),1989年5月完成,一直为IBM、HP、SUN等公

11、司翻译手册。苏克毅教授的英汉机器翻译系统中实现了参数化。 国内翻译软件市场上的商业软件主要有词典类软件和翻译类软件两种。前者包括金山词霸、东方快车、华建词海等产品,后者包括华建网上通系列、铭泰公司的东方快译系列、金山公司的金山快译、IBM的翻译家和中软公司的译星系列等全文翻译软件。华建机器翻译有限公司的IAT系统(单板版和局域网络版)、德国TRADOS公司的TRADOS系统(在英语类国家中市场占有明显领先地位,有60多个国家)、北京雅信诚软件公司的雅信CAT系统(按设定的匹配率给出参考译文)则是辅助翻译类的产品代表。 2. 机器翻译系统的分类及特点 从机器翻译系统研制的方法来分,机器翻译系统可

12、以分为如下类型: (1) 基于规则的机器翻译系统(Rule-Based MT system,简称RBMTS):它是根据专家的知识归纳的语言的规则设计的机器翻译系统。基于规则翻译方法在机器翻译界一直占有主导地位,直到今天仍发挥着重要作用,现在有影响的MTS都是基于规则的。 (2) 基于语料库的机器翻译系统(Corpus-Based MT system,简称CBMTS):它是根据从语料库中获取的统计数据或者语言实例来设计的机器翻译系统。基于语料库方法的MTS通常称为第三代MTS。基于语料库的机器翻译系统还可以进一步再分类,分为如下三种类型: a基于统计的机器翻译系统(Statistic-Based

13、 MT system,简称SBMTS):它是根据从语料库中获取的统计数据来设计的机器翻译系统。统计机器翻译的数学模型是由IBM公司的Brown等人提出的(1990,1993),它包括语言模型和复杂程度递增的5种翻译模型(数学模型),简称IBM Model 15。IBM公司的英法机译系统Candide在统计机器翻译方法上做出了有益尝试。 b基于实例的机器翻译系统(Example-Based MT system,简称EBMTS):它是根据从语料库中获取的语言实例来设计的机器翻译系统。基于实例翻译方法最早是由日本著名的机器翻译专家长尾真1984年提出的,其基本设想是不通过深层的分析,仅仅利用已有的翻

14、译经验知识,通过类比原理进行翻译。日本京都大学的英日实验系统MBT2在基于实例翻译方法上做出了有益尝试。 c翻译记忆系统(Translation Memory MT system,简称TMMTS):它是能够保存和重复使用翻译工作者已经翻译好的译文的翻译系统。翻译记忆软件在内容修订和更新的全过程中能保存和重复使用译文。如果有新的资料需要翻译,可以使用原来存储在翻译记忆中的译文,重复使用原来的译文。关于翻译记忆机制的设想,最早提出这一想法的是Peter Arthern(1978)。他指出:如果能在线检索已有的、相似文档的译文,翻译人员就能从中获得很大的帮助。他还主张开发一个程序,让系统记住已经翻译

15、过的文本,新文本输入后系统检查“记忆库”,找到相似的文本并输出其译文。翻译记忆技术系统产品包括Transit(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translators Workbench(Trados)、TransPro(TranPro)、WorldLingo等。 从机器翻译系统的自动化程度来分,机器翻译系统可以分为如下类型: (1) 全自动机器翻译系统(Full Automatic MT system, 简称FAMTS):它是由计算机全部自动地进行翻译的机器翻译系统。 (2) 人助机译机器翻译系统(Human-Assiste

16、d MT system,简称HAMTS):它是由人来辅助计算机进行翻译的机器翻译系统。可以通过译前编辑对于要翻译的原文进行加工,使之适合机器翻译系统的要求,或者通过译后编辑对于翻译好的译文进行修改,使之满足用户的需要。 (3) 机助人译机器翻译系统(Machine-Assisted MT system,简称MAMTS):它是由计算机辅助人来进行翻译的机器翻译系统。例如,人可以使用计算机来查询词典,修改译文错误等。 这后两种翻译系统合称计算机辅助翻译系统。 从翻译转换方式和翻译过程来分,机器翻译系统又可以分为以下三种类型: (1) 直译方式和直译式系统(Driect Translation MT

17、S,简称DTMTS):它是以直接翻译方法为基础的第一代机器翻译系统。直译法的基本原则是把原语的词或句子替换成相应的译语的词或句子,必要时对译文词序进行适当的调整。早期的MTS主要采用直译式的翻译模式。 (2) 基于转换翻译方式和基于转换方式的机器翻译系统(Transfer Based MTS,简称TBMTS):它包括源语言分析、源语言到目标语言的转换和目标语言生成三个阶段。转换方法保留了较多的源语句型信息和源语到目标语的结构转换信息,同时也较依赖双语词典来提供转换时所需的源语到目标语的结构转换信息。转换可以在词法、句法或语义等不同的层次上进行,即一类系统仅有句法转换,另一类则超越了表层结构加入

18、了语义分析。基于转换翻译方式其中的许多方法和技术相对比较成熟,直到今天仍被沿用。有些基于转换策略的MTS采用了在源语和译语之间能表现句法关系并在一定程度上表现语义关系的中间表达式(例如句法结构树、语义网络等)。在翻译过程中先把源语句子分析结果转化为中间表达式,再由中间表达式转换生成译文。第二代MTS以基于转换的方法为代表,普遍采用以句法分析为主、语义分析为辅的基于规则方法、采用由抽象的转换表示的分层次实现策略。比如著名的有加拿大蒙特利尔大学的TAUM-METEO系统,法国Grenoble大学的英法机器翻译系统GETA系统和TITUS系统,美国Texas大学的德英机器翻译系统METAL系统和LO

19、GOS系统、德国Saar大学的德俄英法多语机器翻译系统SUSY系统和日本FUJITSU公司的日英机器翻译系统ATLAS-I、ATLAS-II。 (3) 基于中间语言(中介语)方式和基于中间语言(枢轴式)的机器翻译系统(Interlingua-Based MTS,简称IBMTS):它将语义表达推至极限,试图创造一个独立于各种自然语言同时又能表达各种自然语言的无歧义人工语言作为中间语言。中间语言方法的基本论点是:虽然各种语言的表层结构(句法结构)差异比较大,但却有相同的深层结构表达式,这些表达式可以看作通用的语义表达式。源语经过各个层次的分析由表层结构到达深层结构,而目标语的生成也是从深层结构经过

20、各个层次最后到达表层结构。其特点是对多语翻译系统非常经济合算,将n(n-1)个双语有向系统变为2n个语言分析模块和生成模块。法国Grenoble大学的俄法系统CETA和美国Texas大学的德英机器翻译系统METAL在基于中间语言翻译方法上都做出了有益尝试。欧共体的EUROTRA计划包括多种语言互译,向多种语言间全自动翻译这一艰巨目标迈出实实在在的步伐。由日本政府(日本国际情报化合作中心CICC)资助的ODA计划从1987年至1992年(实际上是1993年)有日本、中国、泰国、马来西亚、印度尼西亚等五个亚洲国家参加,投资六十亿日元,对中间语言翻译方法进行了探索。 从机器翻译用户的需求来分,机器翻

21、译系统可以分为如下四种类型: (1) 为浏览者研制的机器翻译(MT for the Watcher,简称MT-W,或MT for the Browser,简称MT-B):其目的是帮助浏览者查阅外文资料,对于译文质量要求不高,浏览者可以接受粗糙的译文。 (2) 为修订者研制的机器翻译(MT for the Reviser,简称MT-R):其目的是帮助用户修订粗糙的译文,粗糙的译文经过修订之后,质量应该比为浏览者研制的机器翻译的译文有所提高。 (3) 为翻译者研制的机器翻译(MT for the Translator,简称MT-T):其目的是帮助用户进行在线机器翻译,用户在翻译时可以使用在线机器词

22、典、翻译实例库等,因此,对于译文质量的要求比较高。 (4) 为写作者研制的机器翻译(MT for the Author,简称MT-A):其目的在于帮助用户进行翻译或写作,要尽量避免翻译中的歧义,因此,对于译文质量要求更高。 3. 机器辅助翻译系统 前面已经讲过,机器翻译系统(全自动翻译)的译准率长期徘徊在70%左右,译文的可读性、系统对语言现象的覆盖面、系统的鲁棒性尤其是开放性都不尽人意。社会迫切需要对真实文本(尤其是网上海量文本)进行大规模的处理,而机器翻译系统同当今社会对大规模真实文本处理的期望相差甚远。机器辅助翻译(Computer Aided Translation,简称CAT)的思想

23、就是在这样的背景下产生的。与全自动机器翻译系统相比较,机器辅助翻译系统是一种人机交互式系统。在这种翻译模式中,计算机负责辅助翻译人员的任务,不仅给翻译人员提供一些词汇、术语、短语、惯用语翻译的知识,而且从已翻译过文本中查找相同或相似语句的译文,使翻译人员避免不必要的重复劳动,进行高效率的翻译工作。计算机辅助翻译的重要思想(包括基于翻译记忆技术和基于实例模式的翻译技术)是在翻译记忆库(双语对齐库)和实例模式库中搜索相同或相似的句子或短语,给出参考译文。翻译人员充分利用已有的翻译资源,尽量避免重复劳动。这种辅助翻译机制特别适合于科技专著、科技文献、产品说明书、用户手册、产品的帮助文件、联合国文件等

24、这种篇幅长、重复语言现象较多的文本类型的翻译,能帮助翻译人员消除重复的翻译劳动,只需专注于新内容的翻译。 机器辅助翻译系统有不同层次的系统,最早最低级的是各种双语电子词典,第二层是单纯的翻译记忆系统(如德国Trados公司的Translators Workbench),第三层是同时含有翻译记忆功能、基于实例模式翻译功能、甚至包括规则翻译功能的系统,例如国内的华建公司的基于多策略的交互式智能辅助翻译平台华建智能辅助翻译系统HJ-IAT。智能化的机器辅助翻译系统至少应该包括译前编辑、译后编辑、翻译记忆和检索、基于实例模式翻译、项目工程管理等功能。在基于实例模式翻译和基于翻译记忆技术翻译的翻译流程设

25、计上,有几种做法: (1) 第一种做法是仅仅包含基于翻译记忆技术功能或仅仅包含基于实例模式翻译功能; (2) 第二种做法是同时包含基于翻译记忆技术功能和基于实例模式翻译功能,但两种翻译方法和两种翻译过程混合在一起; (3) 第三种做法是同时包含基于翻译记忆技术功能和基于实例模式翻译功能,而且两种翻译方法和翻译过程分阶段进行。 这第一种做法的两种都不够全面,功能也不全,一般不应取这种做法。第二种做法能比第一种做法功能要强要全面,但是两种方法和两种过程混合在一起,技术难度要大,过程也不好控制。我自己的机器翻译系统研究经验和体会是第三种做法总体上最好,两种方法和两种过程的各自目标清晰明确,两种方法可

26、以将自己的优势发挥到极致,过程也好控制。4. 基于翻译记忆技术的辅助翻译的有关技术 前面提到关于翻译记忆机制的设想是Peter Arthern(1978)最早提出的。1980年前后一些研究人员纷纷开始收集和保存翻译样例,希望能将已有的翻译资源重新利用并资源共享。但当时计算机硬件限制(储存空间有限),建设双语语料库的费用高,双语语料对齐的算法不成熟,因此翻译记忆技术一直处于探索阶段。到1990年左右才有实际上的翻译记忆系统在市场上出现,如Sadler & Vendelman(1990)的“Bilingual Knowledge Bank”。之后支持翻译记忆的翻译工作站首次上市,产品包括Trans

27、it(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translators Workbench(Trados)、TransPro(TransPro)、WorldLingo等。而且随着计算机存储空间扩大、处理速度加快、大量文本数据数字化又相当容易,翻译记忆系统越来越得到翻译人员的关注和重视(John Hutchins,1998)。目前翻译记忆机制不仅是绝大多数机器辅助翻译系统的核心甚至已经成为机器辅助翻译的代名词,而且已经成为一些多种翻译策略的机器翻译系统的组成部分,成为基于规则翻译方法和基于统计方法的辅助手段和提高翻译效率的手段。 近几年

28、各种机器辅助翻译软件在国内外不断面世,它们的应用在国外翻译界较为普遍,如欧盟、德国大众、西门子、联合国、Microsoft、Cisco、Intel、HP等企业和国际组织使用“塔多思专业辅助翻译软件(Trados Translators Workbench)”来进行大量科技文献的翻译。“Translators Workbench”是由德国Trados公司开发的面向企业及个人的互动式翻译系统,该系统直接和微软的Word集成,界面友好,此外还有强大的网络共享、术语管理、翻译项目管理,为专业翻译领域提供了一整套的解决方案。塔多思基本垄断了国际大型翻译和本地化公司以及全球四万多企业和国际组织,市场占有率

29、达70%以上。中国对外翻译出版公司使用英国著名的翻译系统SDLX进行大量的专业文本的翻译。中国国内主要产品有雅信CAT和华建智能辅助翻译系统HJ-IAT,这两个系统都支持汉英、英汉双向翻译。 基于翻译记忆技术的辅助翻译的研制牵涉到双语语料库的库构造、语料管理和语料对齐技术、辅助翻译平台的翻译句对检索算法、项目工程管理有关技术,其中最重要的是双语语料库的规模、语料加工深度、加工质量、对齐描述的对齐信息描述内容和对齐技术以及对齐工具的开发。双语对齐可在篇章级、段落级、句子级、子句级、短语级、词汇级多种级别进行。目前比较实用的、技术比较成熟的是句子级的对齐。句子对齐现有方法基本上有三种:基于长度的方

30、法:依据的是两种语言译文的长度满足一定比例关系。基于双语词典的方法:根据双语单词对译的分布信息和词典翻译模型进行句子对齐。基于双语词典和基于长度的混合方法:基于长度的对齐方法模型简单,独立于语言知识和其他外部资源,对齐效率高,但容易造成错误蔓延。基于双语词典对齐方法相对可靠精确,但计算相当复杂并且词典译文覆盖率先对较低。将这两种方法结合起来进行句子对齐,有互补优势,可提高对齐的召回率和正确率。句子对齐模式可能存在多种模式,例如1:1,1:n,n:1,m:n,甚至0:1或1:0模式。 同句子对齐相比,短语对齐或词汇对齐可以提供更细粒度的对译信息,能有效地提高译文准确度和可读性,因此对它的研究具有

31、重要意义。就词汇级对齐技术而言,目前有基于统计的和基于词典的两类主要方法。统计方法的主要思想是通过对大规模双语语料的统计训练,获得双语对译词同现概率,以此作为对齐的根据。Brown首先实现了基于统计的机器翻译模型的词对齐,Dagan等对Brown的模型进行了改进。Gale & Church等人使用概率分布统计双语对译词的同现概率。Vogel等把HMM模型引入词对齐。虽然基于统计的词对齐方法已被证明有效,但是该方法需要超大规模的双语语料库作为训练基础(Brown所用语料库规模是1778620句对,Gale所用语料库的规模是897077句对)但一般人很难获得如此规模的双语语料库。而在小规模语料库中

32、直接应用基于词汇同现的统计方法不可避免出现数据稀疏问题。由于语言学信息在双语语料库词对齐中有着重要的作用,所以近年来基于词典和语言学知识的词对齐方法也逐渐得到了人们的重视。基于双语词典的方法可以获得可靠的非空匹配。但是由于真实文本翻译上下文的多样性和翻译的灵活性,词典译文的覆盖率相对比较低。因此有些研究使用词性对齐统的计方法和基于双语词典方法结合的方法来进行双语词汇对齐。另外还有基于位置变形距离的方法等。华建公司在词法分析的基础上利用有限的语言资源(主要是用一部双语词典),采取多级匹配和消歧算法,将词对齐问题转化为迭代问题求解锚点词对的过程。 5. 基于实例模式翻译的有关技术 由日本著名机器翻

33、译专家长尾真首先提出的基于实例的翻译方法的基本思想是根据已经翻译过的句子实例,通过效仿人类类比思想获得当前带翻译句子结果,即我们平常说的触类旁通,举一反三。 为了增强机器翻译系统的鲁棒性和开放性使之适应当今信息社会对大规模真是文本翻译处理的迫切需要,更是为了增强机器辅助翻译的功能,研究和实现基于实例模式翻译具有重大的意义。基于实例的翻译方法有一系列的技术问题,例如实例的选取、实例模式的机内表示和存储结构、查询算法、复杂句长难句的分析和实例组合、实例模式自动积累、实例精炼和泛化、待翻句子与实例库中实例句子相似度的计算等。其中句子相似度的计算是其核心技术之一。 句子相似度的计算包括词的相似度计算、句子句法结构的相似度计算、句子语义结构的相似度计算。基于实例模式翻译方法的特点为:如在实例库中找到句法结构和语义结构都相似的例句便可得到相当准确的译文,而且译文可读性也很好。与同样以双语语料库为基础的基于统计的翻译方法相比,基于实例模式的翻译方法对语料库的规模没有太严格的限制,它可以充分利用已有的有限资源,不需要大数据量的训练。 谢谢!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|