ImageVerifierCode 换一换
格式:PPT , 页数:15 ,大小:236KB ,
文档编号:4988398      下载积分:19 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4988398.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(ISCAS机器翻译和系统融合评测系统课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

ISCAS机器翻译和系统融合评测系统课件.ppt

1、ISCAS机器翻译和系统融合评测系统机器翻译和系统融合评测系统张大鲲张大鲲 孙乐孙乐中国科学院软件研究所中国科学院软件研究所2大纲大纲l汉英新闻领域翻译评测汉英新闻领域翻译评测概述概述系统流程系统流程预处理和后处理预处理和后处理测试结果测试结果l系统融合评测系统融合评测3概述概述l训练语料受限的汉英机器翻译训练语料受限的汉英机器翻译l基于短语的统计机器翻译系统基于短语的统计机器翻译系统4元语言模型元语言模型3元大小写敏感语言模型进行大小写还原元大小写敏感语言模型进行大小写还原利用规则对数字进行处理利用规则对数字进行处理4系统流程系统流程全部小写化全部小写化GIZA+双向词对齐双向词对齐短语抽取

2、短语抽取5个概率个概率4元元语言模型语言模型3元大小写敏感元大小写敏感语言模型语言模型数词翻译数词翻译替换替换翻译输出翻译输出数词识别数词识别与替换与替换Beam搜索搜索解码解码预处理预处理后处理后处理训练训练平行语料平行语料5特征特征l短语翻译概率短语翻译概率l词汇化概率词汇化概率l反向短语翻译概率反向短语翻译概率l反向词汇化概率反向词汇化概率 l短语惩罚概率(短语惩罚概率(2.718)l词语惩罚(目标语言句子长度)词语惩罚(目标语言句子长度)l目标语言模型,目标语言模型,4元元)|(fep)|(felex)|(efp)|(eflex6预处理和后处理预处理和后处理l中文语料中的英文和英文语料

3、全部小写中文语料中的英文和英文语料全部小写l中文全角字符转换为半角中文全角字符转换为半角 ABC123lStanford Chinese Word Segmenter分词分词l数字单独处理数字单独处理7训练语料训练语料来源来源数据提供数据提供单位单位数据文件数据文件类型类型句对数目句对数目(约)(约)厦门大学英汉电影字幕平行语料库厦门大学英汉电影字幕平行语料库厦门大学厦门大学电影电影17万万哈工大信息检索组英汉句子级对齐语料库哈工大信息检索组英汉句子级对齐语料库哈工大检索哈工大检索综合综合10万万ChineseLDC(资源编号:(资源编号:CLDC-LAC-2003-006)汉英汉英/汉日双语

4、语料库(汉英部分)汉日双语语料库(汉英部分)北京大学北京大学综合综合20万万哈工大机器翻译组英汉句子级对齐语料库哈工大机器翻译组英汉句子级对齐语料库哈工大机译哈工大机译综合综合5万万ChineseLDC(资源编号:(资源编号:CLDC-LAC-2003-004)中英句子级对齐双语语料库中英句子级对齐双语语料库计算所、自计算所、自动化所动化所综合综合30万万合计合计82万万短语数量:短语数量:1600万万8开发集调整参数开发集调整参数参数参数WPPT-0.26590.04490.10090.03210.0433-0.2747参数参数DWLWMLLDMSTL0.09490.14337410020W

5、P 词语惩罚词语惩罚PT 翻译模型概率(包括词汇化概率和短语惩罚)翻译模型概率(包括词汇化概率和短语惩罚)DW 调序的权重调序的权重LW 语言模型权重语言模型权重ML 最大的短语长度最大的短语长度LD 调序的限制范围调序的限制范围MS 栈大小栈大小TL 允许的最多翻译候选项允许的最多翻译候选项489句句4个参考答案个参考答案BLEU=0.10399测试结果测试结果IDBLEU4NIST5GTMmWERmPERICT受限语料受限语料ISCAS0.18386.81840.65960.78840.56760.2752最好结果最好结果0.22647.64260.71280.73070.51640.33

6、52非受限语料非受限语料最好结果最好结果0.28097.52350.72380.68240.50500.380510系统融合系统融合l主要方法主要方法(Rosti et al.2007)句子级融合句子级融合l重评分,输出最好的句子重评分,输出最好的句子短语级融合短语级融合l构造新的短语表,计算概率,重新解码构造新的短语表,计算概率,重新解码词级融合词级融合l词对齐,形成词图,最优路径词对齐,形成词图,最优路径11系统融合系统融合12重评分重评分l统计在候选翻译中出现的所有统计在候选翻译中出现的所有n-gram个数个数l计算每个句子中命中的个数计算每个句子中命中的个数 niSgramiiSgra

7、mcountwP1)(n=7 iw权重,利用开发集训练权重,利用开发集训练13测试测试l使用提供的使用提供的10个单位提交的个单位提交的17个系统的翻译个系统的翻译结果(没有使用系统结果(没有使用系统U14的结果)的结果)IDBLEU4NIST5GTMmWERmPERICTISCAS0.25098.10130.71960.71540.50050.3336最好结果最好结果0.29447.75010.73190.67610.49720.392014总结总结l汉英新闻领域翻译评测汉英新闻领域翻译评测训练语料受限训练语料受限基于短语的翻译系统基于短语的翻译系统l4元语言模型元语言模型l利用规则对数字进行处理利用规则对数字进行处理l系统融合评测系统融合评测句子级的融合方法句子级的融合方法利用利用n-gram进行重评分进行重评分15谢谢谢谢!Thanks!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|