语音数据与语音合成课件.ppt

上传人(卖家):晟晟文业 文档编号:4532415 上传时间:2022-12-17 格式:PPT 页数:45 大小:5.83MB
下载 相关 举报
语音数据与语音合成课件.ppt_第1页
第1页 / 共45页
语音数据与语音合成课件.ppt_第2页
第2页 / 共45页
语音数据与语音合成课件.ppt_第3页
第3页 / 共45页
语音数据与语音合成课件.ppt_第4页
第4页 / 共45页
语音数据与语音合成课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、语音合成技术 什么叫语音合成 Text To Speech过程,简称TTS 作用:将文本状态的文字信息转化为可听的声音信息“电脑会说话”键 盘光电扫描手写识别网络/数据库文 本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理 语音产生的生理过程总纲 1 .数字语音信号 2 .语音合成技术 3 .数据制作与合成 4 .合成效果测听数字语音信号 什么是数字语音信号 语音:说话,声波传递的语言 语音信号:记录下来的声波振动 模拟语音信号:(磁带,唱片)数字语音信号:模拟信号数字化(wav mp3 CD)-计算机应用的需要计算机应用的需要 如何数字化 取样:采样率(时间尺子,8K,16K,44

2、K,每秒样点数量)量化:量化精度(幅度尺子,16bit,-3276732768范围)数字语音信号 取样和量化数字语音信号 波形不能说明内容数字语音信号 频域介绍 一段任意波形可以由一系列正弦波形组合而成 离散傅里叶变换数学表示:最高值,采样率的一半(16K wav;max freq=8K Hz)人可听辨的频率范围:(20Hz 20kHz)电话语音信道的频率范围(60Hz 3400Hz)数字语音信号 语谱图数字语音信号 清音和浊音 浊音:声带的快速振动,声带能够将稳定气流转换成振动振动频率称为基频,准周期性 清音:紊乱气流,肺部气流通过声道中的狭窄处产生 爆破音:突然爆破数字语音信号 声学特征

3、如此杂乱多变的信号,如何描述,如何恢复?语音信号产生的数字模型(源-滤波器模型)数字语音信号 声学特征 基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义 谱参数:描述声道和口唇辐射共振峰,LPC,倒谱参数总纲 1 .数字语音信号 2 .语音合成技术 3 .数据标注与合成 4 .合成效果测听语音合成技术 主流技术路线 基于统计规则的大语料库拼接语音合成系统 基于HMM的参数语音合成系统 基于HMM的语料库拼接语音合成系统两条道路:要么是波形切分再拼合起来,要么是声学参数转化出来语音合成技术 基于统计规则的大语料库拼接语音合成系统 传统大语料库合成,In

4、terPhonic 5.0之前 单元挑选波形拼接 超大规模音库制作 语料设计,音库录制,精细切分,韵律标注 规则统计,针对不同发音人的细致调整 优点:音质最佳,正常句子的自然度也很好 缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中 样例:InterPhonic系统处理流程语音合成技术 基于HMM的参数语音合成系统 首先进行语音特征参数的提取 以音素为单位(中文为声韵母),使用HMM(Hidden Markov Model)对自然语流的频谱特征参数进行建模 采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数 最后生成参数输入合成器

5、,得到合成语音 优点:所需音库规模小,标注精度要求相对降低,自然度高,系统小,灵活度高,ViviVoice,AiSound 缺点:音质相对较差,带有合成器风格 样例:语音合成技术 参数语音合成系统框架语音合成技术 HMM参数建模 用声学参数针对音素建模 为什么要建模?描述的音素特征变化 隐马尔科夫模型(Hidden Markov Model -HMM)语音合成技术 决策树模型聚类 有了模型怎么使用?来一句话怎么预知用哪个模型?基于上下文的信息的决策树聚类语音合成技术 基于HMM的语料库拼接语音合成系统 利用HMM目标模型和连接模型来指导单元挑选 结合参数训练模型的数学统计模型优势和波形拼接的高

6、音质,相对以前的大语料库技术在自然度上有较大提升 自主原发,意义重大 优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,InterPhonic 5.5以上版本 缺点:仍然需要很大规模的语料库,计算量较大 样例:语音合成技术 基于HMM的单元挑选系统结构图总纲 1 .数字语音信号 2 .语音合成技术 3 .数据制作与合成 4 .合成效果测听数据制作与合成 数据与合成的关系 音库数据是合成系统的基石,离开了音库谈合成就是“无源之水 无本之木”一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果数据制作与合成 数据制作过程 音库设计 音库录制 音素切分 韵律标注 音素检

7、错 基频修正 索引制作数据制作与合成 音库设计与合成 一个设计良好的音库要有较好的音素,韵律覆盖率 广泛的语料来源,保证超大规模库的稳定 某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要“还烦请大家收集更多更好的语料文本”数据制作与合成 音库录制与合成 录音控制很重要 录音室环境,隔除噪音 话筒的摆放,能量幅度范围 如何保持发音人的发音状态 轻松心态,自然流程,不要带情绪,除非这是情感库 适度原则,不要疲劳录音,宁缺勿滥 批次比对,及时与之前数据做比对,可加入重复句“还请大家多关注录音质量”数据制作与合成 音素切分与合成 切分精度 精切:大语料库拼接标准,周期下降沿 粗切:参数合

8、成与HMM拼接,模型具有一定内部切分调整能力 粗切不代表切分不重要,好的初始位置能帮助模型自切。电脑未必比人聪明,清浊好定,浊浊也难定,还需修正 停顿位置 什么地方有Sp,silv,pau?标准L3层以上边界,30ms以上计算机才能使用 如果本来有停顿却没有加silv,停顿段会影响前后音素单元质量 一些录音缺陷也可塞给停顿位置,鼻息,口水音 合成样例:The*psychotropic*airplanes#underwrote*the*dispassionate*song。数据制作与合成 音素切分与合成 音变处理 连续语流总存在一些规则音变或者不规则音变,导致所读不是原来词典音素 音素是身份牌,

9、这个错了后果很严重!修改标准:尊重录音 中文:声调变化,儿化,轻读。没被改过的音变就是地雷 英文:连读,吞音,弱化,缩写词 吞音标准:有无音位,或者我去掉这个读有无差别 英文音素短,不是母语,更需小心“还请大家切音时多细心”数据制作与合成 韵律标注与合成 韵律标注是音素的档案,据此来分门别类,听候取用 良好的韵律标注帮助我们构建正确有效的统计预测结构,上下文韵律决策树 如果韵律标注是错误的,连锁毁灭性破坏韵律标错-聚类分错-模型建错-预测走错 -参数找错-挑选看错-合成出错-客户很生气-game over数据制作与合成 韵律标注与合成 中文韵律:调型,停顿层次(L0 L1 L2 L3 L4 L

10、5)英文韵律:ToBI(Tone and Break Index)停顿层次:Tone Break 边界调:Phrase Tone 重读:Pitch Accent数据制作与合成 韵律标注与合成 标注不同对合成的影响实例 重读 But*I*did*not(H*)*enjoy*it*long。边界调 Now*run*along(L-H%),and*tell*them*to*hurry。数据制作与合成 韵律标注与合成 一致性!一致性非常重要,统一标准 面对模棱两可的地方,如何取舍?个人尊重大家意见 新人咨询资深意见 多讨论,多比对 对新录库可以按批次做一致性检查“还请大家细致统一的标注韵律”数据制作与

11、合成 音素检错与基频修正 评测会给数据打分纠错,合成也需要 挑出音库中可能存在的地雷 检错种类:浊浊修正 调型修正 音素修正 基频修正 特点:直接锁定位置判断,规律性强“还请大家多反馈检错时的规律总结”数据制作与合成 索引制作与合成 音库索引将音库韵律和参数信息整理保存 合成需要从索引中提取数据,拼接合成在系统挑选时还需要直接使用索引 较为固定,但一旦出错不易更改 某个词性错位问题遗留很久才被发现(技术人员的错误)“制库工作很繁琐,烦劳大家了”总纲 1 .数字语音信号 2 .语音合成技术 3 .数据制作与合成 4 .合成效果测听合成效果测听 测听与合成 效果测听是评判合成系统好坏的硬性指标 常

12、用测听项目 音质 自然度 相似度 主观打分标准,(mean opinion score,MOS)MOS分主观意见5分优,察觉不到任何不自然4分良,刚察觉若干不自然3分可,能察觉不自然但可以接受2分差,明显察觉但可忍受1分坏,不可忍受合成效果测听 测听与合成 音质测听注意事项 对音质由技术路线主导,但敏感度因人而异,主观好恶 16K原始录音音质可打5分 16k原始分析合成可到4分 波形拼接合成音质可超4分 参数合成系统音质在3分附近 尽量减少自然度上的错误对音质打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 测听数量不能少,要有覆盖率和代表性 一只好耳机,包住耳朵,提高音

13、量 其实,5分很高,2分很低合成效果测听 测听与合成 自然度测听注意事项 同样是主观打分,个人标准看待 说话人原始录音也只能接近5分 参数合成较为流畅,相对平淡 拼接合成存在不稳定性,波动较大 自然度测听强调对不自然处的扣分 同样尽量减少不同音质对自然度打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 保证一定数据量,如果数量很多,可以分批测听 5分太高,2分很丢人合成效果测听 测听与合成 相似度测听注意事项 一般会提供目标人的录音作参照 重点考察音色,兼顾基频,时长,口音 一般测听要求 黑盒不重要 0.5分间隔:提高一致性合成效果测听 测听与合成 偏向性测听注意事项 在两个较为接近的效果中取舍 测听要求 一定要黑盒!可以用黑盒工具,固定0,1打分 偏向性选择只能选一个 在特别说明时,对难以区分的,可以同时选或不选合成效果测听 测听与合成 外教测听注意事项 对外语种合成效果测听,native人士的感觉很重要 一般只对整体感觉打分,综合音质自然度 测听要求 多交流说明我们的目的 对关注的问题需要直接沟通 控制测听时间和数量,保证测听质量合成效果测听 测听与合成 一句话总结“还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观,细致,有代表性的评判”谢谢!欢 迎 提 问 Thank you

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(语音数据与语音合成课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|