ImageVerifierCode 换一换
格式:PPT , 页数:33 ,大小:1.12MB ,
文档编号:4622913      下载积分:25 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4622913.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(第三讲-语音合成概述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

第三讲-语音合成概述课件.ppt

1、第三讲 语音合成概述背景目标基本问题技术历程典型系统第三讲 语音合成概述背景目标基本问题技术历程典型系统背景计算机的普及人机自然语言交互语音合成在人机交互系统中的作用语音合成的其它应用Speech RecognitionNatural Language UnderstandingDialog ManagerSpeech SynthesisNatural Language GenerationInformation DatabaseSpeech InSpeech Out第三讲 语音合成概述背景目标基本问题技术历程典型系统目标“让计算机像人一样说话”从文字到语音TTS(Text-To-Speech

2、)从概念到语音CTS(Concept-To-Speech)从意念到语音ITS(Intention-To-Speech)现阶段-TTS前瞻性-CTS等待时机-ITS第三讲 语音合成概述背景目标基本问题技术历程典型系统基本问题原因 从语音到文字的信息缺失从文字到语音(TTS)从文字到发音描述 发什么音 如何发音 从发音描述到语音合成第三讲 语音合成概述背景目标基本问题技术历程典型系统技术历程1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Uni

3、t-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable技术历程1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Unit-sel

4、ection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable音色,孤立音段音色,孤立音段音色,孤立词音色、韵律,语句韵律,语句第三讲 语音合成概述背景目标基本问题技术历程典型系统典型系统基于单元挑选的TTS系统构成(韵律导向)两个模块 前端:文本处理,从文字到发音描述 后端:语音处理,从发音描述到

5、语音合成 一个接口,发音描述 数据库,合成单元ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output

6、 speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parame

7、terDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcoust

8、icsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackendPOS(Part Of Speech)典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(

9、ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tOutPut PPhrase Layer:#北京交通大学#成立于#一八九六年OutPut IPhrase Layer:#北京交通大学成立于一八九六年OutPut Sentence Layer:#北京交通大学成立于一八九六年ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegme

10、ntAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于

11、(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tPhonetizer:北 bei3 京 jing1(BL:北京)交 jiao1(BL:交通)通 tong1(BL:交通)大 da4(BL:大学)学 xue2(BL:大学)成 cheng2(BL:成立)立 li4(BL:成立)于 yu2(BL:于)一 yi1(BL:一八九六年)八 ba1(BL:一八九六年)九 jiu3(BL:一八九六年)六 liu4(BL:一八九六年)年 nian2(BL:一八九六年)ParserProsodic Ev

12、ent PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交

13、通大学成立于1896年年。Interface:2 1 2%0 0 2%0 ng 2%0 ng 2%0 ng 2%0 0 0 2%0 vg_pg 2%0 0 0 2%0 t 2%0 0 1 2 ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,proso

14、dic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)GMM(jiao1)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)Segment Acoustic Pr

15、edictor:occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4)ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText Normalizatio

16、nCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(j

17、ing1),sam(jiao1),)Corpus:bei3 jing1ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInte

18、rface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus:bei3 jing1Speech Synthesizer:北京交通大学成立于北京交通大学成立于1896年年。ParserProsodic Event

19、PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend后续题目 基础知识 韵律 原理分析 关键技术

20、 数据库构建 文本处理 声学建模 最优搜索/合成器 相关研究 音色调整/转换 HMM合成器 挑战基于数据驱动的韵律建模 Two trainable components:based on an annotated corpus Prosodic event predictor Prosodic parameter predictorprosodic eventphonetic contextprosodicacoustic modelprosodicparameterprosodic annotationspeechphonetic annotationtextannotated corpus

21、prosodic eventprosodicdescription modelparser,POS韵律功能Prosody structureEx.1,已经取得文凭的和尚未取得文凭的干部Ex.2,顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。Ex.3,政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议提案审查委员会关于政协十届一次会议提案审查情况的报告草案(58)IntonationEx.4,明天是个晴天,最高气温.(flat)Ex.5,明天是个晴天!我们可以.(glad)Ex.6,明天是个晴天?(interrogative)AccentEx.7,明天是个晴天 vs.明天是个晴天Mood

22、Ex.8,明天是个晴天 glad vs.明天是个晴天 sadprosody is not all for mood,timbre is changed also韵律的声学实现In acoustic,prosody is presented as the variances of pitch duration intensity pause韵律描述 C-ToBI defined 1st,prosody structure 知觉判断等级与韵律层级结构对应 coming,accent index 汉语韵律层次韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。语调短语(in

23、tonational phrase):具有完整的语调,听感上可独立成句的一段发音音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。韵律词(prosodic word):所有的句法词具有类似词的连调模式和词重音模式、较短的词组其它凡是属于一个音步的结构跨度为1-4个音节,极大多数为2-3个音节,少数为单音节和四音节结构。中间短语(intermediate phrase):介于语调短语和韵律词之间的节奏单元由一个或多个韵律词构成中间短语之间可能存在嵌套结构韵律标注依据听觉进行边界类型的判断,并辅助以特定类型处理的约定听觉判决所依据的线索 基频重置,边界末音节展延,停顿,节奏

24、的变化 需从全局的、层级的角度考察每段发音标注符号 BP2:用以界定语调短语边界 BP1:用以界定中间短语边界 BP0:用以界定有明显停顿的音步/韵律词间的边界 空格:用以界定音步/韵律词边界*:用以界定韵律词内的音步边界特定类型约定 位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归后一短语 BP0为音步边界,且具有明显的停、顿,倾向于从严标出一个韵律结构标注的例子S1编者 按(BP2)世界上(BP1)有些事 是 相似的(BP2)甚至(BP0)惊人地 相似S2编者 按(BP2)世界上 有些事(BP1)是 相似的(BP2)甚至(BP0)惊人地 相似Problem of consis

25、tencytrainingacceptable韵律的深层次标注Accent IndexWhat is AI Sample 催眠师有相当的威望体现语义上的着重和聚焦的一种韵律特征Domains:word level:lexical stresssentence level:prominence,focus,emphasis,accentedWhy is AI neededmore smooth voicemore expressive synthesis voiceAI acoustic realizationrelativity:relative accented/unaccenteduniv

26、ersal:integrateAI prosody functionNew topicFocusStress pattern(技术/计数)AI初步实验 accent index automatically detecting based on the hierarchically prosodic structure prosodic approximation-ratio of the syllable as the indicator,ref.to Xu Yis work prosodic parameters predicted with AI Samples 催眠师有相当的威望课程报告4 语音合成综述及专题阅读现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003王仁华:“语音合成技术最新研究进展及其应用展望”初敏 http:/ ssw,icassp,speech prosody在线演示科大讯飞 http:/ http:/

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|