1、第三讲 语音合成概述背景目标基本问题技术历程典型系统第三讲 语音合成概述背景目标基本问题技术历程典型系统背景计算机的普及人机自然语言交互语音合成在人机交互系统中的作用语音合成的其它应用Speech RecognitionNatural Language UnderstandingDialog ManagerSpeech SynthesisNatural Language GenerationInformation DatabaseSpeech InSpeech Out第三讲 语音合成概述背景目标基本问题技术历程典型系统目标“让计算机像人一样说话”从文字到语音TTS(Text-To-Speech
2、)从概念到语音CTS(Concept-To-Speech)从意念到语音ITS(Intention-To-Speech)现阶段-TTS前瞻性-CTS等待时机-ITS第三讲 语音合成概述背景目标基本问题技术历程典型系统基本问题原因 从语音到文字的信息缺失从文字到语音(TTS)从文字到发音描述 发什么音 如何发音 从发音描述到语音合成第三讲 语音合成概述背景目标基本问题技术历程典型系统技术历程1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Uni
3、t-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable技术历程1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Unit-sel
4、ection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable音色,孤立音段音色,孤立音段音色,孤立词音色、韵律,语句韵律,语句第三讲 语音合成概述背景目标基本问题技术历程典型系统典型系统基于单元挑选的TTS系统构成(韵律导向)两个模块 前端:文本处理,从文字到发音描述 后端:语音处理,从发音描述到
5、语音合成 一个接口,发音描述 数据库,合成单元ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output
6、 speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parame
7、terDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcoust
8、icsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackendPOS(Part Of Speech)典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(
9、ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tOutPut PPhrase Layer:#北京交通大学#成立于#一八九六年OutPut IPhrase Layer:#北京交通大学成立于一八九六年OutPut Sentence Layer:#北京交通大学成立于一八九六年ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegme
10、ntAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于
11、(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tPhonetizer:北 bei3 京 jing1(BL:北京)交 jiao1(BL:交通)通 tong1(BL:交通)大 da4(BL:大学)学 xue2(BL:大学)成 cheng2(BL:成立)立 li4(BL:成立)于 yu2(BL:于)一 yi1(BL:一八九六年)八 ba1(BL:一八九六年)九 jiu3(BL:一八九六年)六 liu4(BL:一八九六年)年 nian2(BL:一八九六年)ParserProsodic Ev
12、ent PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交
13、通大学成立于1896年年。Interface:2 1 2%0 0 2%0 ng 2%0 ng 2%0 ng 2%0 0 0 2%0 vg_pg 2%0 0 0 2%0 t 2%0 0 1 2 ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,proso
14、dic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)GMM(jiao1)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)Segment Acoustic Pr
15、edictor:occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4)ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText Normalizatio
16、nCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(j
17、ing1),sam(jiao1),)Corpus:bei3 jing1ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInte
18、rface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus:bei3 jing1Speech Synthesizer:北京交通大学成立于北京交通大学成立于1896年年。ParserProsodic Event
19、PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend后续题目 基础知识 韵律 原理分析 关键技术
20、 数据库构建 文本处理 声学建模 最优搜索/合成器 相关研究 音色调整/转换 HMM合成器 挑战基于数据驱动的韵律建模 Two trainable components:based on an annotated corpus Prosodic event predictor Prosodic parameter predictorprosodic eventphonetic contextprosodicacoustic modelprosodicparameterprosodic annotationspeechphonetic annotationtextannotated corpus
21、prosodic eventprosodicdescription modelparser,POS韵律功能Prosody structureEx.1,已经取得文凭的和尚未取得文凭的干部Ex.2,顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。Ex.3,政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议提案审查委员会关于政协十届一次会议提案审查情况的报告草案(58)IntonationEx.4,明天是个晴天,最高气温.(flat)Ex.5,明天是个晴天!我们可以.(glad)Ex.6,明天是个晴天?(interrogative)AccentEx.7,明天是个晴天 vs.明天是个晴天Mood
22、Ex.8,明天是个晴天 glad vs.明天是个晴天 sadprosody is not all for mood,timbre is changed also韵律的声学实现In acoustic,prosody is presented as the variances of pitch duration intensity pause韵律描述 C-ToBI defined 1st,prosody structure 知觉判断等级与韵律层级结构对应 coming,accent index 汉语韵律层次韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。语调短语(in
23、tonational phrase):具有完整的语调,听感上可独立成句的一段发音音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。韵律词(prosodic word):所有的句法词具有类似词的连调模式和词重音模式、较短的词组其它凡是属于一个音步的结构跨度为1-4个音节,极大多数为2-3个音节,少数为单音节和四音节结构。中间短语(intermediate phrase):介于语调短语和韵律词之间的节奏单元由一个或多个韵律词构成中间短语之间可能存在嵌套结构韵律标注依据听觉进行边界类型的判断,并辅助以特定类型处理的约定听觉判决所依据的线索 基频重置,边界末音节展延,停顿,节奏
24、的变化 需从全局的、层级的角度考察每段发音标注符号 BP2:用以界定语调短语边界 BP1:用以界定中间短语边界 BP0:用以界定有明显停顿的音步/韵律词间的边界 空格:用以界定音步/韵律词边界*:用以界定韵律词内的音步边界特定类型约定 位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归后一短语 BP0为音步边界,且具有明显的停、顿,倾向于从严标出一个韵律结构标注的例子S1编者 按(BP2)世界上(BP1)有些事 是 相似的(BP2)甚至(BP0)惊人地 相似S2编者 按(BP2)世界上 有些事(BP1)是 相似的(BP2)甚至(BP0)惊人地 相似Problem of consis
25、tencytrainingacceptable韵律的深层次标注Accent IndexWhat is AI Sample 催眠师有相当的威望体现语义上的着重和聚焦的一种韵律特征Domains:word level:lexical stresssentence level:prominence,focus,emphasis,accentedWhy is AI neededmore smooth voicemore expressive synthesis voiceAI acoustic realizationrelativity:relative accented/unaccenteduniv
26、ersal:integrateAI prosody functionNew topicFocusStress pattern(技术/计数)AI初步实验 accent index automatically detecting based on the hierarchically prosodic structure prosodic approximation-ratio of the syllable as the indicator,ref.to Xu Yis work prosodic parameters predicted with AI Samples 催眠师有相当的威望课程报告4 语音合成综述及专题阅读现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003王仁华:“语音合成技术最新研究进展及其应用展望”初敏 http:/ ssw,icassp,speech prosody在线演示科大讯飞 http:/ http:/
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。