语音信号处理绪论课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

语音信号处理绪论课件.ppt

1、1.1 1.1 概述概述1.2 1.2 语音识别发展概况语音识别发展概况1.3 1.3 语音编码发展概况语音编码发展概况1.4 1.4 语音合成发展概况语音合成发展概况1.5 1.5 语音处理的其他分支语音处理的其他分支l噪声环境下语音处理系统性能急剧下降噪声环境下语音处理系统性能急剧下降l说话人发音方式、口音变化等将导致系统性能下降说话人发音方式、口音变化等将导致系统性能下降l 训练和测试数据差异较大时，系统性能将下降训练和测试数据差异较大时，系统性能将下降ll车载语音：车载语音：汽车导航、空调、车窗、影音等的语音控制汽车导航、空调、车窗、影音等的语音控制l呼叫中心：呼叫中心：交互式语音应答

2、的补充、服务质量评估、增强安全性等交互式语音应答的补充、服务质量评估、增强安全性等l 移动终端：移动终端：语音秘书、语音播报、语音输入法、语音听写系统语音秘书、语音播报、语音输入法、语音听写系统l教育和娱乐：教育和娱乐：语音教具、语音（普通话）评测、智能语音家电和玩具语音教具、语音（普通话）评测、智能语音家电和玩具l 公共安全及服务：公共安全及服务：语音监听与跟踪、家庭服务、宾馆服务、旅行社语音监听与跟踪、家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等服务系统、订票系统、医疗服务、银行服务、股票查询服务等l卡耐基梅隆大学、剑桥大学、爱丁堡大学、华盛顿大学、卡耐

3、基梅隆大学、剑桥大学、爱丁堡大学、华盛顿大学、清华大学、中科大、中科院清华大学、中科大、中科院等一直从事语音处理研究等一直从事语音处理研究l 2011年苹果公司推出年苹果公司推出Siri(Iphone4S的语音控制功能的语音控制功能)l 2010年科大讯飞推出新一代年科大讯飞推出新一代“语音云语音云”平台平台l 2011年腾讯公司推出年腾讯公司推出QQ云语音面板云语音面板l Nuance,Google,微软微软,IBM,百度百度,盛大盛大,华为等华为等也投入巨资也投入巨资v为什么要学习和研究为什么要学习和研究语音信号处理语音信号处理技术？技术？语音是最自然、最有效、最方便的人机（人与人）交互

4、手段语音是最自然、最有效、最方便的人机（人与人）交互手段国内外各大公司（研究机构）一直从事语音信号处理研究国内外各大公司（研究机构）一直从事语音信号处理研究语音信号处理技术用途非常广泛语音信号处理技术用途非常广泛语音信号处理技术远未成熟，需进一步改进语音信号处理技术远未成熟，需进一步改进语音信号处理技术始终与当时信息科学中最活跃的前沿学科保语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系，并且一起发展持密切的联系，并且一起发展比如：机器学习、小波分析、模式识别、神经网络、人比如：机器学习、小波分析、模式识别、神经网络、人工智能等工智能等v人的言语过程人的言语过程想说说

5、出传输接收理解语音合成语音编码语音识别说话人识别计算机计算机语音识别语音识别和和语音合成语音合成是实现人机语音通信，建是实现人机语音通信，建立一个有听和说能力的口语系统所必需的两项立一个有听和说能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。力，是当今时代信息产业的重要竞争市场。v语音信号处理的主要分支语音信号处理的主要分支语音识别语音识别 Speech Recognition 语音合成语音合成 Speech Synthesis 语音编码语音编码 Speech Coding 对模拟的语音信号进行编

6、码，将模拟对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输信号转化成数字信号，从而降低传输码率并进行数字传输。分为码率并进行数字传输。分为波形编码波形编码、参量编码参量编码（音源编码）和（音源编码）和混合编码混合编码。利用计算机和一些专门装置模拟人，制利用计算机和一些专门装置模拟人，制造语音的技术。造语音的技术。TTSTTS（文语转换）技术隶（文语转换）技术隶属于语音合成。属于语音合成。语音识别语音识别原理框图原理框图让机器通过识别和理解过程把语音信号转变让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。主要包括为相应的文本或命令的技术。主要包括特征特征提取提取、

7、模式匹配模式匹配及及模型训练模型训练技术。技术。v语音信号处理发展语音信号处理发展概况：概况：起步很早、尚未完全起步很早、尚未完全成熟成熟17911791年，年，Wolfgang Wolfgang von von KempelenKempelen构建了构建了语音语音机器机器18351835年，年，Charles WheatstoneCharles Wheatstone改进了语音机器改进了语音机器B.H.Juang#&Lawrence R.Rabiner.Automatic Speech Recognition A Brief History of the Technology Developm

8、ent,200418701870年代，年代，电话电话发明之争发明之争安东尼奥安东尼奥梅乌奇梅乌奇Antonio Meucci (1808 1889)亚历山大亚历山大格拉汉姆格拉汉姆贝尔贝尔Alexander Graham Bell (1847-1922)伊莱沙伊莱沙格雷格雷Elisha Gray1835-1901 对于大多数人来说，每当提到电话的发明，一定会联想到对于大多数人来说，每当提到电话的发明，一定会联想到贝尔贝尔。然而，一个叫然而，一个叫伊莱沙伊莱沙格雷格雷的人就曾与贝尔展开过关于电话专利的人就曾与贝尔展开过关于电话专利权的法律诉讼。格雷与贝尔在同一天申报了专利，由于比贝尔权的法律诉讼

9、。格雷与贝尔在同一天申报了专利，由于比贝尔晚一点申报（晚一点申报（只晚了只晚了2 2个小时左右个小时左右），最终败诉。），最终败诉。事实上，事实上，梅乌奇梅乌奇于于1860年代就已对电话机进行了原创性的发明创造，比年代就已对电话机进行了原创性的发明创造，比贝尔和格雷早贝尔和格雷早10多年。由于经济困窘等原因，多年。由于经济困窘等原因，19世纪世纪70年代，年代，梅乌奇梅乌奇并并没有赢得与贝尔的电话机专利争夺战。在其逝世没有赢得与贝尔的电话机专利争夺战。在其逝世113年后，美国议会认定年后，美国议会认定梅乌奇梅乌奇为电话机的发明者。真理得以昭然，为电话机的发明者。真理得以昭然，梅乌奇梅乌奇实至名

10、归。实至名归。谁是电话的真正发明者？A block schematic of Homer Dudleys VODERB.H.Juang#&Lawrence R.Rabiner.Automatic Speech Recognition A Brief History of the Technology Development,200419391939年，年，H.DudleyH.Dudley研制成功第一个研制成功第一个声码器声码器l打破了以前的打破了以前的“波波形原则形原则”，提出了一，提出了一种全新的语音通信技种全新的语音通信技术，即术，即提取参数加以提取参数加以传输，在收端重新合传输，在收端重

11、新合成语音成语音。l其后，产生其后，产生“语音语音参数模型参数模型”的思想的思想1 1942942年，年，BellBell实验室发明实验室发明了了语谱仪语谱仪19481948年，美国年，美国HaskinHaskin实验室研制成功实验室研制成功“语图回放机语图回放机”19521952年，年，BellBell实验室研制成识别十个英语数字实验室研制成识别十个英语数字识别识别器器19561956年，年，OlsonOlson和和BelarBelar等人研制出等人研制出语音打字机语音打字机19601960年代年代以后，随着计算机技术的发展，语音信号处以后，随着计算机技术的发展，语音信号处理技术获得了长足的

12、进步，计算机模拟实验取代了硬理技术获得了长足的进步，计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断件研制的传统做法。各种突破性的思想不断涌现涌现 19601960年，年，DenesDenes等人用计算机实现自动语音识别，等人用计算机实现自动语音识别，引入了时间归正算法引入了时间归正算法改进匹配性能改进匹配性能19701970年代起，人工智能技术开始引入到语音识别年代起，人工智能技术开始引入到语音识别中。美国国防部中。美国国防部ARPAARPA组织了有组织了有CMUCMU等五个单位参加等五个单位参加的一项大规模语音识别和理解研究计划的一项大规模语音识别和理解研究计划19701970

13、年代中，日本学者年代中，日本学者SakoeSakoe提出的提出的动态时间弯折动态时间弯折算法算法对小词表的研究获得了成功，从而掀起了语对小词表的研究获得了成功，从而掀起了语音识别的研究热潮音识别的研究热潮谁先提出动态时间弯折（谁先提出动态时间弯折（DTW）算法？）算法？1960年代末期，年代末期，苏联学者苏联学者Vintsyuk提出了采用动提出了采用动态规划方法解决两个语音的时间对准问题态规划方法解决两个语音的时间对准问题其研究不为学术界的广大研究者所知道其研究不为学术界的广大研究者所知道1980年代，学术界才知道年代，学术界才知道Vintsyuk 当初的工作当初的工作；而而DTW已广为人知

14、已广为人知19197070年代末，基于矢量量化码本生成的年代末，基于矢量量化码本生成的LBGLBG算法算法被被提出，矢量量化技术广泛应用于语音识别、语音编提出，矢量量化技术广泛应用于语音识别、语音编码和说话人识别中码和说话人识别中19197070年代末至年代末至8080年代初，年代初，BakerBaker等将等将隐马尔可夫模隐马尔可夫模型型(Hidden Markov Model)(Hidden Markov Model)技术应用到语音识别中技术应用到语音识别中 1985 1985年年IBMIBM公司研制了公司研制了50005000词英语听写机词英语听写机Tangora-5Tangora-5，

15、8080年代末完成的年代末完成的Tangora-20Tangora-20能识别的词汇达到了能识别的词汇达到了2000020000，识别率达到了，识别率达到了94.6%94.6%v Andrei A.Markovv Russian statisticianv 1856 192219199090年代初，年代初，CMUCMU的的Lee Lee KaifuKaifu完成的非特定人连完成的非特定人连续语音识别系统续语音识别系统SPHINXSPHINX是最有代表性的，它能识是最有代表性的，它能识别别997997个词汇的连续语音，识别率达到个词汇的连续语音，识别率达到95.8%95.8%19971997年，

16、年，IBMIBM推出的汉语听写机推出的汉语听写机ViavoiceViavoice为语音识为语音识别在汉字输入方面的实际应用开辟了新的道路别在汉字输入方面的实际应用开辟了新的道路19991999年，年，IntelIntel推出语音识别软件开发包推出语音识别软件开发包Spark3.0 Spark3.0 Microsoft VoiceMicrosoft Voice及基于及基于.netnet的语音识别引擎的语音识别引擎目前，在语音识别的系统框架方面并没有什么重目前，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化大突破。但是，在语音识别技术的应用及产品化方面出现了很大的

17、进展方面出现了很大的进展19881988年，年，李开复李开复获卡内基梅隆大学计算机学博士学位。他的博获卡内基梅隆大学计算机学博士学位。他的博士论文是士论文是世界上第一个世界上第一个“非特定人连续语音识别系统非特定人连续语音识别系统”。19881988年，年，商业周刊商业周刊授予该系统授予该系统“最重要科学创新奖最重要科学创新奖”。在校期。在校期间，李开复还开发了间，李开复还开发了“奥赛罗奥赛罗”（黑白棋）人机对弈系统，因（黑白棋）人机对弈系统，因为为19881988年击败了世界团体冠军美国队的一名成员而名噪一时。年击败了世界团体冠军美国队的一名成员而名噪一时。19701970年代起，国外就开始

18、研究计算机网络上的语音年代起，国外就开始研究计算机网络上的语音通信，主要是基于通信，主要是基于ARPANETARPANET网络平台进行研究网络平台进行研究19741974年，首次分组语音实验是在美国西海岸南加州年，首次分组语音实验是在美国西海岸南加州大学和东海岸的林肯实验室间进行，数码率为大学和东海岸的林肯实验室间进行，数码率为9.6kb/s9.6kb/s 19751975年年1 1月，美国实现使用月，美国实现使用LPCLPC声码器的分组语音电声码器的分组语音电话会议话会议 19801980年代，集中在局域网上的语音通信，最早的实年代，集中在局域网上的语音通信，最早的实验是由英国剑桥大学于验是

19、由英国剑桥大学于19821982年在年在10Mb/s10Mb/s的剑桥环形的剑桥环形网上进行的网上进行的19881988年，美国公布了一个年，美国公布了一个4.8kb/s4.8kb/s的码激励线性预的码激励线性预测编码（测编码（CELPCELP）语音编码标准算法）语音编码标准算法进入进入19199090年代，随着年代，随着InternetInternet的兴起和语音编码技的兴起和语音编码技术的发展，术的发展，IPIP分组语音通信技术获得了突破性的进分组语音通信技术获得了突破性的进展。如网络游戏，语音聊天，展。如网络游戏，语音聊天，IPIP电话技术电话技术19199090年代中期，出现了很多被广

20、泛使用的语音编码年代中期，出现了很多被广泛使用的语音编码国际标准，如数码率为国际标准，如数码率为5.3/6.4kb/s5.3/6.4kb/s的的G.723.1G.723.1、数、数码率为码率为8kb/s8kb/s的的G.729G.729等等目前，主要集中在目前，主要集中在4kbit/s4kbit/s码率以下的高音质、低码率以下的高音质、低延迟的声码器，提高在噪声信道中低码率编码器的延迟的声码器，提高在噪声信道中低码率编码器的性能性能19391939年，贝尔实验室利用共振峰原理制作出第一年，贝尔实验室利用共振峰原理制作出第一个电子语音合成器个电子语音合成器19601960年，年，G.FantG

21、.Fant系统地阐述了语音产生的理论，系统地阐述了语音产生的理论，推动了语音合成技术的进步推动了语音合成技术的进步19681968年，第一个完整的年，第一个完整的TTSTTS系统得以实现系统得以实现19801980年，年，D.D.KlattKlatt设计出串设计出串/并联混合型共振峰并联混合型共振峰合成器合成器19801980年代，基音同步叠加的波形拼接方法年代，基音同步叠加的波形拼接方法PSOLA PSOLA 被提出被提出2020世纪末，提出了可训练的语音合成方法世纪末，提出了可训练的语音合成方法基基于于HMM HMM 的合成方法的合成方法目前，语音合成系统具有了很高的可懂度，但自目前，语音

22、合成系统具有了很高的可懂度，但自然度还不尽人意然度还不尽人意说话人识别说话人识别说话人日志说话人日志语种辨识语种辨识语音转换语音转换语音隐藏语音隐藏语音情感识别语音情感识别语音增强语音增强语音搜索语音搜索Speaker Recognition，又称声纹识别、话者识别。通过对，又称声纹识别、话者识别。通过对语音信号的分析和处理，提取代表说话人个性信息的特征，语音信号的分析和处理，提取代表说话人个性信息的特征，计算机就能够自动地鉴别说话人的身份。主要分为：计算机就能够自动地鉴别说话人的身份。主要分为：Speaker Identification和和Speaker Verification。Spee

23、ch Retrieval，一种新颖的搜索技术，一种新颖的搜索技术，代替原来的键盘或手写输入，用户可以使用代替原来的键盘或手写输入，用户可以使用语音进行检索和查询。语音进行检索和查询。Speech Hiding，利用语音信号中存在的，利用语音信号中存在的冗余及人类感知系统的特性，在不影响原冗余及人类感知系统的特性，在不影响原始语音信息感知质量的前提下，把额外的始语音信息感知质量的前提下，把额外的信息隐藏到原始语音中的一种技术。信息隐藏到原始语音中的一种技术。Emotion Recognition，计算机对语音信，计算机对语音信号进行分析和处理，从而得出说话人的情号进行分析和处理，从而得出说话人的

24、情感状态（愤怒、悲伤、高兴、恐惧等）。感状态（愤怒、悲伤、高兴、恐惧等）。Voice Conversion，将，将A话者的语音话者的语音转换为具有转换为具有B话者发音特征的语音，话者发音特征的语音，且保持语音内容不变。且保持语音内容不变。Speech Enhancement，当语音信号被，当语音信号被各种各样的噪声干扰、甚至淹没后，从各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术降低噪声干扰的技术。Language Identification，通过分析，通过分析处理一个语言片段从而判别其属于哪处理一个语言片段从而判别其属于哪种语言。种语言。Speaker Diarization，主要解决：，主要解决：“谁在说谁在说话话”和和“在什么时候说话在什么时候说话”两个问题。前者两个问题。前者通过说话人识别技术来检测，后者由说话人通过说话人识别技术来检测，后者由说话人分割和说话人聚类技术来检测。分割和说话人聚类技术来检测。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？