[工学]数字语音处理1-2章课件.ppt_163文库

资源描述

1、Speech Signal Processing语音信号处理语音信号处理天行健君子以自强不息 Speech Signal Processing教材1.语音信号处理（修订版）胡航哈尔滨工业大学出版社Speech Signal Processing参考资料1.语音信号数字处理Lawrence Rabiner,19832.语音识别基本原理 Lawrence Rabiner,1999Speech Signal Processing第一章绪论1.数字语音处理研究的内容2.语音处理的发展历史返回下一章Speech Signal Processing语音信息的重要性人类从大自然获取信息的分布图Spe

2、ech Signal Processing数字语音处理研究的内容1.语音信号处理的实质2.语音信号的数字表示3.语音信号数字处理的方法和技术4.数字语音处理的应用返回Speech Signal Processing1.语音信号处理的实质1.实质：是研究用数字信号处理技术对语音信号进行处理的一门学科2目的：通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。通过对语音信号进行某种运算以达到某种要求。Speech Signal Processing1.语音信号处理的实质3.学科基础：以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与心理学、生理学、

3、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。返回Speech Signal Processing1.语音信号处理的基本内容说的是什么内容？说的是什么内容？是谁在说话？是谁在说话？计算机去说话？计算机去说话？怎么把话说好？怎么把话说好？语音识别语音识别说话人识别说话人识别/确认确认文语转换文语转换说话水平评估说话水平评估说的是什么语言？说的是什么语言？语种识别语种识别Speech Signal Processing2.语音信号的数字表示1.语音表示方法的选择要保存语音信号中的消息内容；表示形式要便于传输和存储、变换和处理，不至于严重损害消息的内容，有用信息更易于被提取；2

4、.语音信号数字表示的优点数字技术能完成许多很复杂的信号处理工作；语音可以看成是音素的组合，具有离散的性质，特别适合于数字处理；Speech Signal Processing2.语音信号的表示数字系统具有高可靠性、价廉、紧凑、快速等特点，很容易完成实时处理任务；数字语音适于在强干扰信道中传输，易于和数据一起在通信网中传输，也易于进行加密传输。3.语音信号的数字表示方法波形表示采样和量化，保持波形参数表示激励源和模型参数（第二章）Speech Signal Processing语音信号波形表示示例一些常用的语音波形分析与处理的软件 CooleditGoldenwaveSFSNero waveed

5、itPraatSpeech Signal ProcessingCooledit Pro 界面返回Speech Signal Processing3.语音信号的数字处理方法1.语音信号的特点短时平稳性2.短时时域处理方法短时能量、短时平均过零率以及短时自相关函数计算3.短时频域分析短时傅立叶分析4.线性预测技术本质上属于时域分析方法，但其结果可以是频域参数5.倒谱和同态分析、矢量量化和隐马尔可夫模型Speech Signal Processing语音信号的特点短时平稳性Speech Signal Processing语音信号数字处理基本过程以降低语音发音速率的处理过程为例Speech Sign

6、al Processing语音信号数字处理基本过程连续语音波形-A/D 转换-离散时间信号-用数字系统进行处理-修改后的离散时间信号-D/A 变换-模拟波形返回Speech Signal Processing4.数字语音处理的应用1.语音压缩和编码语音通信数字化；2.语音合成自动报站、自动报时、自动警告、电话自动查询和语音提示等；3.语音识别声控应用、自动口语翻译；4.说话人识别安全加密、银行信息电话查询服务以及破案和法庭取证；5.语音增强通常作为语音处理的前端。Speech Signal Processing各种语音产品返回Speech Signal Processing语音处理的发展历史

7、1876年电话的发明，贝尔（Bell）；1939年声码器的研制成功声源声道；1947年贝尔实验室发明语谱图仪语音识别研究的开始；50年代第一台口授打字机和英语单词语音识别器；60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器；Speech Signal Processing语音处理的发展历史70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别；80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听写机，Dragon Dictate 词汇翻译系统(70000)，viavoice汉语听写机。CMU语音组

8、研制成功SPHINX系统（识别率达95.8%);国内，清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。返回Speech Signal Processing第二章基础知识1.人类的语言器官2.语音产生过程3.语音信号产生的数字模型4.语音信号的特性5.人类的听觉功能返回下一章Speech Signal Processing1.人类的语言器官人类能以语言沟通，进而累积知识，形成文化，其中一个主要的原因，就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音，构成丰富的词汇，无疑是最关键的因素。Speech Signal Processing1.人类的语

9、言器官人体发音器官肺、气管、喉（包括声带）和声道，肺是语音产生的能源所在；声带为产生语音提供主要的激励源；声道是指声门至嘴唇的所有器官：咽、鼻腔、口腔等，它们具有非均匀截面，且随时间变化，起共鸣器（或谐振器）的作用。Speech Signal Processing1.人类的语言器官注：喉部以上的部分统称为声道；气管和肺在声门以下Speech Signal Processing1.人类的语言器官图2-2 最重要的发音器官之一：声带 (a)闭合状态 (b)张开状态甲状软骨杓状软骨环状软骨声门声带（声襞）返回Speech Signal Processing2.语音产生过程发音机理肺声带声道

10、恒定气流声音嘴唇声压波速度波能源激励源谐振腔辐射源变化气流Speech Signal Processing2.语音产生过程语音的形成过程空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。浊音：声带绷紧，气流通过时会使得开口变成一开一闭的周期性动作，这时候就造成周期性的激发气流，如a，o；清音：声带完全舒展，声道某部位收缩形成一个狭窄的通道，产生空气湍流，如h，d；爆破音：声带完全舒展，声道的某部位完全闭合，一旦闭合点突然开启，空气压力快速释放，如b，p。Speech Signal Processing2.语音产生过程语音的两个重要声学特性：语音的两个重要声学特性：浊音的浊音

11、的基音频率基音频率(F0)：由声带的尺寸、特：由声带的尺寸、特性和声带所受张力决定，其值等于声带张性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。开和闭合一次的时间的倒数。人类基音频率的范围在人类基音频率的范围在60Hz至至450Hz左右。左右。Speech Signal Processing2.语音产生过程语音的两个重要声学特性：语音的两个重要声学特性：共振峰共振峰(Fn,n=1,2,.)：声道是一个谐振腔，它放：声道是一个谐振腔，它放大声音气流的某些频率分量而衰减其他频率分量，大声音气流的某些频率分量而衰减其他频率分量，被放大的频率我们称之为共振峰或共振峰频率。被放大的频率我

12、们称之为共振峰或共振峰频率。声道具有的一组共振峰，声道的频谱特性主要反声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽映出这些共振峰的不同位置以及各个峰的频带宽度度。共振峰及其带宽取决于声道某一瞬间的形。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共状和尺寸，因而不同的语音对应于一组不同的共振峰参数。实际应用中，头三个共振峰最重要。振峰参数。实际应用中，头三个共振峰最重要。Speech Signal Processing2.语音产生过程理想状态下共振峰的计算：假设声道截面是均匀的（此理想状态下共振峰的计算：假设声道截面是均匀的

13、（此时可把声道看作一个粗细均匀的圆筒），从喉到唇的距时可把声道看作一个粗细均匀的圆筒），从喉到唇的距离离L=17 cm，音速，音速c=340 m/s，则共振峰将发生在：，则共振峰将发生在：121232321()41,2,34050044 17 10351500,250044nnncncFnLnccFHzLccccFHzFHzLL（）为第个共振峰对应的波长则前三个共振峰计算如下返回Speech Signal Processing2.3 语音的时间波形和频谱特性语音可以直接用它的时间波形来表示，根据时间波形可以看出语音信号的一些主要特性。就其本性而言，语音波形是时间的连续函数，其统计特性是随时间

14、而变化的，但比较缓慢,1030msSpeech Signal Processing2.3语音的时间波形和频谱特性语音的频谱特性由声道的形状和尺寸决定，随时间变化短时谱（清浊音的不同、对数和线性振幅谱）；语谱图（浊音和清音的不同、宽带和窄带语谱图）Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性元音信号的频谱Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal

15、Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性语音信号时域波形示意图语音信号时域波形示意图:静息波静息波脉冲波脉冲波（清塞音）（清塞音）准周期波准周期波（浊音）（浊音）噪声波噪声波（摩擦音（摩擦音）Speech Signal Processing2.3语音的时间波形和频谱特性声音的语谱图Speech Signal Processing2.3语音的时间波形和频谱特性窄频带的语谱图(narrowband spectrograms)语谱图的

16、产生是用傅里叶转换(Fourier transform)，当我们用较长的分析窗口(analysis windows)，约20ms，对应频宽约为45 Hz，得到的频率分辨率较高，频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条，其间距就是基频(F0)。Speech Signal Processing2.3语音的时间波形和频谱特性宽频带的语谱图(wideband spectrograms)若是在转换演算时用较少的取样点，分析窗口大约3ms，对应频宽约300 Hz，则频谱上看不到谐振成分，在语谱图上看不到等距的黑白相间。频率分辨率较低，反而是时轴上的分辨率较高，看到明显的垂直线条。Spe

17、ech Signal Processing2.3语音的时间波形和频谱特性共振峰(formant)在频域上，能量集中处就是共振峰(formant)之所在，在语谱图上就是颜色较深的位置。在发元音时，音强较大，声带振动而呈现出基频及其谐振频率，也可以明显看到共振峰，能量集中在低频。如果是发辅音，而且声带不振动，就看不到谐振频率。通常辅音的音强小，颜色看来就比较淡，而且能量较集中在高频。若是在没有语音的空档，则语谱图上呈现的，就是有一段空白。Speech Signal Processing2.3语音的时间波形和频谱特性元音与辅音的声学特性(一)元音发元音的声音时，声带是振动的，音强也较大，波形上可以看

18、到大的振幅，而且呈现周期性。其周期就是音高周期，对应的频率就是基频，通常以F0表示。正常说话时，元音的音长大约是50到400ms之间。元音在频谱上会呈现能量集中的现象，集中处的频带称为共振峰。在5 kHz的语音频带范围内，会有5个共振峰，分别以F1F2F3F4与F5代表，其中F1F2与F3比较明显。Speech Signal Processing2.3语音的时间波形和频谱特性图4-3 三个元音的语谱图（分别对应汉语拼音的元音i,a,u ）Speech Signal Processing2.3语音的时间波形和频谱特性图4-4 双元音在语谱图上共振峰转移(过渡)的现象分别对应汉语拼音的双元音 a

19、i,ei,ao,ouSpeech Signal Processing2.3语音的时间波形和频谱特性(二)辅音辅音是对元音的前或后作修饰。带声的辅音会有类似元音的共振峰，因为声带振动，所以和元音一样有谐振的成分，但相对于元音，能量小得多。不带声的摩擦音（如f,s,sh,x,h）类似噪音，能量倾向在高频。发鼻音时，鼻腔的共振效果使得低频成分受到压抑，虽然是声带振动而有共振峰，但低频的共振峰能量较弱。下图分别对应汉语拼音辅音：b b,p p,m m,f f,j j,q q,x x,zhzh,chch,shshSpeech Signal Processing2.3语音的时间波形和频谱特性图4-5 塞音

20、（或爆破音）出现在元音前的例子下图分别对应 baba ,da da ,ga ga ,pa pa,ta ta ,ka ka在一个音节的开始若有塞音，当气流放出之后，随着就发元音，声带开始振动，在语谱图上可以观察到一小段时间之后，才有明显的共振峰出现，这一小段时间就叫做嗓音的起始时间(voice onset time)，简称VOT。返回Speech Signal Processing2.3语音信号的统计特性1.语音信号可以看成是一个遍历性随机过程的样本函数；2.语音信号的统计特性可以用它的振幅概率密度函数和一些平均量（均值和自相关函数）来描述概率密度的估算、逼近方法及意义；自相关函数的估计及影响因

21、素（语音段和滤波情况）；3.语音信号的统计特性也可以用功率谱来描述长期平均功率谱可以用周期图来估计；返回Speech Signal Processing2.3语音信号的统计特性长时平均幅度的概率密度分布Speech Signal Processing2.4.语音信号产生的数字模型在研究了发声器官和语音的产生过程以后，便可以建立一个离散时域的语音信号产生的数字模型，它将是我们将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型：Speech Signal Processing2.4.语音信号产生的数字模型由此模型框图，我们可将语音信号看成准周期序列或随机噪声序列作为激励

22、的线性非移变系统的输出，此模型可分为三个部分：(1)激励模型(2)声道模型(3)辐射模型(1)激励模型根据发浊音和发清音的机理又分为：(a)浊音激励 (b)清音激励Speech Signal Processing2.4.语音信号产生的数字模型(a)浊音激励由前面所讲发音过程可知，发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波，其周期为基音周期，单个脉冲的波形类似于斜三角波，故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入，其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz3400Hz，数字模型中的信号取样率一般为8KHz。Speech Signal

23、 Processing2.4.语音信号产生的数字模型1(1cos),02()()cos,2()0,nnLLnLg nLnKKLotherwise ()Gun声门脉冲模型数学表达式（声门脉冲模型数学表达式（L为斜三角波上升时间，为斜三角波上升时间，K为斜三角波下降时间，两者均为整数）为斜三角波下降时间，两者均为整数）由语音信号产生的数字模型激励部分可知由语音信号产生的数字模型激励部分可知是一个以基音周期是一个以基音周期T0为周期的斜三角波脉冲串序列。为周期的斜三角波脉冲串序列。()()()GvunA x ng nSpeech Signal Processing2.4.语音信号产生的数字模型00

24、/1 21()()()()()1(1)vGvTTcTAUzA X z G zE z G zzez01 21()(1)cTG zez01 21()(1)jcTjG eezz e上述公式中参数T0为数字信号的取样间隔,由左边声门脉冲模型的频谱图可知声门脉冲模型是一个低通滤波器，一个二级点模型。Speech Signal Processing2.4.语音信号产生的数字模型(b)清音激励发清音时声道被阻碍形成湍流，所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可采用随机噪声发生器来产生此序列。Speech Signal Processing2.4.语音信

25、号产生的数字模型(2)声道模型两种建模方法：(a)声管模型(b)共振峰模型共振峰模型将声道视为一个谐振腔，按此原则导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型：(a)级联型 (b)并联型 (c)混合型Speech Signal Processing2.4.语音信号产生的数字模型(2)声管模型Speech Signal Processing2.4.语音信号产生的数字模型(a)级联型：级联型：适用于适用于一般单元音一般单元音,认为声道是认为声道是一组串联的二阶谐振器一组串联的二阶谐振器：PkkkzaGzV11)(这是一个全极点模型，极点这是一个全极点模型，极点就是这个多项式的

26、根：就是这个多项式的根：011Pkkkza若若P P为偶数，解其根会得到为偶数，解其根会得到共轭共轭复数复数对对的根，表示成：的根，表示成：2/11*1)1)(1(PiiizpzpSpeech Signal Processing2.4.语音信号产生的数字模型/2/212111()()1PPiiiiiV zGV zGb zc zTFjTiiieep2*F=1/T -取样频率取样频率 i/-共振峰的频宽。共振峰的频宽。Fi是是-共振峰共振峰(formant)的中心频率的中心频率TFjTiiieep2这样分解则每一个二阶因式均对应一个共振峰，其幅这样分解则每一个二阶因式均对应一个共振峰，其幅频特性是

27、典型的二阶谐振特性，频特性是典型的二阶谐振特性，谐振中心频率值等于共振峰谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型，一个完整的级联型声道模型，且具有明显的谐振特性且具有明显的谐振特性。Speech Signal Processing2.4.语音信号产生的数字模型(a)级联型：级联型：/21211()1PiiiV zb zc zSpeech Signal Processing2.4.语音信号产生的数字模型(b)并联型并联型适用于鼻音、复合元音及大部分辅音，发这些音时发音适用于鼻音、复合

28、元音及大部分辅音，发这些音时发音腔体具有反谐振特性，必须在模型中加入零点以减弱谐腔体具有反谐振特性，必须在模型中加入零点以减弱谐振强度，故要考虑用零、极点模型：振强度，故要考虑用零、极点模型：2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常通常PR，假设分子与分母无公因，假设分子与分母无公因子且分母无重根，则此式可分解为子且分母无重根，则此式可分解为以下部分分式之和的形式：以下部分分式之和的形式：这就是并联型共振峰模型，每一个二阶因式对应一个共这就是并联型共振峰模型，每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。振峰。每个二

29、阶谐振器的幅度可单独控制。Speech Signal Processing2.4.语音信号产生的数字模型(b)并联型并联型2/1212/11)()(PiiiiPiizCzBAzVzVSpeech Signal Processing2.4.语音信号产生的数字模型前面两种共振峰模型各自都只能适用于部分语音，级联前面两种共振峰模型各自都只能适用于部分语音，级联或并联的级数取决于声道的长度，一般成人取或并联的级数取决于声道的长度，一般成人取3到到5级。级。级联型结构较为简单，并联型各谐振器幅度可独立控制级联型结构较为简单，并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合综

30、合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。起来就得到一种较为完备的共振峰模型。(c)混合型混合型我们可以根据发音的需要自动切换串联或我们可以根据发音的需要自动切换串联或并联通路，此外并联部分还有一条直通路径，其幅度控并联通路，此外并联部分还有一条直通路径，其幅度控制因子为制因子为AB，这是专为一些频谱特性较为平坦的音素，这是专为一些频谱特性较为平坦的音素如如f、p、b而考虑的，以增强反谐振特性。而考虑的，以增强反谐振特性。Speech Signal Processing2.4.语音信号产生的数字模型(c)混合型混合型幅度控制因子AB专为一些频谱特性比较平

31、坦的音素，如f,p,b所考虑的。Speech Signal Processing2.4.语音信号产生的数字模型(3)辐射模型辐射模型在发音腔道内形成的气流经由嘴唇端辐射出来，到达在发音腔道内形成的气流经由嘴唇端辐射出来，到达听者耳朵的这段过程，声音信号会衰减，而且有高通听者耳朵的这段过程，声音信号会衰减，而且有高通滤波的特性，我们常用一个一阶的数字高通滤波器拟滤波的特性，我们常用一个一阶的数字高通滤波器拟这个现象，这个滤波器又叫做辐射模型这个现象，这个滤波器又叫做辐射模型(radiation(radiation model)model)，其数学式如下，其数学式如下1000()(1),1,1R

32、 zRzRR 完整的数字模型的系统函数：完整的数字模型的系统函数：011()()()()(1)(1)qkkkGRH zG z V z R zbzc zSpeech Signal Processing2.4.语音信号产生的数字模型总结：总结：1.此模型并非最完备的模型，因为它对一些音是不适用的如此模型并非最完备的模型，因为它对一些音是不适用的如浊音中的摩擦音，这种音要有发浊音和清音的两种激励，浊音中的摩擦音，这种音要有发浊音和清音的两种激励，而不是简单的叠加关系，对这些音我们可用更精确的模而不是简单的叠加关系，对这些音我们可用更精确的模型来模拟。型来模拟。2.语音产生的数字模型中增益控制（对语音

33、产生的数字模型中增益控制（对Av或或AN）代表了输）代表了输出语音的音响强度；时变线性系统主要用来模拟声道的出语音的音响强度；时变线性系统主要用来模拟声道的特性；特性；3.数字语音处理中两个基本问题，即语音分析和语音合成，数字语音处理中两个基本问题，即语音分析和语音合成，都是基于这个模型来实现的；都是基于这个模型来实现的；4.此数字模型的特点：此数字模型的特点：系统参数固定不变系统参数固定不变短时分析；短时分析；全极点性质全极点性质零点可由多个极点逼近；零点可由多个极点逼近；激励源和声道互相独立激励源和声道互相独立适用于大多数数字语音处理。适用于大多数数字语音处理。返回返回Speech Sig

34、nal Processing2.5.人类的听觉功能用语言作沟通，就是说话的人能让对方听用语言作沟通，就是说话的人能让对方听懂他在说些什么，双方用说与听来达成信息交懂他在说些什么，双方用说与听来达成信息交换与感情交流。而语言的学习过程，更是不断换与感情交流。而语言的学习过程，更是不断地听，然后学习会说，所以语言与听觉有密切地听，然后学习会说，所以语言与听觉有密切的关联性。的关联性。本节将说明人类听觉器官的构造，以及如本节将说明人类听觉器官的构造，以及如何听声音。并且对于人耳在听觉上的一个重要何听声音。并且对于人耳在听觉上的一个重要特性，听觉掩蔽效应做了简要叙述，这是语音特性，听觉掩蔽效应做了简

35、要叙述，这是语音处理中常常会用到的听觉特性。处理中常常会用到的听觉特性。Speech Signal Processing2.5.人类的听觉功能图图5-1 5-1 听觉器官简图听觉器官简图Speech Signal Processing2.5.人类的听觉功能图图5-2 5-2 听觉过程听觉过程Speech Signal Processing2.5.人类的听觉功能外耳外耳从耳翼从耳翼(pinnas)(pinnas)到鼓膜到鼓膜(eardrum)(eardrum)这一段叫这一段叫做外耳。做外耳。耳翼的功能在帮助判断声音的来源方向，耳翼的功能在帮助判断声音的来源方向，它对于听者前方来的声音比较敏感。

36、它对于听者前方来的声音比较敏感。耳翼到鼓膜之间的通道叫做耳道耳翼到鼓膜之间的通道叫做耳道（meatus)，这是一个长约这是一个长约2.72.7公分直径约公分直径约0.70.7公分的通道。公分的通道。对对于声波的传播而言，这条通道等于是一个四分之于声波的传播而言，这条通道等于是一个四分之一波长的一波长的共振腔共振腔，它的，它的第一个共振频率第一个共振频率大约是大约是3 3 kHzkHz，这个共振作用将，这个共振作用将3 35 kHz5 kHz的声波的声波放大放大15 dB15 dB左右左右，因此使得我们的听觉对于，因此使得我们的听觉对于3 35 kHz5 kHz的频率的频率范围比较敏感。范围比较

37、敏感。Speech Signal Processing2.5.人类的听觉功能中耳中耳在鼓膜与耳蜗之间有一个大约在鼓膜与耳蜗之间有一个大约6 6立方公分的小空间，立方公分的小空间，称之为中耳。称之为中耳。在这个小空间内，有三块小骨头，分别是在这个小空间内，有三块小骨头，分别是槌骨槌骨(hammer(hammer，或称为，或称为malleusmalleus)，砧骨砧骨(anvil(anvil或称为或称为incusincus)与镫骨与镫骨(stapes(stapes，或称为，或称为stirrup)stirrup)。槌骨黏接在鼓膜上，声波造成的空气振动会使鼓膜槌骨黏接在鼓膜上，声波造成的空气振动会使

38、鼓膜振动，进而推动槌骨的振动，镫骨贴在耳蜗的椭圆形窗振动，进而推动槌骨的振动，镫骨贴在耳蜗的椭圆形窗(oval window)(oval window)上，槌骨的振动经过砧骨与镫骨的传递，上，槌骨的振动经过砧骨与镫骨的传递，将振动信号传到耳蜗内的淋巴液，所以中耳可以看成是将振动信号传到耳蜗内的淋巴液，所以中耳可以看成是声波到淋巴液的信号转换，在此转换过程中，声波到淋巴液的信号转换，在此转换过程中，对于对于1 kHz1 kHz以上的信号做了以上的信号做了 -15 dB/10-15 dB/10倍频程的衰减，可以看成是倍频程的衰减，可以看成是一个低通滤波器一个低通滤波器(low pass filte

39、r)(low pass filter)。Speech Signal Processing2.5.人类的听觉功能人类在分辨声音时，是取决于频域上的分辨率，听觉器官人类在分辨声音时，是取决于频域上的分辨率，听觉器官等于是将时域的声音波形转换成在频域的频谱，能否听到等于是将时域的声音波形转换成在频域的频谱，能否听到声音或分辨声音，是取决于声音或分辨声音，是取决于音强音强(intensity)(intensity)与与频谱频谱(spectrum)(spectrum)。一般人的听觉器官可以感知频率范围一般人的听觉器官可以感知频率范围16 Hz16 Hz到到18 kHz18 kHz的声的声音，动态范围约音

40、，动态范围约10001000倍。倍。超出人类听觉感知范围，如超出人类听觉感知范围，如20kHz20kHz以上的声波，我们称之以上的声波，我们称之为超音波为超音波(ultrasonic)(ultrasonic)。人耳对于人耳对于1kHz1kHz到到5kHz5kHz的声音最为敏感的声音最为敏感，但是对于，但是对于1 kHz1 kHz以以下与下与5kHz5kHz以上的声音，就要较大的音强才听得到。以上的声音，就要较大的音强才听得到。Speech Signal Processing2.5.人类的听觉功能人类听觉的范围人类听觉的范围Speech Signal Processing2.5.人类的听觉功能掩

41、掩蔽效应蔽效应(masking effect)(masking effect)当一个声音存在时，它会将另一个声音的感知临界当一个声音存在时，它会将另一个声音的感知临界值提高，也就是说值提高，也就是说当某一频率的声音，有一特定音强存当某一频率的声音，有一特定音强存在时，另一个不同频率的声音要将音强提高才会被听到，在时，另一个不同频率的声音要将音强提高才会被听到，这就是听觉掩蔽效应。这就是听觉掩蔽效应。同时存在的声音，常常是低频的声音倾向于同时存在的声音，常常是低频的声音倾向于掩掩蔽掉蔽掉高频的声音，这是一种频率高频的声音，这是一种频率掩掩蔽蔽(frequency masking)(frequency masking)的现象。的现象。某一段时间存在一个声音，在此声音刚结束的一小某一段时间存在一个声音，在此声音刚结束的一小段时间内，其它的声音会听不见这种段时间内，其它的声音会听不见这种掩掩蔽现象叫做蔽现象叫做时间时间掩掩蔽蔽(temporal masking)(temporal masking)。这个现象也会发生在此存这个现象也会发生在此存在声音之前，这是由于声音在听觉器官中传递时延迟所在声音之前，这是由于声音在听觉器官中传递时延迟所造成的。造成的。Speech Signal Processing2.5.人类的听觉功能频率频率掩掩蔽的情形蔽的情形

展开阅读全文