1、第第5章章 语音增强语音增强谱减法谱减法维纳滤波维纳滤波概述概述基础知识基础知识自适应滤波器法自适应滤波器法听觉掩蔽法听觉掩蔽法5.1概述概述现实生活中的语音不可避免的要受到周围环境的影响,很现实生活中的语音不可避免的要受到周围环境的影响,很强的背景噪声例如机械噪声、其它说话者的话音等均会严强的背景噪声例如机械噪声、其它说话者的话音等均会严重的影响语音信号的质量;此外传输系统本身也会产生各重的影响语音信号的质量;此外传输系统本身也会产生各种噪声,因此接收端的信号为带噪语音信号。种噪声,因此接收端的信号为带噪语音信号。语音增强的目的包括:语音增强的目的包括:1)改进语音质量,消除背景噪音,)改进
2、语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;使听者乐于接受,不感觉疲劳,这是一种主观度量;2)提)提高语音可懂度,这是一种客观度量。但是两者往往不能兼高语音可懂度,这是一种客观度量。但是两者往往不能兼得,所以实际应用中总是视具体情况而有所侧重的。得,所以实际应用中总是视具体情况而有所侧重的。语音增强不仅涉及信号检测,波形估计等传统信号处理理语音增强不仅涉及信号检测,波形估计等传统信号处理理论,而且与语音特性,人耳感知特性密切相关。而且,实论,而且与语音特性,人耳感知特性密切相关。而且,实际应用中噪声的来源及种类各不相同,从而造成处理方法际应用中噪声的来源及种类各不相同
3、,从而造成处理方法的多样性。因此,要结合语音特性、人耳感知特性及噪声的多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。特性,根据实际情况选用合适的语音增强方法。l难点:某些噪声很像语音;有些语音也算噪声;降噪效率l方法:对语音和噪声分别建模噪音快速建模算法 l水平:达到军工要求5.2基础知识基础知识1)人耳感知语音主要是通过语音信号的频谱分量的幅度,)人耳感知语音主要是通过语音信号的频谱分量的幅度,而对相位不敏感,且语音响度与频谱幅度对数成正比;而对相位不敏感,且语音响度与频谱幅度对数成正比;2)人耳对)人耳对100Hz以下的低频声音不敏感,对高频声尤
4、其是以下的低频声音不敏感,对高频声尤其是20005000Hz的声音敏感,对的声音敏感,对3000Hz的声音最敏感;的声音最敏感;3)人耳对于频率的分辨能力受声强的影响,过强或者太)人耳对于频率的分辨能力受声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低;弱的声音都会导致对频率的分辨力降低;4)人耳具有掩蔽效应,声强较低的频率成分会受到声强)人耳具有掩蔽效应,声强较低的频率成分会受到声强较高的频率成分的影响,不易被人耳感知到。较高的频率成分的影响,不易被人耳感知到。5)人类听觉具有选择性注意特性,指在嘈杂的环境下,)人类听觉具有选择性注意特性,指在嘈杂的环境下,能将注意力集中在感兴趣的声
5、音上而忽略掉背景声的能力。能将注意力集中在感兴趣的声音上而忽略掉背景声的能力。5.2.1 5.2.1 人耳感知特性人耳感知特性5.2.2 5.2.2 语音特性语音特性语音信号是一种非平稳的随机信号,但在语音信号是一种非平稳的随机信号,但在10ms30ms的时的时间段内语音的某些物理特性和频谱特性可以近似看作是不间段内语音的某些物理特性和频谱特性可以近似看作是不变的,可以在语音增强中利用短时频谱时的平稳特性。语变的,可以在语音增强中利用短时频谱时的平稳特性。语音的短时谱的统计特性服从高斯分布。音的短时谱的统计特性服从高斯分布。浊音(包括元音)具有明显的准周期性和较强的振幅,它浊音(包括元音)具有
6、明显的准周期性和较强的振幅,它们的周期所对应的频率就是基音频率;清辅音的波形类似们的周期所对应的频率就是基音频率;清辅音的波形类似于白噪声并具有较弱的振幅。在语音增强中可以利用浊音于白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声,而清辅具有的明显的准周期性来区别和抑制非语音噪声,而清辅音和宽带噪声就很难区分。音和宽带噪声就很难区分。5.2.3 5.2.3 噪声特性噪声特性噪声可以是加性的,也可以是非加性的(可通过某种变换噪声可以是加性的,也可以是非加性的(可通过某种变换(如同态滤波)转为加性噪声)。(如同态滤波)转为加性噪声)。(1)冲激噪声:放电,
7、打火,爆炸都会引起冲激噪声,它)冲激噪声:放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。的时域波形是类似于冲激函数的窄脉冲。(2)周期噪声:最常见的有电动机,风扇之类周期运转的)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,机械所发出的周期噪声,50Hz交流电源也是周期噪声。交流电源也是周期噪声。(3)宽带噪声:说话时同时伴随着呼吸引起的噪声、随机)宽带噪声:说话时同时伴随着呼吸引起的噪声、随机噪声源产生的噪声、以及量化噪声等都可以视为宽带噪声,噪声源产生的噪声、以及量化噪声等都可以视为宽带噪声,近似为高斯噪声或白噪声。近似为高斯噪声或白噪声。(
8、4)语音干扰:干扰语音信号和待传语音信号同时在一个)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为语音干扰。信道中传输所造成的语音干扰称为语音干扰。(5)传输噪声:传输系统的电路噪声,与背景噪声不同,)传输噪声:传输系统的电路噪声,与背景噪声不同,它在时间域里是语音和噪声的卷积。它在时间域里是语音和噪声的卷积。00.511.522.533.54x 104-1-0.8-0.6-0.4-0.200.20.40.60.810500100015002000250030003500400045005000-1-0.8-0.6-0.4-0.200.20.40.60.81050
9、0100015002000250030003500400045005000-0.8-0.6-0.4-0.200.20.40.60.8010002000300040005000600070008000900010000-0.8-0.6-0.4-0.200.20.40.60.8Impulsive noise white noise pink noise brown noise 5.2.4 5.2.4 语音质量评价标准语音质量评价标准主观评价是以人为主体来评价语音的质量。语音主观评价主观评价是以人为主体来评价语音的质量。语音主观评价方法种类很多,主要指标包括清晰度或可懂度和音质两类。方法种类很多,主
10、要指标包括清晰度或可懂度和音质两类。清晰度一般是针对音节以下(如音素,声母、韵母)语音清晰度一般是针对音节以下(如音素,声母、韵母)语音测试单元,可懂度则是针对音节以上(如词,句)语音测测试单元,可懂度则是针对音节以上(如词,句)语音测试单元的;音质则是指语音听起来的自然度。试单元的;音质则是指语音听起来的自然度。无论哪种主观测试都是建立在人的感觉基础上的,为了消无论哪种主观测试都是建立在人的感觉基础上的,为了消除个体的差异性,测试环境应尽可能相同,测试语音的样除个体的差异性,测试环境应尽可能相同,测试语音的样本也要尽量丰富。在选择测试者时,不仅应该包括女声,本也要尽量丰富。在选择测试者时,不
11、仅应该包括女声,男声,同时还应根据年龄(包括老人,青年和儿童)选择男声,同时还应根据年龄(包括老人,青年和儿童)选择不同语音。不同语音。主观评价的优点是直接易于理解,能真实反映人对语音质主观评价的优点是直接易于理解,能真实反映人对语音质量的实际感觉,缺点是需要大量的测试者,实施起来比较量的实际感觉,缺点是需要大量的测试者,实施起来比较麻烦,耗时耗力,灵活性差。麻烦,耗时耗力,灵活性差。*主观评价主观评价1 1)可懂度评价()可懂度评价(DRTDRT)DRT是衡量通信系统可懂度的是衡量通信系统可懂度的ANSI标准之一,它主要用于标准之一,它主要用于低速率语音编码的质量测试。这种测试方法使用若干对
12、低速率语音编码的质量测试。这种测试方法使用若干对(通常(通常96对)同韵母单字或单音节词进行测试,例如中文对)同韵母单字或单音节词进行测试,例如中文的的“为为”和和“费费”,英文的,英文的“veal”和和“feel”等。等。测试中,评听人每次听一对韵字中的某个音,然后判断所测试中,评听人每次听一对韵字中的某个音,然后判断所听到的音是哪个字,全体评听人判断正确的百分比就是听到的音是哪个字,全体评听人判断正确的百分比就是DRT得分。得分。通常认为通常认为DRT为为95%以上时清晰度为优,以上时清晰度为优,85%-94%为良,为良,75%-84%为中,为中,65%-75%为差,而为差,而65%以下为
13、不可接受。以下为不可接受。DRT也有局限性,因为其只测试第一辅音,并且每次的选也有局限性,因为其只测试第一辅音,并且每次的选择只有两个。在这种情况下,择只有两个。在这种情况下,Dynastant公司提出了更为复公司提出了更为复杂的改进型韵字测试杂的改进型韵字测试MRT(Modified Rhyme Test)。)。2 2)音质评价)音质评价平均意见得分(平均意见得分(MOSMOS)MOS得分法是从绝对等级评价法发展而来的,用于对语音得分法是从绝对等级评价法发展而来的,用于对语音整体满意度或语音通信系统质量进行评价。整体满意度或语音通信系统质量进行评价。MOS得分法一得分法一般采用般采用5级评分
14、标准,包括优、良、中、差和劣。级评分标准,包括优、良、中、差和劣。得分质量级别失真级别5优(excellent)不察觉4良(good)刚有察觉,但不可厌3中(fair)有察觉且稍觉可厌2差(poor)明显察觉且可厌但可忍受1劣(bad)非常可厌,不可忍受2 2)音质评价)音质评价判断满意度测量(判断满意度测量(DAMDAM)DAM方法是由方法是由Dynastant公司推出的一种评价语音通信系公司推出的一种评价语音通信系统和通信连接的主观语音质量和满意度的评测方法,其将统和通信连接的主观语音质量和满意度的评测方法,其将直接途径与间接途径结合在一起进行主观质量评价。评听直接途径与间接途径结合在一起
15、进行主观质量评价。评听人既有机会表达个人主观喜好,又能依标准对每项指标进人既有机会表达个人主观喜好,又能依标准对每项指标进行评测。另外,行评测。另外,DAM方法要求评听人分别对语音样本本身、方法要求评听人分别对语音样本本身、背景和其它因素进行评价。一个评听人可将评价过程划分背景和其它因素进行评价。一个评听人可将评价过程划分为为21个等级,其中个等级,其中10个等级是信号的感觉质量,个等级是信号的感觉质量,8个等级是个等级是背景情况,另外背景情况,另外3级是可懂度、清晰度和总体满意度。级是可懂度、清晰度和总体满意度。3 3)主观测试的原则)主观测试的原则第一,要保证足够的说话者,要求其声音特征非
16、第一,要保证足够的说话者,要求其声音特征非常丰富,能够代表实际用户中的绝大部分;常丰富,能够代表实际用户中的绝大部分;第二,要求有足够多的数据。理论上,人数和数第二,要求有足够多的数据。理论上,人数和数据越多越好,可以用方差作为判断样本数的尺度;据越多越好,可以用方差作为判断样本数的尺度;第三,对于大部分编码器来说,清晰度和品质测第三,对于大部分编码器来说,清晰度和品质测试应该都做。试应该都做。5.2.4 5.2.4 语音质量评价标准语音质量评价标准客观评价必然要借鉴主观评价的那种高度智能和人性化的客观评价必然要借鉴主观评价的那种高度智能和人性化的过程,但是不可能找到一个绝对完善的测度和十分理
17、想的过程,但是不可能找到一个绝对完善的测度和十分理想的测试方法,只能尽量利用所获信息做出基本正确的评价。测试方法,只能尽量利用所获信息做出基本正确的评价。一般地,一种客观测度的优劣取决于它与主观评价结果的一般地,一种客观测度的优劣取决于它与主观评价结果的统计意义上的相关程度。统计意义上的相关程度。主要的客观评价方法有:基于信噪比的评价方法,如信噪主要的客观评价方法有:基于信噪比的评价方法,如信噪比(比(SNR)、分段信噪比()、分段信噪比(segSNR)等,把信噪比作为评)等,把信噪比作为评价语音质量的指标;基于谱距离的评价方法,如加权谱斜价语音质量的指标;基于谱距离的评价方法,如加权谱斜率测
18、度(率测度(WSS),主要比较语音信号之间的平滑谱;基于),主要比较语音信号之间的平滑谱;基于听觉模型的评价方法,如语音质量感知评价方法听觉模型的评价方法,如语音质量感知评价方法(PESQ),以人对语音的感知特性为基础。),以人对语音的感知特性为基础。*客观评价客观评价1 1)信噪比)信噪比SNRSNR信噪比计算简单,是一种应用广泛的客观评价方法。信噪比计算简单,是一种应用广泛的客观评价方法。由于计算时需要纯净的语音信号,而实际环境中难以获得由于计算时需要纯净的语音信号,而实际环境中难以获得纯净的语音信号,因此信噪比主要用在纯净语音信号已知纯净的语音信号,因此信噪比主要用在纯净语音信号已知的实
19、验仿真中。的实验仿真中。210210lognnsnSNRs ns n2 2)分段信噪比)分段信噪比 经典形式的信噪比同等对待时域波形中的所有误差,不能经典形式的信噪比同等对待时域波形中的所有误差,不能很好地反映语音质量的属性。由于语音信号的时变特性,很好地反映语音质量的属性。由于语音信号的时变特性,不同时间段上的信噪比应该是不一样的。不同时间段上的信噪比应该是不一样的。分段信噪比定义如下:分段信噪比定义如下:分段信噪比先计算每一帧的信噪比,再对所有帧的信噪比分段信噪比先计算每一帧的信噪比,再对所有帧的信噪比取平均。取平均。21110220110logkkmNMki msisegSNRMsisi
20、3 3)加权谱斜率测度)加权谱斜率测度WSSWSSWSS使用使用36个临界频带滤波器来计算,反映纯净语音和处个临界频带滤波器来计算,反映纯净语音和处理后语音的频带谱斜率间的加权差距,理后语音的频带谱斜率间的加权差距,WSS距离越小,表距离越小,表示两者之间的差距越小,语音质量越好。示两者之间的差距越小,语音质量越好。式中,式中,W(k)表示权重,表示权重,Sx(k)和和x(k)分别表示纯净语音和分别表示纯净语音和处理后语音的谱斜率,处理后语音的谱斜率,Cx(k)和和x(k)分别表示纯净语音和分别表示纯净语音和处理后语音的第处理后语音的第 k个临界频带谱。个临界频带谱。3621,()()wssx
21、xxxkdC CW kSkSk4 4)语音质量感知评价方法)语音质量感知评价方法PESQPESQPESQ方法是国际电信联盟方法是国际电信联盟ITU在在2001年提出的一种新的语年提出的一种新的语音质量评价方法,是目前与音质量评价方法,是目前与MOS评分相关度最高的客观语评分相关度最高的客观语音质量评价算法,相关度系数达到音质量评价算法,相关度系数达到0.97。该算法将参考语。该算法将参考语音信号和失真语音信号进行电平调整、输入滤波器滤波、音信号和失真语音信号进行电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后,分别提取两路信号的参时间对准和补偿、听觉变换之后,分别提取两路信号的参数,综合
22、其时频特性,得到数,综合其时频特性,得到PESQ分数,最终将这个分数分数,最终将这个分数映射到主观平均意见分上。映射到主观平均意见分上。PESQ得分范围在得分范围在-0.54.5之间,之间,得分越高表示语音质量越好。得分越高表示语音质量越好。PESQ的总体思路为:首先将参考语音信号和失真语音信的总体思路为:首先将参考语音信号和失真语音信号的电平调整到标准听觉电平,再用输入滤波器模拟标准号的电平调整到标准听觉电平,再用输入滤波器模拟标准电话听筒进行滤波,然后将两个信号进行时间对齐,将对电话听筒进行滤波,然后将两个信号进行时间对齐,将对齐好的信号进行听觉转换,转换之后的输入和输出信号差齐好的信号进
23、行听觉转换,转换之后的输入和输出信号差值称为干扰度,通过认知模型处理,最后得到值称为干扰度,通过认知模型处理,最后得到PESQ分值。分值。在干扰度的处理中可能会识别出坏区间,这样就需要对坏在干扰度的处理中可能会识别出坏区间,这样就需要对坏区间进行重新对齐。区间进行重新对齐。5 5)客观评价特点)客观评价特点客观评定方法的特点是计算简单,缺点是客观参数对增益客观评定方法的特点是计算简单,缺点是客观参数对增益和延迟都比较敏感,而且最重要的是,客观参数没有考虑和延迟都比较敏感,而且最重要的是,客观参数没有考虑人耳的听觉特性,因此客观评定方法主要适用于速率较高人耳的听觉特性,因此客观评定方法主要适用于
24、速率较高的波形编码类型的算法。的波形编码类型的算法。总结起来,语音主观评价和客观评价各有其优缺点。通常总结起来,语音主观评价和客观评价各有其优缺点。通常这两种方法应该结合起来使用。一般的原则是,客观评价这两种方法应该结合起来使用。一般的原则是,客观评价用于系统的设计阶段,以提供参数调整方面的信息,主观用于系统的设计阶段,以提供参数调整方面的信息,主观评价用于实际听觉效果的检验。评价用于实际听觉效果的检验。5.3谱减法谱减法谱减法是处理宽带噪声较为传统和有效的方法,其基本思谱减法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条想是在假定加性噪声与短时
25、平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。较为纯净的语音频谱。完整的谱减运算公式:完整的谱减运算公式:将求得的信号将求得的信号 进行进行IFFT,并借助相位谱来恢复降噪后的,并借助相位谱来恢复降噪后的语音时域信号。语音时域信号。5.3.1 5.3.1 基本原理基本原理()()()()()0()()yvyvsyvPPPPPPP5.3.1 5.3.1 基本原理基本原理谱减公式为:谱减公式为:式中,式中,a为过减因子,为过减因子,b为增益补偿因子。为增益补偿因子。2222()()()()()()(
26、)()iiiiY kaD kY kaD kY kbD kY kaD k5.3.2 5.3.2 改进算法改进算法1)在谱减法中使用信号的频谱幅值或功率谱)在谱减法中使用信号的频谱幅值或功率谱()()()()()()()()iiiiX kD kX kD kX kD kX kD k式中,当式中,当 为为1时,算法相当于用谱幅值做谱减法;当时,算法相当于用谱幅值做谱减法;当 为为2时,算法相当于用功率谱做谱减法。时,算法相当于用功率谱做谱减法。5.3.2 5.3.2 改进算法改进算法2)计算平均谱值)计算平均谱值1()()21MiijjMY kXkM利用利用Yi(k)取代取代 Xi(k),可以得到较小
27、的谱估算方差。,可以得到较小的谱估算方差。3)减少噪声残留)减少噪声残留在减噪过程中保留噪声的最大值,从而在谱减法中尽可能在减噪过程中保留噪声的最大值,从而在谱减法中尽可能地减少噪声残留,从而削弱地减少噪声残留,从而削弱“音乐噪声音乐噪声”。()()max()()min()-1,+1 ()max()iiRijiRD kD kNkD kD kjii iD kNk式中,式中,max|NR(k)|代表最大的噪声残余。代表最大的噪声残余。5.4维纳滤波维纳滤波基本维纳滤波就是用来解决从噪声中提取信号问题的一种基本维纳滤波就是用来解决从噪声中提取信号问题的一种过滤过滤(或滤波或滤波)方法。它基于平稳随机
28、过程模型,且假设退方法。它基于平稳随机过程模型,且假设退化模型为线性空间不变系统的。实际上这种线性滤波问题,化模型为线性空间不变系统的。实际上这种线性滤波问题,可以看成是一种估计问题或一种线性估计问题。基本的维可以看成是一种估计问题或一种线性估计问题。基本的维纳滤波是根据全部过去的和当前的观察数据来估计信号的纳滤波是根据全部过去的和当前的观察数据来估计信号的当前值,它的解是以均方误差最小条件下所得到的系统的当前值,它的解是以均方误差最小条件下所得到的系统的传递函数传递函数 或单位样本响应或单位样本响应 的形式给出的,因此常称这种的形式给出的,因此常称这种系统为最佳线性过滤器或滤波器。系统为最佳
29、线性过滤器或滤波器。5.4.1 5.4.1 基本原理基本原理设带噪语音信号为设带噪语音信号为则经过维纳滤波器则经过维纳滤波器 的输出响应的输出响应 为为 由式可知,卷积形式可以理解为从当前和过去的观察值由式可知,卷积形式可以理解为从当前和过去的观察值 来估计信号的当前值来估计信号的当前值。因此,用。因此,用 h(n)进行滤波实际上是一进行滤波实际上是一种统计估计问题。种统计估计问题。定义定义均方误差均方误差 为:为:()()()x ns nv n()()*()()()ms nx nh nh m x nm22()()()E e nEs ns n5.4.1 5.4.1 基本原理基本原理使使 最小的
30、充要条件是最小的充要条件是 对于对于h(n)的偏导数为零,即的偏导数为零,即上式整理可得上式整理可得 代入可得代入可得用相关函数表示为用相关函数表示为()()()0Es ns nx nm()()()()()0lE s n x nmh l E x nl x nm2()()2()2()()0()()()E e ne nEe nEe n x nmh nh nw n()()()xsxlh l R mlRm5.4.1 5.4.1 基本原理基本原理改为写成卷积形式,可得改为写成卷积形式,可得转换为频域,可得转换为频域,可得因此,维纳滤波器的频率响应为因此,维纳滤波器的频率响应为 由于信号与噪声互不相关,可
31、得由于信号与噪声互不相关,可得该式为维纳滤波系统的增益函数,则增强信号的频谱估计该式为维纳滤波系统的增益函数,则增强信号的频谱估计值为值为 ()*()()xsxh kRkRk()()()jwjwjwxsxH eP ePe()()()jwjwsxjwxPeH eP e()()()()jwjwsjwjwsvP eH eP eP e()()()jwjwjwS eH eX e5.4.2 5.4.2 改进算法改进算法传统的维纳滤波法需要估计出纯净语音信号的功率谱,一传统的维纳滤波法需要估计出纯净语音信号的功率谱,一般用类似谱减法的方法得到,即用带噪语音功率谱减去估般用类似谱减法的方法得到,即用带噪语音功
32、率谱减去估计到的噪声功率谱,这种方法会存在残留噪声大的问题。计到的噪声功率谱,这种方法会存在残留噪声大的问题。改进的维纳滤波器为基于先验信噪比的维纳滤波器,其模改进的维纳滤波器为基于先验信噪比的维纳滤波器,其模型为:型为:5.4.2 5.4.2 改进算法改进算法基于基于Doblinger的最小值统计方法的噪声谱估计方法:的最小值统计方法的噪声谱估计方法:1)对带噪语音信号功率谱进行平滑处理)对带噪语音信号功率谱进行平滑处理2)搜索各频带的最小值)搜索各频带的最小值3)判断带噪语音功率谱中各频带是否存在语音)判断带噪语音功率谱中各频带是否存在语音2(,)(1,)(1)(,)P m kP mkX
33、m kminminminmin1(1,)(,)(1,),(1,)(,)1(,)(,),PmkP m kPmkPmkP m kPm kP m k othersminmin1,(,)(,)(,)0,(,)(,)P m kPm kI m kP m kPm k5.4.2 5.4.2 改进算法改进算法4)计算语音出现概率)计算语音出现概率5)更新噪声谱)更新噪声谱(,)(1,)(1)(,)ppp m kp mkI m k222min(,)(,)(1,)1(,)(,)(1)(1,)V m kp m kV mkp m kPm kX mk5.4.2 5.4.2 改进算法改进算法基于更新的噪声谱可推得改进的系统
34、增益函数:基于更新的噪声谱可推得改进的系统增益函数:1)后验信噪比)后验信噪比2)先验信噪比)先验信噪比3)系统增益函数)系统增益函数2()()()postX mSNRmV m()(1)(1)max()1,0)priopriopostSNRmSNRmSNRm()()1()priojwmprioSNRmHeSNRm5.5自适应滤波器法自适应滤波器法实际信号的频谱分布是比较均匀的,因此对一个受到加性实际信号的频谱分布是比较均匀的,因此对一个受到加性噪声污染的信号通常采用自适应滤波器进行降噪。自适应噪声污染的信号通常采用自适应滤波器进行降噪。自适应滤波器具有自动调节自身参数的能力,故其对信号和噪声滤
35、波器具有自动调节自身参数的能力,故其对信号和噪声的先验知识需求较少。的先验知识需求较少。所谓自适应滤波器就是利用前一时刻已获得的滤波器参数所谓自适应滤波器就是利用前一时刻已获得的滤波器参数等结果,自动地调节现时刻的滤波器参数,以适应信号和等结果,自动地调节现时刻的滤波器参数,以适应信号和噪声未知的随机变化的统计特性,从而实现最优滤波。因噪声未知的随机变化的统计特性,从而实现最优滤波。因此,无论在信噪比方面还是在语音可懂度方面,自适应滤此,无论在信噪比方面还是在语音可懂度方面,自适应滤波器都能获得较大的提高。波器都能获得较大的提高。5.5.1 5.5.1 最小均方误差滤波器最小均方误差滤波器最小
36、均方误差(最小均方误差(LMS)算法就是以已知期望响应和滤波器)算法就是以已知期望响应和滤波器输出信号之间误差的均方值最小为准的,依据输入信号在输出信号之间误差的均方值最小为准的,依据输入信号在迭代过程中估计梯度矢量,并更新权系数以达到最优的自迭代过程中估计梯度矢量,并更新权系数以达到最优的自适应迭代算法。适应迭代算法。LMS算法是一种梯度最速下降方法,其显算法是一种梯度最速下降方法,其显著的特点和优点是它的简单性,这种算法不需要计算相应著的特点和优点是它的简单性,这种算法不需要计算相应的相关函数,也不需要进行矩阵运算。的相关函数,也不需要进行矩阵运算。5.5.1 5.5.1 最小均方误差滤波
37、器最小均方误差滤波器滤波器的输出滤波器的输出 表示为:表示为:误差误差e(n)为为优化该问题可令优化该问题可令E|e2(n)|对对 wn*(k)的导数为零来求解,有的导数为零来求解,有代入,整理可得代入,整理可得其矢量表示为:其矢量表示为:10()()()()NTnnkd nnw k x nkw x()()()()()Tne nd nd nd nn w x*()()0 (0,1,.,1)E e n x nkkN1*0()()()()()(0,1,.,1)Nnlw l E x nl x nkE d n x nkkN()()xndxnnRwr5.5.1 5.5.1 最小均方误差滤波器最小均方误差滤
38、波器Rx(n)是一个是一个 的共轭对称自相关阵,如果矩阵是满秩的,的共轭对称自相关阵,如果矩阵是满秩的,可得到权系数的最佳值:可得到权系数的最佳值:但是,等式右边的运算在实际中是不易实现的。为此,对但是,等式右边的运算在实际中是不易实现的。为此,对于一些在线或实时应用场合常使用迭代算法,对每次采样于一些在线或实时应用场合常使用迭代算法,对每次采样值求出较佳权系数。迭代算法可以避免复杂的求逆运算,值求出较佳权系数。迭代算法可以避免复杂的求逆运算,又能实时求得最佳近似解,因而切实可行。又能实时求得最佳近似解,因而切实可行。*()()(1)()(1)()()(1)(1)(1)(1)(1)()()(1
39、)(1)(1)(1)(1)xE x n x nE x nx nE x nNx nE x n x nE x nx nE x nNx nnE x n x nNE x nx nNE x nNx nNR1nxdxwR r5.5.1 5.5.1 最小均方误差滤波器最小均方误差滤波器LMS算法是以最快下降法为原则的迭代算法,通过在二次算法是以最快下降法为原则的迭代算法,通过在二次误差曲面的最大下降方向上取一个误差曲面的最大下降方向上取一个 步长的增量来修正结果。步长的增量来修正结果。由于期望值由于期望值 是未知的,因此要用样本平均来估计,即是未知的,因此要用样本平均来估计,即 当用一个样本来估计(当用一个
40、样本来估计(N=1)时,权矢量修正式可简化为)时,权矢量修正式可简化为 *1()()()nnnnE e nn wwwx1*01()()()()NkE e nne nknkNxx*1()()nne nnwwx5.5.1 5.5.1 最小均方误差滤波器最小均方误差滤波器对于对于LMS算法来说,正值的步长算法来说,正值的步长 将影响权矢量收敛到将影响权矢量收敛到误差曲面极小点的速率。如果误差曲面极小点的速率。如果非常小,则非常小,则wn的修正量也的修正量也小,收敛速度较慢;若小,收敛速度较慢;若 增大,收敛速度加快。但是的增大,收敛速度加快。但是的增大有一个上限,超过该上限将导致增大有一个上限,超过
41、该上限将导致wn的轨迹不稳定,的轨迹不稳定,且无界。且无界。设计设计LMS自适应滤波器的一个难点是步长自适应滤波器的一个难点是步长的选择。的选择。5.5.2 5.5.2 归一化最小均方误差滤波器归一化最小均方误差滤波器对于具有对于具有 个系数的滤波器,个系数的滤波器,LMS算法每次修正权矢量只算法每次修正权矢量只需需N次乘法和次乘法和N次加法,另外,计算误差次加法,另外,计算误差e(n)需要一次加需要一次加法,计算法,计算e(n)需要一次乘法。最后,计算输出需要一次乘法。最后,计算输出N次乘法次乘法和和(N-1)次加法。所以,每次修正的总计算量是次加法。所以,每次修正的总计算量是(2N+1)次
42、次乘法和乘法和2N次加法。虽然次加法。虽然LMS算法对期望值的估计很粗略,算法对期望值的估计很粗略,但算法实现简单,不依赖模型,性能稳健,因此实际应但算法实现简单,不依赖模型,性能稳健,因此实际应用比较成功。用比较成功。5.5.2 5.5.2 归一化最小均方误差滤波器归一化最小均方误差滤波器归一化的归一化的NLMS算法可表示为:算法可表示为:从计算量看,从计算量看,NLMS算法比算法比LMS算法多了一个归一化项算法多了一个归一化项|x(n)|2的计算。为减少其计算量,可递归的估算该项,的计算。为减少其计算量,可递归的估算该项,即即因此,每次只多了两次平方运算、一次加法和一次减法。因此,每次只多
43、了两次平方运算、一次加法和一次减法。*12()()()nnne nnxwwx2222(1)()(1)(1)nnnnNxxxx5.5.3 5.5.3 自适应陷波器自适应陷波器对于周期噪声,采用陷波器是较为简便和有效的降噪方对于周期噪声,采用陷波器是较为简便和有效的降噪方法。算法基本思路和要求是设计的陷波器的幅频曲线的法。算法基本思路和要求是设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波,设计的关键是凹处对应于周期噪声的基频和各次谐波,设计的关键是通过合理设计使这些频率处的陷波宽度足够窄。通过合理设计使这些频率处的陷波宽度足够窄。简单的数字陷波器的传递函数如下:简单的数字陷波器的传递函
44、数如下:N/T(N为整数为整数)的频率将被滤除掉。的频率将被滤除掉。()1jj TH ee 5.5.3 5.5.3 自适应陷波器自适应陷波器数字滤波器的极零点接近时,信号频谱变化较为缓慢,数字滤波器的极零点接近时,信号频谱变化较为缓慢,而在陷波频率处急剧衰减,故引入反馈:而在陷波频率处急剧衰减,故引入反馈:当当 越接近越接近1时,分母在零点附近处有抵消作用,梳齿带时,分母在零点附近处有抵消作用,梳齿带宽变的越窄,通带较为平坦,陷波效果越好。宽变的越窄,通带较为平坦,陷波效果越好。1()1TTzH zbz5.5.4 5.5.4 干扰抑制干扰抑制对于大多数情况,纯净信号是不能直接获得的,此类问对于
45、大多数情况,纯净信号是不能直接获得的,此类问题统称为干扰抑制问题。题统称为干扰抑制问题。此时均方误差为此时均方误差为2222()()()()()()()2 ()()()E enE d nv ny nE vnEd ny nE v n d ny n5.5.4 5.5.4 干扰抑制干扰抑制而而v(n)和和d(n)是不相关的,所以均方误差变为是不相关的,所以均方误差变为因此,均方误差最小化的关键在于望信号因此,均方误差最小化的关键在于望信号d(n)与滤波器与滤波器实际输出实际输出y(n)之间的均方误差,所以该自适应滤波器的之间的均方误差,所以该自适应滤波器的输出就是输出就是d(n)的最小均方估计。的最
46、小均方估计。222()()()()E enE vnEd ny n5.6听觉掩蔽法听觉掩蔽法人的主观感受是衡量降噪效果好坏的最终评价标准,对于人的主观感受是衡量降噪效果好坏的最终评价标准,对于一些传统的降噪方法,它们是基于某一准则(如最小均方一些传统的降噪方法,它们是基于某一准则(如最小均方误差准则)来进行降噪的,但实际上,均方误差最小并不误差准则)来进行降噪的,但实际上,均方误差最小并不一定意味着人耳感受到的噪声最小。人对声音的主观感知一定意味着人耳感受到的噪声最小。人对声音的主观感知是生理、心理等多方面综合作用的结果,很多学者对此进是生理、心理等多方面综合作用的结果,很多学者对此进行了研究,
47、并取得了一定的进展。其中,基于听觉掩蔽模行了研究,并取得了一定的进展。其中,基于听觉掩蔽模型的降噪成为一个研究热点。听觉掩蔽模型可以和其它降型的降噪成为一个研究热点。听觉掩蔽模型可以和其它降噪方法结合起来,进一步提高降噪效果。此外,基于听觉噪方法结合起来,进一步提高降噪效果。此外,基于听觉掩蔽效应的降噪方法不需要将噪声完全消除,只要满足残掩蔽效应的降噪方法不需要将噪声完全消除,只要满足残留的噪声不被人感知条件即可,减少了语音的失真,改善留的噪声不被人感知条件即可,减少了语音的失真,改善了人耳的听觉舒适度。了人耳的听觉舒适度。5.6.1 5.6.1 听觉掩蔽阈值计算听觉掩蔽阈值计算听觉掩蔽效应有
48、多种数学模型,如听觉掩蔽效应有多种数学模型,如Johnston模型、模型、PEAQ模型和模型和MEPG模型等。模型等。5.6.2 5.6.2 感知滤波器方法感知滤波器方法根据维纳滤波器法的基本原理,增强语音与纯净语音的根据维纳滤波器法的基本原理,增强语音与纯净语音的误差谱为误差谱为式中,等式右边分别表示语音信号失真和噪声失真。式中,等式右边分别表示语音信号失真和噪声失真。感知滤波器不是将残留噪声完全消除,而是利用人耳的感知滤波器不是将残留噪声完全消除,而是利用人耳的听觉掩蔽效应,将残留噪声控制在听觉门限听觉掩蔽效应,将残留噪声控制在听觉门限 之下,使之之下,使之不被人耳感知到,同时使语音信号的
49、失真最小。不被人耳感知到,同时使语音信号的失真最小。(,)(,)(,)(,)1(,)(,)(,)(,)(,)XDm kX m kX m kG m kX m kG m kD m km km k222222min1(,)(,)min(,)(,)(,)(,)(,)(,)XDG m kX m km km kT m kGm k D m kT m k约束条件:约束条件:5.6.2 5.6.2 感知滤波器方法感知滤波器方法引入一个拉格朗日因子引入一个拉格朗日因子(m,k),令拉格朗日代价函数为:,令拉格朗日代价函数为:将将L对对G求导,可得求导,可得222222(,)(,)(,)(,)(,)1(,)(,)(
50、,)(,)(,)XDLm km km kT m kG m kX m km kGm k D m kT m k222(,)/(,)(,)(,)/(,)(,)(,)(,)(,)X m kD m kG m kX m kD m km km km km k5.6.2 5.6.2 感知滤波器方法感知滤波器方法由约束条件可知:由约束条件可知:则增益函数为则增益函数为增益函数是在使残留噪声保持在掩蔽阈值之下的同时,使增益函数是在使残留噪声保持在掩蔽阈值之下的同时,使语音失真最小这一目标下求解得到的。根据不同的目标,语音失真最小这一目标下求解得到的。根据不同的目标,会得到不同的增益函数。会得到不同的增益函数。2(