1、第15章 语音增强目录n15.1 概 述n15.2语音特性、人耳感知特性及噪声特性15.2.1 语音特性15.2.2人耳感知特性15.2.3噪声特性n15.3滤波器法15.3.1固定滤波器15-.3.2自适应滤波15.3.3变换技术n15.4非线性处理15.4.1 中心削波15.4.2同态滤波法n15.5减谱法15.5.1减谱法15.5.2减谱法的改进形式n15.6自相关相减法n15.7自适应噪声对消15.7.1自适应滤波15.7.2具有参考信号的自适应噪声对消15.7.3利用延迟来建立参考信号的自适应噪声对消15.1 概 述 n语音增强是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语
2、音信号中提取尽可能纯净的原始语音,即去掉语音信号中的噪声和干扰,改善它的质量。n语音增强是语音信号处理系统的重要组成部分。n各种增强方法各有长处并且适用于不同的应用场合。15.1 概 述语音增强的目的主要有两个:n一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;n二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。语音增强方法 语音增强方法有多种,大致分为三类:基于语音产生模型 如:线性滤波法、梳状滤波法、自相关法 基于语音模型和噪声模型 如:维纳滤波法、卡尔曼滤波法 基于噪声特性(短时谱估计)如:频谱减法、自适应噪声抵消法15.2语音特性、人耳感知特性
3、及噪声特性-语音特性 n语音是一时变的、非平稳的随机过程,但由于一段时间内(1030 ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。n在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。n语音信号可以用统计分析特性来描述。语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的,将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。15.2语音特性、人耳感知特性及噪声特性
4、-人耳感知特性 n语音感知问题涉及到生理学、心理学、声学和语音学诸多领域,人耳对背景噪声有很大的抑制作用,其中很多问题有待进一步研究。目前已有一些结论可用于语音增强:n 人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱则不敏感。n 人耳对频率高低的感受近似与该频率的对数值成正比。n 人耳有掩蔽效应,即强信号对弱信号有抑制作用,能够将其掩盖。利用人耳的生理特点,提高语音信号的信噪比,使有用的语音信号大于噪声一定级别,就可以在语音与噪声共存的情况下感觉不到噪声的存在。n 共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。
5、n 人耳在两个人以上的说话环境中能够分辨出他所需要的声音。15.2语音特性、人耳感知特性及噪声特性-噪声特性 n周期性噪声的特点是有许多离散的窄谱峰,来源于发动机等周期性运转的机械。可以容易地通过检查功率谱发现并通过滤波或变换技术将其去掉。n冲激噪声表现为时域波形中突然出现的窄脉冲是放电的结果。根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时,判别为冲激噪声,再对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近,还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。n宽带噪声通常可以假定为高斯噪声和白噪声。来源:风、呼吸噪声和一般随机噪声源。量化噪声通常作为白噪声来处理
6、,也可以视为宽带噪声。消除的最成功的方法利用了某些非线性处理。目前的一些方法虽然降低了背景噪声,提高了信噪比,但并不提高语音的可懂度。15.2语音特性、人耳感知特性及噪声特性-滤波器法 n有三种常用的滤波器:固定滤波器自适应滤波器傅里叶变换滤波器。15.2语音特性、人耳感知特性及噪声特性-固定滤波器n固定滤波器用于滤除平稳干扰成分。n最常见的是50或60 Hz交流声。n滤除60 Hz成分很少采用高通滤波器,因为干扰是由60 Hz的奇次谐波引起的,特别是37次谐波(交流哼声就是60 Hz交流声,它具有丰富的谐波,这种谐波一般是由于话筒输入插孔没有接地而造成的)。15.2语音特性、人耳感知特性及噪
7、声特性-固定滤波器n(a)中,它由一个延时器和一个加法器构成。延迟时间为T,它等于滤波器凹口间的间隔f0的倒数。n(b)反馈使极点离开原点,并接近零点。当极点靠近零点时,除各零点附近以外,在单位圆各处都会引起部分对消。因此梳齿可以变得很窄,而梳齿之间的响应又是平坦的。15.2语音特性、人耳感知特性及噪声特性-自适应滤波 n自适应滤波能够自动辨认应该滤除的成分。n由线性预测器构成一个滤波器,其频率响应近似等于输入信号的逆功率谱,这就可以实现自适应。n如果噪声是平稳或是缓变的,则在无语音期间便可以对噪声进行估计,并根据估计的结果调整波滤器。n采用这种方法的主要问题是,所得到的滤波器一般不是谱平衡的
8、,这种不平衡使恢复的语音着色,并可能干扰线性预测声码器的工作。如果通过上述的部分使极点-零点对消而使凹口变窄,不会明显地改善系统的性能。某些实验表明,如果使LPC预测器的阶数比通常采用的阶数高得多,则可以去除干扰,改善语音。15.2语音特性、人耳感知特性及噪声特性-变换技术 n(a)所示。信号要经过DFT变换到频域,在频域进行处理,然后用IDFT来重建语音信号。n(b)所示为频谱整形器,它可以是简单的一系列选通门。它可将噪声成分变换到零值,则反变换后的信号周期性干扰将被滤除。15.4非线性处理 n去除宽带噪声的主要方法分为三类:非线性处理减谱法自适应对消15.4非线性处理-中心削波 n可以通过
9、削波进行非线性处理。n原理是因为低幅度语音被同时消去将使语音质量变坏,如果噪声的幅度比语音低,则消去整个低幅度成分,就会消去噪声。n时域波形经过中心削波对可懂度是有害的,因为低幅度语音被同时消去将使语音质量变坏,所以中心削波必须在频域内进行。这种方法可以用来降低语音中的混响。n这里使用一个滤波器组,并对各滤波器的输出进行中心削波,然后在组合前使输出再通过一个相同的滤波器组,滤除由削波产生的畸变成分。15.4非线性处理-同态滤波法 n同态滤波法的关键部分具有非线性处理性质,它应用于语音识别中,着眼于将语音信息(基音、频谱)中的乘性噪声或干扰分离,或者将已减少了噪声、干扰的信息重新合成得到降噪时域
10、信号再进行识别。图15-3非线性处理中的同态滤波法框图15.5减谱法 n由于人耳对语音相位不敏感,所以对语音的可懂度及质量起重要作用的是语音的短时幅度谱,而不是相位。因而,这里只考虑了幅度谱。因为噪声是局部平稳的,故可以认为发语音前的噪声与发语音期的噪声功率谱相同,因而可以利用发语音前(或后)的“寂静帧”来估计噪声。n图中,平方根的处理是用以将功率转换为幅度。只要噪声假定为白噪声,则被减去的估计谱可近似为一常数。此时,减谱法的功能与中心削波法相同。图15-4减谱法的原理框图15.5减谱法 改进形式n原来的缺点:噪声的帧功率谱随机变化范围很宽,在频域中的最大、最小值之比往往达到几个数量级,而最大
11、值与均值之比也达68倍。因此,带噪信号在减去噪声谱后,噪声分量很大的那些频率点上就会剩余较大的部分,在频谱上呈现出随机出现的尖峰,使去噪语音在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感,所以称之为“音乐噪声”,它影响了语音的自然度甚至可懂度。另一方面,在增强语音的过程中,提高信噪比与提高语音的可懂度是一对矛盾。在滤除噪声的同时或多或少地会损害语音信号。一般说来,噪声滤除得越多,语音信号被损害的程度就越厉害,可懂度就越多。特别在低噪比情况下,这一矛盾更为突出。n减谱的改进形式可以较好地消除音乐噪声,优化处理语音质量和可懂度这一对矛盾。噪声的能量往往分布于整个频率范围,而语音能量则较集中于
12、某些频率或频段,尤其在元音的共振峰处。15.5减谱法 改进形式n引入、两个参数为算法提供了很大的灵活性。n当2、1时即变为基本的减谱法。n针对语音信号的强弱及噪声的特点,选择恰当的参数,可更好地消除音乐噪声。实际的增强实验表明,适当调节、,可以获得比原始的减谱法更好的增强效果。15.5减谱法 改进形式n它增加了一步IFFT变换,变换到伪倒谱域中(实际上这并不是真正的倒谱,故称其为“伪”倒谱)。在伪倒谱域中语音和噪声可以更好地进行分离。n的数值根据经验选取。为34时,信噪比可改善6 dB左右。n将该方法应用于LPC编码前的带噪语音上,使可懂度得到了改善。这是因为采用减谱法改善了频谱畸变,使预测器
13、和要求的语音频谱匹配得更好。图15-6伪倒谱相减法15.6自相关相减法 n基本出发点是:从含噪语音中减去宽带噪声的最佳估计。n利用信号本身相关,而信号与噪声、噪声与噪声之间可看做不相关的特性,可以将带噪信号进行自相关处理,使其得到与不带噪信号同样的自相关系数帧序列。15.6自相关相减法nw(t)为窗函数,由于s(t)、n(t)不相关,所以上式第2、3项的交叉乘积项的积分结果为0,故可写为Ryy()Rss()+Rnn()n式中Rss()为信号的自相关。因假定噪声为白噪声,故其自相关函数Rnn()为冲激函数n语音的自相关可以从Ryy()中减去噪声功率估值的方法来估计。这种方法很有吸引力,因为它不要
14、求进行傅里叶变换。tttdttwtntntstntntststsTdttwtntstntsTdttwtytyT)()()()()()()()()(1)()()()()(1)()()(1Ryy(t)15.7自适应噪声对消-自适应滤波 n带自适应滤波器的自适应噪声对消法的语音增强效果最好。这是因为:这种方法比其他方法多用了一个参考噪声作为辅助输入,从而获得了比较全面的关于噪声的信息。特别是辅助输入噪声与语音中的噪声完全相关的情况下,自适应噪声对消能完全排除噪声的随机性,彻底抵消语音中的噪声成分,从而无论在信噪比还是语音可懂度方面都能获得较大的提高。n这种方法的缺点是辅助输入在某些情况下难以获得,这
15、就限制了其应用范围。15.7自适应噪声对消-自适应滤波n自适应滤波器:在输入过程的统计特性未知或变化时,能够调整滤波器参数以满足某种最佳准则的要求。n它根据前一时刻已获得的滤波器参数等结果,自动地调节当前时刻的滤波器参数。以适应信号或噪声未知的或随时间变化的统计特性,从而实现最优滤波。15.7自适应噪声对消 -具有参考信号的自适应噪声对消 n采用两个(或多个)话筒的语音采集系统,一个用来采集带噪语音,另一个(或多个)用来采集噪声 n两个话筒必须要有相当的隔离度,但采集到的两种信号之间不可避免地会有时间差即产生延迟,因此实时采集到的两路信号中所包含的噪声段是不同的。因而采集到的噪声必须经过数字滤波器,以便得到尽可能接近带噪语音中的噪声。通常,需要采用自适应滤波器,使相减噪声与带噪语音中的噪声基本一致。图15-7一种双话筒采集的自适应噪声对消原理15.7自适应噪声对消 -利用延迟来建立参考信号的自适应噪声对消 n利用浊音相邻基音周期的波形高度相关,而相应的噪声都不相关这一事实,可以估计出x(n)s(n)+n(n)中的周期性较强或相关性较强的成分,因此这种方法只能在噪声类似白噪声(相关及周期性较弱)的情况下增强周期性或自相关较强的语音信号。n利用输出(即误差)对滤波器作自适应调整,使噪声输出最小来求出无噪语音的最佳估计 图15-9利用延迟来建立参考信号的自适应滤波器