1、9.1 9.1 概述概述v语音信号作为信息的最普遍最直接的表达方式,在许多领域语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。现实生活中的语音不可避免的要受到具有广泛的应用前景。现实生活中的语音不可避免的要受到环境的影响。环境的影响。v噪声分类:噪声分类: 按类别:可分为环境噪声等的加性噪声和残响及电器线路干按类别:可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声扰等的乘法性噪声 按性质:平稳噪声和非平稳噪声按性质:平稳噪声和非平稳噪声vLomBardLomBard现象:在噪声环境下,说话者情绪会发生变化,从现象:在噪声环境下,说话者情绪会发生变化,从而引起
2、声带的变化(对语音处理系统的影响相对较小)而引起声带的变化(对语音处理系统的影响相对较小)国内外语音信号处理研究成果国内外语音信号处理研究成果 目前国内外的研究成果从增强思想上主要分为以下三类:1)采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。(与后端应用无关)2)第二类方法是寻找稳健的耐噪声的语音特征参数。 如采用短时修正的相干系数(Short-Time Modified Coherence Coefficient,简称为SMC)作为语音特征参数。3)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法性噪声的HMM合成法,和针对乘法性噪声的Stocha
3、stic Matching法等。通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并不理想。9.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术 9.5模型补偿技术 9.29.2语音特性、人耳感知特性及噪语音特性、人耳感知特性及噪声特性声特性语音特性语音特性v语音信号是一种非平稳的随机信号语音信号是一种非平稳的随机信号v任何语言的语音都有任何语言的语音都有元音元音和和辅音辅音两种音素,根据发两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。音机理的不同,辅音又可以分为清辅音和浊辅音。v语音信号,作为非平稳、非遍历随机过程的样本函语音
4、信号,作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中又着举足轻数,其短时谱的统计特性在语音增强中又着举足轻重的作用。(重的作用。(据中心极限定理,语音的短时谱的统计特性服从高斯分布。)人耳感知特性:人耳感知特性:v对于声波频率高低的感觉与实际频率的高低不呈线对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系;对频率的分辨能力受性关系,而近似为对数关系;对频率的分辨能力受声强的影响;对语音信号的幅度谱较为敏感,对相声强的影响;对语音信号的幅度谱较为敏感,对相位不敏感。位不敏感。v人耳掩蔽效应:人耳掩蔽效应:产生一个声音由于另外一个声音的产生一个声音由于另外
5、一个声音的出现而导致该声音能被感知的阀值提高的现象。出现而导致该声音能被感知的阀值提高的现象。 语音增强的最终效果度量是人耳的主观感觉,所以在语音增语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。强中可以利用人耳感知特性来减少运算代价。 噪声特性噪声特性 对噪声进行划分的标准很多各种分类方法分对噪声进行划分的标准很多各种分类方法分析角度不同,介绍一下下面两种分类方法:析角度不同,介绍一下下面两种分类方法:1).根据根据噪声统计特性随时间变化的程度噪声统计特性随时间变化的程度可以可以将噪声分为将噪声分为平稳噪声平稳噪声,缓变噪声和冲激噪声缓变噪声和冲激
6、噪声。2)根据噪声对语音频谱的干扰方式可以把噪声主要根据噪声对语音频谱的干扰方式可以把噪声主要分为加性噪声和分为加性噪声和乘性噪声。乘性噪声。v 乘性噪声:乘性噪声是指噪声和语音在频谱是相乘性噪声:乘性噪声是指噪声和语音在频谱是相乘的关系在时域和语音则是卷积的关系。乘的关系在时域和语音则是卷积的关系。 例例 残响及传输网络的电路噪声(非加性噪声往往可残响及传输网络的电路噪声(非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声)以通过某种变换,如同态滤波,转为加性噪声)v 加性噪声:当噪声对语音的干扰表现为两者信号加性噪声:当噪声对语音的干扰表现为两者信号在时域进行相加时该噪声被称为加性噪
7、声显然噪声在时域进行相加时该噪声被称为加性噪声显然噪声和语音在频域也为相加关系。和语音在频域也为相加关系。 例:冲激噪声、周期噪声、宽带噪声、语音干扰例:冲激噪声、周期噪声、宽带噪声、语音干扰 v(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。 消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该均值做为判断阈,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号去掉冲激噪声。v(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声
8、,50Hz交流电源哼哼声也是周期噪声。通常可以采用陷波器方法予以滤除。v3)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可以视为宽带噪声,应用中常近似为Gauss噪声或白噪声。 其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难。 一般需要采取非线性处理方法。v(4)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成语音干扰称为语音干扰。 区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。v(5)传输噪声:这是传输系统
9、的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理v语音信号和噪声信号的区别v通过语音降噪技术来改善语音质量的过程如图14-1所示9.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术 9.5模型补偿技术 v通过语音增强技术来改善语音质量的过程:语音增强语音增强v语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号v语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号。v主要介绍下面两种增强方法: 减谱法 Weiner滤波法减谱法(减谱法(SSSS)语音增强技
10、术)语音增强技术v 基本原理基本原理 减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。 如果设 为纯净语音信号, 为噪声信号, 为带噪语音信号,则有:)()()(tntsty)(ty)(ts)(tn用 分别表示 的傅里叶变换,可得下式:由于假定语音信号与加性噪声是相互独立的,因此有:因此,如果用 分别表示 的功率谱,则有:而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓的“寂静段”(认为在这一段里没有语音只有噪声)来估计噪声的功率谱
11、,从而有:)()()(NSY)()()(NSY、)()()(tntsty、222)()()(NSY)()()(nsyPPP、)()()(tntsty、)()()(nsyPPP)()()(nysPPP)(nP 这样减出来的功率谱可以认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复降噪后的语音时域信号。 在具体计算时,为防止出现负功率谱的情况,减谱时当 时,令 ,即完整的减谱公式如下: 减谱法语音增强技术的基本原理图如图14-10所示。图中处理频域过程只考虑了功率谱的变换,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位不敏感之一特点,这时可用原带噪语音 的相位谱
12、来代替估计之后的语音信号的相位谱来恢复降噪后的语音时域信号。)()(, 0)()(),()()(nynynysPPPPPPP)()(nyPP0)(sP)(ty利用利用WeinerWeiner滤波法语音增强技术滤波法语音增强技术 本节主要讨论在最小均方准则下用Weiner滤波器实现对语音信号的估计,即对于带噪语音信号 (其中 为纯净语音信号, 为噪声信号),确定滤波器的冲击响应 ,使得带噪语音信号经过该滤波器的输出 能够满足 最小( 为滤波器输出)。v1)基本原理)基本原理 假定 和 都是短时平稳随机过程,则由Winer-Hopf)()()(tntsty)(ts)(tn)(th)(,ts2,)(
13、)(tstsE)(,ts)(ts)(tn 积分方程为: 两边取傅里叶变换有: 从而得到: 再由于: 并且考虑到由于 和 相互独立,所以有:dRhRxysy)()()()()()(yysyPHP)()()(yyxyPPH)()(ssyPP)(ts)(tn)3112()3212( 将式(14-32)和式(14-33)代入式(14-31),则有下式成立: 以上推到过程是在短时平稳的前提下进行的,所以语音信号必须是加窗后的短时帧信号。 可以由类似于减谱法中讨论的方法得到; 可以用带噪语音功率谱减去噪声功率谱得到。)()()(nsyyPPP)()()()(nssPPPH)(nP)()(2SEPs 还有其
14、他的一些Weiner滤波器的形式,如有理分式结构的Weiner滤波器、隐含Weiner滤波器等等。采用Weiner滤波器的最大好处是增强后的残留噪声类似于高斯白噪声,而不是有节奏起伏的音乐噪声。9.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术 9.5模型补偿技术 特征补偿技术特征补偿技术v主要通过信号的统计特性将带噪语音特征参数中的噪声部分去除,消除噪声影响,得到干净的语音特征参数以进行语音系统处理。v该方法包括CDCN、SDCN、SPLICE 和VTS 等方法。CDCN(Code-Dependent Cepstral Normalization)vCDCN
15、是早期的特征增强的方法之一,可以联合补偿加性噪声和信道畸变。v其基本思想是对加性噪声和信道进行估计,从而使输入帧的声学空间与当前环境的声学空间达到最好的匹配。vCDCN 方法假设语音特征分布满足高斯混合模型(Gaussian Mixture Model,GMM)分布,其实现过程可以分为以下两步:v1)用EM 算法对式(2.3)中的n 和h 进行估计,并求出代表式中g(nxh)的修正矢量r ,迭代公式如下:特征补偿技术特征补偿技术v在很多情况下,背景噪声和失真的变化相对于语音信号的变化来说要缓慢得多,并且语音信号的动态部分在语音的感知中具有很大作用。v 在语音特征的提取过程中,如果去除其慢变部分
16、,则既可以去除稳定和变化缓慢的噪声,同时也保留了语音中对感知重要的动态部分,因此可以提高识别系统在噪声环境中的识别率。v这种方法在抗噪声语音特征的提取中得到广泛的应用,通常可以应用在功率谱域、LOG能量谱域、倒谱域或自相关等域中。9.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术 9.5模型补偿技术 v语音增强语音增强v特征补偿技术特征补偿技术 v模型补偿技术模型补偿技术 模型补偿技术v与抗噪声语音特征和语音增强技术相比, 模型补偿技术不是通过减小噪声对语音信号或语音特征的影响来提高识别系统在噪声环境中的识别率,而是通过修改语音模型的参数,使其能更准确地描述噪
17、声环境中语音信号的统计特性来提高处理系统的性能。模型补偿技术v优点:由于这种方法充分地考虑了环境噪声的特性,因此通常能取得很好的效果。v缺点:是补偿后的语音模型只能适应于特定的工作环境,并且所需计算量一般比较大。v方法: PMC 模型补偿方法、环境模型自适应方法和VTS 模型补偿方法等。vPMC是模型分解的方法。 它的基本思想是: 如果干净语音模型为N 状态的HMM,噪声模型为M 状态的HMM,那么带噪语音模型可以认为是NM状态的HMM。它假设干净语音和噪声都符合混合高斯分布,然后通过变换组合得到带噪语音的模型分布。vMAP是模型自适应的方法, 基本思想: 调整模型参数,使得训练环境和实际环境之间能够最大程度的匹配。它可以很好的利用模型的先验知识,因此能够解决数据稀少的问题