1、4.2语音信号的数字化与预处理 4.1概述 4.4短时平均过零率和上升过零间隔 4.3短时平均能量和短时平均幅度 4.5短时自相关函数和短时平均幅度差函数4.6短时时域处理技术的应用 4.7中值滤波在语音短时时域处理中的应用 第4章语音信号的时域分析4.1概述语音信号语音信号携带各种信息:携带各种信息:男声男声、女声女声,喜喜、怒怒,中中、英英等。等。不同场合感兴趣的信息不同;不同场合感兴趣的信息不同;判断信号是否为判断信号是否为语音语音,只需人类语音信号的,只需人类语音信号的一般特征一般特征;区分语音为区分语音为清、浊音清、浊音,需语音,需语音能量谱能量谱和和基频基频;数字传输或数字存储时,
2、目的数字传输或数字存储时,目的不同不同,保留信息精度,保留信息精度不同不同;语音信号处理语音信号处理的的任务任务:去除去除与应用目的不相干或影响不大的语音信息与应用目的不相干或影响不大的语音信息 需要的信息不仅应当提取出来,有时还需要需要的信息不仅应当提取出来,有时还需要加强加强。以上涉及语音信号中,各种信息的以上涉及语音信号中,各种信息的表示问题表示问题。表示方法的原则:表示方法的原则:最方便最方便、最有效最有效。短时分析短时分析技术技术贯穿于贯穿于语音分析的全过程。语音分析的全过程。第4章语音信号的时域分析 4.1概述整体的语音信号来讲,分析出的是由每一帧特征参数组成的特整体的语音信号来讲
3、,分析出的是由每一帧特征参数组成的特征参数时间序列。征参数时间序列。语音信号分析语音信号分析:时域分析时域分析、频域分析频域分析、倒频域分析倒频域分析等;等;语音信号分析语音信号分析:模型分析模型分析、非模型分析非模型分析;模型分析法是指依据语音信号产生的数学模型,来分析和提取模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的表征这些模型的特征参数特征参数,模型分析:模型分析:共振峰分析共振峰分析、无损级联声管分析法无损级联声管分析法非模型分析:非模型分析:不进行模型化的分析不进行模型化的分析语音的预处理语音的预处理:语音信号的:语音信号的数字化数字化、语音信号的、语音信号的
4、端点检测端点检测、预加重预加重、加窗加窗、分帧分帧等,等,本章重点:本章重点:语音信号的各种时域分析技术,是语音处理技术语音信号的各种时域分析技术,是语音处理技术 的基础知识。的基础知识。第4章语音信号的时域分析 4.1概述第4章语音信号的时域分析4.2语音信号的数字化和预处理 信号数字化:信号数字化:放大放大、增益控制增益控制、反混叠滤波反混叠滤波、取样取样、A/D变换变换及及编码编码(PCM编码编码););预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;等;图图4.1:语音信号数字语音信号数字分析分析或或处理处理的的系统框图系统框图。第4章语音信号的时域分析 4.2语
5、音信号的数字化和预处理 图图4.1语音信号数字处理系统框图语音信号数字处理系统框图反混叠滤波反混叠滤波语音输入语音输入语音输出语音输出A/D转换转换分析处理分析处理平滑滤波平滑滤波D/A转换转换合成处理合成处理传输或存储传输或存储 4.2.1预滤波、取样、预滤波、取样、A/D变换变换 预滤波:预滤波:带通滤波器带通滤波器(上、下(上、下截止频率截止频率为为fH、fL)防混叠滤波防混叠滤波,抑制,抑制fs/2的输入信号分量(的输入信号分量(fs为取样频率)为取样频率)抑制工频干扰抑制工频干扰(50 Hz电源)。电源)。多数多数语音编语音编/译码器:译码器:fH=3.4kHz,fL=60100Hz
6、,fs=8kHz。语音识别:语音识别:对对电话用户电话用户指标与语音编指标与语音编/译码器时相同;译码器时相同;要求较高或很高:要求较高或很高:fH=4.5 or 8kHz,fL=60Hz,fs=10 or 20kHz。A/D变换需对信号变换需对信号量化量化,编码为,编码为二进制二进制,产生,产生量化误差量化误差。量化误差量化误差(量化噪声量化噪声):):量化信号值量化信号值与与原信号值原信号值之差;之差;信号波形的变化信号波形的变化足够大足够大或量化或量化间隔足够小间隔足够小时,时,量化噪声符合具有下列特征的统计模型:量化噪声符合具有下列特征的统计模型:量化噪声是量化噪声是平稳的白噪声平稳的
7、白噪声过程;过程;量化噪声与输入信号量化噪声与输入信号不相关不相关;量化噪声在量化间隔内量化噪声在量化间隔内均匀分布均匀分布,即具有,即具有等概率密度分布等概率密度分布。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 量化信噪比量化信噪比SNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为:式中,式中,输入输入语音信号序列语音信号序列的的方差方差,噪声序列噪声序列的的方差方差,信号的信号的峰峰-峰值峰值,B量化字长量化字长,设语音信号的幅度服从设语音信号的幅度服从Laplace分布分布,则,则 取取 ,上式改写为:上式改写为:B=7 bit,SNR=35 dB,能,能满足
8、一般满足一般通信系统的要求。通信系统的要求。语音波形的语音波形的动态范围动态范围达达55 dB,故,故B应取应取10 bit以上。以上。为保持为保持35 dB的的信噪比信噪比,常用,常用12 bit量化量化,附加的,附加的5 bit用于用于补偿补偿30 dB左右的输入左右的输入动态动态的变化。的变化。2max10102(dB)10log6.024.7720logxexXSNRB2xmaxX2e(dB)6.027.2SNRB表明量化器中每表明量化器中每bit字长对字长对SNR的贡献约为的贡献约为6 dB 第4章语音信号的时域分析 4.2语音信号的数字化和预处理 max4xX(4)0.0035xp
9、 xA/D变换器:变换器:分为分为线性线性和和非线性非线性两类。两类。目前采用绝大部分的目前采用绝大部分的线性线性A/D变换器变换器是是12 bit。非线性非线性A/D变换器变换器一般是一般是8 bit,它与,它与12 bit线性变换器线性变换器等效等效。有时需要将非线性的有时需要将非线性的8 bit码转换为线性的码转换为线性的12 bit码。码。数字化的数字化的反过程反过程是从数字化语音中是从数字化语音中重构语音重构语音波形。波形。必须在必须在D/A后加后加平滑滤波器平滑滤波器,对重构的语音波形的高次谐波起,对重构的语音波形的高次谐波起平滑作用,以平滑作用,以去除高次谐波去除高次谐波失真。失
10、真。预滤波预滤波、取样取样、A/D和和D/A变换变换、平滑滤波平滑滤波等许多功能可以用等许多功能可以用一块芯片一块芯片完成,在市场上有多种这样的完成,在市场上有多种这样的集成芯片集成芯片供选用。供选用。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 4.2.2预处理预处理 预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;等;语音的一个特征:语音的一个特征:约约8 kHz高频端按高频端按-6 dB/倍频程倍频程跌落。跌落。预加重:预加重:提升提升语音的语音的高频高频部分,使信号的频谱变得部分,使信号的频谱变得平坦平坦,可在可在反混叠滤波前反混叠滤波前,可,可压缩动
11、态范围压缩动态范围,提高信噪比提高信噪比。也可在也可在数字化后数字化后、参数分析之前参数分析之前。预加重预加重用用6 dB/倍频程倍频程的提升高频特性的的提升高频特性的预加重数字滤波器预加重数字滤波器:式中,式中,为为常系数常系数,值接近于,值接近于1,通常取,通常取=0.920.94。恢复恢复原信号,对测量值进行原信号,对测量值进行去加重去加重处理,处理,即加上即加上-6 dB/倍频程的下降的频率特性来还原成原来的特性。倍频程的下降的频率特性来还原成原来的特性。1()1H zz 第4章语音信号的时域分析 4.2语音信号的数字化和预处理 4.2.3窗函数的作用窗函数的作用 采用采用连续分段连续
12、分段或或交叠分段交叠分段的方法的方法分帧分帧,33 100帧帧/秒秒。图图4.2:帧移与帧长示例。帧移与帧长示例。帧与帧之间的信号平滑过渡,保持其连续性。帧与帧之间的信号平滑过渡,保持其连续性。帧移:帧移:前后帧的前后帧的交叠部分交叠部分。帧移帧移与与帧长帧长的的比值比值一般为一般为01/2。移动窗函数加权实现:移动窗函数加权实现:x(n)为为语音信号,语音信号,w(n)为为窗函数,窗函数,sw(n)为为窗选语音信号窗选语音信号。()()()wxnx n w n图图4.2帧移与帧长的示例帧移与帧长的示例(N为帧长,为帧长,M为帧移为帧移)NNNMM 理想窗函数的频率响应有理想窗函数的频率响应有
13、一个一个很窄的主瓣很窄的主瓣,它增加了频,它增加了频率的分辨度,而率的分辨度,而没有旁瓣没有旁瓣。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 讨论讨论窗函数窗函数的的形状形状和和长度长度的影响。的影响。1.窗函数的形状窗函数的形状好的窗函数的好的窗函数的标准标准:时域:减小时域:减小时间窗两端的时间窗两端的坡度坡度,使窗口两端边缘,使窗口两端边缘平滑过渡平滑过渡到到零到到零,减小减小语音帧的语音帧的截断效应截断效应;频域:较宽频域:较宽的的3 dB带宽和带宽和较小较小的边带最大值。的边带最大值。常用的常用的窗函数窗函数(窗长为(窗长为N):):(1)矩形(矩形(rectangul
14、ar)窗:)窗:(2)Hamming(汉明)窗:(汉明)窗:(3)Hanning(汉宁)窗:(汉宁)窗:1;01()0;nNw n其它20.540.46cos01()10nnNw nN其他20.50.5cos01()10nnNw nN其他第4章语音信号的时域分析 4.2语音信号的数字化和预处理(4)Bartlett(巴特雷特)窗:(巴特雷特)窗:(5)Blackman(布累克曼)窗:(布累克曼)窗:(6)Kaiser(凯散)窗:(凯散)窗:式中,式中,零阶贝塞尔函数零阶贝塞尔函数,20(1)/212()2(1)/2110nnNNnw nNnNN其他240.420.5cos0.08cos01()
15、110nnnNw nNN其他2002111()01()0nINw nnNI其他2020/2()(!)kkxIxk第4章语音信号的时域分析 4.2语音信号的数字化和预处理 图图4.3、4.4:窗函数的波形窗函数的波形矩形窗矩形窗主瓣最窄主瓣最窄,频率分辨度,频率分辨度 最高最高,频率,频率泄漏最大泄漏最大;Blackman窗频率分辨度窗频率分辨度最低最低,频率频率泄漏最小泄漏最小。常用常用矩形窗矩形窗、Hamming窗窗。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 图图4.3各种窗函数的时间波形各种窗函数的时间波形图图4.4各种窗的频率响应各种窗的频率响应Bartlett窗窗 矩形
16、窗矩形窗Hamming窗窗 Blackman窗窗 Hanning窗窗 Kaiser窗窗 2.窗口的长度窗口的长度 取样周期取样周期Ts=fs、窗口长度窗口长度N、频率分辨率频率分辨率f 的关系为:的关系为:Ts一定时,一定时,f 随窗口随窗口N增加增加而而减小减小,即即f 提高提高,时间分辨率,时间分辨率降低降低。如果窗口如果窗口取短取短,频率分辨率,频率分辨率下降下降,时间分辨率,时间分辨率提高提高。取样周期和频率分辨率取样周期和频率分辨率矛盾矛盾,应根据需要,应根据需要选择合适选择合适的窗长。的窗长。时域分析:时域分析:N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化;很大,语音
17、高频受阻,短时能量变化很小,不能反映幅度变化;N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。通常一帧内应含有通常一帧内应含有1 7个基音周期。个基音周期。基音周期变化大,从女性和儿童的基音周期变化大,从女性和儿童的2 ms到老年男子的到老年男子的14 ms10 kHz取样时,取样时,N 折衷选择为折衷选择为100 200点(点(10 20 ms)。)。分析条件:分析条件:(通常需标明,以提供性能评价参考依据)取样频率、精度、预加重方式、窗函数、帧长、帧移取样频率、精度、预加重方式、窗函数、帧长、帧移等。等。第4章语音信号的时
18、域分析 4.2语音信号的数字化和预处理 1/sfNT 第4章语音信号的时域分析4.3短时能量和短时平均幅度 4.3.1短时能量短时能量语音的清音能量语音的清音能量较小较小,浊音能量,浊音能量较大较大。语音的能量分析主要语音的能量分析主要短时能量短时能量和和短时平均幅度短时平均幅度。n时刻时刻语音信号的语音信号的短时能量短时能量En为:为:或或 式中,式中,h(n)=w2(n),可以看做滤波器的,可以看做滤波器的冲激响应函数冲激响应函数。En反映语音反映语音振幅振幅或或能量能量随随时间时间缓慢变化的缓慢变化的规律规律。窗函数窗函数或或滤波器滤波器的函数的函数形式形式和和宽度宽度对能量序列影响很大
19、。对能量序列影响很大。选择合适的选择合适的窗函数窗函数或滤波器的或滤波器的冲激响应函数冲激响应函数和它们的和它们的宽度宽度。用得较多的是用得较多的是矩形窗矩形窗和和Hamming窗窗。第4章语音信号的时域分析 4.3短时能量和短时平均幅度122()()()()n Nnmm nEx m w nmx m w nm1222()()()()()()n Nnmm nExm h nmxm h nmxnh n 窗宽的影响:窗宽的影响:窗函数很宽窗函数很宽或或冲激响应很长冲激响应很长,平滑作用,平滑作用显著显著,使,使En变化不大,变化不大,反映不出语音能量的时变特性。反映不出语音能量的时变特性。窗函数过窄窗
20、函数过窄,平滑作用,平滑作用有限有限,仍然保留,仍然保留瞬时瞬时快变化,使快变化,使En反映反映语音振幅细节,表现不出振幅平方包络的变化规律。语音振幅细节,表现不出振幅平方包络的变化规律。当当N小于语音基音周期时,将按照基音周期内语音振幅平方波小于语音基音周期时,将按照基音周期内语音振幅平方波形的形的细节细节瞬时变化;瞬时变化;当当N比基音周期的若干倍还要大时,各段语音的短时能量差别比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。不大,不能跟随语音能量的时变特性。这两种情况都不能准确描述语音能量自身的实际变化规律。这两种情况都不能准确描述语音能量自身的实际变
21、化规律。必须选择合适的窗宽,必须选择合适的窗宽,兼顾男声和女声,兼顾男声和女声,10 kHz取样时,选取样时,选窗宽窗宽10 20 ms。第4章语音信号的时域分析 4.3短时能量和短时平均幅度 图图4.54.5:语音的语音的短时能量短时能量序列的序列的包络曲线包络曲线。第4章语音信号的时域分析 4.3短时能量和短时平均幅度(a)加矩形窗时加矩形窗时 (b)加加Hamming窗时窗时图图4.5语音语音“同舟共济同舟共济”的短时能量函数(的短时能量函数(10 kHz取样)取样)矩形窗比矩形窗比Hamming窗的平滑效果显著窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;随着窗宽的增加,平滑效果越
22、显著;从的包络曲线可以清楚看出清音和浊音之间的从的包络曲线可以清楚看出清音和浊音之间的区别区别和和分界点分界点,4.3.2短时平均幅度短时平均幅度En的计算是的计算是平方求和平方求和,计算量大;,计算量大;平方运算平方运算扩大扩大了样本间了样本间差别差别,选窗宽择带来附加的困难。,选窗宽择带来附加的困难。须选择较宽的窗,才能须选择较宽的窗,才能较好地平滑较好地平滑平方幅度的起伏。平方幅度的起伏。为此,提出语音能量时变性质的为此,提出语音能量时变性质的另一个重要参数。另一个重要参数。n时刻时刻语音信号的语音信号的短时平均幅度短时平均幅度Mn为:为:或或 式中,式中,h(n)=w(n)通常窗函数通
23、常窗函数w(n)0,所以,所以h(n)=w(n)。依据依据定义式定义式可导出多种的可导出多种的计算方法计算方法(略)(略)。共三种。共三种。第4章语音信号的时域分析 4.3短时能量和短时平均幅度1()()()()n Nnmm nMx m w nmx m w nm1()()()()()()n Nnmm nMx m h nmx m h nmx nh n 图图4.64.6:语音的语音的平均幅度平均幅度序列的序列的包络曲线包络曲线。第4章语音信号的时域分析 4.3短时能量和短时平均幅度(a)加矩形窗时加矩形窗时 (b)加加Hamming窗时窗时图图4.6语音语音“同舟共济同舟共济”的短时平均幅度函数(
24、的短时平均幅度函数(10 kHz取样)取样)语音的语音的平均幅度平均幅度与与短时能量短时能量具有相似的一些性质具有相似的一些性质矩形窗比矩形窗比Hamming窗的平滑效果显著窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的从的包络曲线可以清楚看出清音和浊音之间的区别区别和和分界点分界点,比较比较En和和Mn(比较比较图图4.6与与4.5):):短时平均幅度的差别没有它们的短时能量的差别那么显著;短时平均幅度的差别没有它们的短时能量的差别那么显著;清音的短时平均幅度比短时能量有所提高。清音的短时平均幅度比短时能量有所提高。
25、En和和Mn的主要用途:的主要用途:区分语音的区分语音的清音段清音段与与浊音段浊音段;区分区分声母声母与与韵母韵母;无声无声与与有声有声的的分界分界;作为一种作为一种超音段信息超音段信息用于语音识别。用于语音识别。第4章语音信号的时域分析 4.3短时能量和短时平均幅度例:现有单词例:现有单词“one”和和“four”的英文发音的语音信号,下图为的英文发音的语音信号,下图为检检 测信号的相应短时能量脉冲分布,分析哪个为测信号的相应短时能量脉冲分布,分析哪个为“one”的短时的短时 能量谱,哪个为能量谱,哪个为“four”的短时能量谱,并说明理由的短时能量谱,并说明理由 第4章语音信号的时域分析
26、4.3短时能量和短时平均幅度 答:(a)为“one”的短时能量谱,(b)为“four”的短时能量谱。这是因为浊音信号的短时能量谱相对要大,而清音的短时能量谱相对较小。图(4-b)中在开始段明显有一段能量较小,为清音“f”的能量谱,因此可以判定(4-b)为“four”的短时能量谱,同理可以判定图(4-a)为“one”的短时能量谱。第4章语音信号的时域分析4.4短时平均过零率和上升过零间隔 4.4.1短时平均过零率短时平均过零率离散信号离散信号相邻样本相邻样本取取不同符号不同符号时,称为出现了时,称为出现了过零现象过零现象。过零率:过零率:单位时间过零的次数。单位时间过零的次数。窄带离散信号窄带离
27、散信号的的过零率过零率较准确地度量了信号的较准确地度量了信号的频率特性频率特性。宽带离散信号宽带离散信号的的过零率过零率只能粗略地反映信号的只能粗略地反映信号的频谱特性频谱特性。语音信号语音信号是是宽带宽带、缓时变信号缓时变信号,其频谱特性随时间变化。,其频谱特性随时间变化。语音信号的语音信号的短时过零率短时过零率粗略地表征语音信号的粗略地表征语音信号的频谱特性频谱特性。语音信号的语音信号的过零率序列过零率序列能够描述:能够描述:语音序列的语音序列的清音清音和和浊音浊音、无声无声与与有声有声等特征,等特征,在语音分析中有在语音分析中有重要应用重要应用。第4章语音信号的时域分析 4.4短时平均过
28、零率和上升过零间隔 n时刻时刻语音信号的语音信号的短时平均过零率短时平均过零率Zn为:为:式中,式中,上式的上式的物理意义物理意义:当相邻两个样本符号当相邻两个样本符号相同相同时,时,不产生不产生过零;过零;当相邻两个样本符号当相邻两个样本符号相反相反时,时,产生产生一次过零。一次过零。第4章语音信号的时域分析 4.4短时平均过零率和上升过零间隔 2222221sgn ()()sgn (1)(1)21sgn()sgn(1)()21sgn()sgn(1)()2nmmZx m w nmx mw nmNx mx mw nmNx nx nw nN21;011;0(),sgn.0;1;0nNxw nxx
29、其它图图4.7:语音的语音的短时平均过零率短时平均过零率的的包络曲线包络曲线。浊音频谱主要集中在浊音频谱主要集中在3 kHz以下低频区域,超过以下低频区域,超过4 kHz后频谱幅后频谱幅度迅速下降;而清音频谱幅度在超过度迅速下降;而清音频谱幅度在超过4 kHz后反而呈上升趋势,后反而呈上升趋势,甚至超过甚至超过8 kHz后频谱幅度仍然很大。后频谱幅度仍然很大。这表明清音频谱主要集中在高频区域。这表明清音频谱主要集中在高频区域。短时平均过零率粗略地描述了语音信短时平均过零率粗略地描述了语音信 号的频谱特性,并可用于区分浊音和号的频谱特性,并可用于区分浊音和 清音。清音。例例:图图4.7中短时平均
30、过零率高的区段中短时平均过零率高的区段 对应清音,过零率低的区段对应浊音。对应清音,过零率低的区段对应浊音。但是,仅用过零率的高低区分清音和但是,仅用过零率的高低区分清音和 浊音并不很准确,因为某些清音和浊浊音并不很准确,因为某些清音和浊 音的短时平均过零率的数值相差不多。音的短时平均过零率的数值相差不多。第4章语音信号的时域分析 4.4短时平均过零率和上升过零间隔 图图4.7语音语音“同舟共济同舟共济”的短时的短时平平 均过零率曲线(均过零率曲线(10 kHz取样)取样)(a)原始语音波形原始语音波形(b)平均过零率平均过零率图图4.8:清音清音和和浊音浊音每每10 ms内内过零数过零数的的
31、概率分布曲线概率分布曲线。清音:清音:10 ms过零数为过零数为49的的概率最大概率最大,大体上显,大体上显正态分布正态分布。浊音:浊音:10 ms过零数为过零数为14的的概率最大概率最大,也大致呈,也大致呈正态分布正态分布。浊音浊音和和清音清音每每10 ms过零数为过零数为24左右的概率左右的概率几乎是相等的几乎是相等的,因,因而凭着这类数值就而凭着这类数值就很难区分很难区分浊音和清音。浊音和清音。规定一个规定一个噪声门限噪声门限:样本样本超过超过门限门限正值正值,认为是,认为是正正并赋值,并赋值,样本样本低于低于门限门限负值负值,认为是,认为是负负并赋值,并赋值,界于界于门限门限正负值正负
32、值间,认为是间,认为是零零并赋值。并赋值。为准确判定样本的符号,为准确判定样本的符号,应要求应要求:信号中信号中不含直流偏移不含直流偏移;噪声噪声和电源和电源干扰干扰尽可能尽可能小小;选择合适的选择合适的正负门限值正负门限值。第4章语音信号的时域分析 4.4短时平均过零率和上升过零间隔 图图4.8过零率概率分布图过零率概率分布图清音清音 47 浊音浊音 0 10 20 30 40 50 60 70 80每每10 ms内的过零分布内的过零分布14 4.4.2短时上升过零间隔短时上升过零间隔 短时平均过零率:短时平均过零率:描述复杂波形描述复杂波形“频率频率”特征的一个参数。特征的一个参数。短时平
33、均上升过零间隔:短时平均上升过零间隔:描述复杂波形描述复杂波形“周期周期”特性的参数。特性的参数。在一定的噪声背景下,在一定的噪声背景下,过零间隔过零间隔参数具有很好的顽健性,对不参数具有很好的顽健性,对不同的语音具有很好的差异性同的语音具有很好的差异性 上升过零点时间上升过零点时间RZCT:当前信号波形样本:当前信号波形样本大于大于或或等于零等于零,而,而其前一点样本其前一点样本小于零小于零。上升过零间隔上升过零间隔RZCI:上升过零间隔次数序列上升过零间隔次数序列:将各种语音得到的统计出各种长度的:将各种语音得到的统计出各种长度的间隔出现的次数,由此可以得到上升过零间隔次数序列。间隔出现的
34、次数,由此可以得到上升过零间隔次数序列。第4章语音信号的时域分析 4.4短时平均过零率和上升过零间隔()()(1),1,2,RZCI iRZCT iRZCT iiN例:现有单词例:现有单词“six”和和“seven”的英文发音的语音信号,图的英文发音的语音信号,图5为检为检测信号的相应过零率,分析哪个为测信号的相应过零率,分析哪个为“six”的过零率,哪个为的过零率,哪个为“seven”的过零率,并说明理由的过零率,并说明理由 第4章语音信号的时域分析 4.4短时平均过零率和上升过零间隔 答:(a)为“seven”的过零率,(b)为“six”的过零率。这是因为清音类似于白噪声,短时过零率高,而
35、浊音过零率相对较低。“six”的发音为,很明显,在发音的开始和结束段均有清音发音s,对应的过零率较高,因此(5-b)为“six”的过零率,“seven”的发音为,只有开始段有清音发音s,因此可以判定(5-a)为“seven”的过零率。第4章语音信号的时域分析4.5短时自相关函数和短时平均幅度差函数 4.5.1短时自相关函数短时自相关函数自相关函数自相关函数用于衡量信号自身用于衡量信号自身时间波形时间波形的的相似性相似性。清音清音和和浊音浊音的的发声机理发声机理不同,不同,波形波形上存在较大的上存在较大的差异差异。浊音浊音的时间波形呈现的时间波形呈现准周期性准周期性,波形之间,波形之间相似性较好
36、相似性较好;清音清音的时间波形呈现的时间波形呈现随机噪声随机噪声的特性,样本间的特性,样本间相似性较差相似性较差。可以用短时自相关函数来可以用短时自相关函数来测度语音测度语音的的相似特性相似特性。时间离散的时间离散的确定信号确定信号,自相关函数自相关函数的定义为:的定义为:随机信号随机信号或者或者周期信号周期信号,自相关函数自相关函数的定义为:的定义为:第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数()()()mR kx m x mk1()lim()()21NmNNR kx m x mkN自相关函数具有以下性质:自相关函数具有以下性质:(1)周期性:周期性:周期信号的自相关
37、函数是周期函数;周期信号的自相关函数是周期函数;(2)对称性:对称性:R(k)=R(-k);(3)存在最大值:存在最大值:对所有对所有k,有,有R(0)R(k);(4)对对确定信号确定信号,R(0)=信号能量信号能量;对对随机信号随机信号或或周期信号周期信号,R(0)=平均功率平均功率。短时自相关函数短时自相关函数为:为:根据自相关函数的根据自相关函数的性质性质(2),得:,得:令令hk(n)=w(n)w(n+k),上式改写为:,上式改写为:上式表明,可用上式表明,可用数字滤波器数字滤波器实现实现Rn(k)的计算。的计算。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数()(
38、)()()()nmR kx m w nm x mk w nmk()()()()()()nnmR kRkx m x mk w nm w nkm()()()()()()()nkkmR kx m x mk h nmx n x nkh n实际往往不采用数字滤波器来实现,而采用直接计算的方法实际往往不采用数字滤波器来实现,而采用直接计算的方法令令 ,并,并 m 用代替用代替 ,且,且 ,由上式得:由上式得:考虑到考虑到有限窗宽有限窗宽N,上式改写为:,上式改写为:考查考查Rn(k)计算量:计算量:乘法:乘法:加法:加法:计算量过大,需计算量过大,需改进。改进。改进方法:改进方法:DFT技术,细节略。技术
39、,细节略。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 mnm()()()()()nmR kx nm w mx nmk w mkm()()wmw m10()()()()()NknmR kx nm w mx nmk w mk 0()1KkMNNkNk 4.5.2语音信号的短时自相关函数语音信号的短时自相关函数 图图4.9:语音语音的的短时自相关函数曲线短时自相关函数曲线,特点:,特点:明显反映明显反映浊音浊音信号信号的的周期性周期性;例:例:周期周期72点点,9 ms或或110 Hz 清音清音没有没有周期性周期性,其性质其性质类似于噪声类似于噪声;窗函数窗函数有影响。有影响
40、。矩形窗矩形窗时,浊音的自相关函数周期性明显;时,浊音的自相关函数周期性明显;短时自相关函数的短时自相关函数的幅度幅度是一个是一个逐渐衰减逐渐衰减的曲线。的曲线。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数(a)浊音浊音 (b)清音清音图图4.9语音的短时自相关函数(语音的短时自相关函数(8 kHz取样,窗长取样,窗长320)语音波形语音波形窗函数窗函数长度长度对短时自相关函数有对短时自相关函数有重要影响重要影响;一般要求,窗长大于一般要求,窗长大于两倍两倍的基音周期为好。的基音周期为好。图图4.10:不同不同矩形窗长时的短时自相关函数矩形窗长时的短时自相关函数 为反映语
41、音的为反映语音的周期性周期性,长窗长窗有利;有利;为反映语音的为反映语音的时变性时变性,短窗短窗有利;有利;可采用可采用修正的修正的短时自相关函数,折中处理。短时自相关函数,折中处理。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 图图4.10不同矩形窗长时的短时不同矩形窗长时的短时自相关函数(自相关函数(10 kHz取样)取样)4.5.3修正的短时自相关函数修正的短时自相关函数 修正的短时自相关函数修正的短时自相关函数定义为:定义为:或或 式中,式中,K最大的延迟最大的延迟,保证保证计算任何计算任何k时,执行时,执行N次乘累加运算次乘累加运算矩形窗时矩形窗时,计算式可,计
42、算式可简化简化为:为:是两个不同有限长度语音段和的是两个不同有限长度语音段和的互相关函数互相关函数。不满足不满足对称性;但对称性;但有周期性,有周期性,幅度幅度不下降不下降。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 12()()()()()nmR kx m w nm x mk w nmk12()()()()()nmR kx nm w m x nmk w mk121,01,0();()0,0,mNmNKw mw m其它其它10()()(),0NnmR kx nm x nmkkK()nR k()nR k图图4.11:修正短时自相关函数的曲线修正短时自相关函数的曲线 基音周
43、期基音周期最大值最大值为为Tmax,则,则 的两段分别只需为的两段分别只需为Tmax和和2Tmax,可正确求取基音周期;,可正确求取基音周期;N 值较大时,随值较大时,随 k 增大,增大,峰值峰值有所下降有所下降;若信号为若信号为周期冲激串周期冲激串时,则所有的峰值时,则所有的峰值同幅度同幅度。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 图图4.11不同矩形窗长时的修正短时不同矩形窗长时的修正短时自相关函数(自相关函数(10 kHz取样)取样)()nR k()nR k 4.5.4短时平均幅度差函数短时平均幅度差函数短时自相关函数是语音信号时域分析的重要参量。短时自相关函
44、数是语音信号时域分析的重要参量。自相关函数的运算量大。原因:自相关函数的运算量大。原因:乘法乘法运算时间较长。运算时间较长。避免乘法,引入避免乘法,引入短时平均幅度差短时平均幅度差函数函数 短时平均幅度差函数短时平均幅度差函数定义为:定义为:式中,式中,w1(m)和和w2(m)是窗函数,是窗函数,当窗的宽度选为当窗的宽度选为 N 时,上式为:时,上式为:若信号有若信号有周期性周期性,在,在 时将出现时将出现极小值极小值。Np是周期是周期 的性质的性质类似于类似于自相关函数;自相关函数;第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 12()()()()()nmF kx nm
45、 w mx nmk w mk10()()()NknmF kx nmx nmk,2,ppkNN()nF k图图4.12:周期性语音的周期性语音的Rn(k)和和Fn(k)特点:特点:周期性信号,周期性信号,Fn(k)是在周期是在周期 的的整数倍点整数倍点上有上有谷值谷值,而而不是不是峰值。峰值。可以证明可以证明Rn(k)和和Fn(k)有有密切关系密切关系,其关系为:其关系为:式中,式中,。计算计算Fn(k)只需只需加法加法、减法减法和和取绝对值取绝对值的运算;的运算;与与Rn(k)的的加法加法和和乘法乘法相比,其运算量大大相比,其运算量大大减少减少;用硬件实现语音信号分析时有很大好处。用硬件实现语
46、音信号分析时有很大好处。Fn(k)已用于已用于许多实时语音处理系统中。许多实时语音处理系统中。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 图图4.12周期性语音的周期性语音的Rn(k)和和Fn(k)的的示例(示例(8 kHz取样,窗长取样,窗长320)()nRk()nFk()()2(0)()nnnF kkRR k()0.6 1.0k图图4.13:平均幅度差函数平均幅度差函数 平均幅度差函数在浊音的基音周期上出现极小值,平均幅度差函数在浊音的基音周期上出现极小值,在清音时没有明显的极小值。在清音时没有明显的极小值。第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅
47、度差函数(a)浊音浊音 (b)清音清音图图4.13语音的平均幅度差函数(语音的平均幅度差函数(10 kHz取样,窗长取样,窗长320)例:已知某段语音信号,采样频率例:已知某段语音信号,采样频率10kHz,提取其中的一帧浊音信提取其中的一帧浊音信号做平均幅度差(号做平均幅度差(AMDF)分析,结果如图)分析,结果如图2所示,估计该段所示,估计该段语音信号的基音周期语音信号的基音周期 第4章语音信号的时域分析 4.5短时自相关函数和短时平均幅度差函数 答:根据上图可知,浊音信号平均幅度差函数对应的第一个极小值为基因周期的位置,因此可估算基因周期Tp=100/10k=10ms 第4章语音信号的时域
48、分析4.6短时时域处理技术的应用 4.6.1语音端点检测语音端点检测某些应用要求:某些应用要求:找出找出语音端点语音端点,采集,采集真正语音真正语音,以减少以减少数据量数据量、运算量运算量、处理时间处理时间。语音端点检测:语音端点检测:归结为区别归结为区别语音语音和和噪声噪声。若若SNR很高,则计算信号的很高,则计算信号的短时能量短时能量可区分可区分语音端点语音端点。实际应用中难保证高信噪比,不能仅依靠短时能量来判别;实际应用中难保证高信噪比,不能仅依靠短时能量来判别;某些语音端点判别会遇到特殊的困难:某些语音端点判别会遇到特殊的困难:弱摩擦音弱摩擦音、弱爆破音弱爆破音、鼻音鼻音时,往往与时,
49、往往与背景噪声电平背景噪声电平相近。相近。可补充利用可补充利用短时平均过零率短时平均过零率Zn进行判断:因进行判断:因清音清音和以上所举的和以上所举的音素音素的的Zn比比背景噪声背景噪声的的Zn要要高数倍高数倍。第4章语音信号的时域分析 4.6短时时域处理技术的应用两级判决法:两级判决法:用用En作作第一次第一次判别,再用判别,再用Zn作作第二次第二次判别。判别。第一级判别:第一级判别:采用采用双门限比较双门限比较的方法的方法(见图(见图4.14)。(1)根据根据En取取较高门限较高门限M1(En多在多在M1之上之上),进行,进行粗判粗判,语音,语音起止起止点点位于位于M1与与En包络交点对应
50、的包络交点对应的间隔之外间隔之外(即(即AB段之外)。段之外)。(2)根据根据背景噪声背景噪声的的平均能量平均能量选取选取较低门限较低门限M2,从,从A点点往左往左、B点点往右往右搜索,分别找到搜索,分别找到En包络包络第一次与门限相交第一次与门限相交的的两点两点C和和D,于是于是CD段就是根据段就是根据En判定的判定的语音段语音段。第4章语音信号的时域分析 4.6短时时域处理技术的应用图图4.14语音端点的两级判决法语音端点的两级判决法EnM1M2 C A B D nZnM3 E F n第二级判决:第二级判决:从从C点点往左往左、从、从D点点往右往右搜索,找到搜索,找到Zn第一次低于第一次低