1、国家“十一五”规划教材数字语音编码讲议同济大学电子与信息工程学院赵晓群编著机械工业出版社,2007年11.2多带激励语音模型 11.1概述11.4多带激励语音合成11.3多带激励语音分析 第第1111章多带激励声码器章多带激励声码器11.1概述CELP、MPLPC等:等:全极点模型全极点模型、LPC 分析分析,合成合成-分析法分析法,听觉加权听觉加权方均误差准则,方均误差准则,闭环闭环确定激励参数。确定激励参数。这类这类混合编码混合编码,在,在 4.816 kbit/s 码率内获得巨大成功。码率内获得巨大成功。关键技术:关键技术:是保持了合成语音与原始语音波形的相似性。是保持了合成语音与原始语
2、音波形的相似性。再降数码率时,合成语音质量迅速下降。再降数码率时,合成语音质量迅速下降。LPC 声码器:声码器:(清(清/浊音)浊音)二元激励模型二元激励模型,分析分析-合成法合成法,LPC 分析分析,清清/浊音判别浊音判别,估计,估计基音周期基音周期。SNR 较高时,较高时,2.4 kbit/s 及以下码率,语音及以下码率,语音可懂度可懂度相当高。相当高。以上编码器,当噪声较大时,因无法准确提取参数,以上编码器,当噪声较大时,因无法准确提取参数,性能性能严重恶化严重恶化;其它声码器,如其它声码器,如通道声码器通道声码器、同态声码器同态声码器等也有同样弱点。等也有同样弱点。第11章多带激励声码
3、器 11.1概述同济大学电子与信息工程学院 -3-赵晓群 教授产生原因:产生原因:二元激励模型二元激励模型过于简化,不符合实际语音的特性。过于简化,不符合实际语音的特性。许多语音段,同时含许多语音段,同时含周期性周期性、非周期性非周期性分量,分量,过渡音段过渡音段、有噪浊音段有噪浊音段更是如此。更是如此。当用当用二元谱二元谱来拟合时,合成语音来拟合时,合成语音缺乏自然度缺乏自然度。1988 年年 MIT 林肯实验室林肯实验室提出提出多带激励多带激励(MBE)语音编码语音编码,突破突破二元激励的局限性,对二元激励的局限性,对多个频带多个频带逐个进行逐个进行 V/U 判决判决,故称为多带激励模型。
4、故称为多带激励模型。采用采用合成合成-分析法分析法,在,在 2.4 4.8 kbit/s 码率码率时性能优良。时性能优良。改进方案被改进方案被国际海事卫星组织国际海事卫星组织采用(采用(INMARSAT-M Voice Codec),),码率码率为为 6.4 kbit/s。本章主要内容:本章主要内容:MBE 原理原理,参数提取参数提取方法,方法,合成语音合成语音的方法。的方法。重点介绍重点介绍 INMARSAT-M Voice Codec 标准标准的算法。的算法。第11章多带激励声码器 11.1概述同济大学电子与信息工程学院 -4-赵晓群 教授第第1111章多带激励声码器章多带激励声码器11.
5、2多带激励语音模型窗选语音信号窗选语音信号为(窗长为(窗长 2040 ms):):源源-系统语音模型系统语音模型理论,语音段是理论,语音段是线性系统线性系统(声道)(声道)对某种对某种激励信号激励信号的响应。的响应。设系统的设系统的单位脉冲响应单位脉冲响应为,则的为,则的 Fourier 变换变换可表示为:可表示为:式中式中Hw(),Ew()hw(n),ew(n)的的 Fourier 变换变换。重建语音信号谱重建语音信号谱 Xwr()可表示为:可表示为:式中式中Hwr()合成滤波器合成滤波器的的系统函数系统函数;Ewr()合成滤波器的合成滤波器的激励信号激励信号的的 Fourier 变换变换。
6、两者皆从两者皆从原始语音信号原始语音信号中分析中分析提取提取。第11章多带激励声码器 11.2多带激励语音模型 同济大学电子与信息工程学院 -5-赵晓群 教授()()()wxnx n w n()()()wwwXHE()()()wrwrwrXHE清音波形Hwr()用用全极点函数全极点函数来逼近,相应于来逼近,相应于 Xwr()的的谱包络谱包络。MBE 按按基音基音各各谐波谐波,将语音分成若干个,将语音分成若干个子频带子频带 (如以(如以 3 个相邻的谐波频带为一组进行分带),个相邻的谐波频带为一组进行分带),分别对各子带进行分别对各子带进行 V/U 判决判决,激励信号激励信号为各子带的为各子带的
7、和和。清音带:清音带:用用白噪声谱白噪声谱作为作为激励信号谱激励信号谱;浊音带:浊音带:用用周期性周期性的的 Pw()作为作为激励信号谱激励信号谱。激励信号是激励信号是周期性信号周期性信号与与非周期性噪声非周期性噪声按不同频带混合而成。按不同频带混合而成。系统函数系统函数 Hwr()的作用是:的作用是:调整调整各子带分量的相对各子带分量的相对幅度幅度和和 相相位位,并将,并将 Ew()映射成映射成 Xw()。该模型较符合实际语音的特性,使该模型较符合实际语音的特性,使合成语音谱合成语音谱同同原语音谱原语音谱 在频谱精细结构上在频谱精细结构上拟合得更好拟合得更好。若还利用谱的若还利用谱的相位相位
8、信息,则能够合成出高质量的语音。信息,则能够合成出高质量的语音。第11章多带激励声码器 11.2多带激励语音模型 同济大学电子与信息工程学院 -6-赵晓群 教授图图11.1:典型的典型的浊音浊音、清音清音和和混合语音混合语音段的分析段的分析-合成情况。合成情况。MBE 编码过程涉及三种参数的提取,编码过程涉及三种参数的提取,基音频率基音频率;每个每个子带子带的谱包络的的谱包络的幅度幅度和和相位相位参数;参数;每个每个子带子带的的 V/U 判决判决。图图11.2:MBE 语音语音编编/解码器解码器的简化原理图。的简化原理图。第11章多带激励声码器 11.2多带激励语音模型 同济大学电子与信息工程
9、学院 -7-赵晓群 教授图图11.2MBE声码器语音编声码器语音编/解码器原理图解码器原理图清语音合成清语音合成浊语音合成浊语音合成基音周期估计基音周期估计谐波产生谐波产生频带划分频带划分幅度估计幅度估计清清/浊判决浊判决相位计算相位计算FFT传传 输输 输出输出Hamming窗窗()x n0TkA/V Uk0TkA/V Uk()wx n同济大学电子与信息工程学院 -8-赵晓群 教授(a)浊语音段浊语音段 (b)清语音段清语音段 (c)混合语音段混合语音段图图11.1语音语音MBE的分析的分析-合成波形(合成波形(10 kHz采样,采样,256点点Hamming窗)窗)浊音波形清音波形混合音波
10、形加窗语音谱加窗语音谱加窗语音谱谱包络谱包络谱包络U/V判决结果U/V判决结果U/V判决结果周期谱P(ej)周期谱P(ej)周期谱P(ej)白噪声谱白噪声谱白噪声谱激励信号谱激励信号谱激励信号谱合成语音谱合成语音谱合成语音谱同济大学电子与信息工程学院 -9-赵晓群 教授第第1111章多带激励声码器章多带激励声码器11.3多带激励语音分析MBE模型参数的最优提取,计算量大,工程难以实时实现。模型参数的最优提取,计算量大,工程难以实时实现。常用常用次优次优算法,分两步完成参数的提取:算法,分两步完成参数的提取:确定确定基音频率基音频率和和每个分带每个分带的的谱包络谱包络参数,用参数,用 AbS 法
11、法提取提取;对对每个分带每个分带进行进行 V/U 判决判决。有两种参数提取方案:有两种参数提取方案:使下列使下列加权积分加权积分值(值(加权方均谱误差加权方均谱误差)为)为最小最小:应使下列应使下列加权积分加权积分值达到值达到最小最小:式中式中 G()频率加权函数频率加权函数;Xw(),Xwr()原始语音谱原始语音谱和和合成语音谱合成语音谱。第11章多带激励声码器 11.3多带激励语音分析 21()()()d2wwrGXX21()()()d2wwrGXX差别:差别:方案方案 利用语音谱的利用语音谱的模值模值;方案方案 利用利用模值模值和和相位相位,性能优于,性能优于 ,但计算复杂,码率有所增加
12、。但计算复杂,码率有所增加。INMARSAT-M Voice Codec 采用方案采用方案。本节主要内容:本节主要内容:11.3.1频域分析频域分析11.3.2时域分析时域分析11.3.3INMARSAT-M 改进改进 MBE 模型分析算法模型分析算法 第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -10-赵晓群 教授11.3.1频域分析频域分析1.基音估计及各次谐波幅度的计算基音估计及各次谐波幅度的计算设设基音周期基音周期为为 T0(基音角频率基音角频率 0=2/T0)。)。依次依次假设假设 0 为各种可能出现的值。为各种可能出现的值。对于对于可能可能的的基音
13、角频率基音角频率值值0,将,将=-分为若干频带,分为若干频带,分界点分界点为:为:am=(m-0.5)0,bm=(m+0.5)0,m=0,1,(M+1)设设每个每个分带分带 am,bm 中中 Hwr()保持不变,保持不变,Hwr()=Am,则有:则有:式中式中 总的总的加权方均谱加权方均谱误差;误差;m 第第m子带子带加权方均谱加权方均谱误差,误差,或或 第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -11-赵晓群 教授21()()()d2mmbmwmwraGXAE21()()()d2mmbmwmwraGXA EMmmM仅考虑仅考虑幅度谱幅度谱时时考虑考虑幅度、
14、幅度、相位谱相位谱时时令令或,或,由上两式可分别由上两式可分别解得解得一组一组最佳最佳 和和 :或或若若第第 m 次谐波次谐波的能量显的能量显周期性周期性,则其能量集中在该谐波附近,则其能量集中在该谐波附近;选选周期性周期性 Pw()的作为的作为激励信号激励信号 Ewr(),则则合成语音谱合成语音谱Xwr()与与窗选语音谱窗选语音谱 Xw()在在第第 m 次谐波次谐波带内将拟合得很好(带内将拟合得很好(m 最小)。最小)。若若第第 m 次谐波次谐波的能量显的能量显非周期性非周期性,则则 Xw()在该频带内没有特征性的形状。在该频带内没有特征性的形状。仍用仍用 Pw()作为激励,作为激励,m 值
15、将较大。此时,值将较大。此时,应选应选噪声噪声为激励。为激励。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -12-赵晓群 教授2()()()d()()dmmmmbbmwwrwraaAGXEGE2()()()d()()dmmmmbbmwwrwraaAGXEGE/0/0mmmmAAmmAA仅考虑仅考虑幅度谱幅度谱时时考虑考虑幅度、幅度、相位谱相位谱时时分析分析周期性周期性与与非周期性非周期性信号激励时的信号激励时的最佳解最佳解。浊音频带时浊音频带时,选,选 Pw()为为激励信号激励信号,由上页两式得:,由上页两式得:清音频带时,清音频带时,激励采用激励采用理想白噪
16、声理想白噪声(幅度谱幅度谱=1),则有:),则有:第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -13-赵晓群 教授2()()()d()()dmmmmbwwambwaGXPAGP2()()()d()()dmmmmbwwambwaGXPAGP()()d()dmmmmbbmwaaAGXG仅考虑仅考虑幅度谱幅度谱时,时,最佳谱幅度最佳谱幅度考虑考虑幅度、相位谱幅度、相位谱时,时,最佳谱包络最佳谱包络。相位信息无关紧要,相位信息无关紧要,在此在此无需计算无需计算 Am。对于对于假定假定基音频率基音频率 0 的每一个谐波,的每一个谐波,计算计算 Am 或或 Am,再求再求
17、出出各次谐波内各次谐波内的最小误差的最小误差 。则整个频带的总的最小误差:则整个频带的总的最小误差:每假设一个每假设一个基音频率基音频率 0,计算出对应的,计算出对应的 0。显然,正确的显然,正确的基音周期基音周期或其或其倍数倍数上,上,0 取取极小值极小值。搜索搜索 0 的全局最小值对应的的全局最小值对应的 T0=2/0 值可能是值可能是 正确的正确的基音周期基音周期的某个整数倍值。的某个整数倍值。因而,还需要对因而,还需要对T0/2、T0/3、处的处的 0 进行进行校核校核,以判断以判断正确正确的的基音周期基音周期,从而确定,从而确定最佳基音周期最佳基音周期。最后确定最佳基音周期时,还最后
18、确定最佳基音周期时,还需要考虑需要考虑前后帧前后帧的情况。的情况。一般相邻帧的一般相邻帧的 T0 值变化不会太大。值变化不会太大。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -14-赵晓群 教授00MmmM0mm2.谐波频带内谐波频带内 V/U 判决判决第第 m 子带的子带的归一化误差能量归一化误差能量为:为:采用采用激励信号激励信号 Pw()(谱幅度谱幅度Am 或或谱包络谱包络 Am、周期周期 T0)是第是第 m 谐波子带的谱拟合误差。谐波子带的谱拟合误差。令令频率加权函数频率加权函数 G()=1,上式化简为:,上式化简为:子带判决:子带判决:可以将相邻的几
19、个谐波频带可以将相邻的几个谐波频带合并合并成一个成一个子频带子频带,用上述同样的方法用上述同样的方法提取提取Am 或或 Am,并,并进行进行 V/U 判决判决。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -15-赵晓群 教授002(1/2)()()dmmbmmwaGX002(1/2)()dmmbmmwaX0m0域值判决此子带为浊音带域值判决此子带为清音带m11.3.2时域分析时域分析W():窗函数窗函数 w(n)的的 Fourier 变换,变换,0:归一化基音角频率归一化基音角频率(基音周期基音周期 T0,0=2/T0)假设假设在在-频率范围内共频率范围内共
20、2M 个个谐波谐波,Pw()为为激励激励时,有时,有:式中,式中,第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -16-赵晓群 教授()()jeMnnMWw n0()()TTMwrmmMXA WmW aa W0001(),(1),(),TTMMMWMWMWMAAAWa令频率令频率加权函数加权函数 G()=1,由前面给出的式子,由前面给出的式子 得,得,全带拟合误差全带拟合误差:式中,式中,由上式可求出由上式可求出使使 取取极小值极小值的矢量的矢量 a 为:为:再再代入代入上式,结合上页式,得:上式,结合上页式,得:式中,式中,因此,对于某个因此,对于某个选定选定
21、的的 T 值时,计算值时,计算 min 等价于等价于 max。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -17-赵晓群 教授21()2HHHdwXb a a b a RaT11d,()d22wXRW WbW21()()()d2wwrGXX 注:注:上标上标 T 为转置为转置 H 为共轭转置为共轭转置1aR b2211()()22HddwwXX a Ra211()2HHdwrXa Rab R b为了方便,选择为了方便,选择窗函数窗函数 w(n),使其满足,使其满足频域内正交条件:频域内正交条件:,I 是是单位矩阵单位矩阵;相当于相当于时域内满足条件:时域内满足
22、条件:还要求其还要求其 Fourier 变换的变换的泄露泄露足够小,足够小,主瓣宽度主瓣宽度足够窄足够窄(此宽度不应大于基音频率值)(此宽度不应大于基音频率值)。满足满足上述条件且上述条件且 w(n)为为偶函数偶函数时,上页计算时,上页计算 式可式可改写改写为:为:注意到注意到 0M=近似成立,且近似成立,且 0T=2,则上式可,则上式可简化简化为:为:式中式中 T 假定的假定的基音周期基音周期;w2(n)x(n)的的自相关函数自相关函数,第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -18-赵晓群 教授0()22()()()()jHeMm n kknmMw n
23、 x n w k x kb b22()()()()()knkTw n x n w nkT x nkTTkTT1d2W WRI2()1nw n22()()()()()nmw n x n w nm x nm()m由由 Parseval 定理,定理,总拟合误差总拟合误差写成写成:为了去除由于为了去除由于 T 值增加造成的值增加造成的下降,需要对上式下降,需要对上式修正修正,以保证真正的以保证真正的基音周期基音周期对应的是全局最小值。对应的是全局最小值。采用采用无偏拟合误差公式无偏拟合误差公式如下:如下:采用此修正后,采用此修正后,归一化总误差能量归一化总误差能量应写成下列形式:应写成下列形式:第11
24、章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -19-赵晓群 教授2221()2()()()dwnkXw n xnTkT 224()()()1()nkuBnw n xnTkTTw n22422()()()11()()()()d2uBnkuBwnnw n xnTkTTw nw n xnX设设窗函数窗函数 w(n)长为长为 2N+1,以,以原点对称原点对称。同时同时假设假设在窗长范围内有在窗长范围内有 L 个个假设基音周期假设基音周期,即:,即:则上页式中,则上页式中,uB的求和上下限应作相应的的求和上下限应作相应的改动改动,即得到即得到:为为粗搜索粗搜索时确定时确定初始
25、基音周期初始基音周期 TI 所用的拟合误差所用的拟合误差时域表达时域表达。为为提高提高精度,精度,T 值也可取值也可取非整数非整数,如,如 20.5,21,21.5。非整数点上的相关函数可非整数点上的相关函数可插值计算插值计算:实验表明,实验表明,10 kHz 采样,基音周期的采样,基音周期的精确精确可达可达 0.04 样点样点。数码率较低时(数码率较低时(4.8 kbit/s以下),精确到以下),精确到 1/4 1/8 样点样点也就满也就满足要求了,这样运算量可以减少很多。足要求了,这样运算量可以减少很多。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -20-
26、赵晓群 教授22422()()()1()()()NLnNkLuBNNnNnNw n xnTkTTw nw n xn()(1int)(int)(int)(int1)tttttttint(21)/LNT11.3.3 INMARSAT-M 改进改进 MBE 模型分析算法模型分析算法 图图11.3:INMARSAT-M 改进改进 MBE 模型算法框图。模型算法框图。语音信号:语音信号:8 kHz 采样采样,线性线性 PCM 编码编码,语音样值的语音样值的最大值定标最大值定标范围:范围:214-1,215-1 最小值定标最小值定标范围:范围:-215,-214需求出需求出改进改进 MBE 模型参数模型参
27、数:基音角频率基音角频率、V/U判决判决,子带谱包络参数子带谱包络参数(仅考虑(仅考虑幅度谱幅度谱)。)。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -21-赵晓群 教授图图11.3MBE 语音分析算法方框图语音分析算法方框图高通滤波器高通滤波器低通滤波器低通滤波器基音周期基音周期初始估计初始估计清清/浊判决浊判决基音周期基音周期精确估计精确估计频谱估计频谱估计语音信号语音信号()x n()Lxn()Iw n()Rwn0T,1,2,kVkK,1,2,mAmMIT1.高通滤波高通滤波语音经数字语音经数字高通滤波器高通滤波器,滤除信号中的,滤除信号中的直流分量直流
28、分量。高通滤波器高通滤波器的的截止频率截止频率约约 10 Hz,传递函数传递函数为:为:2.低通滤波低通滤波低通滤波器低通滤波器输出的信号按下式计算:输出的信号按下式计算:低通滤波器低通滤波器是是 21 阶阶 FIR 数字滤波器数字滤波器,其系数值列于,其系数值列于表表11.1。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -22-赵晓群 教授111()10.99zH zz1010()()()LLjx nx nj hj表表11.1FIR 低通滤波器系数低通滤波器系数jhL(j)jhL(j)jhL(j)00.3942014-0.0637238-0.00743010
29、.2973545-0.0045659-0.01377520.09367160.03065910-0.0021743-0.05160270.016900同济大学电子与信息工程学院 -23-赵晓群 教授图图11.4相邻语音帧与帧之间的关系相邻语音帧与帧之间的关系过去帧当前帧将来帧过去帧当前帧将来帧 3.基音估计基音估计基音估计算法:基音估计算法:应保持应保持相邻语音帧相邻语音帧基音周期的某种基音周期的某种连续性连续性。基音跟踪算法:基音跟踪算法:在确定当前帧的基音周期时要考虑在确定当前帧的基音周期时要考虑 相邻的相邻的过去帧过去帧和和将来帧将来帧的影响。的影响。图图11.4:当前帧当前帧和和前后帧
30、前后帧之间的关系。之间的关系。帧长帧长为为 20 ms(160 个个样点样点)。)。基音估计算法基音估计算法分:分:初始估计初始估计、精细估计精细估计两步进行。两步进行。初始估计初始估计得到得到初始基音周期:初始基音周期:TI,TI D=21,21.5,114,精度:精度:1/2 采样周期采样周期;再由再由精细估计精细估计得出归得出归最终基音周期最终基音周期,精度:精度:1/4 采样周期采样周期。两步法可降低两步法可降低计算复杂度计算复杂度和和提高鲁棒性提高鲁棒性。第11章多带激励声码器 11.3多带激励语音分析 基音周期:基音周期:误差函数:误差函数:-40 T-2E-2(T)-20 T-1
31、E-1(T)0 T0E0(T)20 T1E1(T)40T2E2(T)60 ms算法的重要特点:算法的重要特点:初始估计初始估计和和精细估计精细估计使用不同长度的窗函数。使用不同长度的窗函数。初始估计窗初始估计窗 wI(n)长为长为 281 个个样点样点;精细估计窗精细估计窗wR(n)长为长为 221 个个样点样点;皆是皆是对称三角形窗对称三角形窗,两窗,两窗中点对齐中点对齐。相邻语音帧之间的相邻语音帧之间的重叠量重叠量是窗长的是窗长的函数函数,重叠量重叠量=窗长窗长-帧移动量帧移动量(160 个个样点样点)。)。wR(n)时,时,重叠量重叠量 61 个个样点样点;wR(n)时,时,121个个样
32、点样点。(1)基音的基音的初始估计初始估计(步骤步骤见见图图11.5)对每一个对每一个可能可能的的基音周期基音周期 TD,计算计算误差函数值误差函数值 E(T)。然后通过然后通过前向前向与与后向基音后向基音 跟综算法跟综算法,比较比较求出的值,求出的值,最终最终选择选择最佳的候选者最佳的候选者 作为作为 TI。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -24-赵晓群 教授图图11.5初始基音周期估计初始基音周期估计后向后向基音跟踪基音跟踪前向前向基音跟踪基音跟踪比较基音比较基音估计值估计值计算计算误差函数误差函数()()LIxn wn()E TBTFTIT
33、计算计算误差函数误差函数根据根据归一化总误差能量归一化总误差能量定义,定义,误差函数误差函数 E(T)定义定义为:为:式中式中wI(n)归一化三角形窗函数归一化三角形窗函数,满足满足 。当当 t 为为整数值整数值时,时,自相关函数自相关函数(t)定义定义为:为:当当 t 为为非整数值非整数值时,用时,用线性内插线性内插公式公式计算计算(t)。基音周期的基音周期的初始估计初始估计 TI 为:为:采用基音跟踪算法,保证采用基音跟踪算法,保证基音周期基音周期 TI 的的连续性连续性。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -25-赵晓群 教授int(140/)1
34、4022140int(140/)140140224140140()()()()()()1()TLIjnTLIIjjxj wjTnTE Txj wjTwj14022140()()()()()LILIjtxj wj xjt wjt1402140()1Ijwjmin()ITTE T 后向基音跟踪后向基音跟踪E-1(T-1)、E-2(T-2)过去两帧对应的过去两帧对应的误差函数值误差函数值;因基音周期的因基音周期的连续性连续性,当前帧的基音周期,当前帧的基音周期 T 应在应在 T-1 附近,附近,应应满足约束条件满足约束条件:在上式范围内逐个在上式范围内逐个选取选取 T,并,并计算计算相应的相应的 E
35、(T),使使 E(T)最小最小的的 T 就是后向估计就是后向估计 TB,计算计算后向累计误差后向累计误差 CE(TB):CE(TB)是是后向基音估计后向基音估计的的置信度测度置信度测度。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -26-赵晓群 教授110.81.2;TTTTD1122()()()()BBBCE TE TETET 前向基音跟踪前向基音跟踪E1(T1)、E2(T2)将来两帧对应的将来两帧对应的误差函数值误差函数值;将来两帧的基音周期将来两帧的基音周期尚未确定尚未确定,前向基音跟踪算法必须首先设法确定这些基音周期值。前向基音跟踪算法必须首先设法确定
36、这些基音周期值。在集合在集合 D 内选定一个内选定一个 T0,按下面的,按下面的约束条件约束条件选取选取T1、T2:使使E1(T1)+E2(T2)最小最小的的T1、T2表示为表示为 ,并按下式并按下式计算计算前向累计误差函数前向累计误差函数 CEF(T0)为:为:重复上述过程重复上述过程,在规定的范围内逐个,在规定的范围内逐个选定选定 T0,计算计算相应的相应的CEF(T0),使其,使其最小最小的的 T0 定义定义为为 。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -27-赵晓群 教授010121120.81.2,0.81.2;,TTTTTTT TD00112
37、2()()()()FCETE TE TE T12,T T0T为防止为防止倍基音周期倍基音周期,考虑,考虑 取取 的可能性。的可能性。要求要求 ,选择选择一个与其一个与其最接近最接近的值代替。的值代替。再检查再检查是否满足是否满足下列下列三个条件三个条件之一、之一、且为且为最小值最小值的的 ,若有,则若有,则前向基音前向基音估计估计 ;否则;否则 。完成完成前、后向基音跟踪前、后向基音跟踪,并求得,并求得估计值估计值后,后,按下列按下列判决规则判决规则确定确定初始基音估计初始基音估计 TI:If CEb(TB)0.48 then TI=TB else if CEb(TB)CEF(TF)then
38、TI=TB else TI=TF 最终的基音估计的最终的基音估计的精度精度提高到提高到 1/4 采样周期采样周期。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -28-赵晓群 教授0000000(/)0.85(/)1.7()(/)0.4(/)3.5()(/)0.05 FFFFFFFCETnCETnCETCETnCETnCETCETn和和00/,(2,3,4,5)TTn n 0/TnD0/Tn0/FTTn0FTT(2)基音的基音的精细估计精细估计图图11.6:基音精细估计基音精细估计的方框图。的方框图。精细估计窗精细估计窗 wR(n):长长 221 个个样点,样点
39、,归一化归一化三角形窗三角形窗。由由基音初始估计基音初始估计 TI,产生,产生 10 个个基音精细估计基音精细估计的的候选值候选值:将其将其转换转换为相应的为相应的基音频率基音频率 0=2/T0。然后在这然后在这 10 个点上个点上进行进行细搜索细搜索,确定确定基音周期的基音周期的精细估计精细估计。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -29-赵晓群 教授图图11.6基音的精细估计基音的精细估计计算计算Am(0)计算计算Xwr(l,0)计算计算(0)256点点DFT16384点点DFT产生产生10个个0 候选值候选值min(0)0()mA0(,)wrXl
40、00()()RwnIT()()Rx n wn()wXl00()09/8,7/8,.,7/8,9/8,IIIITTTTT 计算计算窗选语音窗选语音和和窗函数窗函数的的离散离散 Fourier 变换变换。对对窗选语音信号窗选语音信号,计算计算 256 点点 DFT:对对窗函数窗函数,计算计算 16384 点点 DFT:(扩大点数,可保证精度)对每一个假设的对每一个假设的 0,求求各谐波的各谐波的最佳谱包络值最佳谱包络值 Am(0)。选定选定 0,则在,则在-之间有个之间有个 2/0 谐波谐波分量,分量,两个两个相邻谐波相邻谐波之间含有之间含有 2560/2 个个语音信号语音信号的的 DFT 点。点
41、。对于对于第第 m 次谐波次谐波,它的,它的频带下限频带下限、上限上限为:为:其中,其中,INT x 表示取表示取大于大于或或等于等于 x 的的最小整数最小整数。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -30-赵晓群 教授1102/256110()()();128127jenlwRnXlx n w nl 1102/16384110()();81928191jenlRRnW lw nl 00256(0.5)256(0.5)INT,INT122mmmmab根据式:根据式:因因窗选激励窗选激励 Pw()在频带内与在频带内与窗函数窗函数主瓣主瓣包络包络形状相同,形
42、状相同,故用故用 WR()代替代替 Pw()。这意味着语音这意味着语音改变改变一个样点,窗一个样点,窗改变改变 64 个样点。个样点。因此,最佳用下式因此,最佳用下式计算:计算:计算计算合成语音谱合成语音谱。按下式按下式计算:计算:第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -31-赵晓群 教授002016384()int(640.5)2()16384int(640.5)2mmmmbwRl ambRl amXl WlAmWl00016384(,)()int(640.5),0,1,2wrmRmmmXlAWlalbm 2()()()()()ddmmmmbbmwww
43、aaAGXPGP 计算计算加权总拟合误差加权总拟合误差,选择选择最佳最佳 0(或(或 T0)。)。采用采用 DFT 的的总拟合误差总拟合误差为:为:在细搜索中,主要在细搜索中,主要考虑考虑高次谐波高次谐波频带拟合的情况,因此,频带拟合的情况,因此,加权函数在加权函数在低频端低频端可以取可以取 0,求和下限求和下限不从不从 1 开始;开始;高频端高频端可以取可以取 1,求和上限求和上限也不必达到也不必达到 127。语音频谱语音频谱一般一般限制限制在在 2003600 Hz范围内。范围内。故按下列公式故按下列公式确定确定求和上限求和上限 q:总拟合误差总拟合误差可以可以改写成改写成:对对 10 个
44、个候选基音频率候选基音频率,逐个,逐个计算计算出出总拟合误差总拟合误差,使其使其最小最小的的 0 是当前帧是当前帧基音周期基音周期的的精细估计值精细估计值。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -32-赵晓群 教授1272001()()()(,)wwrlG l XlXl 002560.96intint(0.5)2q20050()()(,)qwwrlXlXl 利用利用偶对称性偶对称性,只计算了只计算了一半一半的值的值4.V/U 判决判决图图11.7:V/U 判决判决的方框图。的方框图。利用每个谐波处利用每个谐波处合成谱合成谱与与窗选语音谱窗选语音谱拟合的程
45、度来拟合的程度来确定确定。若若归一化拟合误差归一化拟合误差 阈值阈值,判定判定该谐波频带为该谐波频带为浊音带浊音带;反之为反之为清音带清音带。采用采用 DFT 时,前面推导的时,前面推导的归一化误差应归一化误差应改写改写成:成:也可将几个也可将几个相邻谐波相邻谐波频带频带合并合并成一个成一个频带频带,根据该频带根据该频带总拟合误差总拟合误差作出该带的作出该带的 V/U 判决。判决。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -33-赵晓群 教授220()(,)()mmmmbbmwwrwl al aXlXlXl图图11.7清清/浊判决方框图浊判决方框图计算拟合误
46、差计算拟合误差计算计算E0更新更新Eavg,Emin,Emax计算阈值计算阈值与阈值比较与阈值比较()wXl0kD,1,2,kVkK0(,)k0实用实用 V/U 判决判决方案:方案:最多分最多分 12 个带,个带,判决方法判决方法如下:如下:确定确定谐波谐波的个数的个数 M。计算式:计算式:确定确定子带子带的个数的个数 K。每个每个子带子带包含包含 3 个个谐波分量谐波分量(见(见图图11.8)。)。子带数子带数的的计算式:计算式:第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -34-赵晓群 教授000int0.96int(0.25/);0.25/40int0.
47、77int(0.25/)7.41;M 其它2int;36312;MMK其它图图11.8改进的改进的 MBE 频带结构频带结构子带子带 1 子带子带 2 子带子带 K-1 子带子带 K00000 2 3 4 00(1)MM1234 AAAA1 MMAA(36,323)MkMk幅 度 计算计算各带的各带的归一化拟合误差。归一化拟合误差。计算式:计算式:第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -35-赵晓群 教授332332323220220INT2INT()(,)1,2,1()()(,)()kkkkMkMkbwwrl akbwl abwwrlaKbwlaXlX
48、lDkKXlXlXlDXl 计算计算 V/U 的的判决阈值判决阈值。计算式:计算式:第一项:第一项:随随 0 增大增大而而变大变大。当当 0 增加时谐波个数将减少,增加时谐波个数将减少,拟合误差拟合误差会变大,会变大,此项起到此项起到去偏去偏作用。作用。第二项:第二项:随随 0 升高升高而而变小变小。由于话音高频端通常更具有随机谱的特征,由于话音高频端通常更具有随机谱的特征,因此,较多地因此,较多地判为判为清音区清音区会使合成语音听起来自然。会使合成语音听起来自然。第三项:第三项:是同语音是同语音当前帧能量当前帧能量 E0、平均能量平均能量 Eavg、最小能量最小能量 Emin、最大能量最大能
49、量 Emax 有关的参数。有关的参数。采用采用自适应自适应方法,方法,逐帧逐帧更新更新这些这些参数参数,以期获得更好的效果。,以期获得更好的效果。第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息工程学院 -36-赵晓群 教授00(0)(0)(0)00(,)(0.350.557)1 0.4775(1)(,)avgminmax kkF E EEE若用若用 E(0)表示表示当前帧当前帧的参数,的参数,E(-1)表示表示前一帧前一帧的参数,的参数,相关量的相关量的定义为:定义为:且满足的且满足的约束条件:约束条件:第11章多带激励声码器 11.3多带激励语音分析 同济大学电子与信息
50、工程学院 -37-赵晓群 教授20000(0)(1)avgavg0(1)(1)min00min(0)(1)(1)(1)minmin0min0min(1)min(1)(0)maxmax2560.96();int int0.520.70.30.50.5;0.9750.025;21.025;0.5qwlEXlqEEEEEEEEEEEEEEEE其它(1)00max(1)max00.5;0.990.01;EEEEE其它(0)(0)(0)(0)200;20020000;20000minminmaxmaxEEEE求出上述几个能量之后,再求出上述几个能量之后,再确定确定函数:函数:V/U 判决。判决。判决规则