语音编码基础知识课件.ppt_163文库

资源描述

1、语音编码（speech coding）概述概述语音信号压缩编码的原理及其评价系统语音信号压缩编码的原理及其评价系统语音信号的波形编码语音信号的波形编码语音信号的参数编码语音信号的参数编码语音信号的混合编码语音信号的混合编码概述概述一、编码（压缩）的重要性一、编码（压缩）的重要性二、编码速率（信息容量）二、编码速率（信息容量）三、编码的分类三、编码的分类四、已经标准化的语音编码四、已经标准化的语音编码编码、传输、存储和译码是语音数字传输和数编码、传输、存储和译码是语音数字传输和数字存储的必要过程。字存储的必要过程。随着语音通信技术的发展，压缩语音信号的传随着语音通信技术的发展，压缩语音信号的

2、传输带宽，降低信道的传输速率，一直是人们追求的输带宽，降低信道的传输速率，一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要目标。语音编码在实现这一目标的过程中担当重要的角色。的角色。语音编码就是使表达语音信号的比特数目最小。语音编码就是使表达语音信号的比特数目最小。一、编码（压缩）的重要性一、编码（压缩）的重要性数字传输系统模型数字传输系统模型信源信源信源编码信源编码信道编码信道编码调制调制传输通道传输通道用户用户信源解码信源解码信道解码信道解码解调解调噪声噪声语音编码应用实例（语音编码应用实例（IPIP电话）电话）接收器接收器模数转换模数转换压缩编码压缩编码IPIP封装封装网网络

3、络IPIP解包解包解码解码数模转换数模转换播放器播放器二、编码速率（信息容量）二、编码速率（信息容量）用比特用比特/秒（秒（b/sb/s或或bpsbps）来度量，用）来度量，用I I表示，有：表示，有：I=R I=R f fs s,R,R代表每个语音采样值编码所需的比代表每个语音采样值编码所需的比特数；特数；f fs s是采样频率。是采样频率。当当f fs s=8kHz=8kHz，每个采样值用，每个采样值用8 8比特位来编码，则比特位来编码，则编码速率为编码速率为64kb/s64kb/s。三、编码的分类三、编码的分类1.1.波形编码波形编码(waveform coding)(waveform

4、coding)：基本原理是在时基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样，然间轴上对模拟话音信号按照一定的速率来抽样，然后将幅度样本分层量化，并使用代码来表示。在接后将幅度样本分层量化，并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号，收端将收到的数字序列经过解码恢复到原模拟信号，保持原始语音的波形形状。话音质量高，编码速率保持原始语音的波形形状。话音质量高，编码速率高。如高。如PCMPCM编码类（编码类（a a率或率或u u率率PCMPCM、ADPCM ADPCM、ADM)ADM)，编码速率为编码速率为646416kb/s16kb/s，语音质量好。，语音质量好。

5、2.2.参数编码（声源编码参数编码（声源编码 parametric codingparametric coding）：根据语音信号产生的数学模型，通过对语音信根据语音信号产生的数学模型，通过对语音信号特征参数的提取后进行编码（将特征参数变换成号特征参数的提取后进行编码（将特征参数变换成数字代码进行传输）。在接收端将特征参数，结合数字代码进行传输）。在接收端将特征参数，结合数学模型，恢复语音，力图使重建语音保持尽可能数学模型，恢复语音，力图使重建语音保持尽可能高的可懂度，重建语音信号的波形同原始语音信号高的可懂度，重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测（的波形可能

6、会有相当大的区别。如线性预测（LPCLPC）编码类。编码速率低，编码类。编码速率低，2.4-1.2kb/s2.4-1.2kb/s，自然度低，自然度低，对环境噪声敏感。对环境噪声敏感。3.3.混合编码混合编码(Hybrid coding)(Hybrid coding)：将波形编码与参数编码相结合，在将波形编码与参数编码相结合，在2.4-1.2kb/s2.4-1.2kb/s速率上能够得到高质量的合成语音。规则码激励长速率上能够得到高质量的合成语音。规则码激励长时预测编码时预测编码RPERPELPTLPT即为混合编码技术。混合编码即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息，

7、包括若干语音特征参量又包括部分波形编码信息，以达到波形编码的高质量和参量编码的低速率的优以达到波形编码的高质量和参量编码的低速率的优点。点。四、已经标准化的语音编码四、已经标准化的语音编码指定组织：国际电信联盟指定组织：国际电信联盟 ITU-TITU-T，http:/www.itu.inthttp:/www.itu.int标准标准编码速率编码速率(kb/s)(kb/s)算法算法MOSMOS得得分分应用应用G.711G.7116464u u律或律或a a律律PCMPCM4.34.3公用网公用网 G.721G.7213232ADPCMADPCM4.14.1公用网公用网G.723.1G.723.

8、15.35.3ACELPACELP3.23.2无线网无线网G.729G.7298 8CS-ACELPCS-ACELP3.83.8无线网无线网GSMGSM1313RPE-LTPRPE-LTP3.93.9无线网无线网(5)RPE-LTP(5)RPE-LTP：长时预测的规则脉冲激励的线性预：长时预测的规则脉冲激励的线性预测测Regular-Pulse Excited LPC with a Long-Term Regular-Pulse Excited LPC with a Long-Term PredictorPredictor(1)ADPCM(1)ADPCM：自适应差分脉冲编码：自适应差分脉冲编码

9、 adaptive adaptive difference pulse code modulationdifference pulse code modulation(2)CELP(2)CELP：码本激励线性预测：码本激励线性预测（code excited code excited linear predictionlinear prediction）(3)ACELP(3)ACELP：代数码本激励线性预测：代数码本激励线性预测Algebraic-Algebraic-Code-Excited Linear-PredictionCode-Excited Linear-Prediction(4)C

10、S-ACELP(4)CS-ACELP：共轭结构的代数码本激励线性预测：共轭结构的代数码本激励线性预测Conjugate Structure Algebraic-Code-Excited Conjugate Structure Algebraic-Code-Excited Linear-PredictionLinear-Prediction语音信号压缩编码的原理及其评价系统语音信号压缩编码的原理及其评价系统一、语音压缩的基本依据一、语音压缩的基本依据二、语音编码的关键技术二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法一、语音压缩的基本依据一、语音压

11、缩的基本依据是语音信号的冗余度和人的听觉感知机理。是语音信号的冗余度和人的听觉感知机理。1.1.存在的时域冗余度：存在的时域冗余度：（1 1）幅度非均匀分布）幅度非均匀分布（2 2）语音信号样本间的相关性很强）语音信号样本间的相关性很强（3 3）浊音具有准周期）浊音具有准周期（4 4）声道的形状及其变化缓慢）声道的形状及其变化缓慢（5 5）语音间隙（静止系数）语音间隙（静止系数）2.2.存在的频域冗余度：存在的频域冗余度：（1 1）非均匀的长时功率谱密度）非均匀的长时功率谱密度（2 2）短时功率谱密度）短时功率谱密度女声英文女声英文a的功率谱的功率谱3.3.人的听觉感知机理人的听觉感知机理（

12、1 1）人类的听觉特性具有掩蔽效应）人类的听觉特性具有掩蔽效应（2 2）人耳对不同频段声音的敏感程度不同）人耳对不同频段声音的敏感程度不同（3 3）人耳对语音相位不敏感）人耳对语音相位不敏感4.4.语音编码的极限速率语音编码的极限速率语音中最基本的元素是音素，大约有语音中最基本的元素是音素，大约有128128256256个，个，如果按通常的说话速度，每秒平均发出如果按通常的说话速度，每秒平均发出1010个音素，则个音素，则信息率为：信息率为：I=logI=log2 2(256)(256)1010bps=80bpsbps=80bps把发音看成是以语音速率来传送，则语音编码的极限把发音看成是以语

13、音速率来传送，则语音编码的极限速率为速率为80bps,80bps,从数字化标准的编码速率从数字化标准的编码速率64kbps64kbps，到极，到极限速率限速率80bps80bps，之间的距离，对于理论研究和实践有，之间的距离，对于理论研究和实践有着极大的吸引力。着极大的吸引力。二、语音编码的关键技术二、语音编码的关键技术语音信号中存在两种类型的相关性：语音信号中存在两种类型的相关性：（1 1）样点间的短时相关性）样点间的短时相关性（2 2）相邻基音周期之间的长时相关性）相邻基音周期之间的长时相关性pkkkzazAzH111)(1)(e(n)e(n)x(n)x(n)pkkknxanenx1)()

14、()(短时预测滤波器短时预测滤波器1.1.语音信号的短时预测模型语音信号的短时预测模型D D为基音周期，长时预测系数为基音周期，长时预测系数bbi i 的个数取的个数取1 1（q=r=0q=r=0）或）或3(q=r=1)3(q=r=1)。D D、bbi i 从语音信号中从语音信号中直接提取。语音信号通过长时预测，得出基音周直接提取。语音信号通过长时预测，得出基音周期、增益（振幅大小）。期、增益（振幅大小）。rqiiDizbzPzH)(11)(1)(长时长时线性线性预测预测x(n-p),x(n-p+1),x(n-p),x(n-p+1),.x(n-1).x(n-1)x x(n)(n)长时预测滤波

15、器长时预测滤波器)(1zAx(n)x(n)(1zPe(n)e(n)激励发生器激励发生器完整的语音信号的预测模型完整的语音信号的预测模型3.3.感觉加权滤波器感觉加权滤波器由于掩蔽效应，在语音频谱中，能量较高的频由于掩蔽效应，在语音频谱中，能量较高的频段（共振峰处）的噪声相对于能量较低的频段的噪段（共振峰处）的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的声不易被感觉。在度量原始语音和合成语音之间的误差时，在高能量段允许误差大，因此引入一个频误差时，在高能量段允许误差大，因此引入一个频域的感觉加权滤波器域的感觉加权滤波器W(z)W(z)来衡量语音之间的误差。来衡量语音之

16、间的误差。加权因子加权因子在在0 01 1之间之间,控制共振峰区域的误差增加控制共振峰区域的误差增加pkkkkpkkkzazazAzAzW1111)/()()(输入输入语音语音x(n)x(n)线性线性预测预测分析分析感觉感觉加权加权滤波器滤波器后继处理后继处理三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法1.1.语音压缩系统的性能指标语音压缩系统的性能指标（1 1）编码速率）编码速率（2 2）编码器的顽健性）编码器的顽健性（3 3）编码器的时延）编码器的时延（4 4）算法的复杂度和可扩展性）算法的复杂度和可扩展性编码延时编码延时一般地，编解码算法越复杂，延时越大，会

17、明显一般地，编解码算法越复杂，延时越大，会明显感觉到通话对方反映感觉到通话对方反映“迟钝迟钝”，甚至造成正常通信困，甚至造成正常通信困难。难。另外一方面，延时造成回声，传统的电话系统中，另外一方面，延时造成回声，传统的电话系统中，在在2-4 2-4 线的转换处（混合线圈）因阻抗不匹配，导致线的转换处（混合线圈）因阻抗不匹配，导致接收者的收话音信号泄露到其发送路径上，返回给发接收者的收话音信号泄露到其发送路径上，返回给发送者，形成了回声。当延时小时，回声同房间交混，送者，形成了回声。当延时小时，回声同房间交混，因此感觉不到；当延迟超过了因此感觉不到；当延迟超过了25ms25ms，能明显感觉到，能

18、明显感觉到，从而严重影响通信。从而严重影响通信。一般地，要求编解码延时不超过一般地，要求编解码延时不超过5 510ms10ms。A A端的信号端的信号B B端经混端经混合线圈的回传信号合线圈的回传信号B B端的信号端的信号A A端经混端经混合线圈的回传信号合线圈的回传信号A A端端B B端端2.2.语音压缩系统的性能指标和评测方法语音压缩系统的性能指标和评测方法语音质量是衡量语音编码算法优劣的关键性能之语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类：一。语音质量通常分为四类：（1）广播级）广播级（2）网络或电话级）网络或电话级（3）通信级）通信级（4）合成级）合成级语音

19、质量语音质量有主观和客观两种评价方法。有主观和客观两种评价方法。评价指标：清晰度或可懂度、音质。前者是指语音评价指标：清晰度或可懂度、音质。前者是指语音是否容易听清楚；后者指语音听起来有多自然。是否容易听清楚；后者指语音听起来有多自然。（1 1）可懂度评价）可懂度评价 DRTDRT：Diagnostic Rhymer Test Diagnostic Rhymer Test （2 2）音质评价：）音质评价：MOSMOS：Mean Opinion Score Mean Opinion Score 平均意平均意见得分和见得分和DAMDAM：Diagnostic Acceptability Measu

20、re Diagnostic Acceptability Measure 判断满意度得分。判断满意度得分。主观评价方法主观评价方法 MOSMOS得分为五级得分为五级:优、良、可、差和坏。优、良、可、差和坏。满分为满分为5 5分，相当调频广播质量；分，相当调频广播质量；4 4分以上是分以上是长途电话网标准；长途电话网标准；3.53.5分为通信标准；分为通信标准；3.03.0分分仍有较好的可懂度，保持自然度；仍有较好的可懂度，保持自然度；2.52.5分只维分只维持可懂度，持可懂度，是战术通信标准。是战术通信标准。（1 1）波形失真度，用信噪比来度量）波形失真度，用信噪比来度量（2 2）频谱失真测量）

21、频谱失真测量（3 3）谱包络失真测量）谱包络失真测量客观评价方法客观评价方法MnMnnsnsnsSNR0202)()()(log*10语音信号的波形编码语音信号的波形编码一一、非均匀量化的、非均匀量化的PCMPCM编码编码二、增量调制编码二、增量调制编码三、自适应增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码四、自适应差分脉冲编码ADPCMADPCM五、自适应预测器五、自适应预测器六、自适应量化器六、自适应量化器七、七、ADPCMADPCM的总结的总结均匀量化时，无论大的输入信号还是小的输入均匀量化时，无论大的输入信号还是小的输入信号一律采用相同的量化间隔，为了适应大的输入信号一律

22、采用相同的量化间隔，为了适应大的输入信号，同时又要满足精度要求，就需要增加样本的信号，同时又要满足精度要求，就需要增加样本的位数位数。=2V/L=2V/2=2V/L=2V/2R R，但是对话音信号来说，大但是对话音信号来说，大信号出现的机会并不多，增加的样本数就没有充分信号出现的机会并不多，增加的样本数就没有充分利用。因此采用非均匀量化。利用。因此采用非均匀量化。一、非均匀量化的一、非均匀量化的PCMPCM编码编码其基本思想是：大的输入信号采用大的量化其基本思想是：大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。在满足精间隔，小的输入信号采用小的量化间隔。在满足精度要求的情况下用

23、较少的位数来表示。译码时，采度要求的情况下用较少的位数来表示。译码时，采用相同的规则。也可视为将信号进行非线性变换后用相同的规则。也可视为将信号进行非线性变换后再作均匀量化，如对信号进行对数压缩，再作均匀量化，如对信号进行对数压缩，微弱的信微弱的信号被放大，强的信号被压缩。号被放大，强的信号被压缩。译码时，指数扩张。译码时，指数扩张。非线性非线性压缩压缩均匀均匀量化量化编码编码x xa a(nT)(nT)解码解码非线性非线性扩张扩张x x(nT)(nT)现在的非均匀量化中，一般采用两种压缩扩张非现在的非均匀量化中，一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两均匀量化方法

24、。采样后信号幅度和量化数据之间有两种对应关系，一种称为种对应关系，一种称为u u 律压扩（律压扩（compandingcompanding）算法，）算法，另一种称为另一种称为A A 律压扩算法。律压扩算法。u u 律压扩主要用于北美律压扩主要用于北美和日本等地区的电话通信中。和日本等地区的电话通信中。A A 律压扩主要用在欧律压扩主要用在欧洲和中国的地区的电话通信中。洲和中国的地区的电话通信中。)(sgn)1ln(|)(|1ln)(maxmaxnTxXnTxXnxFaaaau u 律压扩律压扩1|)(|1)(sgnln1/|)(|ln11|)(|0)(sgnln1/|)(|)(maxmaxma

25、xmaxmaxAaaAaAAaaAaXnTxAntxAXnTxAXAXnTxntxAXnTxAnxF（1 1）输入）输入x xa a(nT)(nT)的范围归一化为（的范围归一化为（1 11 1）;（2 2）输出）输出F FA A(x(n)(x(n)的范围为（的范围为（1 11 1）；）；（3 3）A A为压扩参数，它反映最大量化间隔和最小量化为压扩参数，它反映最大量化间隔和最小量化间隔的比值。间隔的比值。A=87.56A=87.56A A 律压扩律压扩我国的我国的PCM30/32PCM30/32路基群也采用路基群也采用A A律律1313折线压折线压缩特性。缩特性。律律1515折线主要用于美国

26、、加拿大和日折线主要用于美国、加拿大和日本等国的本等国的PCM 24PCM 24路基群中。路基群中。CCITTCCITT建议建议G.711G.711规定上述两种折线近似压缩规定上述两种折线近似压缩律为国际标准，且在国际间数字系统相互连接时，律为国际标准，且在国际间数字系统相互连接时，要以要以A A律为标准。律为标准。因此这里重点介绍因此这里重点介绍A A律律1313折线。折线。011161 81321 41 2164112817/86/85/84/83/82/81/8x xa a(nT)(nT)A A律压扩编码律压扩编码采用采用8位二进制编码：位二进制编码：C7C6C5C4C3C2C1C0C7

27、：表示信号的极性，称为极性码。表示信号的极性，称为极性码。0为正为正，1为负。为负。C3C2C1C0：表示每一段落的表示每一段落的16个均匀划分的量化个均匀划分的量化级，称为段内码。级，称为段内码。0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111C6C5C4：表示段落序号，称为段落码。表示段落序号，称为段落码。000 001 010 011 100 101 110 111对输入动态范围为（对输入动态范围为（-5v,+5v-5v,+5v），），用用A A律压扩编码，有：律压扩编码，有：1

28、/128 0.0390625v76543210 1 5v1/2 2.5v1/4 1.25v1/8 0.625v1/16 0.3125v1/32 0.15625v1/64 0.078125v0 0v输入信号为输入信号为1.05v1.05v，则编码为：，则编码为：极性码：极性码：0 0 段落码：段落码：101101段内码：段内码：=(1.25-0.625)/16=(1.25-0.625)/16 =0.0390625 =0.0390625(1.05-0.625)/(1.05-0.625)/=10.88=10.88取整数取整数1010，对应第，对应第1010量化间隔，量化间隔，编码为编码为101010

29、10最后完整的码字为：最后完整的码字为：0101101001011010 I=8kHzI=8kHz*8bit=64kbit/s8bit=64kbit/s 实际中，麦克风采集信号，量化为实际中，麦克风采集信号，量化为12/13/14/15/1612/13/14/15/16位的输入信号，使用位的输入信号，使用A A律压扩编码，律压扩编码，每个样本的量化位为每个样本的量化位为8 8。A A律压扩编码的速率：律压扩编码的速率：对输入信号范围（对输入信号范围（-1,1-1,1）：）：A A律压扩编码的最小量阶为律压扩编码的最小量阶为 minmin=(1/128)/16=1/2048;=(1/128)/1

30、6=1/2048;在同样的输入信号范围，均匀量化的线性在同样的输入信号范围，均匀量化的线性PCMPCM以以A A律压扩编码的最小量阶为量阶进行量化，得到律压扩编码的最小量阶为量阶进行量化，得到线性线性PCMPCM需要需要1212比特编码；比特编码；=2V/L=2V/2=2V/L=2V/2R R2/22/2R R=1/2048=1/2048 2 2R R2 2*2048 R=122048 R=12 A A律压扩编码则只需要律压扩编码则只需要8 8个比特位。个比特位。A A律压扩编码与线性律压扩编码与线性PCMPCM编码的对比编码的对比A A律压扩编码与其他线性律压扩编码与其他线性PCMPCM编码

31、的快速转换编码的快速转换线性线性PCM(13bits,b12PCM(13bits,b12为符号位为符号位)b12 b11 b10 b9 b8 b7 b6 b5 b4 b3 b2 b1 b0A A律压扩编码律压扩编码 M7=b12M7=b12M7 M6 M5 M4 M3 M2 M1 M0 0 0 0 0 0 0 0 a b c d 1 0 0 0 a b c d 0 0 0 0 0 0 1 a b c d 1 0 0 1 a b c d 0 0 0 0 0 1 a b c d 1 0 1 0 a b c d 0 0 0 0 1 a b c d 1 0 1 1 a b c d 0 0 0 1 a

32、b c d 1 1 0 0 a b c d 0 0 1 a b c d 1 1 0 1 a b c d 0 1 a b c d 1 1 1 0 a b c d 1 a b c d 1 1 1 1 a b c d 时分复用时分复用Time Division Multiplexing原理：把时间分割成小的时间片，每个时间片分原理：把时间分割成小的时间片，每个时间片分为若干个通道（时隙）为若干个通道（时隙），每个用户占用一个通道，每个用户占用一个通道传输数据。传输数据。A2A1A3原始信号原始信号D2D1D3数字化信号数字化信号MUX复用后数据复用后数据时隙时隙12 3 4D3D2D1适用于数字信号

33、传输适用于数字信号传输时间片时间片复用概念：利用不同时隙在同一信道上同复用概念：利用不同时隙在同一信道上同时传输各路不同信号，且互不干扰，这就是时分时传输各路不同信号，且互不干扰，这就是时分复用（复用（TDMTDM）。）。(a a)第第1 1路；路；(b b)第第2 2路；路；(c c)第第3 3路；路；(d d)3)3路合成的波形路合成的波形 PCM 30/32PCM 30/32路介绍路介绍 1.1.基本特性基本特性话路数目：话路数目：3030抽样频率：抽样频率：8kHz8kHz 压扩特性：压扩特性：A=87.6/13A=87.6/13折线压扩律，编码位数为折线压扩律，编码位数为8 8每

34、帧时隙数：每帧时隙数：32 32 总数码率：总数码率：8 832328000=2048kb/s8000=2048kb/s 2 2 时隙分配：在时隙分配：在PCM 30/32PCM 30/32路的制式中，抽样周期路的制式中，抽样周期为为1/8000=1251/8000=125s s，它被称为一个帧周期，即，它被称为一个帧周期，即125125s s为一帧。一帧内要时分复用为一帧。一帧内要时分复用3232路，每路占用的时隙为路，每路占用的时隙为125/32=3.9s125/32=3.9s，称为一个时隙。因此一帧有，称为一个时隙。因此一帧有3232个时个时隙，按顺序编号为隙，按顺序编号为TSTS0 0

35、、TSTS1 1、TSTS3131。时隙的使用。时隙的使用分配为：分配为：TSTS1 1TSTS1515,TSTS17 17 TSTS3131为为3030个话路时隙；个话路时隙；TSTS0 0为帧同步码，监视码时隙；为帧同步码，监视码时隙；TSTS1616为信令为信令(振铃、占线、摘机振铃、占线、摘机等各种标等各种标志信号志信号)时隙。时隙。E1-帧格式0121631帧同步帧同步信令信道信令信道30 路话音数据信道路话音数据信道+2 路控制信道路控制信道话路比特的安排：每个话路时隙内话路比特的安排：每个话路时隙内要将样值编为要将样值编为8 8位二元码，每个码元占位二元码，每个码元占3.9 s

36、/8=488ns3.9 s/8=488ns市话局出入中继放大低通放大低通群路译码12分路分离码型反变换再生收群路编码12抽样(TS1)汇总码型变换发(TS2)30(TS31)30信令收逻辑帧同步码检出收定时系统D1D8TS1TS31TS0TS16信令发逻辑帧同步码发生发定时系统2048kHz时钟TS1TS31D1D2D8TS16TS0D1 D8复接等级和速率系列复接等级和速率系列二、增量调制编码二、增量调制编码 1.1.增量调制的定义：增量调制的定义：增量调制（增量调制（DMDM）也称为）也称为调制，是对输入样本调制，是对输入样本s(k)s(k)和预测样本值和预测样本值s se e(k)(

37、k)的差值的差值d(k)d(k)量化的最简单的量化的最简单的一种情况，只有两种编码输出：一种情况，只有两种编码输出：0 0或或1 1。一般情况下，。一般情况下，如果差值大于如果差值大于0 0，则编码为，则编码为“0 0”，若差值小于，若差值小于0 0，则，则编码为编码为“1 1”。由于增量编码只须用由于增量编码只须用1 1位对语音信号进行编码，位对语音信号进行编码，所以对增量调制编码系统称为所以对增量调制编码系统称为“1 1位系统位系统”。2.增量调制增量调制(DM)(DM)的结构的结构s se e(k)-(k)-DM DM 发送端发送端s(k)+s(k)+量化器量化器预测器预测器 I(k)I

38、(k)s sr r(k)(k)+编码编码d(k)d(k)s(k)s(k)输入样本输入样本s se e(k)(k)预测样本值预测样本值d(k)d(k)差值差值s sr r(k)(k)重建样本值重建样本值I(k)I(k)已量化的差值已量化的差值3.3.增量调制增量调制(DM)(DM)的编码的编码预测器采取简单的一阶固定预测器。预测器采取简单的一阶固定预测器。s se e(k)=as(k)=asr r(k-1)(k-1)a a为一个常数，一般情况下取，即为一个常数，一般情况下取，即a=1a=1。用重建信号。用重建信号的前一时刻来预测当前时刻的预测样本值。的前一时刻来预测当前时刻的预测样本值。s se

39、 e(k)=s(k)=sr r(k-1)(k-1)s sr r(k)=s(k)=se e(k)+I(k)=s(k)+I(k)=sr r(k-1)+I(k)(k-1)+I(k)d(k)=s(k)-s d(k)=s(k)-se e(k)(k)I(k)=Qd(k)=I(k)=Qd(k)=d(k)I(k)-01s se e(k)=s(k)=sr r(k-1)s(k-1)se e(k)=s(k)=sr r(k-1)(k-1)d(k)=s(k)-sd(k)=s(k)-se e(k)0 d(k)=s(k)-s(k)0 d(k)=s(k)-se e(k)0(k)1 M=P1 若若c(n)=c(n-1)c(n)

40、=c(n-1)M=Q1 M=Q1 Mips.25 ms4.4G.7298 Kb/s20 Mips10 ms 4.2ITU-T G.729 8kb/s CSITU-T G.729 8kb/s CSACELPACELP简介简介 nG.729G.729是由美国、法国、日本和加拿大的几家著名是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。它需要符合一些严格的国际电信实体联合开发的。它需要符合一些严格的要求，比如在良好的信道条件下要达到长话质量，要求，比如在良好的信道条件下要达到长话质量，在有随机比特误码、发生帧丢失和多次转接等情况在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳

41、健性等。这种语音压缩算法可以应下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中，包括用在很广泛的领域中，包括I I电话、无线通信、电话、无线通信、数字卫星系统和数字专用线路。数字卫星系统和数字专用线路。nG.729G.729算法采用算法采用“共轭结构代数码本激励线性预测编共轭结构代数码本激励线性预测编码方案码方案”（CS-ACELPCS-ACELP）算法。这种算法综合了波形编）算法。这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。采用了矢量量化、合成分析和感觉加权等技术。

42、编码器编码器10ms10ms长的语音帧进行处理，每帧分为两长的语音帧进行处理，每帧分为两个子帧。输入语音首先要在预处理模块中经过高通滤个子帧。输入语音首先要在预处理模块中经过高通滤波和幅度压缩变换，以去除低频干扰及防止在后面运波和幅度压缩变换，以去除低频干扰及防止在后面运算中出现溢出。每帧进行一次线性预测（算中出现溢出。每帧进行一次线性预测（LPLP）分析，）分析，并将并将LPCLPC参数转换到线谱，对（参数转换到线谱，对（LSPLSP）形式进行预测式）形式进行预测式二阶段矢量量化（二阶段矢量量化（VQVQ）。然后使用分析合成法，按照）。然后使用分析合成法，按照合成信号和原始信号间感觉加权失真

43、最小的准则来提合成信号和原始信号间感觉加权失真最小的准则来提取激励参数。取激励参数。激励参数（包括固定码本和自适应码本参数）激励参数（包括固定码本和自适应码本参数）要每子帧（要每子帧（5ms5ms）计算一次。每帧要利用感觉加权）计算一次。每帧要利用感觉加权语音进行一次整数基值基音延时估计，然后进行的语音进行一次整数基值基音延时估计，然后进行的分数值基音分析，确定自适应码本的延时和增益，分数值基音分析，确定自适应码本的延时和增益，下面再进行固定码本的搜索。固定码本是使用交织下面再进行固定码本的搜索。固定码本是使用交织单脉冲排列设计的代数码本。在搜索时使用迭代式单脉冲排列设计的代数码本。在搜索时使

44、用迭代式深度优先树型搜索算法。这种算法的运算量比较小，深度优先树型搜索算法。这种算法的运算量比较小，并且具有固定的运算复杂度，比较有利于使用硬件并且具有固定的运算复杂度，比较有利于使用硬件实现。自适应码本和固定码本的增益使用预测式二实现。自适应码本和固定码本的增益使用预测式二阶段共轭结构码本进行矢量量化。阶段共轭结构码本进行矢量量化。三、三、GSMGSM中的编码技术中的编码技术（global system for mobile communicationglobal system for mobile communication）（Regular Pulse Excited-Long Term

45、 PredictionRegular Pulse Excited-Long Term Prediction）RPE-LTPRPE-LTP是通用分组无线业务所采用的语音是通用分组无线业务所采用的语音编码方案。编码方案。W(z)W(z)误差最小化误差最小化+-线性预测线性预测滤波器滤波器感觉加权感觉加权滤波器滤波器原始语音原始语音s(n)s(n)激励激励发生器发生器)(1zAs s(n)(n)e es s(n)(n)规则脉冲规则脉冲序列序列RPE-LTPRPE-LTP的原理框图发送端的原理框图发送端线性预测滤波器线性预测滤波器激励激励发生器发生器)(1zA规则脉冲规则脉冲序列序列合成语音合成语音s

46、 s(n)(n)RPE-LTPRPE-LTP的原理框图接收端的原理框图接收端人们对激励信号的研究表明，激励信号中的人们对激励信号的研究表明，激励信号中的小信号对合成语音的质量影响不大。如果对激励小信号对合成语音的质量影响不大。如果对激励信号中低于某一个阈值的所有信号皆为零，这样，信号中低于某一个阈值的所有信号皆为零，这样，适当调整阈值，可以使得激励信号中适当调整阈值，可以使得激励信号中90%90%的样点为的样点为零，用余下的幅度较大的信号作为声道滤波器的零，用余下的幅度较大的信号作为声道滤波器的激励信号，其合成语音并未产生明显的畸变。这激励信号，其合成语音并未产生明显的畸变。这样提供了一种新

47、的编码方法。样提供了一种新的编码方法。RPE-LTPRPE-LTP的原理的原理规定激励信号序列在一定的时间间隔中只能出现规定激励信号序列在一定的时间间隔中只能出现数目有限的非零脉冲，然后每个非零脉冲的位置和幅数目有限的非零脉冲，然后每个非零脉冲的位置和幅度用均方误差最小的准则进行优化，用优化后的序列度用均方误差最小的准则进行优化，用优化后的序列作为激励信号，这样既压缩了编码速率，又能保证合作为激励信号，这样既压缩了编码速率，又能保证合成质量。成质量。RPE-LTPRPE-LTP就是这类编码方法中的一种。它用一组就是这类编码方法中的一种。它用一组间距一定的非零的规则脉冲代替激励信号。由于各个间

48、距一定的非零的规则脉冲代替激励信号。由于各个非零脉冲的相互位置固定，所以计算量和编码速率都非零脉冲的相互位置固定，所以计算量和编码速率都较低。较低。将一帧语音的激励信号分成若干子帧，用将一帧语音的激励信号分成若干子帧，用L L表示表示激励子帧的长度，在激励子帧的长度，在8kHz8kHz的采样频率下，的采样频率下，L L的典型值的典型值为为4040个样点，相当于个样点，相当于5ms5ms，在一个激励子帧内，都采，在一个激励子帧内，都采用相同的间隔（间隔为用相同的间隔（间隔为P P个样点）。按照这些脉冲串个样点）。按照这些脉冲串第一个非零脉冲出现的位置分为第一个非零脉冲出现的位置分为K K中不同相

49、位的后选中不同相位的后选激励信号，记为激励信号，记为v vk k(n)(n)，k=0,1,k=0,1,.,K.,K；n=0,1,n=0,1,.,L-1.,L-1。在。在v vk k(n)(n)中有中有Q Q个等间距的非零脉个等间距的非零脉冲，其余样点为零，则非零脉冲的间距冲，其余样点为零，则非零脉冲的间距P=L/QP=L/Q。2.2.规则脉冲序列的产生规则脉冲序列的产生v v0 0(n)(n)（零相位）（零相位）v v1 1(n)(n)（1 1相位）相位）v v2 2(n)(n)（2 2相位）相位）v v3 3(n)(n)（3 3相位）相位）L=40L=40，Q=13Q=13，P=3P=3，K

50、=4K=4 GSMGSM编码方案中的帧长为编码方案中的帧长为20ms20ms，每帧编码，每帧编码260bits 260bits，故总的编码速率为故总的编码速率为13kb/s13kb/s。其中子帧个数为其中子帧个数为4 4个，每个子帧的样本个数为个，每个子帧的样本个数为L=40L=40，子帧中非零个数为子帧中非零个数为1313，则需要，则需要1313*3=39bits,3=39bits,一帧内共一帧内共需要需要4 4*39=156bits39=156bits，其余，其余260-156=104bits260-156=104bits，用来分配，用来分配给预测系数（短时和长时）和四种脉冲激励的相位给预

展开阅读全文