1、2010年秋北京信息科技大学音频压缩概述音频压缩概述 3.1波形编码波形编码 3.2参数编码参数编码 3.3MPEGMPEG音频编码音频编码 3.5G.7xxG.7xx系列编码标准系列编码标准 3.6混合编码混合编码 3.42010年秋北京信息科技大学了解音频压缩的可行性了解音频压缩的可行性掌握波形编码、参数编码和混合编码的掌握波形编码、参数编码和混合编码的基本知识基本知识熟悉熟悉MPEG音频标准音频标准全面掌握音频压缩编解码技术。全面掌握音频压缩编解码技术。2010年秋北京信息科技大学p根据统计分析结果,音频信号中存在着多种冗余,其主要部分可分别从时域和频域来考虑。p由于音频主要是给人听的,
2、所以考虑人的听觉机理,也能对音频信号实行压缩。2010年秋北京信息科技大学1时域冗余时域冗余幅度分布的非均匀性幅度分布的非均匀性样值间的相关性样值间的相关性周期之间的相关性周期之间的相关性基音之间的相关性基音之间的相关性静止系数静止系数长时自相关函数长时自相关函数2010年秋北京信息科技大学2频域冗余频域冗余长时功率谱密度的非均匀性。长时功率谱密度的非均匀性。语音特有的短时功率谱密度。语音特有的短时功率谱密度。 2010年秋北京信息科技大学3听觉冗余听觉冗余掩蔽效应掩蔽效应对不同频段的敏感性对不同频段的敏感性对音频信号相位变化不敏感对音频信号相位变化不敏感2010年秋北京信息科技大学基于音频数
3、据的统计特性进行编码,典基于音频数据的统计特性进行编码,典型技术是波形编码。型技术是波形编码。 基于音频的声学参数,进行参数编码,基于音频的声学参数,进行参数编码,可进一步降低数据率。可进一步降低数据率。 基于人的听觉特性进行编码。基于人的听觉特性进行编码。 2010年秋北京信息科技大学1按裁抑声音信号的冗余度不同分类按裁抑声音信号的冗余度不同分类时域编码、频域编码和统计编码。时域编码、频域编码和统计编码。原理:原理:p依据声音信号的冗余度以及人耳听觉的声掩依据声音信号的冗余度以及人耳听觉的声掩蔽,将人耳听觉觉察不到的分量去掉,降低蔽,将人耳听觉觉察不到的分量去掉,降低编码后的数据比特率。编码
4、后的数据比特率。2010年秋北京信息科技大学2按压缩品质不同分类按压缩品质不同分类按解码后数据与原始数据是否完全一致、按解码后数据与原始数据是否完全一致、质量有无损失的标准质量有无损失的标准p无损压缩编码无损压缩编码(无失真)(无失真)p有损压缩编码有损压缩编码(有失真)(有失真)2010年秋北京信息科技大学3按压缩编码算法不同分类按压缩编码算法不同分类统计编码统计编码波形编码波形编码参数编码参数编码混合编码混合编码感知编码感知编码2010年秋北京信息科技大学类类 别别算算 法法名名 称称标标 准准数数 据据 率率应应 用用波形编码波形编码PCMPCM脉冲编码调制脉冲编码调制公用电公用电话网话
5、网ISDNISDN-law-law,A-lawA-law律,律,A A律律G.711G.71164kbit/s64kbit/sAPCMAPCM自适应脉冲编码调制自适应脉冲编码调制DPCMDPCM差分脉冲编码调制差分脉冲编码调制ADPCMADPCM自适应自适应DPCMDPCMG.721G.72132kbit/s32kbit/sSB-ADPCMSB-ADPCM子带子带- -自适应自适应DPCMDPCMG.722G.72264kbit/s64kbit/s参数编码参数编码LPCLPC线性预测编码线性预测编码2.4kbit/s2.4kbit/s保密话音保密话音混合编码混合编码CELPCCELPC码激励码
6、激励LPCLPC4.6kbit/s4.6kbit/s移动通信移动通信VSELPVSELP向量和激励向量和激励LPCLPC8kbit/s8kbit/sRPE-LTPRPE-LTP规则码激励长时预测规则码激励长时预测13.2kbit/s13.2kbit/s语音信箱语音信箱LD-CELPLD-CELP低延时码激励低延时码激励LPCLPCG.728G.72816kbit/s16kbit/sISDNISDNACELPACELP自适应自适应CELPCELPG.723.1G.723.15.3 kbit/s5.3 kbit/sPSTNPSTNCSA-CELPCSA-CELP共轭结构代数共轭结构代数-CELP-
7、CELPG.729G.7298kbit/s8kbit/s移动通信移动通信感知编码感知编码MPEG-MPEG-音频音频多子带,感知编码多子带,感知编码128 kbit/s128 kbit/sVCD/DVDVCD/DVDDolbyAC-3DolbyAC-3感知编码感知编码DVDDVD表表3-13-1编码的分类及标准编码的分类及标准2010年秋北京信息科技大学 将时间域信号直接变换为数字代码将时间域信号直接变换为数字代码p由于保留了信号原始样值的细节变化,从而由于保留了信号原始样值的细节变化,从而保留了信号的各种过渡特征,所以解码音频保留了信号的各种过渡特征,所以解码音频信号质量一般较高。信号质量一
8、般较高。p不足之处:传输码率比较高,压缩比不大。不足之处:传输码率比较高,压缩比不大。2010年秋北京信息科技大学3.2.1 脉冲编码调制脉冲编码调制Pulse Code Modulation,PCM,简称脉码,简称脉码调制。调制。PCM是各种数字编码系统中最规范的方法,是各种数字编码系统中最规范的方法,也是应用最广泛的系统。也是应用最广泛的系统。除了增量调制外,各种波形编码器都包含有除了增量调制外,各种波形编码器都包含有PCM的编码与译码部分。的编码与译码部分。2010年秋北京信息科技大学PCM是是“数字化数字化”的最基本的技术的最基本的技术p通过抽样、量化和编码通过抽样、量化和编码3个步骤
9、,用若干代码表个步骤,用若干代码表示模拟形式的信息信号(如图像、声音信号),示模拟形式的信息信号(如图像、声音信号),再用脉冲信号表示这些代码来进行传输再用脉冲信号表示这些代码来进行传输/存储。存储。3.2.1 3.2.1 脉冲编码调制脉冲编码调制2010年秋北京信息科技大学3.2.2 差分脉冲编码调制差分脉冲编码调制 PCM编码是一种最通用的无压缩编码。编码是一种最通用的无压缩编码。p优点:保真度高,解码速度快优点:保真度高,解码速度快p缺点:编码后的数据量大。缺点:编码后的数据量大。pCD-DA采用的就是这种编码方式。采用的就是这种编码方式。若利用样值之间的相关性,即记录取样值之间的若利用
10、样值之间的相关性,即记录取样值之间的差值,就称为差分差值,就称为差分PCM(DPCM)。)。DPCM方式方式是非常适合自然界规律的。是非常适合自然界规律的。2010年秋北京信息科技大学图图3-7 DPCM3-7 DPCM编码编码2010年秋北京信息科技大学图图3-8 DPCM3-8 DPCM解码解码2010年秋北京信息科技大学图图3-9 PCM3-9 PCM与与DPCMDPCM的电平分布的电平分布2010年秋北京信息科技大学3.2.3 自适应差分脉冲编码调制自适应差分脉冲编码调制1自适应自适应PCMp自适应自适应PCM(APCM):根据邻近信号的性):根据邻近信号的性质使量化步长改变的编码。质
11、使量化步长改变的编码。p准瞬时压扩和动态加重就可以看做是一种准瞬时压扩和动态加重就可以看做是一种APCM。2010年秋北京信息科技大学图图3-11 APCM3-11 APCM组成框图组成框图2010年秋北京信息科技大学DPCMDPCM码码系系 数数正值正值0110110100100010010000001.751.751.251.250.90.90.90.9负值负值1111111101101011011001000.90.90.90.91.251.251.751.75表表3-23-23 3位位APCMAPCM的系数法的系数法2010年秋北京信息科技大学2自适应差分自适应差分PCM把自适应型量化
12、步长引入差分把自适应型量化步长引入差分PCM(DPCM)。)。p不是把信号不是把信号x(n)直接量化直接量化p而是把它和预测值而是把它和预测值x(n)的差的差d(n)进行量化进行量化p比前述的比前述的APCM效率高,中等质量的高效率编效率高,中等质量的高效率编码。码。2010年秋北京信息科技大学 应用:应用:p多功能电话机的留言录音等短时间录音多功能电话机的留言录音等短时间录音p不同磁带的固体录音机和向导广播不同磁带的固体录音机和向导广播p自动售货机自动售货机p多媒体技术应用领域的多媒体技术应用领域的CD-I中,也采用中,也采用48位的位的ADPCM。2 2自适应差分自适应差分PCMPCM20
13、10年秋北京信息科技大学图图3-12 ADPCM3-12 ADPCM原理框图原理框图2010年秋北京信息科技大学位位 数数APCMAPCMADPCMADPCM2 20.60.6,2.22.20.80.8,1.61.63 30.850.85,1 1,1 1,1.51.50.90.9,0.90.9,1.251.25,1.751.754 40.80.8,0.80.8,0.80.8,0.80.8,1.21.2,1.61.6,2.02.0,2.42.40.90.9,0.90.9,0.90.9,0.90.9,1.21.2,1.61.6,2.02.0,2.42.45 50.850.85,0.850.85,0
14、.850.85,0.850.85,0.850.85,0.850.85,0.850.85,0.850.85,1.21.2,1.41.4,1.61.6,1.81.8,2.02.0,2.22.2,2.42.4,2.62.60.90.9,0.90.9,0.90.9,0.90.9,0.950.95,0.950.95,0.950.95,0.950.95,1.21.2,1.51.5,1.81.8,2.12.1,2.42.4,2.72.7,3.03.0,3.33.3表表3-33-3 自适应量化法中的量化级系数自适应量化法中的量化级系数2010年秋北京信息科技大学3.2.4 增量调制和自适应增量调制增量调制和自
15、适应增量调制增量调制(增量调制(M)pDelta Modulationp是用一位二进制码表示相邻模拟抽样值相对是用一位二进制码表示相邻模拟抽样值相对大小的大小的A/D转换方式转换方式p量化只限于正和负两个电平,只用一比特传量化只限于正和负两个电平,只用一比特传输一个样值。输一个样值。pM是增量调制方式的代号。是增量调制方式的代号。2010年秋北京信息科技大学图图3-13 3-13 简单增量调制原理图简单增量调制原理图图中图中x(t)是是一模拟信号,一模拟信号,x(t)为本地为本地译码器输出译码器输出的前一时刻的前一时刻的量化信号。的量化信号。2010年秋北京信息科技大学图图3-14 M3-14
16、 M编码原理编码原理2010年秋北京信息科技大学2译码的基本思想译码的基本思想收到收到l码后产生一个正斜率电压,在码后产生一个正斜率电压,在TS=T时间内均匀上升一个量阶,时间内均匀上升一个量阶,收到一个收到一个0码产生一个负的斜变电压,在码产生一个负的斜变电压,在TS时间内均匀下降一个量阶时间内均匀下降一个量阶这样把二进制代码经过译码后变为锯齿这样把二进制代码经过译码后变为锯齿波。波。( )x t2010年秋北京信息科技大学3PCM和和 M系统性能比较系统性能比较传码率及信号带宽传码率及信号带宽量化信噪比量化信噪比误码信噪比误码信噪比设备复杂性设备复杂性2010年秋北京信息科技大学4自适应增
17、量调制(自适应自适应增量调制(自适应M)是一种改进型的增量调制方式是一种改进型的增量调制方式它的量化级它的量化级随着音节时间间隔(随着音节时间间隔(520ms)中)中信号平均斜率而变化。这里的音节相当于语音信号平均斜率而变化。这里的音节相当于语音浊音准周期信号的基音周期。浊音准周期信号的基音周期。由于信号的平均斜率是根据检测码流中连由于信号的平均斜率是根据检测码流中连“1”或连或连“0”的个数确定的,所以又称数字检测、的个数确定的,所以又称数字检测、连续可变斜率增量调制(连续可变斜率增量调制(CVSD),简称数字压),简称数字压扩增量调制。扩增量调制。2010年秋北京信息科技大学图图3-15
18、3-15 数字检测音节压扩数字检测音节压扩MM组成框图组成框图2010年秋北京信息科技大学自适应自适应M与简单与简单M相比,编码器能正常工作相比,编码器能正常工作的动态范围有很大提高,信噪比比简单的动态范围有很大提高,信噪比比简单M优优越。越。这种优越性与两个参数有关,这种优越性与两个参数有关,p数字检测的连码数数字检测的连码数m,其值越大,改善越大;,其值越大,改善越大;p脉冲压缩比脉冲压缩比=0/max,其中,其中max为最大量化级,为最大量化级,0是最小量化级(无控制的),是最小量化级(无控制的),越小改善越大。越小改善越大。4 4自适应增量调制(自适应自适应增量调制(自适应MM)201
19、0年秋北京信息科技大学3.2.5 子带编码子带编码SBC是将一个短周期内的连续时间取样信号是将一个短周期内的连续时间取样信号送入滤波器中,滤波器组将信号分成多送入滤波器中,滤波器组将信号分成多个(最多个(最多32个)限带信号,以近似人耳个)限带信号,以近似人耳的临界频段响应。的临界频段响应。2010年秋北京信息科技大学由滤波器组的锐截止频率来仿效临界频段响应,由滤波器组的锐截止频率来仿效临界频段响应,并在带宽内限制量化噪声。并在带宽内限制量化噪声。子带编码要求处理延迟必须足够小,以使量化子带编码要求处理延迟必须足够小,以使量化噪声不超出人耳的瞬时限制。噪声不超出人耳的瞬时限制。子带编码通过分析
20、每个子带的取样值并与心理子带编码通过分析每个子带的取样值并与心理声学模型进行比较,编码器基于每个子带的掩声学模型进行比较,编码器基于每个子带的掩蔽阈值能自适应地量化取样值。蔽阈值能自适应地量化取样值。3.2.5 3.2.5 子带编码子带编码2010年秋北京信息科技大学子带编码中,每个子带都要根据所分配的不同子带编码中,每个子带都要根据所分配的不同比特数来独立进行编码。比特数来独立进行编码。在任何情况下,每个子带的量化噪声都会增加。在任何情况下,每个子带的量化噪声都会增加。当重建信号时,每个子带的量化噪声被限制在当重建信号时,每个子带的量化噪声被限制在该子带内。该子带内。由于每个子带的信号会对噪
21、声进行掩蔽,所以由于每个子带的信号会对噪声进行掩蔽,所以子带内的量化噪声是可以容忍的。子带内的量化噪声是可以容忍的。2010年秋北京信息科技大学图图3-16 3-16 生成窄带高分辨率的子带编码生成窄带高分辨率的子带编码2010年秋北京信息科技大学子带编码的主要特点:子带编码的主要特点:p每个子带对每一块新的数据都要重新计算,并每个子带对每一块新的数据都要重新计算,并根据信号和噪声的可听度对取样值进行动态量根据信号和噪声的可听度对取样值进行动态量化。化。p子带感知编码器利用数字滤波器组将短时的音子带感知编码器利用数字滤波器组将短时的音频信号分成多个子带(对于时间取样值可以采频信号分成多个子带(
22、对于时间取样值可以采用多种优化编码方法)。用多种优化编码方法)。2010年秋北京信息科技大学子带编码的主要特点:子带编码的主要特点:p每个子带的峰值功率与掩蔽级的比率由所做的每个子带的峰值功率与掩蔽级的比率由所做的运算来决定,即根据信号振幅高于可听曲线的运算来决定,即根据信号振幅高于可听曲线的程度来分配量化所需的比特数。程度来分配量化所需的比特数。p给每一个子带分配足够的位数来保证量化噪声给每一个子带分配足够的位数来保证量化噪声处于掩蔽级以下。处于掩蔽级以下。2010年秋北京信息科技大学图图3-17 SB-ADPCM3-17 SB-ADPCM编、译码方框图编、译码方框图2010年秋北京信息科技
23、大学3.2.6 矢量编码矢量编码标量量化(标量量化(SQ)p独立地对一个样值量化编码的方式。独立地对一个样值量化编码的方式。p由于对每一个样值单独编码处理,使系统码率由于对每一个样值单独编码处理,使系统码率不可能低于取样频率。不可能低于取样频率。矢量量化(矢量量化(VQ)p对若干个音频样值一起量化编码对若干个音频样值一起量化编码2010年秋北京信息科技大学图图3-18 VQ3-18 VQ的基本原理的基本原理2010年秋北京信息科技大学图图3-19 3-19 最优码字搜索算法一例最优码字搜索算法一例2010年秋北京信息科技大学参数编码技术以语音信号产生的数学模型为基参数编码技术以语音信号产生的数
24、学模型为基础,根据输入语音信号分析出表征声门振动的础,根据输入语音信号分析出表征声门振动的激励参数和表征声道特性的声道参数,然后在激励参数和表征声道特性的声道参数,然后在解码端根据这些模型参数来恢复语音。解码端根据这些模型参数来恢复语音。这种编码算法并不忠实地反映输入语音的原始这种编码算法并不忠实地反映输入语音的原始波形,而是着眼于人耳的听觉特性,确保解码波形,而是着眼于人耳的听觉特性,确保解码语音的可懂度和清晰度。语音的可懂度和清晰度。2010年秋北京信息科技大学 基于参数编码技术的编码系统一般称之为声码器,基于参数编码技术的编码系统一般称之为声码器,主要用在窄带信道上提供主要用在窄带信道上
25、提供4.8kbit/s以下的低速率语以下的低速率语音通信和一些对时延要求较宽的场合。音通信和一些对时延要求较宽的场合。当前参数编码技术主要的研究方向是线性预测当前参数编码技术主要的研究方向是线性预测(Linear Predictive Coder,LPC)声码器和余弦声)声码器和余弦声码器。码器。2010年秋北京信息科技大学3.3.1 语音生成模型语音生成模型参数编码的基础是人类语音的生成模型。参数编码的基础是人类语音的生成模型。语音学和医学的研究结果表明,人类发音器官产生语音学和医学的研究结果表明,人类发音器官产生声音的过程可以用一个数学模型来逼近。声音的过程可以用一个数学模型来逼近。p人的
26、语音发声过程是:气流从肺呼出后经过声门时受声人的语音发声过程是:气流从肺呼出后经过声门时受声带作用,形成激励气流,再经过由口腔、鼻腔和嘴组成带作用,形成激励气流,再经过由口腔、鼻腔和嘴组成的声道的作用而发出语音。的声道的作用而发出语音。p从声门出来的气流相当于激励信号,而声道可以等效成从声门出来的气流相当于激励信号,而声道可以等效成一个全极点滤波器,称为声道滤波器或合成滤波器。一个全极点滤波器,称为声道滤波器或合成滤波器。p在讲话过程中激励信号和滤波器系数不断地变化,从而在讲话过程中激励信号和滤波器系数不断地变化,从而发出不同的声音。发出不同的声音。2010年秋北京信息科技大学通常认为激励信号
27、和滤波器系数通常认为激励信号和滤波器系数540 ms更新一次。更新一次。p人们在发声母时,声带不振动,激励信号类似白噪声,人们在发声母时,声带不振动,激励信号类似白噪声,将这类声音称做清音;将这类声音称做清音;p发韵母时,声带振动,激励信号呈周期性,这类声音称发韵母时,声带振动,激励信号呈周期性,这类声音称作浊音。作浊音。因此,用白噪声或周期性脉冲信号激励声道滤波器因此,用白噪声或周期性脉冲信号激励声道滤波器就能合成出语音,这就是就能合成出语音,这就是LPC声码器的工作原理声码器的工作原理3.3.1 3.3.1 语音生成模型语音生成模型2010年秋北京信息科技大学这个模型的物理含义是:这个模型
28、的物理含义是:p人类通过嘴讲出来的话,也可以用它来再生,条件是要人类通过嘴讲出来的话,也可以用它来再生,条件是要合理地选择模型中的参数。合理地选择模型中的参数。p很显然,讲话随着时间而变化,那么,模型的参数也是很显然,讲话随着时间而变化,那么,模型的参数也是变化的。变化的。p此模型用模型参数代替原语音波形进行传输此模型用模型参数代替原语音波形进行传输/存储的系统存储的系统就是声码器。就是声码器。p对该发声模型的参数进行编码传输称为参数编码。对该发声模型的参数进行编码传输称为参数编码。人的发声是很复杂的,上面的模型只是一种近似,人的发声是很复杂的,上面的模型只是一种近似,忽略了不少因素,这个模型
29、也叫简化发声模型忽略了不少因素,这个模型也叫简化发声模型它合成出的语音质量不高,后来又有许多改进。它合成出的语音质量不高,后来又有许多改进。2010年秋北京信息科技大学图图3-20 3-20 人类发音模型人类发音模型2010年秋北京信息科技大学3.3.2 线性预测编码线性预测编码线性预测编码(线性预测编码(LPC)是一种非常重要的编码方法)是一种非常重要的编码方法p线性预测方法在于分析和模拟人的发音器官,不是利用线性预测方法在于分析和模拟人的发音器官,不是利用人发出声音的波形合成,而是从人的语音信号中提取与人发出声音的波形合成,而是从人的语音信号中提取与语音模型有关的特征参数。语音模型有关的特
30、征参数。p在语音合成过程中,通过相应的数学模型计算去控制相在语音合成过程中,通过相应的数学模型计算去控制相应的参数来合成语音,这种方法对语音信息的压缩是很应的参数来合成语音,这种方法对语音信息的压缩是很有效的,用此方法压缩的语音数据所占用的存储空间只有效的,用此方法压缩的语音数据所占用的存储空间只有波形编码的十至几十分之一。有波形编码的十至几十分之一。2010年秋北京信息科技大学 LPC声码器是一种低比特率和传输有限个语声码器是一种低比特率和传输有限个语音参数的语音编码器,它较好地解决了传输数音参数的语音编码器,它较好地解决了传输数码率与所得到的语音质量之间的矛盾。码率与所得到的语音质量之间的
31、矛盾。广泛地应用在电话通信、语音通信自动装置、广泛地应用在电话通信、语音通信自动装置、语音学及医学研究、机械操作、自动翻译、身语音学及医学研究、机械操作、自动翻译、身份鉴别、盲人阅读等方面。份鉴别、盲人阅读等方面。2010年秋北京信息科技大学线性预测(线性预测(LPC)声码器在众多的声码器)声码器在众多的声码器中是最为成功的,也是应用最为广泛的中是最为成功的,也是应用最为广泛的p属于时间域声码器类。属于时间域声码器类。p从时间波形中提取重要的语音特征。从时间波形中提取重要的语音特征。2010年秋北京信息科技大学图图3-21 LPC3-21 LPC声码器的原理图声码器的原理图2010年秋北京信息
32、科技大学是波形编码和参数编码的综合:是波形编码和参数编码的综合:p既利用了语音生成模型,通过模型中的参数(主要是声道既利用了语音生成模型,通过模型中的参数(主要是声道参数)进行编码,减少波形编码中被编码对象的动态范围参数)进行编码,减少波形编码中被编码对象的动态范围或数目;或数目;p又使编码的过程,产生接近原始语音波形的合成语音,保又使编码的过程,产生接近原始语音波形的合成语音,保留说话人的各种自然特征,提高了合成语音质量。留说话人的各种自然特征,提高了合成语音质量。目前得到广泛研究和应用的目前得到广泛研究和应用的CELP编码法,以及它编码法,以及它的各种改进算法,是混合编码法的典型代表。的各
33、种改进算法,是混合编码法的典型代表。2010年秋北京信息科技大学分析分析/合成(合成(A/S)编码)编码p编码的过程是一个分析加合成的过程编码的过程是一个分析加合成的过程p即编码系统大都是先即编码系统大都是先“分析分析”输入语音提取输入语音提取发声模型中的声道模型参数,然后选择激励发声模型中的声道模型参数,然后选择激励信号去激励声道模型产生信号去激励声道模型产生“合成合成”语音,通语音,通过比较合成语音与原始语音的差别选择最佳过比较合成语音与原始语音的差别选择最佳激励,追求最逼近原始语音的效果。激励,追求最逼近原始语音的效果。2010年秋北京信息科技大学图图3-22 3-22 分析分析合成编码
34、原理框图合成编码原理框图2010年秋北京信息科技大学3.4.1 多脉冲线性预测编码多脉冲线性预测编码语音模型中的激励信号,可以从分析语音模型中的激励信号,可以从分析A/S编码系统产生的预测误差来获得。编码系统产生的预测误差来获得。 这个预测误差序列可由大约只占其个数这个预测误差序列可由大约只占其个数十分之一的另一组脉冲序列来替代,由十分之一的另一组脉冲序列来替代,由新脉冲序列激励新脉冲序列激励H(z)产生的合成语音仍产生的合成语音仍具有较好的听觉质量。具有较好的听觉质量。2010年秋北京信息科技大学这个预测误差序列,尽管在大多数位置上都不等这个预测误差序列,尽管在大多数位置上都不等于零,但它激
35、励合成滤波器所得的合成语音,与于零,但它激励合成滤波器所得的合成语音,与另一组绝大多数位置上都是零的脉冲序列,激励另一组绝大多数位置上都是零的脉冲序列,激励同样的合成滤波器所得的合成语音具有类似的听同样的合成滤波器所得的合成语音具有类似的听觉。觉。由于后者形成的激励信号序列,不为零的脉冲个由于后者形成的激励信号序列,不为零的脉冲个数占序列总长的极小部分,所以编码时,仅处理数占序列总长的极小部分,所以编码时,仅处理和传输不为零的激励脉冲的位置与幅度参数,就和传输不为零的激励脉冲的位置与幅度参数,就可以大大压缩码率了。可以大大压缩码率了。这种编码方法称为多脉冲线性预测编码这种编码方法称为多脉冲线性
36、预测编码(MPLPC)。)。2010年秋北京信息科技大学MPLPC主要任务就是寻找该脉冲序列中主要任务就是寻找该脉冲序列中每个脉冲的位置和幅度大小,并对其编每个脉冲的位置和幅度大小,并对其编码。码。一般采用序贯方法,一个一个脉冲求解,一般采用序贯方法,一个一个脉冲求解,寻求次优的解。寻求次优的解。2010年秋北京信息科技大学图图3-23 MPLPC3-23 MPLPC编码原理框图编码原理框图2010年秋北京信息科技大学3.4.2 规则脉冲激励规则脉冲激励/长项预测编码长项预测编码RPE/LTP是欧洲数字蜂窝移动通信是欧洲数字蜂窝移动通信GSM标准中采用标准中采用的语音压缩编码算法的语音压缩编码
37、算法标准码率为标准码率为13kbit/s,也叫移动通信的全速,也叫移动通信的全速率编码标准。率编码标准。2010年秋北京信息科技大学人们为进一步提高信道利用率,正在制定人们为进一步提高信道利用率,正在制定码率为码率为67kbit/s、与、与RPE/LTP方案相当方案相当的语音压缩编码标准。的语音压缩编码标准。新方案称为移动通信中的半速率语音编码新方案称为移动通信中的半速率语音编码算法。算法。3.4.2 3.4.2 规则脉冲激励规则脉冲激励/ /长项预测编码长项预测编码2010年秋北京信息科技大学RPE/LTP语音压缩编码属于分析语音压缩编码属于分析/合成编码方式,系统先合成编码方式,系统先分析
38、,得到合成滤波器参数,再通过选择不同激励,判分析,得到合成滤波器参数,再通过选择不同激励,判别它们的合成语音与原始语音的差别,得到最优的激励别它们的合成语音与原始语音的差别,得到最优的激励的信号。的信号。RPE/LTP采用了感觉加权滤波器。采用了感觉加权滤波器。PRE/LTP的各个非零激励脉冲,呈现等间隔的规则排列。的各个非零激励脉冲,呈现等间隔的规则排列。只需使收方知道第一个脉冲的位置在何处(只需使收方知道第一个脉冲的位置在何处(n取什么值),取什么值),其他激励脉冲的位置也就可以得知了。其他激励脉冲的位置也就可以得知了。而且第一个脉冲的位置也是有限的几个可能性。而且第一个脉冲的位置也是有限
39、的几个可能性。所以这种方案,脉冲位置的编码所需码率非常少,非零所以这种方案,脉冲位置的编码所需码率非常少,非零激励脉冲个数可以增加许多。激励脉冲个数可以增加许多。在一个编码帧内,在一个编码帧内,GSM方案的非零激励脉冲比方案的非零激励脉冲比MPLPC方方案多了案多了3倍,有利于提高合成语音质量。倍,有利于提高合成语音质量。2010年秋北京信息科技大学RPE/LTP编码算法设置了基音预测系统编码算法设置了基音预测系统以及相应的基音合成系统。以及相应的基音合成系统。线性预测处理语音信号可以去除语音信线性预测处理语音信号可以去除语音信号样值间的相关性,大大降低信号的动号样值间的相关性,大大降低信号的
40、动态范围。态范围。 2010年秋北京信息科技大学图图3-24 3-24 预测误差波形预测误差波形2010年秋北京信息科技大学图图3-25 GSM3-25 GSM语音压缩编解码器中的语音生成模型语音压缩编解码器中的语音生成模型2010年秋北京信息科技大学3.4.3 码激励线性预测编码码激励线性预测编码码激励线性预测编码(码激励线性预测编码(CELP)系统是中低速率编码)系统是中低速率编码领域最成功的方案。领域最成功的方案。基本基本CELP算法不对预测误差序列个数及位置作任何算法不对预测误差序列个数及位置作任何强制假设,认为必须用全部误差序列编码传送以获得强制假设,认为必须用全部误差序列编码传送以
41、获得高质量的合成语音。高质量的合成语音。为了达到压低传码率的目的,对误差序列的编码采用为了达到压低传码率的目的,对误差序列的编码采用了大压缩比的矢量量化技术了大压缩比的矢量量化技术VQ,也就是对误差序列不,也就是对误差序列不是一个一个样值分别量化,而是将一段误差序列当做是一个一个样值分别量化,而是将一段误差序列当做一个矢量进行整体量化。一个矢量进行整体量化。2010年秋北京信息科技大学由于误差序列对应着语音生成模型的激励部分,由于误差序列对应着语音生成模型的激励部分,现在经现在经VQ量化后,用码字代替,故称码激励。量化后,用码字代替,故称码激励。图图3-26 3-26 典型的典型的CELPCE
42、LP系统系统2010年秋北京信息科技大学图图3-27 3-27 采用两个码本采用两个码本CELPCELP编码系统编码系统2010年秋北京信息科技大学基于基于CELP的的LD-CELP方案,已作为干方案,已作为干线电话网线电话网16kbit/s速率编码标准。速率编码标准。与与CELP基本算法相比较,它的主要不基本算法相比较,它的主要不同有如下两个方面。同有如下两个方面。2010年秋北京信息科技大学(1)它不是从输入语音中提取合成滤波)它不是从输入语音中提取合成滤波器参数的,而是从以前的合成语音中提取器参数的,而是从以前的合成语音中提取的,这样不必等待一段语音输入后再进行的,这样不必等待一段语音输
43、入后再进行计算,所以编码时延很低,故名低时延编计算,所以编码时延很低,故名低时延编码系统。并且,由于预测和合成系统的系码系统。并且,由于预测和合成系统的系数取决于合成后的语音而非原始语音,因数取决于合成后的语音而非原始语音,因此,合成系统系数不必编码传送。此,合成系统系数不必编码传送。2010年秋北京信息科技大学(2)考虑到用前面部分的合成语音,来)考虑到用前面部分的合成语音,来估计本时刻的合成系统参数,可能会估计估计本时刻的合成系统参数,可能会估计精度差,降低线性预测效果,为了提高预精度差,降低线性预测效果,为了提高预测性能,测性能,G.728标准中采用了一个高达标准中采用了一个高达50阶的
44、线性预测滤波器,代替一般阶的线性预测滤波器,代替一般CELP系系统中的基音和声道两个预测滤波器,合成统中的基音和声道两个预测滤波器,合成滤波器同样也是滤波器同样也是50阶的。提高滤波器阶数,阶的。提高滤波器阶数,只是增加了计算量,因为滤波器系数不传只是增加了计算量,因为滤波器系数不传送,所以不增加传码率。送,所以不增加传码率。2010年秋北京信息科技大学3.4.4 矢量和激励线性预测编码矢量和激励线性预测编码矢量和激励线性预测编码(矢量和激励线性预测编码(VSELP)作)作为北美第一代数字蜂窝移动通信网语音编为北美第一代数字蜂窝移动通信网语音编码标准由码标准由Motorola公司首先提出,其码
45、率公司首先提出,其码率为为8kbit/s。图图3-28是是VSELP编码系统结构图。编码系统结构图。2010年秋北京信息科技大学图图3-28 VSELP3-28 VSELP编码系统编码系统2010年秋北京信息科技大学3.4.5 多带激励语音编码多带激励语音编码 语音短时谱分析表明,大多数语音语音短时谱分析表明,大多数语音段都含有周期和非周期两种成分,因此很段都含有周期和非周期两种成分,因此很难说某段语音是清音还是浊音。难说某段语音是清音还是浊音。 传统声码器,例如线性预测声码器,传统声码器,例如线性预测声码器,采用二元模型,认为语音段不是浊音就是采用二元模型,认为语音段不是浊音就是清音。清音。
46、2010年秋北京信息科技大学 浊音段采用周期信号,清音采用白浊音段采用周期信号,清音采用白噪声激励声道滤波器合成语音,这种语音噪声激励声道滤波器合成语音,这种语音生成模型不符合实际语音特点。生成模型不符合实际语音特点。 人耳听觉过程是对语音信号进行短人耳听觉过程是对语音信号进行短时谱分析的过程,可以认为人耳能够分辨时谱分析的过程,可以认为人耳能够分辨短时谱中的噪声区和周期区。短时谱中的噪声区和周期区。2010年秋北京信息科技大学 因此,传统声码器合成的语音听起因此,传统声码器合成的语音听起来合成声重、自然度差。来合成声重、自然度差。 这类声码器还有其他一些弱点,例这类声码器还有其他一些弱点,例
47、如基音周期参数提取不准确、语音发声模如基音周期参数提取不准确、语音发声模型同有些音不符合、容忍环境噪声能力差型同有些音不符合、容忍环境噪声能力差等,这些都是影响合成语音质量的因素。等,这些都是影响合成语音质量的因素。2010年秋北京信息科技大学 多带激励语音编码(多带激励语音编码(MBE)方案突破)方案突破了传统线性预测声码器整带二元激励模型,了传统线性预测声码器整带二元激励模型,它将语音谱按基音谐波频率分成若干个带,它将语音谱按基音谐波频率分成若干个带,对各带信号分别判断是属于浊音还是属于对各带信号分别判断是属于浊音还是属于清音,然后根据各带清、浊音的情况,分清音,然后根据各带清、浊音的情况
48、,分别采用白噪声或正弦产生合成信号,最后别采用白噪声或正弦产生合成信号,最后将各带信号相加,形成全带合成语音。将各带信号相加,形成全带合成语音。2010年秋北京信息科技大学图图3-29 3-29 多带激励编解码器原理框图多带激励编解码器原理框图2010年秋北京信息科技大学3.4.6 混合激励线性预测编码混合激励线性预测编码混合激励线性预测编码(混合激励线性预测编码(MELP)算法对)算法对语音的模式进行两级分类。语音的模式进行两级分类。p首先将语音分为首先将语音分为“清清”和和“浊浊”两大类,这两大类,这里的清音是指不具有周期成分的强清音,其里的清音是指不具有周期成分的强清音,其余的均划为浊音
49、,用总的清余的均划为浊音,用总的清/浊音判决表示。浊音判决表示。p其次,把浊音再分为浊音和抖动浊音,用非其次,把浊音再分为浊音和抖动浊音,用非周期位表示。周期位表示。2010年秋北京信息科技大学在对浊音和抖动浊音的处理上,在对浊音和抖动浊音的处理上,MELP算法利用了算法利用了MBE算算法的分带思想,在各子带上对混合比例进行控制。法的分带思想,在各子带上对混合比例进行控制。这种方法简单有效,使用的比特数也不多。这种方法简单有效,使用的比特数也不多。如果使用如果使用1bit对每个子带的混合比例参数进行编码,该参对每个子带的混合比例参数进行编码,该参数也就简化为每个子带的清数也就简化为每个子带的清
50、/浊音判决信息。浊音判决信息。在周期脉冲信号源的合成上,在周期脉冲信号源的合成上,MELP算法要对算法要对LPC分析的分析的残差信号进行傅里叶变换,提取谐波分量,量化后传到接残差信号进行傅里叶变换,提取谐波分量,量化后传到接收端,用于合成周期脉冲激励。收端,用于合成周期脉冲激励。2010年秋北京信息科技大学这种方法提高了激励信号与原始残差的匹配程度。这种方法提高了激励信号与原始残差的匹配程度。MELP的参数包括的参数包括LPC参数、基音周期、模式分参数、基音周期、模式分类参数、分带混合比例、残差谐波参数和增益。类参数、分带混合比例、残差谐波参数和增益。在在MELP的参数分析部分,语音信号输入后