多媒体技术基础(第3版)第3讲话音编码课件.ppt_163文库

资源描述

1、多媒体技术基础多媒体技术基础(第第3 3版版)第3讲话音编码张奇张奇复旦大学复旦大学计算机科学技术学院计算机科学技术学院2010年年3月月n随着数字电话和数据通信容量日益增长随着数字电话和数据通信容量日益增长的迫切要求，而又不希望明显降低传送的迫切要求，而又不希望明显降低传送话音信号的质量。话音信号的质量。除了提高通信带宽之外，对话音信号进行压缩是提高通信容量的重要措施。n本章将重点介绍话音编码的基本思想本章将重点介绍话音编码的基本思想 2023年1月17日第3章数字声音编码2 of 462023年1月17日第3章数字声音编码3 of 46第3讲目录3.1 话音类型话音类型3.1.1

2、话音波形的特性3.1.2 话音类型3.2 话音编译码器话音编译码器3.2.1 波形编译码器3.2.2 音源编译码器3.2.3 混合编译码器3.4 脉冲编码调制脉冲编码调制(PCM)3.4.1 PCM的概念3.4.2 均匀量化3.4.3 非均匀量化3.5 PCM在通信中的应用在通信中的应用3.5.1 频分多路复用3.5.2 时分多路复用3.5.3 数字通信线路的数据传输率3.6 增量调制与自适应增量调制增量调制与自适应增量调制3.6.1 增量调制(DM)3.6.2 自适应增量调制(ADM)3.7 自适应差分脉冲编码调制自适应差分脉冲编码调制3.7.1 自适应脉冲编码调制(APCM)的概念3.7

3、.2 差分脉冲编码调制(DPCM)的概念3.7.3 自适应差分脉冲编码调制(ADPCM)3.7.4 G.726 ADPCM编译码器3.8 G.722 SB-ADPCM编译码器编译码器3.8.1 子带编码(SBC)3.8.2 子带-自适应差分脉冲编码调制(SB-ADPCM)3.9 线性预测编码线性预测编码(LPC)的概念的概念3.10 GSM声音简介声音简介3.11 话音编码标准摘要话音编码标准摘要3.11.1 编码算法的性能3.11.2 话音编码标准参考文献和站点参考文献和站点 3.1 话音类型话音类型话音波形的特性话音波形的特性n话音的产生：肺部中的受压空气沿着声道通过声门发话音的产生：肺部

4、中的受压空气沿着声道通过声门发出。出。n短期相关短期相关(short-term correlation)：普通人的声道从声：普通人的声道从声门到嘴的平均长度约为门到嘴的平均长度约为17厘米，反映在声音信号中就厘米，反映在声音信号中就相当于在相当于在1ms数量级内的数据具有相关性数量级内的数据具有相关性(声速约为声速约为340m/s)。n声道也被认为是一个滤波器，有许多共振峰，其频率声道也被认为是一个滤波器，有许多共振峰，其频率受随时间变化的声道形状所控制，例如舌的移动就会受随时间变化的声道形状所控制，例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器改变声道的形状。许多话音编码器用

5、一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化来模拟声道。但由于声道形状的变化比较慢，模拟滤波器的传递函数的修改不需要那么频比较慢，模拟滤波器的传递函数的修改不需要那么频繁，典型值在繁，典型值在20ms左右。左右。2023年1月17日第3讲话音编码 4 of 463.1 话音类型话音类型话音类型话音类型浊音，清音和爆破音。根据压缩空气通过声门对声道滤波器的激励方式区分。n按发音方法为：按发音方法为：爆破音：/p/b/t/d/k/g/鼻音：/m/n/摩擦音：/f/v/d/t/s/z/f/v/r/h/w/j/破擦音：/tF/dV/ts/dz/tr/dr/舌侧

6、音：/l/n按声带震动与否为：按声带震动与否为：清音：/p/t/k/f/W/h/s/F/tF/浊音：/b/d/g/m/n/N/v/T/z/V/dV/r/w/j/l/2023年1月17日第3讲话音编码 5 of 463.1 话音类型话音类型1.浊音浊音(voiced sounds)浊音是一种称为准周期脉冲浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音，这种准周期脉冲是在声激励所发出的音，这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生门打开然后关闭时中断肺部到声道的气流所产生的脉冲。的脉冲。声门打开和关闭的速率呈现为音节声门打开和关闭的速率呈

7、现为音节(pitch)的大的大小（音节是听觉能感受到的最自然的语音单位，小（音节是听觉能感受到的最自然的语音单位，一个汉字就是一个音节），它的速率可通过改变一个汉字就是一个音节），它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性，其值在音节上有高度的周期性，其值在220ms之间，之间，这个周期性称为长期周期性这个周期性称为长期周期性(l o n g-t e r m periodicity)。2023年1月17日第3讲话音编码 6 of 463.1 话音类型话音类型2023年1

8、月17日第3讲话音编码 7 of 46图图3-01 浊音段的浊音段的波形举例，音节波形举例，音节周期大约周期大约8ms 图图3-02 浊音段的功浊音段的功率谱密度率谱密度(power spectral density，PSD)3.1 话音类型话音类型n清音是由不稳定气流激励所产生的，这种气流清音是由不稳定气流激励所产生的，这种气流是在声门处在打开状态下强制空气在声道里高是在声门处在打开状态下强制空气在声道里高速收缩产生的。速收缩产生的。2023年1月17日第3讲话音编码 8 of 46图图3-03 清音段的波形举例清音段的波形举例图图3-04 清音段的功率谱密度举例清音段的功率谱密度举例3

9、.1 话音类型话音类型n爆破音爆破音(plosive sounds)爆破音是在声道关闭之后产生压缩空气然后突然打开声爆破音是在声道关闭之后产生压缩空气然后突然打开声道所发出的音。道所发出的音。n 某些音不能归属到上述三种音中的任何一种，例如在声某些音不能归属到上述三种音中的任何一种，例如在声门振动和声道收缩同时出现的情况下产生的摩擦音，这门振动和声道收缩同时出现的情况下产生的摩擦音，这种音称为混合音。种音称为混合音。n 声道的形状和激励方式的变化相对比较慢，话音在短声道的形状和激励方式的变化相对比较慢，话音在短时间周期时间周期(1030ms)里可以被认为是准定态里可以被认为是准定态(quasi

10、-stationary)的短时平稳随机过程。的短时平稳随机过程。n 话音信号具有高度周期性，这是由于声门的准周期性话音信号具有高度周期性，这是由于声门的准周期性的振动和声道的谐振引起的。话音编码器就是企图揭示的振动和声道的谐振引起的。话音编码器就是企图揭示这种周期性，减少数据率又尽可能不牺牲声音的质量。这种周期性，减少数据率又尽可能不牺牲声音的质量。2023年1月17日第3讲话音编码 9 of 463.2 话音编译码器话音编译码器n三种话音编译码器三种话音编译码器波形编译码器：话音质量高，数据率高波形编译码器：话音质量高，数据率高音源编译码器：数据率很低，合成话音音质有待提高音源编译码器

11、：数据率很低，合成话音音质有待提高混合编译码器：使用音源编译码技术和波形编译码技术，数据率和音质介混合编译码器：使用音源编译码技术和波形编译码技术，数据率和音质介于之间于之间2023年1月17日第3讲话音编码 10 of 46图图3-05 普通编普通编译码器的音质译码器的音质与数据率与数据率3.2 话音编译码器话音编译码器n波形编译码器波形编译码器n波形编译码的想法：不利用生成话音信号的任何知识而波形编译码的想法：不利用生成话音信号的任何知识而试图产生一种重构信号，波形与原始话音波形尽可能一试图产生一种重构信号，波形与原始话音波形尽可能一致。致。n这种编译码器的复杂程度比较低，数据速率在这

12、种编译码器的复杂程度比较低，数据速率在16kb/s以以上，质量相当高。低于这个数据速率时，音质急剧下降。上，质量相当高。低于这个数据速率时，音质急剧下降。n 脉冲编码调制脉冲编码调制(pulse code modulation，PCM)：最简单：最简单的波形编码，仅仅是对输入信号进行采样和量化。的波形编码，仅仅是对输入信号进行采样和量化。n 典型的窄带话音带宽限制在典型的窄带话音带宽限制在4kHz，采样频率是，采样频率是8kHz。如果要获得高一点的音质，样本精度要用如果要获得高一点的音质，样本精度要用12位，它的数位，它的数据率就等于据率就等于96kb/s，这个数据率可以使用非线性量化来降，这

13、个数据率可以使用非线性量化来降低低2023年1月17日第3讲话音编码 11 of 463.2 话音编译码器话音编译码器n音源编译码器音源编译码器音源编译码的思想：从话音波形信号中提取生成话音的音源编译码的思想：从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。参数，使用这些参数通过话音生成模型重构出话音。n 声码器声码器(vocoder)：针对话音的音源编译码器。：针对话音的音源编译码器。n 在话音生成模型中，声道被等效成一个随时间变化的在话音生成模型中，声道被等效成一个随时间变化的滤波器，叫做时变滤波器滤波器，叫做时变滤波器(time-varying filter

14、)，它由白噪，它由白噪声声(无声话音段无声话音段)激励，或者由脉冲串激励，或者由脉冲串(有声话音段有声话音段)激励。激励。需要传送给解码器的信息就是滤波器的规格、发声或者需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期，并且每隔不发声的标志和有声话音的音节周期，并且每隔1020ms更新一次。声码器的模型参数既可使用时域的方法更新一次。声码器的模型参数既可使用时域的方法也可以使用频域的方法确定，这项任务由编码器完成。也可以使用频域的方法确定，这项任务由编码器完成。2023年1月17日第3讲话音编码 12 of 463.2 话音编译码器话音编译码器n这种声码器的数

15、据率在这种声码器的数据率在2.4kb/s左右，产左右，产生的语音虽然可以听懂，但其质量远远生的语音虽然可以听懂，但其质量远远低于自然话音。增加数据率对提高合成低于自然话音。增加数据率对提高合成话音的质量无济于事，这是因为受到话话音的质量无济于事，这是因为受到话音生成模型的限制。尽管它的音质比较音生成模型的限制。尽管它的音质比较低，但它的保密性能好，因此这种编译低，但它的保密性能好，因此这种编译码器一直用在军事上。码器一直用在军事上。2023年1月17日第3讲话音编码 13 of 463.2 话音编译码器话音编译码器n混合编译码混合编译码n混合编译码的思想：企图填补波形编译混合编译码的思想：企

16、图填补波形编译码和音源编译码之间的间隔。码和音源编译码之间的间隔。n波形编译码器虽然可提供高质量的话音，波形编译码器虽然可提供高质量的话音，但数据率低于但数据率低于16kb/s的情况下，在技术的情况下，在技术上还没有解决音质的问题；上还没有解决音质的问题；n声码器的数据率虽然可降到声码器的数据率虽然可降到2.4kb/s甚至甚至更低，但它的音质根本不能与自然话音更低，但它的音质根本不能与自然话音相提并论。相提并论。2023年1月17日第3讲话音编码 14 of 462023年1月17日第3章数字声音编码15 of 463.4 脉冲编码调制脉冲编码调制(PCM)n脉冲编码调制脉冲编码调制(PC

17、M)的概念的概念 PCM是pulse code modulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统图3-3 PCM编码原理框图2023年1月17日第3章数字声音编码16 of 463.4 脉冲编码调制脉冲编码调制(续续1)n在图在图3-3中中输入是模拟信号，输出是PCM样本。防失真滤波器：低通滤波器，用来滤除声音频带以外的信号波形编码器：可理解为采样器量化器：可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器nPCM实际上是模拟信号数字化实际上是模拟信号数字化模拟声音数字化的两个步骤：第一步是采样，就是每隔一段时

18、间间隔读一次声音的幅度第二步是量化，就是把采样得到的声音信号幅度转换成数字值2023年1月17日第3章数字声音编码17 of 463.4 脉冲编码调制脉冲编码调制(续续2)n量化的方法量化的方法主要有均匀量化和非均匀量化均匀量化n采用相等的量化间隔/等分尺度量采样得到的信号幅度，也称为线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声图3-4 均匀量化2023年1月17日第3章数字声音编码18 of 463.4 脉冲编码调制脉冲编码调制(续续3)n非均匀量化非均匀量化大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声

19、音数据还原时，采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系n律压扩算法nA律压扩算法注：压扩(companding)图3-5 非均匀量化3.4 脉冲编码调制脉冲编码调制n律压扩律压扩n律律(-Law)压扩压扩(G.711)主要用在北美和日本等地区的主要用在北美和日本等地区的数字电话通信中，按下式确定量化输入和输出的关系数字电话通信中，按下式确定量化输入和输出的关系：nx为输入信号幅度，规格化成为输入信号幅度，规格化成 ;sgn(x)为为x的的极性；极性；nu 为确定压缩量的参数，它反映最大量化间隔和最小为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取量化间隔之

20、比，取100u500。n由于由于u 律压扩的输入和输出关系是对数关系，所以这律压扩的输入和输出关系是对数关系，所以这种编码又称为对数种编码又称为对数PCM。具体计算时，用。具体计算时，用u255，把，把对数曲线变成对数曲线变成8条折线以简化计算过程。条折线以简化计算过程。2023年1月17日第3讲话音编码 19 of 463.4 脉冲编码调制脉冲编码调制nA律压扩律压扩nA律律(A-Law)压扩压扩(G.711)主要用在欧洲和中国大陆等地主要用在欧洲和中国大陆等地区的数字电话通信中，按下式确定量化输入和输出的区的数字电话通信中，按下式确定量化输入和输出的关系：关系：n 0|x|1/An 1/

21、A|x|1nx为输入信号幅度，规格化成为输入信号幅度，规格化成-1x1;sgn(x)为为x的极性的极性。nA为确定压缩量的参数，它反映最大量化间隔和最小为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。量化间隔之比。2023年1月17日第3讲话音编码 20 of 463.5 PCM在通信中的应用在通信中的应用nPCM编码早期主要用于话音通信中的多编码早期主要用于话音通信中的多路复用。一般来说，在电信网中传输媒路复用。一般来说，在电信网中传输媒体线路费用约占总成本的体线路费用约占总成本的65%，设备费，设备费用约占成本的用约占成本的35%，因此提高线路利用，因此提高线路利用率是一个重要

22、课题率是一个重要课题2023年1月17日第3讲话音编码 21 of 463.5 PCM在通信中的应用在通信中的应用n频分多路复用频分多路复用(frequency-division multiplexing，FDM)把传输信道的频带分成几个窄带，每个窄带传送一路信号。【例】一个信道的频带为1400Hz，把这个信道分成4个子信道(subchannels)：820990 Hz,12301400 Hz,16401810 Hz和20502220Hz，相邻子信道间相距240Hz，用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。2023年1月17日第3讲话音编码

23、 22 of 462023年1月17日第3章数字声音编码23 of 463.5 PCM在通信中的应用在通信中的应用n时分多路复用时分多路复用 PCM编码早期主要用于话音通信中的多路复用时分多路复用是在同一条通信线路上使用不同时段“同时”传送多个独立信号的通信方法时分多路复用的核心思想是将时间分成等间隔的时段，为每对用户指定一个时间间隔，每个间隔传输信号的一部分例如，话音信号的采样频率f8000 Hz/s，它的采样周期125 s，这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格n24路制n30路制 2023年1月17日第3章数字声音编码24 of 463.5 PCM在通信

24、中的应用在通信中的应用(续续1)n24路制的重要参数如下：路制的重要参数如下：每秒钟传送8000帧，每帧125s12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成每个信道每次传送8位代码，1帧有24 8 1193位(位)数据传输率R80001931544 kb/s每一个话路的数据传输率80008=64 kb/s图3-6 24路PCM的帧结构 2023年1月17日第3章数字声音编码25 of 463.5 PCM在通信中的应用在通信中的应用(续续2)n30路制的重要参数如下：路制的重要参数如下：每秒钟传送8000帧，每帧125 s16帧组成1复帧(用于同步)每帧由32个时间

25、片(信道)组成每个信道每次传送8位代码数据传输率：R80003282048 kb/s每一个话路的数据传输率80008=64 kb/s n线路利用率线路利用率使用时分多路复用技术时，由于当信道无数据传输时仍给那个信道分配时间槽，因此线路利用率较低为解决这个问题，开发了统计时分多路复用技术(statistical time division multiplexing,STDM)。STDM是按照每个传输信道的传输需要来分配时间间隔的时分多路复用技术，可提高传输线路的效率 2023年1月17日第3章数字声音编码26 of 463.5 PCM在通信中的应用在通信中的应用(续续3)n数字通信线路的数据传

26、输率数字通信线路的数据传输率为反映PCM信号复用的复杂程度，通常用“群(group)”这个术语来表示，也称为数字网络的等级传输容量由一次群(基群)的30路(或24路)，增加到二次群的120路(或96路)，三次群的480路(或384路)，图3-7表示二次复用的示意图。图中的N表示话路数，无论N30还是N24，每个信道的数据率都是64 kb/s，经过一次复用后的数据率就变成2048 kb/s(N30)或1544 kb/s(N24)在数字通信中n在北美，具有1544 kb/s数据率的线路叫做“T1远距离数字通信线路”，提供这种数据率的服务级别称为T1等级n在欧洲，具有2048 kb/s数据率的线路

27、叫做“E1远距离数字通信线路”，提供这种数据率的服务级别称为E1等级T1/E1，T2/E2，T3/E3，T4/E4和T5/E5的数据传输率见表3-32023年1月17日第3章数字声音编码27 of 463.5 PCM在通信中的应用在通信中的应用(续续4)时分多路复用示意图时分多路复用示意图图3-7 二次复用示意图 2023年1月17日第3章数字声音编码28 of 463.5 PCM在通信中的应用在通信中的应用(续续5)nT1/E1，T2/E2，T3/E3，T4/E4和和T5/E5的数据传输率的数据传输率注：在注：在ITUITU的文件中，数据率用的文件中，数据率用kb/skb/s和和Mb/s

28、Mb/s做单位，因此该表没有做单位，因此该表没有用用kbpskbps和和MbpsMbps做单位做单位 2023年1月17日第3章数字声音编码29 of 463.6 增量调制与自适应增量调制增量调制与自适应增量调制n增量调制增量调制也称调制(delta modulation，DM)，是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反由于DM编码只须用1位对话音信号进行编码，所以DM编码系统又称为“1位系统”n比较：PCM是对每个采样信号的整个幅度进行量化编码图3-8 DM波形编

29、码示意图 3.6 增量调制与自适应增量调制增量调制与自适应增量调制n采样点采样点i0处，输入信号处，输入信号y0=0，预测值，预测值y0=0，编码输出，编码输出x0=1。n采样点采样点i=1处，预测值处，预测值y1=，实际输入信号大于预测值，实际输入信号大于预测值，x1=1n采样点采样点i=4处，预测值处，预测值y4=4，实际输入信号大于预测值，实际输入信号大于预测值，x4=12023年1月17日第3讲话音编码 30 of 462023年1月17日第3章数字声音编码31 of 463.6 增量调制与自适应增量调制增量调制与自适应增量调制(续续)n自适应增量调制自适应增量调制(ADM)根据输

30、入信号斜率的变化自动调整量化阶的大小，以使斜率过载和粒状噪声都减到最小。在检测到斜率过载时开始增大量化阶，而在输入信号的斜率减小时降低量化阶n例如，宋(Song)在1971描述的ADM技术中提出：每当输出不变时量化阶增大50%；每当输出值改变时，量化阶减小50%n又如，由格林弗基斯(Greefkes)在1970年提出的连续可变斜率增量调制(CVSD)的基本方法是：如果连续可变斜率增量调制器的输出连续出现三个相同值时，量化阶加一个大的增量，反之，就加一个小的增量。Motorola公司于20世界80年代初期开发了实现CVSD算法的集成电路芯片，如MC3417/MC3517用于一般的数字通信，MC3

31、418/MC3518用于数字电话。MC3417/MC3418用于民用，MC3517/MC3518用于军用 2023年1月17日第3章数字声音编码32 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制nAPCM的概念的概念APCM是什么nadaptive pulse code modulation的缩写，自适应脉冲编码调制n根据输入信号幅度大小来改变量化阶大小的一种波形编码技术n自适应n瞬时自适应，即量化阶的大小每隔几个样本就改变n音节自适应，即量化阶的大小在较长时间里发生变化2023年1月17日第3章数字声音编码33 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码

32、调制(续续1)改变量化阶大小的方法(1)n前向自适应(forward adaptation)：根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端n前向自适应APCM的基本概念如图3-9(a)所示S(k)Sr(k)缓冲器量化器量化阶适配器逆量化器边信道信道(a)前向自适应图3-9 APCM方块图 2023年1月17日第3章数字声音编码34 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制(续续2)改变量化阶大小的方法(2)n后向自适应(backward adaptation)：从量

33、化器刚输出的过去样本中提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。n后向自适应APCM的基本概念如图3-9(b)所示Sr(k)信道量化器量化阶适配器逆量化器S(k)量化阶适配器(b)后向自适应图3-9 APCM方块图 2023年1月17日第3章数字声音编码35 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制(续续3)nDPCM的概念的概念DPCM是什么nDPCM中文术语为差分脉冲编码调制ndifferential pulse code modulation的缩写n利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术n基本思想：根据

34、过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数n它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。n可适应大范围变化的输入信号 2023年1月17日第3章数字声音编码36 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制(续续4)nDPCM原理原理差分信号d(k)：离散输入信号s(k)和预测器输出的估算值se(k-1)之差对d(k)进行量化编码，得到图

35、3-10 DPCM方块图 ()d k2023年1月17日第3章数字声音编码37 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制(续续5)nADPCM的概念的概念ADPCM的中文术语为自适应差分脉冲编码调制adaptive difference pulse code modulation的缩写综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码技术它的核心想法是：n利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值n使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差

36、值总是最小2023年1月17日第3章数字声音编码38 of 463.7 自适应差分脉冲编码调制自适应差分脉冲编码调制(续续6)nADPCM编码框图编码框图如图3-11所示接收端的译码器使用与发送端相同的算法，利用传送来的信号来确定量化器和逆量化器中的量化阶大小，并且用它来预测下一个接收信号的预测值图3-11 ADPCM方块图 2023年1月17日第3章数字声音编码39 of 463.8 G.722 SB-ADPCM编译码器编译码器nG.722推荐标准推荐标准507000 Hz的话音称为宽带话音1988年CCITT制定的，称为“数据率为64 kb/s的7 kHz声音信号编码(7 kHz

37、Audio-coding with 64 kb/s)”910该标准把话音信号的质量由电话质量提高到AM无线电广播质量，而其数据传输率仍保持为64 kb/s在可懂度和自然度方面都比带宽为3003400 Hz的话音有明显提高，也更容易识别对方的说话人采用的技术n子带编码(SBC)n自适应差分脉冲调制(ADPCM)编码2023年1月17日第3章数字声音编码40 of 463.8 G.722 SB-ADPCM编译码器编译码器(续续1)n子带编码子带编码(sub-band coding，SBC)用一组带通滤波器(band-pass filter，BPF)把输入声音信号的频带分成若干个连续的频段，每个频

38、段称为子带。对每个子带中的声音信号采用单独的编码方案去编码在信道上传送时，将每个子带的代码复合在一起；在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的声音信号好处有两个n可对每个子带信号分别进行自适应控制，量化阶的大小可按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化，以减少总的量化噪声n可根据每个子带信号在感觉上的重要性，对每个子带分配不同的位数，用来表示每个样本值。2023年1月17日第3章数字声音编码41 of 463.8 G.722 SB-ADPCM编译码器编译码器(续续2)n例如，在低频子带中，为了保护音调就要求用较小的量化阶、较多

39、的量化级数，即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的位数SBC的方块图如图3-13所示，图中的编码/译码器可以采用ADPCM，APCM或PCM BPF 1 BPF 2 编码器 BPF N 编码器编码器译码器译码器译码器 BPF 1 BPF 2 BPF N 分解器复合器编码信道译码 x(n)x(n)图3-13 子带编码方块图 2023年1月17日第3章数字声音编码42 of 463.8 G.722 SB-ADPCM编译码器编译码器(续续3)n声音频带的分割声音频带的分割可用树型结构的式样进行划分n首先把整个声音

40、信号带宽分成两个相等带宽的子带：高频子带和低频子带n然后对这两个子带用同样的方法划分，形成4个子带n这个过程可按需要重复下去，以产生2k个子带，K为分割的次数n用这种办法可以产生等带宽的子带，也可以生成不等带宽的子带n例如，对带宽为4000 Hz的声音信号，当K=3时，可分为8个相等带宽的子带，每个子带的带宽为500 Hz；也可生成5个不等带宽的子带，分别为0,500),500,1000)，1000,2000),2000,3000)和3000，4000 采用正交镜像滤波器(quadrature mirror filter，QMF)来划分频带 2023年1月17日第3章数字声音编码43 of

41、463.8 G.722 SB-ADPCM编译码器编译码器(续续4)nSB-ADPCM编译码器方框图编译码器方框图图3-17 7 kHz声音信号64 kb/s数据率的编译码方块图音频信号输入 outX 发送正交镜象滤波器高子带 ADPCM 编码器低子带 ADPCM 编码器高子带 ADPCM 译码器低子带 ADPCM 译码器多路复合器多路分解器数据插入部件数据抽出部件附加数据 0,8,16 kbps 附加数据 0,8,16 kbps 声音数据传送部件声音数据传送部件音频信号输出 inX HX LX HY LY HI HI LI

42、LI 16 kbps 16 kbps 48 kbps 48 kbps 接收正交镜象滤波器 2023年1月17日第3章数字声音编码44 of 463.9 线性预测编码线性预测编码(LPC)的概念的概念 n线性预测编码线性预测编码(linear predictive coding，LPC)话音压缩技术。将话音生成机理模型化为一个离散的、时变的、线性的递归滤波器编码时使用线性预测分析话音波形产生声道激励和转移函数的参数，对声音波形的编码实际就转化为对这些参数的编码，这就可减少声音的数据量译码时使用线性预测分析得到的参数，通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器

43、，它代表人的话音生成系统模型时变线性滤波器n分析话音波形时，当作预测器使用n合成话音波形时，当作生成模型使用2023年1月17日第3章数字声音编码45 of 463.9 线性预测编码线性预测编码(LPC)的概念的概念(续续1)n线性预测器线性预测器使用过去的P个样本值来预测现时刻的采样值x(n)，如图3-18所示图3-18 预测概念2023年1月17日第3章数字声音编码46 of 463.9 线性预测编码线性预测编码(LPC)的概念的概念(续续2)预测值用过去P个样本值的线性组合表示为0()()()()ppreiie nx nxna x ni121()(1)(2)()()preppiixn

44、a x na x na x npa x ni 为方便起见，式中采用了负号残差误差即线性预测误差为一个线性差分方程，在给定的时间范围里，如n0,n1,使e(n)的平方和即 102()nn ne n为最小，这样可使预测得到的样本值更精确。2023年1月17日第3章数字声音编码47 of 463.9 线性预测编码线性预测编码(LPC)的概念的概念(续续3)预测系数n通过求解偏微分方程，可找到系数ai的值n如果把发音器官等效成滤波器，这些系数ai可以理解成滤波器的系数n在接收端重构的话音不再具体复现真实话音的波形，而是合成的声音 2023年1月17日第3章数字声音编码48 of 463.10 G

45、SM编译码器简介编译码器简介nGSM编译码器简介编译码器简介 GSM是Global System for Mobile communications的缩写，可译成全球数字移动通信系统GSM算法是1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的，这个协议是欧洲最流行的数字蜂窝电话通信协议。除了ADPCM算法已经得到普遍应用之外，还有一种使用较普遍的波形声音压缩算法叫做GSM算法，使用这种算法的编码器称为GSM编码器2023年1月17日第3章数字声音编码49 of 463.10 GSM编译码器简介编译码器简介(续续)nGSM的性能的性能G

46、SM的输入：数据分成帧(frame)，一帧(20毫秒)由带符号的160个样本组成，每个样本为13位或16位的线性PCM(linear PCM)码n使用的采样频率为8 kHz时，如果每个样本为16位，那么未压缩的话音数据率为128 kb/sGSM的输出：一帧(16016位)的数据压缩成260位的GSM帧，相当于13 kb/s。由于260位不是8位的整数倍，因此编码器输出的GSM帧为264位的线性PCM码n使用GSM压缩后的数据率为：(264位8000样本/秒)/160样本=13.2 千位/秒GSM的压缩比：128:13.2=9.7，近似于10:12023年1月17日第3章数字声音编码50 of

47、 463.11 话音编码标准摘要话音编码标准摘要编码器编码器MOSMOS分分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.5n编码算法的性能编码算法的性能表3-5 部分编码器的MOS分 2023年1月17日第3章数字声音编码51 of 46第3章数字声音编码参考文献1.ITU G系列推荐标准文档的下载网址：http:/www.itu.i

48、nt/rec/T-REC-G/en.2.Thomas J.Lynch,Ph.D.Data Compression Techniques and Application.Van Nostrand Reinhold Company，19853.Thomas W.Parsons.Voice and Speech Processing.McGraw-Hill Book Company.19864.Sadaoki Furui.Digital Speech Processing,Synthesis,and Recognition.Marcel Dekker,INC.，19895.林福宗，陆达.多媒体与C

49、D-ROM.北京：清华大学出版社,1995.3(1)SNR的计算：pp171-173。(2)律和A率的计算：pp171-1936.CCITT,Recommendation G.711,Pulse Code Modulation(PCM)of Voice Frequencies,Blue Book,Vol.III,Fascicle III.4.19887.CCITT,Recommendation G.721,32 kb/s Adaptive Differential Pulse Code Modulation(ADPCM),Blue Book,Vol.III,Fascicle III.4.198

50、82023年1月17日第3章数字声音编码52 of 46第3章数字声音编码参考文献(续续)8.CCITT,Recommendation G.726,40,32,24,16 kbit/s Adaptive Differential Pulse Code Modulation(ADPCM),Geneva,19909.CCITT,Recommendation G.722,7 kHz Audio Coding With 64 kb/s,Blue Book,Vol.III,Fascicle III.4.198810.Paul Mermelstein,G.722,A New CCITT Coding

展开阅读全文