第6章-音频压缩编码技术及其国际标准-2课件.ppt_163文库

资源描述

1、1第六章音频压缩编码技术及其国际标准26.1 6.1 概述概述6.2 MPEG6.2 MPEG音频压缩编码音频压缩编码6.3 Dolby AC-36.3 Dolby AC-3数字音频压缩编码技术数字音频压缩编码技术36.2.1 MPEG-1音频压缩编码标准6.2.2 MPEG-2音频压缩编码标准6.2.3 MPEG-2 ACC音频压缩编码标准6.2.4 MPEG-4音频压缩编码标准6.2 MPEG音频压缩编码音频压缩编码4 MPEG-1(ISOMPEG-1(ISOIEC11172)IEC11172)标准的第三部分标准的第三部分(ISO(ISOIEC 11172-3)IEC 11172-3)，

2、称为，称为MPEG-1 MPEG-1 音频。它音频。它是世界上第是世界上第一个高保真声音数据压缩标准，得到极其广泛的一个高保真声音数据压缩标准，得到极其广泛的应用应用编码器的输入信号为线性PCM信号采样率为32,44.1或48 kHz，16位编码器的输出信号为32384 kbpsMPEG编码器32,44.1,48 kHzPCM32 kbps384 kbps6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准5MPEG-1MPEG-1音频的三个层次音频的三个层次按照压缩编码的复杂程度规定了三个层次。层次越高，压缩比越大，编解码器越复杂。每个层次针对不同的应用。层层算法算法压缩比压缩比码率码

3、率最小延迟最小延迟通常延迟通常延迟第一层MUSICAM4:13841950第二层MUSICAM68:1256-19235100第三层ASPEC1012:1128-112591506.2.1 MPEG-1音频压缩编码标准音频压缩编码标准6 Layer ILayer I是简单型，通常目标码率每通道是简单型，通常目标码率每通道192kbit192kbits s，立体声码率为，立体声码率为384kbit384kbits s，压，压缩比为缩比为1:41:4。Layer ILayer I被广泛应用在被广泛应用在VCDVCD的音频的音频压缩编码中。压缩编码中。Layer Layer 以以Layer ILa

4、yer I为基础，但压缩编码为基础，但压缩编码的复杂度增加了。的复杂度增加了。通常目标码率为每通道通常目标码率为每通道128kbit128kbits s，立体声码率为，立体声码率为256kbit256kbits s，压，压缩比为缩比为1:61:6。广泛应用于数字音频广播和数字。广泛应用于数字音频广播和数字电视演播室等专业的数字音频制作、存储和传电视演播室等专业的数字音频制作、存储和传送中。送中。6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准7 Layer IIILayer III采用混合压缩技术，复杂度采用混合压缩技术，复杂度最高。最高。Layer IIILayer III通过使用非

5、均匀量化，自通过使用非均匀量化，自适应分割和量化后的熵编码来提高编码效率。适应分割和量化后的熵编码来提高编码效率。目标码率为每通道目标码率为每通道64kbit64kbits s，立体声为，立体声为128kbit128kbits s，压缩比为，压缩比为1:121:12。Layer IIILayer III在在低码率下有高品质的音质，主要应用于需要低码率下有高品质的音质，主要应用于需要较低码率的领域。较低码率的领域。三三个层的解码器后向兼容个层的解码器后向兼容，即，即Layer Layer IIIIII的解码器可以对三个层的码流解码，的解码器可以对三个层的码流解码，Layer Layer 解码器可

6、以解码解码器可以解码Layer ILayer I及及Layer Layer。6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准8图图6.3 Layer I 6.3 Layer I 音频编码器框图音频编码器框图3232子带子带滤波器组滤波器组量化编码量化编码比例因子比例因子计算计算512512点点FFTFFT心理声学心理声学模型模型动态动态比特分配比特分配复复用用器器PCMPCM输入信号输入信号32323232比例因子比例因子比特比特分配分配音频音频码流码流6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准9MPEG-1MPEG-1 Audio 的滤波器组的滤波器组输入的音频信号首先

7、通过一个多通道滤波器组，变换成等宽的32个子带，这些滤波器组的输出是临界频带系数样值。由于临界频带不是等宽的，所以低频端的子带可能覆盖了多个临界频带。MPEG AUDIO MPEG AUDIO 滤波器组频带滤波器组频带频率增加频率增加临界频带临界频带6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准10MPEG-1PEG-1 Audio 的滤波器组输出的滤波器组输出第一层每帧包含384个时域样本，每个子带输出12个频域样本。每32个时域样本每子带输出1个频域样本。第二层和第三层每帧为1152个时域样本，每个子带输出36个频域样本6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准11

8、n比例因子比例因子按信号的大小来改变量化步长，信号大时用较大的量化步长，信号小时用较小的量化步长。因此，将码字分为两组，一组用来表示量化步长，又称为比例因子，其余的比特用来均匀量化信号，代表信号幅值的尾数根据每个子带12个样值中的最大的样值，确定比例因子6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准12心理声学模型的实现心理声学模型的实现用512点FFT把时域信号变换到频域将得到的频域样本按临界频带分组计算由临界频带引起的每个子带的掩蔽阈值，组合每个子带的单个掩蔽阈值，形成全局掩蔽阈值计算每个子带的信掩比SMR，使用每个子带中的最大信号与全局掩蔽阈值计算信掩比，计算方法同信噪比SNR

9、，单位也是dB将每个子带的信掩比输出给动态比特分配模块6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准13动态比特分配动态比特分配全局掩蔽阈值决定了每个子带所容许的最大量化噪声，对于那些信掩比小于1的子带，完全不用编码，直接丢弃就可以了对于信掩比大于等于1的子带，如果将尾数都量化为相同的比特数，那么不同子带的掩蔽阈值和量化噪声的比（掩蔽噪声比）往往是不同的，为了使声音质量最佳，应当使各个子带的掩蔽噪声比相等。mpeg-1采用了一种逐步逼近的方式，如教材所述，但该方法不是唯一的，编码器厂家可以自己研究更好的方法实现掩蔽噪声比的均匀化6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准

10、14量化量化根据动态比特分配的结果，对需要编码的子带的样本进行量化l复用器复用器把比特分配信息、比例因子和每个子带的量化以后的样本尾数组织起来，配以同步头和CRC校验位及若干附加数据，就形成Layer I的帧同步头同步头(32bit)(32bit)CRCCRC(16bit)(16bit)位分配位分配(4bit)(4bit)比例因子比例因子(6bit)(6bit)子带子带样本样本子带子带样本样本附加数据附加数据(未指定未指定)6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准15Layer IILayer IILayer II以Layer I为基础，编码原理一样，但是有一些改进子带不再是均

11、匀宽度，而是按照临界频带划分子带，这样更符合人的听觉特性，同时滤波器组变得更复杂使用1024点FFT，提高了频率分辨率，能得到更准确的瞬间频谱Layer II每帧包含1152个时域样本，刚好是Layer I帧的3倍6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准163232子带子带滤波器组滤波器组量化编码量化编码比例因子比例因子计算计算10241024点点FFTFFT心理声学心理声学模型模型动态动态比特分配比特分配复复用用器器PCMPCM输入信号输入信号32323232音频音频码流码流图图6.5 Layer II 6.5 Layer II 音频编码器框图音频编码器框图比例因子比例因子选

12、择选择辅助辅助数据数据编码编码6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准17Layer II的帧结构的帧结构将子带分为低频段、中频段和高频段，采用不同的比特分配策略，描述位分配的位数分别是4、3、2位用共享比例因子的方法提高压缩效率，码流的每帧中有一个2位的比例因子选择信息SCFSI，指出是否需要共享比例因子，以及如何共享比例因子同步头同步头(32bit)(32bit)CRCCRC(16bit)(16bit)位分配位分配SCFSISCFSI(2bit)(2bit)比例因子比例因子(6bit)(6bit)子带子带样本样本子带子带样本样本附加数据附加数据(未指定未指定)低频段低频段4

13、 4位位中频段中频段3 3位位高频段高频段2 2位位6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准18Layer IIILayer III目标码率为每声道64kbps，立体声128kbps采用混合编码技术非均匀量化自适应分割熵编码(哈夫曼编码)更好的临界频带滤波器多相/MDCT混合滤波器组心理声学模型除了使用频域掩蔽特性和时域掩蔽特性之外，还考虑了立体声声道之间的冗余6.2.1 MPEG-1音频压缩编码标准音频压缩编码标准196.2.2 MPEG-2音频压缩编码标准音频压缩编码标准MEPG-2MEPG-2的音频标准的音频标准(ISO(ISOIEC DIS 13818-3)IEC DI

14、S 13818-3)它它是建立在是建立在MEPG-1MEPG-1音频标准音频标准(1SO(1SOIEC11172-3)IEC11172-3)的基础之上的的基础之上的与与MPEG-1 MPEG-1 音频兼容音频兼容前向兼容：前向兼容：MPEG-2MPEG-2音频解码器可以解码音频解码器可以解码MPEG-1MPEG-1音频流音频流后向兼容：后向兼容：MPEG-1MPEG-1音频解码器可以解码音频解码器可以解码MPEG-2MPEG-2音频流音频流在功能与性能上做扩充在功能与性能上做扩充增加了低取样率：取样率增加了低取样率：取样率16k16k，22.05k22.05k，24k24k增加了输出速率：从增

15、加了输出速率：从3232384kbps384kbps增加到增加到8 8640kbps640kbps增加了声道数，可支持增加了声道数，可支持5.15.1和和7.17.1声道。图声道。图6.10 6.10 支持多语言配音，最多支持多语言配音，最多7 7种种20图6.10 5.1声道和7.1声道示意图(a)51声道(b)71声道6.2.2 MPEG-2音频压缩编码标准音频压缩编码标准21图6.11 MPEG-2音频编、解码器框图MPEG-1编码器L LR RC CLSLSRSRSLTELTE扩展编码器L L0 0向向 R R0 0下下 T2T2混混 T3T3合合 T4T4LTELTEMPEG-1解码

16、器L LR RC CLSLSRSRSLTELTE扩展解码器L L0 0重重 R R0 0新新 T2T2混混 T3T3合合 T4T4LTELTEMPEG-2编码器MPEG-2解码器6.2.2 MPEG-2音频压缩编码标准音频压缩编码标准22MPEG-2MPEG-2音频帧结构音频帧结构L0和R0编码以后作为MPEG-1编码数据其他信息编码后作为附加数据放在mpeg-1的帧中，MPEG-1音频数据帧中对辅助数据AUX的长度没有限制MPEG-1帧头MPEG-1CRCMPEG-1声音数据MPEG-2多声道扩展数据MPEG-1AUX图6.12 MPEG-2音频数据的帧结构6.2.2 MPEG-2音频压缩编

17、码标准音频压缩编码标准236.2.3 MPEG-2 AAC音频压缩编码标准音频压缩编码标准l高级音频编码高级音频编码 AACAAC（Advanced Audio CodingAdvanced Audio Coding）l AAC是1997年国际标准组织(ISOIEC)制定的音频编码标准，也是MPEG-2标准的一个部分，标准号为MPEG-2 AAC(ISOIEC l3818-7)。l 与MPEG-1 音频不兼容，压缩效率比MPEG-1/2 音频L2压缩效率提高一倍，比MP3（Layer III）高大约30%，压缩比可达30:1l以每个声道64kbs的码率提供极高质量的音频，很难区分与原始音的差别

18、l采样频率支持896KHzl有48个主要音频声道，16个低频效果声道，16个多国语言声道和16个数据码流。24lMPEG-2 AACMPEG-2 AAC增加的新编码工具增加的新编码工具增加新的编码工具，使AAC的编码效率得到较大提高(1)(1)预测技术预测技术因为音频信号有较强的相关性，在AAC系统中采用预测技术，能有效地提高编码效率。(2)(2)瞬时噪声成形瞬时噪声成形(Temporal Noise Shaping(Temporal Noise Shaping，TNS)TNS)TNS技术可以控制量化噪声的瞬时成形。(3)(3)采用了改进的余弦变换采用了改进的余弦变换MDCTMDCT滤波器

19、组滤波器组有利于消除边界噪声，改善信号质量并且MDCT窗的宽度增长到1024，滤波器组的频率分辨率为2048。6.2.3 MPEG-2 AAC音频压缩编码标准音频压缩编码标准25 (4)(4)灵活控制量化步长灵活控制量化步长,使比特利用率更为有效。(5)(5)采用霍夫曼熵编码采用霍夫曼熵编码配合灵活的码流结构，进一步提高编码效率 (6)MPEG-2 AAC(6)MPEG-2 AAC编解码时延较长，可达编解码时延较长，可达3 3秒甚至秒甚至更长更长6.2.3 MPEG-2 AAC音频压缩编码标准音频压缩编码标准26l MPEG-2 AAC MPEG-2 AAC定义的三种挡次定义的三种挡次(P

20、rofile)(Profile)为了在声音质量与存储或处理能力之间有个折中 (1)(1)基本挡次基本挡次(Main Profile)(Main Profile)使用除“增益控制(Gain Control)”之外，的全部工具，因而基本挡次在任何码率上都提供了最好的声音质量。(2)(2)低复杂度档次低复杂度档次(Low Complexity Profile)(Low Complexity Profile)声音质量比基本挡次的声音质量低。不使用预测模块和预处理模块，瞬时噪声成形(TNS)滤波器的级数有限，编码效率比基本档次低。6.2.3 MPEG-2 AAC音频压缩编码标准音频压缩编码标准27(3)

21、(3)可分级取样率档次可分级取样率档次(Scalable Sampling Rate(Scalable Sampling Rate Profile)Profile)使用增益控制对信号作预处理，不使用预测模块，TNS滤波器的级数和带宽都有限制。它比基本档次和低复杂度档次更简单。MPEG-2 AAC工作码率从8kbs的单频道语言信号至每个声道超过160kbs的高保真度信号，可用于很高质量的音频编码。AAC目前已经应用于日本等许多国家的数字电视广播系统中。6.2.3 MPEG-2 AAC音频压缩编码标准音频压缩编码标准28l MPEG-4 MPEG-4 音频压缩编码音频压缩编码(ISO/IEC 14

22、496-3)(ISO/IEC 14496-3)lMPEG-4是基于视、音频对象的压缩编码标准，不针对单项应用l音频编码覆盖整个声音频率范围，从自然音频、结构音频到混合音频l贯彻了MPEG-4的面向对象编码的思想 6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准29l MPEG-4MPEG-4音频压缩编码涵盖：音频压缩编码涵盖：l传统音频编码即自然音频(Natural Audio)编码速率范围为264kbs，使用MPEG-2 AAC对普通声音信号进行压缩l新颖的结构音频(Structured Audio)编码l自然与合成混合在一起的合成自然混合编码(SNHC)，SNHC是MPEG-4

23、音频编码的一个重要概念。6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准30l数据速率在26kbs的极低比特率范围，抽样频率为8kHz，可使用参数编码技术；l数据速率在624kbs的中等码率范围，可使用码激励线性预测(CELP)技术，采样频率8kHz或16kHzl数据速率在1664kbs码率范围，可使用时/频编码技术，采样频率896 kHz 从可懂度语音到高质量的多声道音乐，MPEG-4支持许多重要功能，包括码率控制、声调改变、容错及各种分级性。6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准31卫星通信移动通信因特网可变速率编码器(Scalable coder)ISDN话

24、音编码(speech coding)普通声音编码(general audio coding)典型的声音带宽20 kHz8 kHz4 kHz文-语转换(TTS)2 4 6 8 10 12 14 16 24 32 48 64位速率(kbps)MPEG-4 Audio数据速率和应用目标6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准32关于关于MPEG-4 MPEG-4 音频压缩编码的标准文档音频压缩编码的标准文档从20世纪90年代中期以来已有多个版本，见图11-24，前后版本的差别也比较大原因之一是这个时期的技术发展比较快，MPEG-4 音频压缩编码标准不断采纳当时还不够成熟的新技术，例

25、如正弦波编码(SSC)和谱带复制(SBR)编码的有损压缩技术声音无损编码(ALS)和直接数据流传输(DST)的无损压缩技术 6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准33MPEG-4 V1(1999)MPEG-4 V2(2001)SBRSSC2005SLSALSDSTMPEG-4 Audio标准移动数字广播卫星/陆地数字广播MPEG-2MC/LSFMPEG-2AACMP3MPEG-1 1992 1994 1996 1998 2000 2002 2004 2006感知编码(有损压缩)无损压缩MC/LSF:multi-channel and low sampling frequen

26、cyAAC:advanced audio coderSBR:spectral band replicationSSC:sinusoidal codingSLS:scalable losslessDST:direct stream transfer6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准34MPEG-4 音频压缩编码工具与文档音频压缩编码工具与文档提供的声音工具可分成8种类型(1)话音编码工具(speech coding tools)(2)声音编码工具(audio coding tools)(3)无损声音编码工具(lossless audio coding tools)(4)声

27、音合成工具(synthesis tools)(5)编排工具(composition tools)(6)性能可变工具(scalability tools)(7)上行数据流控制工具(upstream)(8)抗错工具(error robustness facilities)6.2.4 MPEG-4 音频压缩编码标准音频压缩编码标准35描述各种工具的文档描述各种工具的文档(ISO-IEC 14496-3)有有10部分部分Subpart 1:MainSubpart 2:Speech coding HVXCSubpart 3:Speech coding CELPSubpart 4:General Audi

28、o coding(GA)AAC,TwinVQ,BSACSubpart 5:Structured Audio(SA)Subpart 6:Text To Speech Interface(TTSI)Subpart 7:Parametric Audio Coding HILNSubpart 8:Parametric coding for high quality audio SSCSubpart 9:MPEG-1/2 Audio in MPEG-4Subpart 10:Lossless coding of over sampled audio DST 6.2.4 MPEG-4 音频压缩编码标准音频压

29、缩编码标准366.1 6.1 概述概述6.2 MPEG6.2 MPEG音频压缩编码音频压缩编码6.3 Dolby AC-36.3 Dolby AC-3数字音频压缩编码技术数字音频压缩编码技术376.3 Dolby AC-3数字音频压缩编码技术数字音频压缩编码技术6.3.1 概述6.3.2 AC-3编解码技术6.3.3 AC-3同步帧格式38杜比数字(Dolby Digital)1994年美国杜比实验室开发的数字声音编码系统，是一种高品质、多声道的数字音频压缩编码技术，采用了感知编码技术多声道环绕声格式，符合ISO对编码算法提出的要求，现已作为国际标准已用在DVD影视盘、DTV(数字电视)、HD

30、TV和其他娱乐产品中已作为美国ATSC（Advanced Television Systems Committee）A/52中规定的数字音频压缩编码标准6.3.1 概述概述39l AC-3输入信号的取样频率为48KHz(锁定于27MHz系统时钟)，量化比特为16-24bits，基带音频的输入可以多达6个声道，即中心声道（centre）、左（left）、右（right）、左环绕（left surround）、右环绕（right surround）及低频增强（LFE：Low frequency enhancement）声道。LFE声道的带宽限于120Hz，主声道的带宽限于20KHz。6个声道也称

31、为5.1声道，0.1声道即为LFE声道。动态范围可达100dB。6.3.1 概述概述40声音数据的码速率通常为64448 kbps立体声的码速率通常为192 kbps5.1声道的码速率通常为384 kbps，但可高达640 kbps音频业务分两种，即主要业务（main service）和辅助业务（associated service）。主要业务工作时码率压缩到384Kb/s。主要业务及辅助业务的组合码率572 Kb/s。5.1声道的音频码率约为5Mb/s（6声道48 kHz18bit=5.184 Mb/s）的PCM，经AC-3编码器压缩为384 Kb/s的串行码流。6.3.1 概述概述41Do

32、lby AC-3压缩编码器方框图输入是未被压缩的PCM音频样本，采样频率必须是32,44.1或48 kHz，样本精度可多到20位6.3.2 AC-3编解码技术编解码技术分析滤波器组谱包络（指数）编码比特分配尾数量化AC-3帧格式形成AC-3码流编码的谱包络比特分配信息指数PCM音频尾数量化的尾数42分析滤波器组(analysis filter bank)：把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示。频谱包络编码(spectral e

33、nvelope encoding)：对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱，因此称为(频)“谱包络编码”位分配(bit allocation)：使用“谱包络编码”输出的信息确定尾数编码所需要的位数6.3.2 AC-3编解码技术编解码技术43尾数量化(mantissa quantization)：按照“位分配”输出的位分配信息对尾数进行量化AC-3帧格式(AC-3 frame formatting)：把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧一帧由6个声音块(1536个声音样本)组成。6.3.2 AC-3编解码技术编解码技术44AC-3帧同

34、步、误差校正及解帧格式比特分配尾数逆量化谱包络解码综合滤波器比特分配信息尾数PCM音频编码的谱包络AC-3码流指数图6.14 AC-3解码器方框图6.3.2 AC-3编解码技术编解码技术45 解码是编码的逆过程。AC-3解码器方框图如图6.14所示。AC-3码流进入解码器进行缓存、帧头匹配、CRC纠错检验，然后解开AC-3码流的帧信号，解出谱包络（指数）进行简单的比特分配格式计算得到比特分配方案。根据比特分配方案从码流中进一步解出量化的尾数，进行尾数逆量化，恢复尾数，再由尾数和指数恢复频域系数。频域系数经反变换得时间域信号，通过

35、加窗和重叠相加，产生解码后得PCM音频信号。6.3.2 AC-3编解码技术编解码技术46 图6.15为AC-3同步帧格式。各个同步帧包含6个编码的音频块（AB），各代表256个音频取样。各帧的开始是帧同步信息（SI）头，它包含获取和保持同步的信息。在SI之后是码流信息（BSI）头，它包含描述编码的音频服务参数。在编码音频块后跟一个辅助数据字段，最后是误码监测CRC字段。6.3.3 AC-3同步帧格式同步帧格式SIBSIAB0AB1AB2AB3AB4AB5AUXCRCSIBSI同步帧图6.15 AC-3同步帧格式 47作业1、简述MPEG-1音频压缩编码的3个层次的特点、压缩比及其应用。2、MPEG-2音频在功能和性能上比MPEG-1有哪些扩充？3、MPEG-2 AAC音频编码标准的主要特点是什么？

展开阅读全文