音频压缩编码原理及标准课件.ppt_163文库

资源描述

1、音频压缩编码原理及标准音频压缩编码原理及标准.音频压缩编码的基本原理MPEG-1音频压缩编码标准杜比AC-3音频压缩算法MPEG-2音频压缩编码标准MPEG-4音频压缩编码标准按照对声音质量的要求不同以及使用频带的宽窄按照对声音质量的要求不同以及使用频带的宽窄，将音频信号分为以下，将音频信号分为以下4类：类：窄带语音：又称电话频带语音，窄带语音：又称电话频带语音，300-3400Hz，用，用于各类电话通信，数字化时采样频率常用于各类电话通信，数字化时采样频率常用8kHz。宽带语音：用于电话会议，视频会议，宽带语音：用于电话会议，视频会议，50-7000Hz，数字化时采样频率常用，数字化时采样频

2、率常用16kHz。数字音频广播：数字音频广播：20-15000Hz，数字化时采样频率，数字化时采样频率常用常用32kHz。高保真立体声音频信号：高保真立体声音频信号：20-20KHz，用于，用于VCD、DVD、CD等，数字化时采样频率常用等，数字化时采样频率常用44.1kHz 或或48kHz。巨大的数据量给存储和传输带来的压力CD唱片Fs=44.1KHz 量化精度 16bit 双声道数码率？1.41Mbit/s1S信号所需存储空间？176.4KB数字音频信号中存在着大量冗余数字音频信号中存在着大量冗余频域冗余：频域冗余：低频成分比高频成分多低频成分比高频成分多语音信号的共振峰语音信号的共振峰

3、时域冗余：时域冗余：小幅度样本比大幅度样值出现的概率大。小幅度样本比大幅度样值出现的概率大。相邻样值间的相关性相邻样值间的相关性信号周期的相关性信号周期的相关性长时自相关长时自相关话音间隙冗余话音间隙冗余听觉冗余：听觉冗余：利用人耳的感知特性，将听不到的信号压缩掉。利用人耳的感知特性，将听不到的信号压缩掉。声音信号的频率范围？20Hz-20KHz声音频谱的特点:高频段快速下降，高幅值大部分集中在中频段，有的延伸到低频段电平分布特点：声音信号的电平存在冗余一个较弱的声音（被掩蔽音）的听觉感受被另一个较强的声音（掩蔽音）影响掩蔽量与掩蔽声具有的声压级成正比掩蔽量与掩蔽声具有的声压级成正比掩蔽声的声

4、压级越高、掩蔽的频率范围随之加宽掩蔽声的声压级越高、掩蔽的频率范围随之加宽被掩蔽声的频率越接近掩蔽声，掩蔽效应越显著、掩蔽被掩蔽声的频率越接近掩蔽声，掩蔽效应越显著、掩蔽量增大量增大掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱，对于高掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱，对于高于掩蔽声频率的声音掩蔽效果显著。于掩蔽声频率的声音掩蔽效果显著。利用声音的掩蔽效应，可以用有用的信号去掩蔽无用的信号只需把无用信号的声压级降至掩蔽域之下即可，无需消除无用分量人耳听力系统带通滤波器对某频率的声音信号的拾取会采用中心频率接近此频率对某频率的声音信号的拾取会采用中心频率接近此频率的带通滤波器，因此，只有通

5、过该带通滤波器的那部分的带通滤波器，因此，只有通过该带通滤波器的那部分噪声才会对该信号产生影响噪声才会对该信号产生影响临界带宽描述人耳的滤波特性如果在一频带内噪声的功率等于该纯音的功率，且这时，如果在一频带内噪声的功率等于该纯音的功率，且这时，纯音刚好能被听到（临界状态），此纯音附近的窄带噪纯音刚好能被听到（临界状态），此纯音附近的窄带噪声带宽的宽度便称为临界带宽声带宽的宽度便称为临界带宽通常认为通常认为20Hz20KHz内有内有24个临界频带个临界频带窄带噪声的掩蔽效应要明显于纯音窄带噪声的掩蔽效应要明显于纯音声压级较低时，掩蔽仅局限于中心频率附近较窄的频率范围声压级较低时，掩蔽仅局限于中心

6、频率附近较窄的频率范围随着声压级的提高，掩蔽区的频率范围加宽随着声压级的提高，掩蔽区的频率范围加宽随着声压级的提高，对高于中心频率的声音掩蔽作用加强随着声压级的提高，对高于中心频率的声音掩蔽作用加强时域掩蔽前向掩蔽：前向掩蔽：20ms，由于人耳的积累效应，被掩蔽声尚未，由于人耳的积累效应，被掩蔽声尚未被听到，掩蔽声已经出现，其掩蔽效果很差被听到，掩蔽声已经出现，其掩蔽效果很差后向掩蔽：后向掩蔽：100ms，由于人耳的存储效应，掩蔽声虽已，由于人耳的存储效应，掩蔽声虽已消失，掩蔽效应仍然存在。消失，掩蔽效应仍然存在。生理声学研究听觉器官的构造和听音机理心理声学研究听觉心理，研究主观量与客观量之

7、间的关系。心理声学模型中一个基本概念：听觉系统中存在一个听觉阈值电平，低于这个电平的音频信号就听不到，因此就可以把这部分信号忽略掉，无需对它进行编码，而不影响听觉效果心理声学模型要完成掩蔽阈值的估算，输出信号-掩蔽比率（SMR）利用人耳的听觉感知特性，使用心理声学模型，将人耳不能感知的声音成分去掉，只保留人耳能感知的声音成分。不为追求最小的量化噪声，只要量化噪声不被人耳感知即可。感知音频编码（感知音频编码（MPEG）原理）原理音频编解码器的性能指标：重建的音频质量、数码率、复杂度和时延。研究的基本问题是：更好的音频质量，并尽可能小的编解码时延和算法复杂度；降低数码率。重建音频质量的评价方法有

8、客观评价和主观评价。分类方法一：时域编码利用声音信号在时间域内幅度变化经PAM后形成的样本值，对不同样本值实现二进制码替代，从而形成数据码流频域编码将时域中的声音信号进行频率变换，结合声音的相关性及人的感知，选取量化比特数进行编码统计编码依据各个信号幅值出现的概率不同进行概率匹配编码音频压缩编码的方法音频压缩编码的方法分类方法二：波形编码对音频信号的时域或频域波形采样值进行编码。主要利用音频样值的幅度分布规律和相邻样值间的相关性进行压缩。参数编码根据声音形成机理的分析，以重建语音信号具有足够可懂度的原则上，通过建立语音信号的产生模型，提取代表语音信号特征的参数进行编码混合编码上述两

9、种编码的混合音频压缩编码的方法音频压缩编码的方法结合声音幅度的出现概率来选取量化比特数进行编码，在满足一定的量化噪声下压缩数码率，从而降低比特率。时域编码时域编码利用人耳听觉的声掩蔽特性，在满足一定量化噪声下来压缩码率采用滤波和变化，在频域内将其能量较小的分量忽略，从而实现降低比特率频域编码频域编码子带编码：通过带通滤波器分成许多频带子带，分析每个子带取样的能量，依据心理声学模型来编码变换编码：变换到频域，根据心理声学模型对变换系数进行量化和编码首先用一组带通滤波器把输入的音频信号分成若干个连续的子带，然后对每个子带中的音频信号单独编码，在接收端将各子带单独译码，然后组合、还原成音频信号。对每

10、个子带的采样值分配不同的比特数。低频分配较多量化比特，高频分配较少量化比特。利用声音信号的频谱特点及人耳的感知模型。声音信号从时域变为频域，用频率分量形式表示原信号，再对其频谱系数进行量化编码量化编码过程中，利用心理声学模型，对频谱系数进行优化，来实现对音频数据进行有效的压缩时频变化的方法：离散余弦变换DCT、改进的离散余弦变换MDCT离散余弦变换（DCT）时频变换（DFT）变换时将PCM样值分为N长的一块块进行变换块长：一块中包含的样本数N 窗长：N（1/Fs）频率分辨率：Fs/N 频率轴上的所能得到的最小频率间隔块越长，变化编码的频率分辨率越高，但损失了时域分辨率块越长，变化编码的频率

11、分辨率越高，但损失了时域分辨率逆变换逆变换离散余弦变换（DCT）将原信号沿负方向延拓定义域，并合理选择对称坐标轴，使其正、负轴对称，这样信号变为实轴对称的偶函数，DFT变换后仅有余弦项而不存在正弦项，运算量大为减小。原本的N个样本，经过对称后变为2N个 2N为抽取的样本值总数，为DCT变换的块长度。例：采样为48KHz的PCM样值进行DCT变换，窗长分别为21.33ms（相当于1024个样值），5.33ms（相当于256个样值），则频率分辨率和时间分辨率分别为？时间分辨率：长窗=2N（1/Fs）=42.68ms 短窗=2N（1/Fs）=10.66ms 频率分辨率：长窗=Fs/2N=23.43H

12、z 短窗=Fs/2N=93.75Hz 依据各个信号幅值出现的概率不同进行概率匹配编码熵编码是依据声音信号幅度的概率分布特点，通过合理的比特数分配使得信号概率与比特数之间相匹配，以达到降低平均码长的目的统计编码统计编码可变字长编码MPEG Moving Picture coding Experts Group 活动图像专家组1988年由国际标准化组织ISO和国际电工委员会IEC联合成立的专家组，负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。已经开发和正在开发的MPEG标准有：MPEG-1：数字存储媒体标准，1992年正式发布。MPEG-2：数字电视标准，1993年11月发布。MP

13、EG-4：多媒体应用标准(1999年发布)。MPEG-7：多媒体内容描述接口标准(1998年10月)MPEG21：开放的多媒体传输和消费的框架。（2002年6月）3.2 MPEG-1音频压缩编码标准MPEG-1 音频压缩算法的特点l世界上第一个高保真音频数据压缩标准l输入线性PCM信号，采样频率可以为32kHz，44.1KHz，48KHz，输出数码率32-384kbit/sl压缩后的比特流可以是：单声道模式/双-单声道模式/立体声模式/联合立体声模式l提供3个独立的压缩层次：第1层（Layer1），第2层，第3层MPEG-1 音频压缩算法的特点l可预先定义压缩后的数码率l编码后的数据流支持循环

14、冗余校验l支持数据流中载带附加信息MPEG-1 音频压缩编码的基本原理lMPEG-1音频压缩的基础是量化lMPEG-1使用感知音频编码来达到压缩音频数据又尽可能保证音质的目的。l感知音频编码的理论依据是听觉系统的掩蔽特性。基本思想是在编码过程中，保留有用的信息而丢掉被掩蔽的信号。lMPEG-1提供3个独立的压缩层次，它们的基本模型相同。层1是最基础的。任何MPEG-1音频码流帧结构的同步头中都有一个2bit的层代码字段用来指出所用的是哪一个层次lMPEG-1按规定构成“帧”格式，层1的每帧包含384个采样值码字。384个采样值来自32个子带，每个子带12个采样值。层2和层3每帧包含1152个采

15、样值的码字每个子带包含36个采样值。MPEG-1 层层1原理方框图原理方框图MPEG-1 层层11、子带分析滤波器组将宽频带信号分割成32个子带信号子带为等宽的均匀划分2、标定将每个子带中12个采样值归并成一个块找出12个采样值中绝对值最大的样本值根据其值的大小确定比例因子（查表得到，大于该绝对值的一系列值中的最小值定为比例因子）将12个采样值用比例因子归一化（标定）比例因子用6个bit来表示每12采样值并成的块进行一次比特分配，并记录一个比例因子 MPEG-1 层层13、快速傅里叶变换（FFT）信号从时域变换到频域的过程使信号具有高的频率分辨率，为心理声学模型分析提供信号的频谱

16、特征4、心理声学模型 MPEG-1 层1把音频信号分到频域子带，然后根据每个子带内的量化噪声的大小对每个子带进行量化。为了达到最大的压缩比，应求出每个子带的量化级数使得量化噪声恰好不被听到目标：计算子带的信号掩蔽比（SMR）数字音频信号用傅里叶FFT变时域为频域确定每个子带的声压级确定安静状态的阈值找出声音信号中的纯音和非纯音成分单独掩蔽域值的计算总体掩蔽阈值的计算每个子带最小掩蔽阈值的确定每个子带的信号-掩蔽比率的计算MPEG-1 层层15、动态比特分配为了满足数码率和掩蔽特性的要求，比特分配器应同时考虑来自分析滤波器的输出样值及来自心理声学模型的信号掩蔽比（SMR），来决定分配给各个子

17、带信号的量化比特数，使量化噪声低于掩蔽阈值。不同的子带信号可分配不同的量化比特数，但对于各个子带信号而言，是线性量化。6、帧结构量化后的采样值和格式标记以及其他附加辅助数据按照规定的帧格式组装成比特流数据MPEG-1 层1的帧结构同步头：用于同步和记录帧信息 32bitCRC：用于检验传输差错的循环冗余校验码 16bit比特分配：描述比特分配信息的字段，每个子带4bit比例因子：每个子带6bit采样值码字：同一个子带内的每个采样值用215bit表示可能的附加辅助数据：长度未作规定MPEG-1 层层2MPEG-1 层层2层层2和层和层1的不同的不同1、使用1024点的FFT，提高频谱分辨率2

18、、每帧包含1152个采样值的码字。每个子带包含36个采样值的码字，按照3个块进行编码，每块12个采样值。3、描述比特分配的字段长度随子带的不同而不同。低频段子带用4bit描述，中频段3个bit，高频段2个bit4、编码器可对一个子带内3块采样值使用3种不同的比例因子，传输时采用比例因子选择信息（SCFSI）描述MPEG-1 层层2、lSCPSI 比例因子选择信息为了降低传送比例因子的码率，信号平稳变化时，只传送其中1个或2个较大的比例因子；对于瞬态变化的信号，3个比例因子都传递。00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因

19、子MPEG-1 层层1与层与层2参数比较参数比较参数参数MPEG-1层层1MPEG-1层层2帧长3841152子带3232子带取样1264FFT5121024比特分配每子带4个24比例因子选择信息无每子带2个比例因子每子带6个每子带618个取样组无每子带3个MPEG-1 层层3 （MP3）MPEG-1 层层31、将PCM样本分割成不等带宽的子带，子带送至MDCT，对子带进行再采样，其样本经MDCT映射到频域，建立信号的频域样本。2、使用MDCT，指定两种MDCT的块长：长块18个采样值，短块6个采样值，相邻变换窗口之间有50%的重叠。所以窗长大小分别为36和12个采样值。对于给定的一帧音频信号

20、MDCT可全部采用长块或全部采用短块，也可以长、短块混合使用。因为低频段的分辨率对音质的影响大，所以在混合模式下，MDCT对最低频的2个子带用长块，而其余30个子带用短块。这样既能保证低频的频率分辨率，也不牺牲高频的时间分辨率。3、熵编码(哈弗曼编码)立体声重放 L、R两个声道利用人耳的双耳效应感受声音的纵深感和宽度多声道环绕声重放三声道重放4声道环绕声重放5声道环绕声重放多声道格式还可以附加低频增强（LFE）声道。LFE声道包含15-120Hz的信息，称为0.1声道，与5声道构成5.1声道。0.1声道的采样频率是主声道采样频率的1/96目前主要的环绕声编码方案有：MUSICAM环绕声 MP

21、EG-2音频编码的核心，是基于人耳听觉感知特性的子带编码算法杜比AC-3 美国HDTV伴音采用的算法Dolby AC-3 特点统一编码：将5个分立的全频带声道和1个低音声道的信号实行统一编码，成为单一的复合数据流采样频率支持32、44.1、48KHz两个环绕声道相互独立辅助低音声道的音量可独立调整使用基于MDCT的自适应变换编码兼容性：解码重放时，对单声道、双声道及多声道系统有兼容性分析滤波器组分析滤波器组将PCM采样数据变换成频域内的一系列变换系数。数据分组成块，每块包含512个采样值，其中256个采样值是新的，另外256个采样值与上一块相同。每个音频的采样值会出现在两个块中，采样值数加

22、倍。稳态信号，可选用块长为512个采样值；瞬态信号，可选用块长为256个采样值。谱包络编码谱包络编码从变换得到的频域变换系数被转换为浮点数。所有变换系数的值都定标为小于1.0。最后指数编码的结果根据频率分辨率的需要选择一种频谱包络。比特分配比特分配按照谱包络编码输出的信息确定尾数编码所需要的比特数，将可分配的比特按最佳的方式分配给各个尾数。尾数量化尾数量化按照比特分配程序确定的比特数对尾数进行量化。可查表得到。声道组合声道组合利用人耳对高频定位的特性。重组矩阵重组矩阵左右声道具有相关性，利用“和”“差”的方法产生中间和边声道来代替左右声道。2LRM2LRS动态范围控制动态范围控制每

23、个音频块传送一个动态控制字。在信号响度高于对话电平时降低增益，在信号响度低于对话电平时提高增益，信号接近对话电平时不需调节增益。Dolby AC-3 编码器AC-3帧格式 SI：同步头，包含获取和保持同步的信息 BSI：比特流信息头，包含描述编码的音频业务的参数 AB：音频块，6个编码音频块，每块由256个采样值的码字构成。AUX：辅助数据字段 CRC：循环冗余校验码 MPEG-2BC 后向兼容多声道音频编码（与MPEG-1兼容）MPEG-2 AAC MPEG-2高级音频编码（与MPEG-1不兼容）MPEG-2 BC 后向兼容多声道音频编码标准增加采样率16KHz、22.05KHz、24KH

24、z增加5.1声道和7.1声道环绕声输出码率为8-640kbit/s MPEG-2 AAC 是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样，MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。l与MPEG-1音频算法不兼容l采样频率支持从8KHz96KHzl可支持48个主声道，16个LFE声道，16个多语言声道，16个数据流l数据率比MP3低，但音质更高。MPEG-2 AAC增益控制把输入信号划分到4个等带宽的子带中。分析滤波器组输入信号从时域变换到频域。采用MDCT。听觉系统感知模型心理

25、声学模型瞬时噪声整形（TNS）控制量化噪声的瞬时形状，解决掩蔽阈值和量化噪声的错误匹配问题。声强/耦合和M/S编码利用和、差方法产生中间和边声道代替原来的左右声道。预测在信号较平稳的情况下，利用时域预测减小信号的冗余度。量化无损编码采用Huffman编码码流打包组帧 MPEG-2 ACC的类可分为三类：主类：除了“增益控制”模块以外，使用其他所有模块。在三种类中提供最好的声音质量，但对计算机的存储容量和处理能力的要求较高。低复杂度类：不使用预测模块和增益控制模块，瞬时噪声整形滤波器的级数也有限，声音质量比主类的声音质量低，但对计算机的存储容量和处理能力的要求明显降低。可分级的采样率类：使用增益控制模块，不使用时域预测和声强/耦合模块，瞬时噪声整形滤波器的级数和带宽也都有限制。三类中最简单。具有高度的灵活性和可扩展性。主要服务于低比特率下的多媒体通信。引入了音频对象（AO）码率范围：264kb/s，提供三种类型编码器：低比特率:参数化编码器中间比特率:码激励线性预测编码器高比特率:时/频编码器参数编码器使用参数编码技术。两种编码工具：谐波矢量激励编码、谐波和特征线加噪声编码。码激励线性预测编码器主要由激励源和合成滤波器组成。

展开阅读全文