第二章-音频信息的获取与处理课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第二章-音频信息的获取与处理课件.ppt

1、2多媒体技术基础及应用1第二章第二章音频信息的获取与处理音频信息的获取与处理2多媒体技术基础及应用2本章学习要点本章学习要点1.1.音频信号的特点；模拟音频与数字音频信号的特点；模拟音频与数字音频；音频采样与量化以及数字音音频；音频采样与量化以及数字音频文件格式。频文件格式。2.2.音频卡的功能、分类及其基本工作音频卡的功能、分类及其基本工作原理。原理。3.3.音频编码基本原理及标准。音频编码基本原理及标准。4.4.音乐合成及音乐合成及MIDIMIDI规范。规范。5.5.语音识别与合成原理及分类。语音识别与合成原理及分类。2多媒体技术基础及应用3学习要求学习要求1.熟练掌握：音频卡的工作原理

2、熟练掌握：音频卡的工作原理及应用开发。及应用开发。2.掌握：音频编码基础及标准；掌握：音频编码基础及标准；音乐合成及音乐合成及MIDI。3.了解：本章其他内容。了解：本章其他内容。2多媒体技术基础及应用42.1 数字音频基础数字音频基础2.1 数字音频基础多媒体技术基础及应用5 声音是一种由机械振动引起并声音是一种由机械振动引起并在弹性介质中传播的连续的波。在弹性介质中传播的连续的波。v声音的强弱体现在声波压力的大小声音的强弱体现在声波压力的大小上。上。v声音的高低体现在声波的频率上。声音的高低体现在声波的频率上。v可将声波转换为电信号。可将声波转换为电信号。v代表声波的电信号在时间和幅度上代

3、表声波的电信号在时间和幅度上都是连续的，即模拟信号。都是连续的，即模拟信号。声音的产生声音的产生2.1 数字音频基础多媒体技术基础及应用6声音信号声音信号av声音信号由许多不同频率的信声音信号由许多不同频率的信号组成，称为号组成，称为复合信号复合信号。v单一频率的信号称为单一频率的信号称为分量信号分量信号。v带宽带宽是声音信号的一个重要参是声音信号的一个重要参数，它描述复合信号的频率范数，它描述复合信号的频率范围。围。2.1 数字音频基础多媒体技术基础及应用7声音信号声音信号bv人耳的听觉范围是人耳的听觉范围是20Hz20KHz20Hz20KHz，称为称为音频音频(Audio)(Audio)信

4、号。信号。v人说话的频率范围是人说话的频率范围是3003000Hz3003000Hz，称为，称为话音话音(speech)(speech)信号。信号。2.1 数字音频基础多媒体技术基础及应用8声音的听觉特性声音三要素声音三要素v声音三要素即声音三要素即1.音调音调2.音强音强3.音色音色v音色是由混入基音中的泛音所音色是由混入基音中的泛音所决定的。决定的。2.1 数字音频基础多媒体技术基础及应用9 声音是一种弹性波，可分为周期性和非周期性信号。周期信号是单一频率的信号，是线性谱。非周期信号包含一定连续频带的所有频率分量，是连续谱。完全的连续谱(如平滑噪声)完全无调。自然界的声音大多是线性谱中混有

5、一段段较弱的连续谱，听来既有调又饱满、生动。声音的听觉特性声音中的连续谱声音中的连续谱2.1 数字音频基础多媒体技术基础及应用10声音的听觉特性声音的方向性声音的方向性人能分辨出声音到达左右两人能分辨出声音到达左右两耳的时差和强度差异，即能辨耳的时差和强度差异，即能辨别声源方向。别声源方向。由于声波在空间来回反射，由于声波在空间来回反射，能产生空间效果。能产生空间效果。2.1 数字音频基础多媒体技术基础及应用11声音的听觉特性声音是时基类媒体v声音是时间连续的，人耳能感觉到25毫秒的延迟。v没有时间就无法表现声音。v声音是连续型时基媒体。2.1 数字音频基础多媒体技术基础及应用12声音的质量

6、评判v声音的质量与其频率范围（即频带）有关。一般，频带越宽，音质越好。v对语音常用可懂度、清晰度和自然度衡量。v对音乐，保真度、空间感和音响效果是重要指标。v平均主观打分(MOS)是最简单的评判法。2.1 数字音频基础多媒体技术基础及应用13模拟声音的录制与播放v模拟声音信号的录制一般是先将声波信号通过机电转换获得电信号，之后再通过电磁转换等方式记录到适当的介质上。v模拟声音的播放即使把记录在介质上的信号通过电磁转换、机电转换等手段还原为声音信号。2.1 数字音频基础多媒体技术基础及应用14模拟信号的数字化v在某个特定时刻对模拟信号进行测量称为采样采样。v采样获得的信号称为离散时间信号离散时间

7、信号。v对幅值连续的采样信号限定取值范围，可以获得由有限个幅值组成的信号，称其为离散幅度信号离散幅度信号。v采样值在某个数值附近的一定范围内都用这个值表示，这种处理称为量化量化。2.1 数字音频基础多媒体技术基础及应用15细看采样和量化均匀采样均匀采样：每两次采样之间的间隔时间相等。否则为非均匀采样。采样的时间间隔称为采样周期采样周期。每秒钟采样的次数称为采样频率采样频率。线性量化线性量化：量化的幅度间隔均等。否则为非线性量化。2.1 数字音频基础多媒体技术基础及应用16数字化音频a 在计算机内声音信息同其他信息一样也用一系列二进制数字表示，称其为数字音频。数字音频是对模拟声音信号进行采样和量

8、化得到的。2.1 数字音频基础多媒体技术基础及应用17数字化音频b 采样和量化的主要硬件是模数转换器(ADC)。数字音频的回放需先进行数模转换(DAC)得到模拟电信号，然后再放大输出。2.1 数字音频基础多媒体技术基础及应用18采样定理a 采样频率的高低应根据奈奎斯特理论和声音信号本身的最高频率决定。奈氏理论指出：如果采样频率不低于信号最高频率的两倍，则由此获得的离散信号能够完全确定被采样的连续信号。2.1 数字音频基础多媒体技术基础及应用19采样定理b设被采样信号的最高频率为 f，则 2/2TTffss或2.1 数字音频基础多媒体技术基础及应用20量化精度和量化误差a 若量化后的值用B位二进

9、制码表示。B位二进制码可以表示2B个不同的量化电平。显然，位数越多表示的精度就越高。2.1 数字音频基础多媒体技术基础及应用21量化精度和量化误差b存储数字音频信号的比特率为：设量化阶距(两个量化值的幅度差)为则量化误差为：)/(sbfBIS2/2.1 数字音频基础多媒体技术基础及应用22数字音频文件存储量计算字节数=采样频率(Hz)*量化位数*声道数*录音时间(s)/82.1 数字音频基础多媒体技术基础及应用23数字音频的文件格式多媒体技术中常见音频文件：Wav文件：Microsoft的音频文件格式。对声音波形采样、量化后进行存储，故称波形文件。Voc文件：是creative公司的波形文件

10、格式。Mid(midi)文件：是遵循乐器数字接口(midi)规范，产生数字乐音的文件。2.2 音频卡的工作原理多媒体技术基础及应用242.2 音频卡的工作原理主要完成模数转换、音频信号压缩及解压缩、数模转换、音频接口以及与微机接口五大功能2.2 音频卡的工作原理多媒体技术基础及应用25音频卡的功能-录制与播放a音频录放数字化采样频率范围：844.1kHz 量化位数：8位/16位通道数：单声道/立体声自动动态滤波2.2 音频卡的工作原理多媒体技术基础及应用26音频卡的功能-录制与播放b编码与压缩基本编码方法：PCM 压缩编码方法：ADPCM 实时硬件/软件压缩录音声源：mic，line-

11、in，CD2.2 音频卡的工作原理多媒体技术基础及应用27音频卡的功能-编辑与合成应用工具软件对数字音频进行编辑以及实现特殊效果处理，如：倒播、增加回音、静噪、淡入和淡出、往返播放、声道交换。2.2 音频卡的工作原理多媒体技术基础及应用28音频卡的功能-MIDI音乐合成利用软件通过音频卡的MIDI接口对电子乐器进行操作控制，产生声音。音乐合成的性能依赖于音频卡上合成芯片的性能。合成方式：调频方式（FM)波形表方式2.2 音频卡的工作原理多媒体技术基础及应用29音频卡的功能-文语转换和语音识别文语转换文语转换（text to speech）是利用声卡提供的软件将机内文本转换为声音输出。语音识

12、别语音识别使用者通过软件利用声音控制计算机或执行一些命令。2.2 音频卡的工作原理多媒体技术基础及应用30音频卡的工作原理混合信号处理器内置数字/模拟混合器。完成对声音信号的混合处理；输入声源：MIDI信号、CD音频、线路输入、麦克风输入等;可以选择一个或多个声源进行混合。2.2 音频卡的工作原理多媒体技术基础及应用31音频卡的工作原理功率放大器用于对混合信号进行放大使用于对混合信号进行放大使之达到足够的功率去推动扬之达到足够的功率去推动扬声器发声。声器发声。2.2 音频卡的工作原理多媒体技术基础及应用32音频卡的工作原理总线和控制器 a 总线接口类型：早期是总线接口类型：早期是ISA，

13、现，现在几乎都是在几乎都是PCI。组成：数据总线双向驱动器、总组成：数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑线接口控制逻辑、总线中断逻辑和和DMA控制逻辑。控制逻辑。2.2 音频卡的工作原理多媒体技术基础及应用33音频卡的工作原理总线和控制器 b 可以通过软件或硬跳线设定基本可以通过软件或硬跳线设定基本I/O地址、中断向量地址、中断向量(IRQ)和直和直接存储器存取接存储器存取(DMA)通道号这通道号这三个参数，以避免与其他设备发三个参数，以避免与其他设备发生冲突。生冲突。2.2 音频卡的工作原理多媒体技术基础及应用34音频卡的工作原理音频卡的安装a 自动安装自动安装:现在的音频卡产

14、品一般都现在的音频卡产品一般都是即插即用的。安装连接好之后，是即插即用的。安装连接好之后，开启电源，开启电源，WIN9X会提示找到新会提示找到新硬件，照屏幕提示一步步操作，硬件，照屏幕提示一步步操作，即可完成软件安装，之后重启系即可完成软件安装，之后重启系统就能使用了。统就能使用了。2.2 音频卡的工作原理多媒体技术基础及应用35音频卡的工作原理音频卡的安装b 手动安装：开始手动安装：开始-设置设置-控制面板控制面板-添加新硬件添加新硬件驱动程序的安装需要驱动程序的安装需要WINDOWS系统盘。系统盘。2.2 音频卡的工作原理多媒体技术基础及应用36声音工具请参阅请参阅辅导与实验辅导与实验之

15、之“实验一实验一音频信号的获取与处理音频信号的获取与处理”2.3 音频编码基础和标准多媒体技术基础及应用372.3 音频编码基础和标音频编码基础和标准准本节内容：本节内容：学习音频编码的基本知识学习音频编码的基本知识学习音频编码的相关标准学习音频编码的相关标准2.3 音频编码基础和标准多媒体技术基础及应用38音频编码的目的音频编码的目的音频编码的主要目的就是压缩数据，音频编码的主要目的就是压缩数据，以节约存储空间和提高通信传输量。以节约存储空间和提高通信传输量。数据压缩通常会降低音频质量。数据压缩通常会降低音频质量。数据压缩还会增大计算量。数据压缩还会增大计算量。因此，音频压缩时要综合考虑数

16、据因此，音频压缩时要综合考虑数据量、声音质量和计算的复杂度。量、声音质量和计算的复杂度。2.3 音频编码基础和标准多媒体技术基础及应用39压缩编码的可能性压缩编码的可能性只有当信源本身具有冗余度时才能只有当信源本身具有冗余度时才能对其进行压缩。对其进行压缩。统计分析表明，语音信号中存在多统计分析表明，语音信号中存在多种冗余度：时域信息冗余和频域信种冗余度：时域信息冗余和频域信息冗余息冗余根据人的听觉机理，语音也是可以根据人的听觉机理，语音也是可以压缩的。压缩的。2.3 音频编码基础和标准多媒体技术基础及应用40时域信息冗余时域信息冗余1.幅度的非均匀分布幅度的非均匀分布1.幅度的非均匀分布幅度

17、的非均匀分布统计表明，语音中的小幅度样本出现概率要高一些。又，通话中存在间歇，必然出现大量的低电平；此外，实际的讲话信号器功率电平也趋向于出现在编码范围的较低电平端。2.3 音频编码基础和标准多媒体技术基础及应用41时域信息冗余时域信息冗余2.样本间的相关样本间的相关2.样本间的相关样本间的相关对于音信号的分析表明，取样数据的最大相关存在于临近样本之间。当采样率为8KHz是相邻样本间相关系数大于0.85。如果采样率提高，样本见的相关性将会更高。2.3 音频编码基础和标准多媒体技术基础及应用42时域信息冗余时域信息冗余3.周期之间的相关周期之间的相关3.周期之间的相关周期之间的相关话音带宽为30

18、03400Hz，但在某特定瞬间，一个声音信号却往往只是该频带内的少数几个频率成分在起作用。当声音中只有少数几个频率时，就会象某些振荡波形一样，在周期和周期之间存在一定的相关性。2.3 音频编码基础和标准多媒体技术基础及应用43时域信息冗余时域信息冗余4.基音之间的相关基音之间的相关4.基音之间的相关基音之间的相关人的说话声音可分为清音和浊音两类。浊音波形不仅表现出周期相关性，而且还具有对应于音调间隔的长期重复波形。因此，对音浊音部分的编码最有效的方法之一就是只对一个音调间隔的波形进行编码，并把它作为同样本中其它基音段的模板。2.3 音频编码基础和标准多媒体技术基础及应用44时域信息冗余时域信息

19、冗余5.静止系数静止系数5.静止系数静止系数静止系数：两人在通话时，平均每人的讲话时间占总通话时间的一半，且存在字词句之间的停顿。分析表明：话音间歇使得全双工话路的典型效率约为通话时间的40%。显然话音间歇（波形静止段）本身就是一种冗余。2.3 音频编码基础和标准多媒体技术基础及应用45时域信息冗余时域信息冗余6.长时自相关6.长时自相关上述相关性都是在短时（20ms)间隔内作出的统计分析。如果在较长时间内进行统计就可以得到长时自相关函数。长时间统计表明，如采样频率为8kHz，则话音相邻样本间的相关系数高达0.9。2.3 音频编码基础和标准多媒体技术基础及应用46频域信息冗余频域信息冗余非均匀

20、的长时功率谱密度非均匀的长时功率谱密度呈现强烈的非平坦性；高频能量较低；呈现强烈的非平坦性；高频能量较低；直流分量并非最大。直流分量并非最大。语音特有的短时功率谱密度语音特有的短时功率谱密度存在共振峰频率，其第一、第二个共存在共振峰频率，其第一、第二个共振频率决定了语音特征；整个谱密度随频率振频率决定了语音特征；整个谱密度随频率的增加而递减；整个功率谱的细节以基音的的增加而递减；整个功率谱的细节以基音的频率为基础，形成高次谐波结构。频率为基础，形成高次谐波结构。2.3 音频编码基础和标准多媒体技术基础及应用47人的听觉感知机理人的听觉感知机理人的听觉具有掩蔽效应人的听觉具有掩蔽效应强音能掩

21、蔽弱音，分同时掩蔽和异时掩强音能掩蔽弱音，分同时掩蔽和异时掩蔽。蔽。人耳对不同频段声音的敏感度不同人耳对不同频段声音的敏感度不同对低频声的敏感度高于对高频声的敏感对低频声的敏感度高于对高频声的敏感度。度。人耳对语音信号的相位变化不敏感人耳对语音信号的相位变化不敏感2.3 音频编码基础和标准多媒体技术基础及应用48音频编码的分类音频编码的分类波形编码波形编码音源编码音源编码基于人的听觉特性进行编码基于人的听觉特性进行编码利用人耳掩蔽效应，利用人耳掩蔽效应，设计心理声学模型实设计心理声学模型实现高效音频压缩。现高效音频压缩。(图图3.5)基于音频数据的统计特性，目标是使生成的波形尽可能与原始波形保

22、持一致；音质高，数据率也很高；编译码器的复杂程度较低。它企图从声音波形中它企图从声音波形中提出生成声音的声学提出生成声音的声学参数，利用生成模型参数，利用生成模型重构出声音；重构出声音；数据率低数据率低(2.4kb/s左右左右)，自然度差，保，自然度差，保密性好。密性好。2.3 音频编码基础和标准多媒体技术基础及应用49脉冲编码调制脉冲编码调制(PCM)脉冲编码调制概念上最简单、理论脉冲编码调制概念上最简单、理论上最完善，最早研制成功、使用最上最完善，最早研制成功、使用最广，但数据量也最大。广，但数据量也最大。PCM的原理框图如图所示。的原理框图如图所示。PCM的概念的概念2.3 音频编码基础

23、和标准多媒体技术基础及应用50脉冲编码调制脉冲编码调制(PCM)均匀量化和非均匀量化均匀量化和非均匀量化均匀量化、非均匀量化和量化误差均匀量化、非均匀量化和量化误差非线性量化的基本思想非线性量化的基本思想在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，这是基于对语音信号的统计分析后由CCITT建议的：m m 律压扩算法和律压扩算法和A律压扩算法律压扩算法2.3 音频编码基础和标准多媒体技术基础及应用51音频编码标准音频编码标准 G.711公布于公布于1972年的话音编码标准。年的话音编码标准。采样率采样率8kHz；将采样样本精度为将采样样本精度为13、14或或16位的位的

24、输入信号，使用输入信号，使用m m 律压扩编码或者使律压扩编码或者使用用A律压扩编码；律压扩编码；经过经过PCM编码器之后每个样本的精度编码器之后每个样本的精度为为8位，输出的数据率为位，输出的数据率为64 kb/s。2.3 音频编码基础和标准多媒体技术基础及应用52自适应脉码调制概念自适应脉码调制概念APCM是根据输入信号幅度大小来是根据输入信号幅度大小来改变量化阶大小的一种波形编码技改变量化阶大小的一种波形编码技术。自适应可以是：术。自适应可以是：瞬时自适应瞬时自适应音节自适应音节自适应2.3 音频编码基础和标准多媒体技术基础及应用53APCM的量化阶的量化阶改变量化阶大小的方法有两种：改

25、变量化阶大小的方法有两种：前向自适应前向自适应根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后向自适应后向自适应2.3 音频编码基础和标准多媒体技术基础及应用54APCM的量化阶的量化阶改变量化阶大小的方法有两种：改变量化阶大小的方法有两种：前向自适应前向自适应根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后向自适应后向自适应2.3 音频编码基础和标准多媒体技术基础及应用55差分脉码调

26、制差分脉码调制(DPCM)DPCM的思想的思想:根据过去的样本根据过去的样本去估算下一个样本信号的幅度大去估算下一个样本信号的幅度大小小(称为预测值称为预测值)，然后对实际信，然后对实际信号值与预测值之差进行量化编码，号值与预测值之差进行量化编码，从而就减少了表示每个样本信号从而就减少了表示每个样本信号的位数。的位数。DPCM原理示意图原理示意图2.3 音频编码基础和标准多媒体技术基础及应用56自适应差分脉码调制自适应差分脉码调制ADPCM的核心思想：的核心思想：自适应量化：利用自适应的思想自适应量化：利用自适应的思想改变量化阶的大小；改变量化阶的大小；自适应预测：使用过去的样本值自适应预测：

27、使用过去的样本值估算下一个输入样本的预测值，估算下一个输入样本的预测值，使实际样本值和预测值之间的差使实际样本值和预测值之间的差值总是最小。值总是最小。ADPCM框图。框图。2.3 音频编码基础和标准多媒体技术基础及应用57G.721 ADPCM编译码器编译码器CCITT制定的制定的G.721推荐标准叫做推荐标准叫做32 kb/s自适应差分脉冲编码调制自适应差分脉冲编码调制。在此基础上还制定了在此基础上还制定了G.721的扩充的扩充推荐标准推荐标准G.723，使用该标准的编，使用该标准的编码器其数据率可降低到码器其数据率可降低到40 kb/s和和24 kb/s。2.3 音频编码基础和标准多媒体

28、技术基础及应用58G.721 ADPCM编译码器编译码器CCITT推荐的推荐的G.721 ADPCM标准标准是一个代码转换系统。是一个代码转换系统。它使用它使用ADPCM转换技术，实现转换技术，实现64 kb/s A律或律或律律PCM速率和速率和32 kb/s速率之速率之间的相互转换。间的相互转换。ADPCM编码器框图编码器框图 ADPCM解码器框图解码器框图2.3 音频编码基础和标准多媒体技术基础及应用59G.721 ADPCM编译码器G.721 ADPCM编译码器的输入是编译码器的输入是G.711PCM代码（代码（8位）位）,其采样率其采样率8kHz,数据率是数据率是64kb/s。G.72

29、1的输出是：的输出是：4位差分信号，采位差分信号，采样率仍然是样率仍然是8kHz，数据率，数据率32kb/s。数据率从数据率从64kb/s变换为变换为32kb/s，压缩率压缩率2:1。2.3 音频编码基础和标准多媒体技术基础及应用60G.722 SB-ADPCM编译码编译码器器G.722推荐标准(“数据率为数据率为64 kb/s的的7 kHz声音信号编码声音信号编码”)，把话质提高到了AM广播质量，而其数据率数据率仍保持为仍保持为64 kb/s（16kHz采样）。G.722采用高低两个子带采用高低两个子带（子带的划分以4KHz为界），然后再对每个子带采用类似G.721建议的ADPCM。2.3

30、音频编码基础和标准多媒体技术基础及应用61子带编码(SBC)子带编码的基本思想：使用一组带通滤波器(band-pass filter，BPF)把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时，将每个子带的代码复合起来。在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。子带编码的方块图如图3-17所示，图中的编码/译码器，可以采用ADPCM，APCM，PCM等。2.3 音频编码基础和标准多媒体技术基础及应用62G.728 低延时低延时-码激励码激励线性预测编码线性预测编码是以美国AT&T公

31、司贝尔实验室提出的LD_CELP（低延时码激励线性预测低延时码激励线性预测）算法为基础，它充分考虑了听觉特性它充分考虑了听觉特性。其基本思想如下：2.3 音频编码基础和标准多媒体技术基础及应用63DL_CELP编码思想编码思想(a)1.语音输入每帧5个取样值，并附上10bit的描述激励信号波形与增益的信息;2.编码时用事先准备好的激励矢量的所有组合去合成语音；2.3 音频编码基础和标准多媒体技术基础及应用64DL_CELP编码思想编码思想(b)3.将合成结果与输入信号相比较，选出听觉加权后距离最小的码元作为信息传输；4.解码端将发送端制定的激励矢量、3 bit增益码以及自身已经合成过的语音波形

32、一起合成为语音。2.3 音频编码基础和标准多媒体技术基础及应用65MPEG-1中的音频中的音频概况概况:Mpeg标准是由标准是由ISO/IEC的的运动图像专家组（运动图像专家组（WG11）制定）制定的。该系列已推出的。该系列已推出Mpeg-1、Mpeg-2、Mpeg-4、Mpeg-7，目前正在研究讨论目前正在研究讨论Mpeg-21。2.3 音频编码基础和标准多媒体技术基础及应用66MPEG-1的音频标准的音频标准ISO/IEC11172-3(Mpeg音频标准）音频标准）编码器的编码器的输入和输入和解码器的解码器的输出与输出与PCM标标准兼容准兼容MPEG-1的数据率：的数据率：由参数控制由参

33、数控制2.3 音频编码基础和标准多媒体技术基础及应用67MPEG中的音频编码中的音频编码Mpeg中的音频采用子带编码中的音频采用子带编码(SBC).子带编码的根据：听觉系统的隐蔽特性；子带编码的根据：听觉系统的隐蔽特性；重构的声音与编码前的信号不同，但对重构的声音与编码前的信号不同，但对听觉来讲是听觉来讲是“无损压缩无损压缩”有四种编码模式。有四种编码模式。2.3 音频编码基础和标准多媒体技术基础及应用68MPEG中的音频中的音频编码器编码器2.3 音频编码基础和标准多媒体技术基础及应用69MPEG中的音频编码层次中的音频编码层次 MPEG声音标准提供三个独立的压声音标准提供三个独立的压缩层次

34、：层缩层次：层1、层、层2和层和层3后继层次的压缩比更高，编码解后继层次的压缩比更高，编码解码器也更复杂码器也更复杂每层都自含每层都自含SBC编码器，高层的编码器，高层的SBC可以使用低层可以使用低层SBC的声音数据的声音数据2.3 音频编码基础和标准多媒体技术基础及应用70MPEG中的音频编码层次中的音频编码层次1 层层1包括将数字音频变成包括将数字音频变成32个子带个子带的基本映射。将数据格式化成块的基本映射。将数据格式化成块的固定分段。决定自适应位分配的固定分段。决定自适应位分配的心理声学模型。利用块压扩合的心理声学模型。利用块压扩合格石化的量化器。格石化的量化器。编码编码/解码理论延时

35、最小为解码理论延时最小为19ms，数据传输率数据传输率384kb/s。2.3 音频编码基础和标准多媒体技术基础及应用71MPEG中的音频编码层次中的音频编码层次2 层层2提供了位分配，缩放因子和抽提供了位分配，缩放因子和抽样的附加编码。使用了不同的帧样的附加编码。使用了不同的帧格式。格式。理论上最小编解码延时理论上最小编解码延时35ms，数，数据传输率据传输率256kb/s192kb/s。用于数字广播、用于数字广播、CD-I、VCD等。等。2.3 音频编码基础和标准多媒体技术基础及应用72MPEG中的音频编码层次中的音频编码层次3 层层3采用混合带通滤波器以提高频采用混合带通滤波器以提高频率分

36、辨率。增加了差值量化、自率分辨率。增加了差值量化、自适应分段和量化值的熵编码。适应分段和量化值的熵编码。理论上最小编解码延时理论上最小编解码延时59ms，数，数据传输率据传输率64kb/s。用于。用于ISDN上上的声音传播。的声音传播。2.3 音频编码基础和标准多媒体技术基础及应用73MPEG的声音压缩率的声音压缩率 128112(kbps)10:112:13256192(kbps)6:18:12384(kbps)4:11立体声信号所对应的位立体声信号所对应的位率率压缩率压缩率层次层次2.3 音频编码基础和标准多媒体技术基础及应用74MPEG中的音频解码中的音频解码解码器按编码器定义的语法接

37、受解码器按编码器定义的语法接受压缩的音频数据流，按解码部分压缩的音频数据流，按解码部分的方法解出数据元素，按滤波器的方法解出数据元素，按滤波器的规定用这些数据产生数字音频的规定用这些数据产生数字音频输出。输出。2.3 音频编码基础和标准多媒体技术基础及应用75MPEG音频解码结构框图音频解码结构框图 2.3 音频编码基础和标准多媒体技术基础及应用76DOLBY AC-3编码和解编码和解码码由美国由美国DOLBY实验室开发实验室开发提供提供5.1声道从声道从20Hz20KHz的的平滑带宽（图）平滑带宽（图）将六个声道压缩成一个通道将六个声道压缩成一个通道数据率数据率320Kbps2.3 音频编

38、码基础和标准多媒体技术基础及应用77AC-3的应用范围的应用范围制作影碟、制作影碟、CD、VHS录像带录像带数字广播、有线电视数字广播、有线电视直播卫星直播卫星美国的美国的HDTV音频标准音频标准2.3 音频编码基础和标准多媒体技术基础及应用78AC-3的技术特色的技术特色充分利用心理声学特性实现噪声掩充分利用心理声学特性实现噪声掩蔽蔽可用某一声道的声压掩蔽其他声道可用某一声道的声压掩蔽其他声道的噪声的噪声2.3 音频编码基础和标准多媒体技术基础及应用79AC-3同步帧的构成同步帧的构成(1)同步信息同步信息(SI)同步字：标志帧的开始同步字：标志帧的开始检验码检验码(CRC1):循环冗余

39、校验循环冗余校验采样频率：说明采样频率：说明PCM码流的采码流的采样率（样率（48，44.1、32KHz)帧长度代码：帧长度代码：2.3 音频编码基础和标准多媒体技术基础及应用80AC-3同步帧的构成同步帧的构成(2)比特流标识比特流标识(BSI)包括版本、编码模式等信息包括版本、编码模式等信息音频数据块音频数据块包含音频数据以及相关的解码包含音频数据以及相关的解码控制信息控制信息2.3 音频编码基础和标准多媒体技术基础及应用81AC-3同步帧的构成同步帧的构成(3)附加信息附加信息用于保留用户自己定义的信息用于保留用户自己定义的信息错误校验码错误校验码包含错误校验字包含错误校验字2.3 音频

40、编码基础和标准多媒体技术基础及应用82AC-3的解码的解码分析码流的正确性（分析码流的正确性（CRC）根据头部信息解出声道指数根据头部信息解出声道指数分析指数并解出尾数分析指数并解出尾数指数、尾数合成频域参数指数、尾数合成频域参数反变换、输出时域反变换、输出时域PCM码流码流2多媒体技术基础及应用83再见！2.1 数字音频基础多媒体技术基础及应用84几种声源的频率带宽几种声源的频率带宽10Hz 20KHz数字光盘20Hz 20KHz宽频带音响20Hz 15KHz调频广播（FM）50Hz 7kHz调频广播（AM）200Hz3.4KHz电话频率带宽声源2多媒体技术基础及应用85图示：音调、音色

41、和音强图示：音调、音色和音强2多媒体技术基础及应用86采样信号的形成采样信号的形成2多媒体技术基础及应用87图示：均匀采样和非均匀采样图示：均匀采样和非均匀采样2多媒体技术基础及应用88声音采样和量化2.2 音频卡的工作原理多媒体技术基础及应用89MIDI音乐合成音乐合成-调频方式调频方式数字式频率调制合成法(digital frequency modulation synthesis)，简称为FM合成器。是把几种乐音的波形用数字来表达，并且用数字计算机把它们组合起来，通过数模转换器(digital to analog convertor，DAC)来生成乐音。2多媒体技术基础及应用90MID

42、I音乐合成音乐合成-调频方式调频方式2多媒体技术基础及应用91MIDI音乐合成音乐合成-调频方式调频方式n改变参数，可以生成不同的乐音改变参数，可以生成不同的乐音如：n改变数字载波频率、幅度 n改变波形的类型n快速改变调制波形的频率n改变反馈量 n选择的算法不同2多媒体技术基础及应用92MIDI音乐合成音乐合成-波形表方式波形表方式这种方法是把真实乐器发出的声这种方法是把真实乐器发出的声音以数字的形式记录下来，播放时改音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生变播放速度，从而改变音调周期，生成各种音阶的音符。成各种音阶的音符。2多媒体技术基础及应用93MIDI音乐合成音

43、乐合成-波形表方式波形表方式2多媒体技术基础及应用94数字化音频：信号变化过程图示数字化音频：信号变化过程图示模拟信号模拟信号采样信号采样信号数字信号数字信号2多媒体技术基础及应用95数字化音频：离散时间信号图示数字化音频：离散时间信号图示2多媒体技术基础及应用96数字化音频：离散幅度信号图示数字化音频：离散幅度信号图示2多媒体技术基础及应用97PCM示意图2.3 音频编码基础和标准多媒体技术基础及应用98均匀量化和非均匀量化均匀量化和非均匀量化如果采用如果采用相等的量化间隔相等的量化间隔对采样所对采样所得信号作量化，则这种量化称为得信号作量化，则这种量化称为均均匀量化匀量化或或线性量化线性量

44、化。若若量化间隔不相等量化间隔不相等则为则为非均匀量化非均匀量化。量化后的样本值量化后的样本值Y和原始值和原始值X的差的差E=Y-X称为称为量化误差量化误差或或量化噪声量化噪声。2.3 音频编码基础和标准多媒体技术基础及应用99非线性量化的基本思想非线性量化的基本思想量化时，大的输入信号采用大的量化间隔，小信号采用小的量化间隔。声音数据还原时，采用相同的规则。目的是在满足精度要求目的是在满足精度要求的情况下使用较少的位的情况下使用较少的位数。数。2.3 音频编码基础和标准多媒体技术基础及应用100APCM示意图示意图插入林图插入林图3-13APCM方块图方块图2.3 音频编码基础和标准多媒体技术基础及应用101DPCM示意图示意图插入林图插入林图3-14DPCM方块图方块图2.3 音频编码基础和标准多媒体技术基础及应用102ADPCM示意图示意图插入林图插入林图3-15ADPCM方块图方块图2.3 音频编码基础和标准多媒体技术基础及应用103ADPCM解码器示意图解码器示意图插入林图插入林图3-16b.ADPCM解码器解码器2.3 音频编码基础和标准多媒体技术基础及应用1045.1声道示意图声道示意图

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？