1、音频编辑与处理学习参考书 数字音频原理及应用数字音频原理及应用 机械工业出版社机械工业出版社 卢官明主著卢官明主著 MIDIMIDI技巧与数字音频技巧与数字音频 清华大学出版社清华大学出版社 颜东成主编颜东成主编 多媒体技术基础多媒体技术基础 清华大学出版社清华大学出版社 林福林福宗编著宗编著 音频视频编缉与制作音频视频编缉与制作中国水利水电出版中国水利水电出版社社 韩雪涛主编韩雪涛主编第一章 音频理论基础知识第一节第一节 声音听觉理论声音听觉理论一、声波传播特点一、声波传播特点l 声音是以声波的形式进行传递和存在的。声音是以声波的形式进行传递和存在的。l 声波是一种机械波,具有纵波一般的波动
2、特性,声波是一种机械波,具有纵波一般的波动特性,例如,反射、折射、绕射、干涉等。例如,反射、折射、绕射、干涉等。l 声波在传播中遇到障碍物时,它的能量一部分声波在传播中遇到障碍物时,它的能量一部分会被障碍物吸收,另一部分会被反射回来。若在会被障碍物吸收,另一部分会被反射回来。若在一个封闭的室内,产生的反射声波会被周围的墙一个封闭的室内,产生的反射声波会被周围的墙壁、天花板和其它障碍物所吸收和反射,形成一壁、天花板和其它障碍物所吸收和反射,形成一系列逐渐衰减的反射声波系列逐渐衰减的反射声波。第一节第一节 声音听觉理论声音听觉理论一、声波传播特点一、声波传播特点l 从声音的发出到衰减从声音的发出到
3、衰减60分贝(至原来的百万分之分贝(至原来的百万分之一)所需要的时间称为一)所需要的时间称为混响时间混响时间。一般,常用混响。一般,常用混响时间的长短来表明封闭室的混响衰减速度。房间混时间的长短来表明封闭室的混响衰减速度。房间混响时间的长短对听音效果有很大影响。响时间的长短对听音效果有很大影响。第一节第一节 声音听觉理论声音听觉理论二、声音的三要素二、声音的三要素 自然界里,几乎所有声源发出的声音都不是只自然界里,几乎所有声源发出的声音都不是只有一种频率和强度的有一种频率和强度的“纯音纯音”,而是包含了许多频,而是包含了许多频率不同、强度不等的声音分量,组合成的复合音响,率不同、强度不等的声音
4、分量,组合成的复合音响,而且在发声过程中,其频率和强度不断地变化着。而且在发声过程中,其频率和强度不断地变化着。在音响中,频率最低的分量称为在音响中,频率最低的分量称为基音或基频基音或基频,其它,其它频率中,凡比基频高的分量统称频率中,凡比基频高的分量统称泛音泛音。在很多情况。在很多情况下,泛音的频率呈基音频率的整数倍形式,所以泛下,泛音的频率呈基音频率的整数倍形式,所以泛音也称为高次谐波分量或谐音。音也称为高次谐波分量或谐音。第一节第一节 声音听觉理论声音听觉理论二、声音的三要素二、声音的三要素1、音调、音调 音调是人耳对声音调子高低的主观感受。人耳音调是人耳对声音调子高低的主观感受。人耳的
5、音调感觉与声音的频率相对应。频率高,音调高,的音调感觉与声音的频率相对应。频率高,音调高,声音听起来声音听起来“尖尖”;频率低,音调低,声音听起来;频率低,音调低,声音听起来“低沉低沉”。在复合音中,音调决定于基频频率。但。在复合音中,音调决定于基频频率。但是,音调的高低感觉与声音频率之间不存在线性的是,音调的高低感觉与声音频率之间不存在线性的对应关系,而是呈一种对数曲线的对应关系。对应关系,而是呈一种对数曲线的对应关系。音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的:音阶CDEFGAB简谱符号1234567频率(Hz)261293330349392440494频率(对数)48
6、.349.350.350.851.852.853.8示例示例1:不同音调不同音调 示例示例2:正常正常改变改变 第一节第一节 声音听觉理论声音听觉理论二、声音的三要素二、声音的三要素2、音色、音色 音色是人耳听觉的一种感受特性,代表人耳音色是人耳听觉的一种感受特性,代表人耳区别相同响度和音调的两类不同声音的主观感觉。区别相同响度和音调的两类不同声音的主观感觉。人耳对音色的感觉决定于声音中泛音各分量的数人耳对音色的感觉决定于声音中泛音各分量的数量、相对强度关系和分布。量、相对强度关系和分布。当许多不同乐器同奏一曲时,尽管它们所发当许多不同乐器同奏一曲时,尽管它们所发出声音的基频频率相同,人们还是
7、能分辨出各种出声音的基频频率相同,人们还是能分辨出各种乐器的不同声音特色,这正是由于其它频率分量乐器的不同声音特色,这正是由于其它频率分量的多少和大小比例不同的缘故。音色与声音信号的多少和大小比例不同的缘故。音色与声音信号的频谱相对应。每一种声音都有一基本频率,称的频谱相对应。每一种声音都有一基本频率,称为基频或基音,同时还有与基频成倍数关系的许为基频或基音,同时还有与基频成倍数关系的许多不同倍频的频率,称为谐波或泛音。基本频率多不同倍频的频率,称为谐波或泛音。基本频率决定了声音的音调,而谐波成分则决定着声音的决定了声音的音调,而谐波成分则决定着声音的音色。音色。音色是由混入基音的泛音所决定的
8、,高次谐音色是由混入基音的泛音所决定的,高次谐波越丰富波越丰富,音色就越有明亮感和穿透力。不同的谐音色就越有明亮感和穿透力。不同的谐波具有不同的幅值波具有不同的幅值An和相位偏移和相位偏移n,由此产生,由此产生各种音色效果。各种音色效果。示例示例1:不同乐器不同乐器 示例示例2:正常正常改变改变 第一节第一节 声音听觉理论声音听觉理论二、声音的三要素二、声音的三要素3、响度、响度 人耳对声音强弱的主观感觉称为响度,主要人耳对声音强弱的主观感觉称为响度,主要取决于声波振幅的大小,但并非是线性关系。人取决于声波振幅的大小,但并非是线性关系。人耳可以听到的声强范围最小和最大之间的差别可耳可以听到的声
9、强范围最小和最大之间的差别可达达1013倍。声音的响度一般用声压与基准声压比倍。声音的响度一般用声压与基准声压比值的对数值(称为声压级),单位是分贝值的对数值(称为声压级),单位是分贝(dB)。(声压级(声压级=20lgP/P。,一般以。,一般以1kHz纯音为准进行纯音为准进行测量,人耳刚能听到的声压为测量,人耳刚能听到的声压为0dB)通常认为,对于通常认为,对于1kHz纯音,纯音,0dB20dB为宁为宁静声,静声,30dB-40dB为微弱声,为微弱声,50dB70dB为正为正常声,常声,80dB100dB为响音声,为响音声,110dB130dB为极响声。为极响声。分贝是用来表示声音或电信号的
10、功率增减程分贝是用来表示声音或电信号的功率增减程度的一种计算单位。它是测量和比较一个系统的度的一种计算单位。它是测量和比较一个系统的功率功率,电压和电流大小的相对单位。后来认识到人电压和电流大小的相对单位。后来认识到人类对声音的响应是按对数规律变化的类对声音的响应是按对数规律变化的,于是有了一于是有了一个单位就是贝尔个单位就是贝尔(Bel),是电话的发明人的名字。,是电话的发明人的名字。实际中发现实际中发现Bel太大了太大了,于是取其十分之一作为一于是取其十分之一作为一个新单位个新单位,就是分贝就是分贝(dB)。L=lgI/IL=lgI/I0 0 (贝尔)(贝尔)I I和和I I0 0分别表示
11、待测声强和标准声强,分别表示待测声强和标准声强,L L表示人耳感表示人耳感觉到的声音大小,觉到的声音大小,I I0 0是人耳能听到的最小声强,为是人耳能听到的最小声强,为1010-23-23瓦瓦/米米2 2。第一节第一节 声音听觉理论声音听觉理论三、音频信号的指标三、音频信号的指标1、频带宽度、频带宽度 频带宽度或称为带宽,它是描述组成复合信频带宽度或称为带宽,它是描述组成复合信号的频率范围。音频信号的频带越宽,所包含的号的频率范围。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。音频信号分量越丰富,音质越好。在自然界声音的频率范围很宽,有些是人类在自然界声音的频率范围很宽,有些是人
12、类听不见的。听不见的。声源种类声源种类频率范围频率范围下限频率下限频率上限频率上限频率男性语音男性语音100HZ100HZ9000HZ9000HZ女性语音女性语音150HZ150HZ10000HZ10000HZ电话语音电话语音200HZ200HZ3 400HZ3 400HZ调幅广播调幅广播50HZ50HZ7 000HZ7 000HZ调频广播调频广播20HZ20HZ15 000HZ15 000HZ专业音响专业音响10HZ10HZ40 000HZ40 000HZ第一节第一节 声音听觉理论声音听觉理论三、音频信号的指标三、音频信号的指标2、动态范围、动态范围 动态范围越大,信号强度的相对变化范围越大
13、,动态范围越大,信号强度的相对变化范围越大,音响效果越好。音响效果越好。动态范围动态范围20log(信号的最大强度(信号的最大强度/信号信号的最小强度)的最小强度)第一节第一节 声音听觉理论声音听觉理论三、音频信号的指标三、音频信号的指标3、信噪比、信噪比 信噪比信噪比SNR(Signal to Noise Ratio)是有)是有用信号与噪声之比的简称。用信号与噪声之比的简称。噪音可分为环境噪音噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。和设备噪音。信噪比越大,声音质量越好。第一节第一节 声音听觉理论声音听觉理论四、听觉的方位感和立体声四、听觉的方位感和立体声 立体声是指具有空间感
14、的声音,立体立体声是指具有空间感的声音,立体声技术是利用听觉的方位感,在放音时重声技术是利用听觉的方位感,在放音时重现各种声源的方向及相对位置的技术。现各种声源的方向及相对位置的技术。第一节第一节 声音听觉理论声音听觉理论1、双耳效应、双耳效应 人们是用两只耳朵同时听声音的,当某一声源至两只人们是用两只耳朵同时听声音的,当某一声源至两只耳朵的距离不同时,此时两只耳朵虽然听到的是同一声波,耳朵的距离不同时,此时两只耳朵虽然听到的是同一声波,但却存在着时间差(相位差)和强度差(声级差),由于但却存在着时间差(相位差)和强度差(声级差),由于到达两耳处的声波状态的不同,造成了听觉的方位感和深到达两耳
15、处的声波状态的不同,造成了听觉的方位感和深度感。这就是常说的度感。这就是常说的“双耳效应双耳效应”。人们设法特意地在两。人们设法特意地在两耳处制造出与实际声源所能够产生的相同的声波状态,就耳处制造出与实际声源所能够产生的相同的声波状态,就应该可以造成某个方向上有一个对应的声源幻象(声像)应该可以造成某个方向上有一个对应的声源幻象(声像)感觉,这正是立体声技术的生理基础。感觉,这正是立体声技术的生理基础。四、听觉的方位感和立体声四、听觉的方位感和立体声第一节第一节 声音听觉理论声音听觉理论2、立体声系统、立体声系统 双声道的立体声系统是最基本的能给人的双耳造成立双声道的立体声系统是最基本的能给人
16、的双耳造成立体声像的系统。在双声道立体声系统中,为了正确重现真体声像的系统。在双声道立体声系统中,为了正确重现真实声源的方位,录音时必须用两只配对的传声器,信号传实声源的方位,录音时必须用两只配对的传声器,信号传输通道也需独立分开,而且每条信道的放大率、频响特性输通道也需独立分开,而且每条信道的放大率、频响特性等都必须相同,任何差异都会明显改变声像的位置,影响等都必须相同,任何差异都会明显改变声像的位置,影响立体声效果。立体声效果。四、听觉的方位感和立体声四、听觉的方位感和立体声示例:示例:单声道单声道双声道双声道第二节第二节 数字音频原理数字音频原理 由于音频信号是一种连续变化的模拟信由于音
17、频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字号,而计算机只能处理和记录二进制的数字信号,因此,由自然音源而得的音频信号必信号,因此,由自然音源而得的音频信号必须经过一定的变化和处理,变成二进制数据须经过一定的变化和处理,变成二进制数据后才能送到计算机进行再编辑和存贮。后才能送到计算机进行再编辑和存贮。第二节第二节 数字音频原理数字音频原理把模拟信号转换成数字信号的过程称为模把模拟信号转换成数字信号的过程称为模/数转换,它主要数转换,它主要包括:包括:采样:在时间轴上对信号数字化;采样:在时间轴上对信号数字化;量化:在幅度轴上对信号数字化;量化:在幅度轴上对信号数字化;编码
18、:按一定格式记录采样和量化后的数字数据。编码:按一定格式记录采样和量化后的数字数据。脉冲编码调制脉冲编码调制PCM(Pulse Code Modulation)是一)是一种模数转换的最基本编码方法。种模数转换的最基本编码方法。CD-DA采用的就是这种采用的就是这种编码方式。编码方式。一、一、PCM编码原理编码原理第二节第二节 数字音频原理数字音频原理二、二、数字音频的技术指标数字音频的技术指标1、采样频率、采样频率 采样频率是指一秒钟内采样的次数。采样频率的选择采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(应该遵循奈奎斯特(Harry Nyquist)采样理论:如果对)采样理
19、论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。最高频率的两倍,就能从采样信号系列重构原始信号。根据该采样理论,根据该采样理论,CD 激光唱盘采样频率为激光唱盘采样频率为44KHz,可记录的最高音频为,可记录的最高音频为22KHz,这样的音,这样的音质与原始声音相差无几,也就是我们常说的超级质与原始声音相差无几,也就是我们常说的超级高保真音质。采样的三个标准频率分别为:高保真音质。采样的
20、三个标准频率分别为:44.1KHz,22.05KHz和和11.025KHz。第二节第二节 数字音频原理数字音频原理二、二、数字音频的技术指标数字音频的技术指标2、量化位数、量化位数 量化位是对模拟音频信号的幅度轴进行数字化,它决量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为运算,一般的量化位数为8位和位和16位。量化位越高,信号位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越
21、大。信号,但所需要的存贮空间也越大。第二节第二节 数字音频原理数字音频原理二、二、数字音频的技术指标数字音频的技术指标3、声道数、声道数 有单声道和双声道之分。双声道又称为立体声,在硬有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。占空间比单声道多一倍。第二节第二节 数字音频原理数字音频原理二、二、数字音频的技术指标数字音频的技术指标4、数据率、数据率 数据率为每秒数据率为每秒bit数,它与信息在计算机中的实时传输数,它与信息在计算机中的实时传输有直接关系,其大小与采样指标和
22、压缩方法有关。未经压有直接关系,其大小与采样指标和压缩方法有关。未经压缩的数字音频数据率可按下式计算:缩的数字音频数据率可按下式计算:数据率采样频率(数据率采样频率(Hz)量化位数(量化位数(bit)声道数声道数(bit/s)采样率采样率(KHz)量化位量化位(bit)声道数声道数容量容量(MB/min)等效音质等效音质11.0258单单0.66语音语音22.0516双双5.292FM广播广播44.116双双10.584CD唱盘唱盘第二节第二节 数字音频原理数字音频原理二、二、数字音频的技术指标数字音频的技术指标5、编码算法数据文件格式编码算法数据文件格式 编码的作用其一是采用一定的格式来记录
23、数字数据,编码的作用其一是采用一定的格式来记录数字数据,其二是采用一定的算法来压缩数字数据以减少存贮空间和其二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩算法包括有损压缩和无损压缩;有损提高传输效率。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压压缩指解压后数据不能完全复原,要丢失一部分信息。压缩编码的基本指标之一就是压缩比,它通常小于缩编码的基本指标之一就是压缩比,它通常小于1。压缩。压缩越多,信息丢失越多、信号还原后失真越大。根据不同的越多,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的应用,应该选用不同的压缩编
24、码算法压缩编码算法。u音频信号的压缩编码算法音频信号的压缩编码算法一、一、PCMPCM编码编码 这是一种最通用的无压缩编码。特点是保真度这是一种最通用的无压缩编码。特点是保真度高,解码速度快,但编码后的数据量大。高,解码速度快,但编码后的数据量大。CD-DACD-DA就是就是采用的这种编码方式。采用的这种编码方式。u音频信号的压缩编码算法音频信号的压缩编码算法二、二、ADPCMADPCM编码编码 ADPCMADPCM(Adaptive Differential Pulse Code Adaptive Differential Pulse Code ModulationModulation),称
25、为自适应差分脉冲编码。这是一种有),称为自适应差分脉冲编码。这是一种有损压缩,它丢掉了部分信息。由于人耳对声音的不敏感损压缩,它丢掉了部分信息。由于人耳对声音的不敏感性,适当的有损压缩对视听播放效果影响不大。性,适当的有损压缩对视听播放效果影响不大。ADPCMADPCM记录的量化值不是每个采样点的幅值,而是该点的幅值记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。这样,每个采样点的量化位与前一个采样点幅值之差。这样,每个采样点的量化位就不需要就不需要16 bit16 bit,由此可减少信号的容量。可选的幅度,由此可减少信号的容量。可选的幅度差的量化比特位为差的量化比特位
26、为8 bit8 bit、4 bit4 bit和和2 bit2 bit。SB16SB16的的ADPCMADPCM编码采用编码采用4 bit 4 bit 量化位,对量化位,对 CDCD音质信号压缩,其压缩音质信号压缩,其压缩比为比为1 1:4 4,压缩后基本上分辨不出失真。,压缩后基本上分辨不出失真。u音频信号的压缩编码算法音频信号的压缩编码算法三、三、MP3MP3编码编码 MP3 MP3 是利用是利用 MPEG Audio Layer 3 MPEG Audio Layer 3 的技术的技术,将音频将音频信息用信息用 1:10 1:10 甚至甚至 1:12 1:12 的压缩率的压缩率,变成容量较小
27、的数变成容量较小的数据文件。当然这是一种有损压缩,但是人耳却基本不能据文件。当然这是一种有损压缩,但是人耳却基本不能分辨出失真来。按照这种算法,十张分辨出失真来。按照这种算法,十张CD-DACD-DA的内容可以的内容可以压缩到一张压缩到一张CD-ROMCD-ROM中,而且视听效果相当。由于中,而且视听效果相当。由于MP3MP3的的高压缩比和优秀的压缩质量,目前已广泛应用于网络中,高压缩比和优秀的压缩质量,目前已广泛应用于网络中,而且很可能是被盗版商利用的工具。因此,有关而且很可能是被盗版商利用的工具。因此,有关MP3MP3的的标准性和合理性目前还在争议之中。标准性和合理性目前还在争议之中。u音
28、频信号的压缩编码算法音频信号的压缩编码算法四、四、Real AudioReal Audio编码编码 Real AudioReal Audio时时Real networksReal networks推出的一种音乐压缩推出的一种音乐压缩格式,它的压缩比可达到格式,它的压缩比可达到1 1:9696,因此在网上比较流行。,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为经过压缩的音乐文件可以在通过速率为14.4kbps14.4kbps的的ModemModem上网的计算机中流畅回放,其最大特点是可以实上网的计算机中流畅回放,其最大特点是可以实现网上实时回访,也就是说边下载边播放。现网上实时回访,也
29、就是说边下载边播放。u音频信号的压缩编码算法音频信号的压缩编码算法五、五、MpegMpeg压缩编码压缩编码 MPEGMPEG提供三种音频压缩编码的等级,分别为提供三种音频压缩编码的等级,分别为I I,IIII和和IIIIII级级(Level ILevel I、Level IILevel II、Level IIILevel III)。)。I I级最简单,其目标是压缩级最简单,其目标是压缩后每声道位数据率为后每声道位数据率为192Kb/s192Kb/s。IIII级比级比I I级精度高一些,压缩后每声级精度高一些,压缩后每声道位数据率为道位数据率为128Kb/s128Kb/s。IIIIII级增加了不
30、定长编码、霍夫曼编码等一级增加了不定长编码、霍夫曼编码等一些先进的算法,可获得非常低的数据率和较高的保真度,压缩后每些先进的算法,可获得非常低的数据率和较高的保真度,压缩后每声道的位数据率为声道的位数据率为64Kb/s64Kb/s。如果要获得每声道。如果要获得每声道64Kb/s64Kb/s的数据率,采的数据率,采用用IIIIII级编码比采样级编码比采样IIII级编码的保真度好;要获得每声道级编码的保真度好;要获得每声道128Kb/s128Kb/s的的数据率,采用数据率,采用IIIIII级和级和IIII级编码的效果类似,但级编码的效果类似,但IIIIII级和级和IIII级都比级都比I I级的效果
31、好。每声道级的效果好。每声道128Kb/s128Kb/s的数据率或双声道的数据率或双声道256Kb/s256Kb/s的数据率可的数据率可以提供优质的保真度,因此采用以提供优质的保真度,因此采用IIII级压缩编码对高保真、立体声音级压缩编码对高保真、立体声音频足矣。频足矣。第二节第二节 数字音频原理数字音频原理三、三、音频数据文件格式音频数据文件格式音频数据文件主要分为两大类:波形文件和音频数据文件主要分为两大类:波形文件和MIDI文件。文件。波形文件记录的声波状态的各种特征值;波形文件记录的声波状态的各种特征值;MIDI(Musical Instrument Digital Interface
32、)是乐器数字接)是乐器数字接口的缩写,它不是把音乐的波形进行数字化采样和编码,口的缩写,它不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,如按了哪一而是将数字式电子乐器的弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时,个键、力度多大、时间多长等等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。放大后由扬声器播出。常见的波形文件格式:常见的波形文件格式:1 1、wavwav格式:格式:Windows Windows 下通用的数字音频标准,下通用的数字音频标准,用用WindowsWindows的媒体播放器可以播放。的媒体播放器可以播放。2 2、mp3mp3格式:采用格式:采用MP3MP3编码方式的文件,其数据量编码方式的文件,其数据量小质量高,用小质量高,用MP3MP3播放器播放。播放器播放。3 3、asfasf格式:微软定义的一种流式媒体格式,支格式:微软定义的一种流式媒体格式,支持多种压缩编码方案,适于低速网络。持多种压缩编码方案,适于低速网络。4 4、rara格式:采用格式:采用Real AudioReal Audio编码的一种流式媒体编码的一种流式媒体格式。格式。