1、第二章第二章 音频信息处理音频信息处理1 多媒体技术的特点是多媒体技术的特点是交互式交互式地地综合处理声文图综合处理声文图信息。在信息。在多媒体系统中语音和音乐是不可少的。没有音频的视频是不多媒体系统中语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,才能使视频图像更具真实性。可接受的。音频和视频同步,才能使视频图像更具真实性。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。可视电话、电视会议中的声音更为重要。第二章第二章 音频信息处理音频信息处理22.1 2.1 声音概述声音概述(重点
2、)(重点)2.2 2.2 音频信息数字化音频信息数字化(重点)(重点)2.3 2.3 音频文件的格式音频文件的格式2.4 2.4 语音压缩编码语音压缩编码(重点)(重点)2.5 2.5 音乐合成和音乐合成和MIDI MIDI(重点)(重点)第二章第二章 音频信息处理音频信息处理3一、一、声音及其分类声音及其分类1、声音、声音 声音是通过空气传播的一种连续的波,声音是通过空气传播的一种连续的波,称为声波称为声波。基本参数基本参数 频率:频率:声音的声音的频率,频率,体现音调的体现音调的高低高低振幅振幅:声波压力的声波压力的大小,大小,体现声音的体现声音的强弱强弱第二章第二章 音频信息处理音频信息
3、处理4声音信号由许多频率不同的信号组成,是声音信号由许多频率不同的信号组成,是复合信号。复合信号。重要参数重要参数带宽带宽:复合信号的频率范围复合信号的频率范围例如:例如:高保真高保真(high-fidelityaudio)声音的频率范围为声音的频率范围为10Hz20000Hz,其带宽约为,其带宽约为20KHz。而视频信号的带宽而视频信号的带宽是是6MHz。第二章第二章 音频信息处理音频信息处理52 2、声音的分类、声音的分类 声音:声音:无规则的噪音无规则的噪音和和有规则的音频信号有规则的音频信号。音频信号携带的信息可分为:语言、音乐和音效等三类。音频信号携带的信息可分为:语言、音乐和音效等
4、三类。第二章第二章 音频信息处理音频信息处理63 3、声音的三要素、声音的三要素 音调、音色和音强音调、音色和音强是声音的三要素。是声音的三要素。在任一时刻,在任一时刻,模拟声波模拟声波信号曲线都可以分解为一系列信号曲线都可以分解为一系列正弦正弦波波的线性叠加。的线性叠加。其中其中0 0称为称为基频或基音基频或基音(最低的音波最低的音波);n n*0 0称为称为0 0的的n n次次谐波分量谐波分量或称为或称为泛音泛音,其频率是基频,其频率是基频的整数倍。的整数倍。)sin()(000nnnnAtf第二章第二章 音频信息处理音频信息处理7 音调音调 在音乐中称为在音乐中称为音高音高,音高是指声波
5、的,音高是指声波的基频基频。将基频取对。将基频取对数后与人的音高感觉成线性关系,音律中最常见的数后与人的音高感觉成线性关系,音律中最常见的1212平均律平均律中的音阶划分,就是在频率对数坐标取等分而得来的。中的音阶划分,就是在频率对数坐标取等分而得来的。音色音色 取决于声波的取决于声波的频谱频谱,即由混入基音的泛音所决定的。各,即由混入基音的泛音所决定的。各阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则音色就不同。若中高频泛音丰富,音色就明亮,如小号;若音色就不同。若中高频泛音丰富,音色就明亮,如小号;若低频泛音丰富,音色就低沉,如低音
6、贝司。低频泛音丰富,音色就低沉,如低音贝司。第二章第二章 音频信息处理音频信息处理8 音强音强 取决于声波信号的取决于声波信号的强弱程度强弱程度,即与声音信号的幅度成正,即与声音信号的幅度成正比。人耳在辨别声音的能力只有在音强适中时才最灵敏。比。人耳在辨别声音的能力只有在音强适中时才最灵敏。由于人的听觉响应与声音信号强度不是成线性关系,因由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘此一般用声音信号幅度取对数后再乘2020所得值来描述声强,所得值来描述声强,以以分贝(分贝(dBdB)为单位,此时称为为单位,此时称为音量音量。在处理音频信号时,。在处理音频信号时
7、,一般用一般用动态范围动态范围来定义音频信号的相对强度:来定义音频信号的相对强度:动态范围动态范围=20=20loglog(信号的最大强度(信号的最大强度/信号最小强度)信号最小强度)单位:单位:dBdB第二章第二章 音频信息处理音频信息处理9二、音频信号二、音频信号(1 1)语音:具有语言内涵和人类约定成俗的特殊媒体。)语音:具有语言内涵和人类约定成俗的特殊媒体。(2 2)音乐:规范的符号化了的声音。)音乐:规范的符号化了的声音。(3 3)音效)音效(响):人类熟悉的其他声音,如动物发声、机器产响):人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电声等。生的声音、自然界的风雨
8、雷电声等。音频的音频的作用作用:直接通过讲话表达信息、制造某种效果和气直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。氛、演奏音乐等。第二章第二章 音频信息处理音频信息处理101、音频音频人类听觉所感知范围内的频率,也称人类听觉所感知范围内的频率,也称声频。声频。音频音频(Audio):频率范围是频率范围是20Hz20KHz的声音信号(人耳能听到)的声音信号(人耳能听到)次声波次声波(subsonic):频率低于频率低于20Hz的信号的信号(亚音)亚音)超声波超声波(ultrasonic):频率高于:频率高于20KHz的信号的信号(超音频)超音频)说明说明1:次声波和超声波次声波和超声波
9、之间之间的音频为的音频为可听声波可听声波,属于属于多媒体音频多媒体音频信息范畴。信息范畴。第二章第二章 音频信息处理音频信息处理11说明说明2 2:人的发音器官发出的声音频率大约是人的发音器官发出的声音频率大约是80803400Hz3400Hz,但人说,但人说话的信号频率通常为话的信号频率通常为3003003000Hz3000Hz,人们把在这种频率范围的,人们把在这种频率范围的信号称为信号称为语(话)音语(话)音(speech)(speech)信号信号;实际上,人最敏感的频率范围是实际上,人最敏感的频率范围是3KHz5KHz。对于高于对于高于1820kHz和低于和低于1620Hz的的声音信号,
10、无论音强如何,一般人声音信号,无论音强如何,一般人都听不到。都听不到。第二章第二章 音频信息处理音频信息处理12Q:地震来临前,狗、老鼠等动物会比我们人类早知道,并有地震来临前,狗、老鼠等动物会比我们人类早知道,并有一些异常反应,请解释原因。一些异常反应,请解释原因。地震地震时能量主要时能量主要集中在集中在次声波次声波 狗狗、猫等动物的听觉范围比人、猫等动物的听觉范围比人广广如如:狗的听觉范围是:狗的听觉范围是15Hz50000Hz 猫猫的听觉范围是的听觉范围是60Hz56000Hz。第二章第二章 音频信息处理音频信息处理132 2、音频信号、音频信号用电压或电流模拟信号表示声音信号,在用电压
11、或电流模拟信号表示声音信号,在多媒体技术中采用的是数字化音频信息。多媒体技术中采用的是数字化音频信息。3 3、音频信息处理技术、音频信息处理技术(1 1)音频获取技术(语音的采集、识别和理解)音频获取技术(语音的采集、识别和理解)(2 2)音频合成技术(音乐的合成和语音的合成)音频合成技术(音乐的合成和语音的合成)(3 3)音频定位技术(模拟立体声、音频)音频定位技术(模拟立体声、音频/视频同步)视频同步)(4 4)音频编码、解码技术)音频编码、解码技术(5 5)音频网络传输技术)音频网络传输技术第二章第二章 音频信息处理音频信息处理144 4、音频信号的技术指标音频信号的技术指标 频带宽度频
12、带宽度:音频信号的频率范围,是衡量:音频信号的频率范围,是衡量音质音质的标准。的标准。频带越宽,包含的音频信号分量越丰富,则音质越好。频带越宽,包含的音频信号分量越丰富,则音质越好。通常将音质定义为通常将音质定义为4 4个等级标准:个等级标准:CD-DA唱盘为唱盘为10Hz22KHz;FM广播为广播为20Hz15KHz;AM广播为广播为50Hz7KHz;数字电话为数字电话为200Hz3.4KHz。第二章第二章 音频信息处理音频信息处理15第二章第二章 音频信息处理音频信息处理16 动态范围动态范围 动态范围动态范围2020loglog(信号的最大强度(信号的最大强度/信号的最小强度)信号的最小
13、强度)动态范围越大,说明音频信号的相对变化范围大,动态范围越大,说明音频信号的相对变化范围大,音响音响效效果越好。果越好。几种音频业务的动态范围几种音频业务的动态范围 音质效果音质效果 AM广播广播 FM广播广播 数字电话数字电话 CDDA 动态范围(动态范围(dB)40 60 50 100 第二章第二章 音频信息处理音频信息处理17 信噪比信噪比SRN(Signal to Noise Rate,dB)信噪比:信噪比:有用信号有用信号的平均功率与的平均功率与噪音噪音的平均功率之比。的平均功率之比。信噪比越高,则音效越好。信噪比越高,则音效越好。例:例:设设 ,采样精度,采样精度16位表示位表示
14、 ,求其求其SNR?)/lg(20noisesignalVVSNR 1noiseV162signalVSNR96dB第二章第二章 音频信息处理音频信息处理18说明:说明:通常通常信噪比分为系统输入信号的信噪比信噪比分为系统输入信号的信噪比SRN(in)和系统)和系统输出信号的信噪比输出信号的信噪比SRN(out)。)。一般来说,在语音和图像信号的编码中,一般来说,在语音和图像信号的编码中,主观主观的质量评价的质量评价较较客观客观的质量评价更为恰当。的质量评价更为恰当。第二章第二章 音频信息处理音频信息处理195.5.音频信号的特点音频信号的特点 由于音频由于音频是是依赖时间的连续媒体,因此音频
15、处理的依赖时间的连续媒体,因此音频处理的时序性时序性要求高;要求高;由于人类接收声音有两个通道,因此计算机合成的声音应由于人类接收声音有两个通道,因此计算机合成的声音应是是立体声立体声;由于语音信号携带了情感意向,因此对语音信号的处理还由于语音信号携带了情感意向,因此对语音信号的处理还要抽取要抽取语意语意等其等其它它信息。信息。第二章第二章 音频信息处理音频信息处理20三、数字音频三、数字音频1.1.数字音频数字音频 将模拟的将模拟的(连续的连续的)声音波形数字化声音波形数字化(离散化离散化),以便利用数,以便利用数字计算机进行处理的过程。(字计算机进行处理的过程。(A/DA/D转换)转换)主
16、要包括主要包括采样采样、量化量化和和编码编码几个方面。几个方面。2.2.数字音频的技术指标数字音频的技术指标 采样频率采样频率、量化位数量化位数、声道数声道数、编码算法编码算法 数字音频的数字音频的质量质量取决于:取决于:采样频率采样频率和和量化位数量化位数这两个重要这两个重要参数。此外,声道的数目、相应的音频设备也是影响参数。此外,声道的数目、相应的音频设备也是影响音频质量音频质量的原因。的原因。第二章第二章 音频信息处理音频信息处理213.3.数字音频等级数字音频等级信号类型 频率范围(Hz)采样率(kHz)量化精度(位)电话话音 2003400 8 8 宽带音频 507000 16 16
17、 调频广播 2015k 37.8 16 高质量音频 2020k 44.1 16 各种声音质量的压缩比各种声音质量的压缩比声音质量声音质量宽带(宽带(kHz)声道声道数据率(数据率(Kb/s)压缩比压缩比CD音质音质15双声道立体声双声道立体声1121281:141:12接近接近CD15双声道立体声双声道立体声961:16调频广播调频广播11双声道立体声双声道立体声56641:271:24中波广播中波广播7.5单声道单声道321:24短波广播短波广播4.5单声道单声道161:48电话音质电话音质2.5单声道单声道81:96第二章第二章 音频信息处理音频信息处理234.4.从人机交互的角度看音频信
18、号处理从人机交互的角度看音频信号处理(1 1)人)人计算机计算机 包括:音频获取、语音识别和理解等;包括:音频获取、语音识别和理解等;(2 2)计算机)计算机人人 包括:音乐合成、语音合成、立体声模拟等;包括:音乐合成、语音合成、立体声模拟等;(3 3)人)人计算机计算机人人 包括:语音采集、音频编码包括:语音采集、音频编码/解码、音频传输、基于内容解码、音频传输、基于内容的检索等;的检索等;第二章第二章 音频信息处理音频信息处理24一、模拟信号与数字信号一、模拟信号与数字信号 在时间和幅度上都连续的信号称为在时间和幅度上都连续的信号称为模拟信号。模拟信号。在时间和幅度上都离散,用数字表示的信
19、号称为在时间和幅度上都离散,用数字表示的信号称为数字信号。数字信号。对模拟信号的处理:比较复杂,难于精确控制,成本高。对模拟信号的处理:比较复杂,难于精确控制,成本高。将模拟信号数字化目的:将模拟信号数字化目的:处理简单,控制精确处理简单,控制精确。第二章第二章 音频信息处理音频信息处理25二、二、模拟信息数字化的主要优点模拟信息数字化的主要优点 数字信号计算是一种数字信号计算是一种精确精确的运算方法,它的运算方法,它不受时间和环境变不受时间和环境变化化的影响;的影响;表示部件功能的数学运算不是物理上实现的功能部件,而是表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其
20、中的仅用数学运算去模拟,其中的数学运算也相对容易实现数学运算也相对容易实现;可以对数字运算部件进行可以对数字运算部件进行编程编程,如欲改变算法或改变某些功,如欲改变算法或改变某些功能,还可对数字部件进行再编程。能,还可对数字部件进行再编程。第二章第二章 音频信息处理音频信息处理26三、模拟声音数字化过程三、模拟声音数字化过程采样采样在某特定时刻对模拟信号进行测量叫在某特定时刻对模拟信号进行测量叫采样。采样。每隔相等的一段时间进行采样,称为每隔相等的一段时间进行采样,称为均匀采样均匀采样,否则为否则为非均匀采样。非均匀采样。量化量化把信号幅度划分成若干小段,若每段都是相等的,称为把信号幅度划分成
21、若干小段,若每段都是相等的,称为线性量化线性量化,否则称为,否则称为非线性量化非线性量化。编码编码:将离散的模拟信号转化为数字信号,即对量化后:将离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码取代。的离散值用二进制代码取代。第二章第二章 音频信息处理音频信息处理271、采样、采样采样采样(sampling)在时间轴上对信号数字化。在时间轴上对信号数字化。采样周期采样周期:对连续信号采样的时间间隔:对连续信号采样的时间间隔T采样频率采样频率:单位时间内的采样次数(:单位时间内的采样次数(1/T)。)。采样频率越高,可恢复的声音保真度越好。采样频率越高,可恢复的声音保真度越好。常用采
22、样频率常用采样频率 11.025KHz、22.05KHz、44.1KHz、48KHz。如何保证采样的声音不失真?如何保证采样的声音不失真?第二章第二章 音频信息处理音频信息处理28奈魁斯特奈魁斯特(Nyquiest)采样定理采样定理:若对某一模拟信号进行采样,只要采样频率若对某一模拟信号进行采样,只要采样频率f(1/T)高于高于输入信号最高频率输入信号最高频率fC的两倍的两倍(f2fC),则经过采样后的采样信,则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。波后可不失真地恢复原模拟信号。例
23、如,例如,电话话音信号的频率约为电话话音信号的频率约为 3.4kHz,采样频率选,采样频率选 8kHz。第二章第二章 音频信息处理音频信息处理292、量化:量化:对声音信号波形振幅值的离散化对声音信号波形振幅值的离散化量化误差(或量化噪音)量化误差(或量化噪音):量化后的振幅代表值与真实振幅值之间的差。量化后的振幅代表值与真实振幅值之间的差。量化跨度量化跨度:在分割振幅时一个个小区间的宽度:在分割振幅时一个个小区间的宽度量化精度量化精度(位数位数):每个声音样本的二进制位数每个声音样本的二进制位数(bit per sample,bps)第二章第二章 音频信息处理音频信息处理30第二章第二章 音
24、频信息处理音频信息处理31声音数字化的两个关键问题:声音数字化的两个关键问题:每秒钟需要采集多少个声音样本,即每秒钟需要采集多少个声音样本,即采样频率采样频率多少。多少。每个声音样本的位数每个声音样本的位数(bit per sample,bps)是多少,也是多少,也就是就是量化位数(精度)量化位数(精度)。量化位数量化位数决定了量化等级决定了量化等级M=2n。显然,量化位数越多,则显然,量化位数越多,则量化精度越高即量化后声音信号越接近原始信号,但量化后的量化精度越高即量化后声音信号越接近原始信号,但量化后的数据量也越大。数据量也越大。第二章第二章 音频信息处理音频信息处理32 量化位数每增加
25、一位,信噪比改善量化位数每增加一位,信噪比改善6dB(1)量化位数)量化位数W、最大振幅、最大振幅A、量化跨度、量化跨度q之间的关系:之间的关系:q=A/2w-1(2)当量化跨度远小于信号振幅时:)当量化跨度远小于信号振幅时:q=A/2w(3)量化噪音功率:)量化噪音功率:(4)将信噪比用分贝表示:)将信噪比用分贝表示:SNR(dB)=22202)2(1211212wqAqdxxqE 6)21(log20)22(log1021log1010211010dBEEww第二章第二章 音频信息处理音频信息处理333 3、编码编码按一定格式记录采样和量化后的数字数据按一定格式记录采样和量化后的数字数据
26、将离散的模拟信号转化为数字信号,即对量化后的离散将离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码(值用二进制代码(2 28 8或或2 21616)取代。)取代。第二章第二章 音频信息处理音频信息处理34量化位数决定了量化等级量化位数决定了量化等级M=2n。常用的。常用的量化位数为量化位数为8bit或或16bit。显然,量化位数越多,则量化精度越高。即量化后声。显然,量化位数越多,则量化精度越高。即量化后声音信号越接近原始信号,但量化后的数据量也越大。音信号越接近原始信号,但量化后的数据量也越大。第二章第二章 音频信息处理音频信息处理35声道数声道数 一次同时产生的声波组数。若一次
27、产生两组声波数据,则一次同时产生的声波组数。若一次产生两组声波数据,则为双声道或立体声。为双声道或立体声。声道数:声道数:2.02.0(双声道立体声)(双声道立体声)2.12.1(双声道加一超重低音声道)(双声道加一超重低音声道)4.14.1(发音点:前左、前右、后左、后右、超重低音)(发音点:前左、前右、后左、后右、超重低音)5.15.1(比比4.14.1声道增加一个中置单元,增加整体影院效果)声道增加一个中置单元,增加整体影院效果)7.17.1(比比4.14.1声道增加中左、中右发音点声道增加中左、中右发音点)第二章第二章 音频信息处理音频信息处理36三种最常用的采样指标及等效音质:三种最
28、常用的采样指标及等效音质:第二章第二章 音频信息处理音频信息处理374、数字音频的存储量、数字音频的存储量存储量存储量=(采样频率采样频率量化位数量化位数声道数声道数持续时间持续时间)/8(字节数字节数)如:如:CD光盘采用了光盘采用了双声道双声道 16 位位采样,采样频率为采样,采样频率为 44.1 KHz,可达专业级水平。若某首流行歌曲的长度为可达专业级水平。若某首流行歌曲的长度为 3.5 分钟,则该歌分钟,则该歌曲占用的存储容量为:曲占用的存储容量为:161644.144.1100010002 2(3.5(3.560)60)8=370440008=37044000(B B)=35.33M
29、B=35.33MB第二章第二章 音频信息处理音频信息处理38一、音频文件的分类一、音频文件的分类1 1、波形文件波形文件(声音文件)(声音文件)模拟音频信号经数字化后由计算机处理、存储及传输,输模拟音频信号经数字化后由计算机处理、存储及传输,输出时经出时经D/AD/A转换将数字信号还原为原来波形的音频文件。该文转换将数字信号还原为原来波形的音频文件。该文件属于获取件属于获取声音文件声音文件。声音文件:声音文件:指的是通过声音录入设备录制的原始声音,指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大。直接记录了真实声音的二进制采样数据,通常文件较大。第二章第二
30、章 音频信息处理音频信息处理392、非波形文件、非波形文件(MIDI文件)文件)通过语音合成器产生相应声音的非波形格式的通过语音合成器产生相应声音的非波形格式的MIDI(Musical Instrument Digital Interface)文件)文件(.MID)。)。MIDI文件文件:它是一种音乐演奏指令序列,相当于乐谱,:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。演奏,由于不包含声音数据,其文件尺寸较小。第二章第二章 音频信息处理音频信息处理403、混合型
31、文件、混合型文件(MOD文件)文件)既有既有波形文件波形文件的特征,又有的特征,又有非波形文件非波形文件的特征的文件。的特征的文件。MOD文件文件 最初由最初由Commodor公司发明,用于公司发明,用于Amiga计算机中的智能音乐计算机中的智能音乐芯片上,后来主要由业余爱好者使用的一种共享、自由软件。芯片上,后来主要由业余爱好者使用的一种共享、自由软件。该文件既含有该文件既含有声音的采样数据,又含有这些样本的描述性指令声音的采样数据,又含有这些样本的描述性指令,适用于网络和适用于网络和BBC等。等。31种采样声音,可产生大型乐队的效果。但其采样位数只是种采样声音,可产生大型乐队的效果。但其采
32、样位数只是8位,采样频率是位,采样频率是32KHz,不可能达到,不可能达到CD音质的效果。音质的效果。第二章第二章 音频信息处理音频信息处理41二、音频文件的格式二、音频文件的格式 波形文件(声音文件):波形文件(声音文件):WAV、VOC、AU、MP3、RM(RA/RAM)、)、WMA、PCM、CD唱片唱片、AIF等等 非波形文件:非波形文件:MIDI、RMI 混合文件:混合文件:MOD、S3M、XM、MTM、FAR、KAR格格 式式描描 述述适用的播放软件适用的播放软件Wav未经压缩的波形(未经压缩的波形(Wav)声音文件,质量好,)声音文件,质量好,占用空间大。占用空间大。Windows
33、中的媒体播放器、中的媒体播放器、录音机、。录音机、。MP3是是Wav文件经过特殊压缩后产生的一种音乐格文件经过特殊压缩后产生的一种音乐格式文件,压缩比式文件,压缩比1012。媒体播放器、超级解霸,媒体播放器、超级解霸,Realone Player、WinmapRM/RA是是Real Audio,是目前最流行的格式支持,是目前最流行的格式支持流媒流媒体体技术。技术。Realone playerWMAWindows Media,功能齐全,使用方便,功能齐全,使用方便Windows平台平台CD唱片唱片是最好的一种声音格式文件,是最好的一种声音格式文件,16为采样精度,为采样精度,44.1kHz,可完
34、全重现原来的声音。,可完全重现原来的声音。Windows自带工具自带工具CD唱机唱机MIDI乐器数字化接口(乐器数字化接口(Musical Instrumment DigitalInterface)媒体播放器,超级解霸。媒体播放器,超级解霸。MP4不是不是Mp3的改进版本,是美国网络技术公司的改进版本,是美国网络技术公司(GMO)采用)采用MPEG2中的音频压缩技术。中的音频压缩技术。压缩比压缩比1:15,比,比Mp3的的1:12高。高。Vcd、DVD播放软件:播放软件:第二章第二章 音频信息处理音频信息处理431、Wave文件文件.WAV 由由Microsoft公司专门为公司专门为Windo
35、ws开发的一种标准数字音频文件。开发的一种标准数字音频文件。该文件是通过对该文件是通过对模拟音频模拟音频以不同的采样频率、不同的量化位数进行以不同的采样频率、不同的量化位数进行数数字化字化而得到的数字信号存入磁盘而形成的而得到的数字信号存入磁盘而形成的波形文件波形文件。只要采样率高、采样字节长、机器速度快,利用该格式记录的只要采样率高、采样字节长、机器速度快,利用该格式记录的声音文件能够和原声基本一致,声音文件能够和原声基本一致,质量非常高质量非常高,但代价是,但代价是文件太大文件太大。Wave文件特点:文件特点:声音不失真声音不失真未经压缩的声音文件占用存储盘空间太大。未经压缩的声音文件占用
36、存储盘空间太大。第二章第二章 音频信息处理音频信息处理442、Voice文件文件.VOC Voice文件是文件是Creative Labs(创新公司)开发的声音文件格式,(创新公司)开发的声音文件格式,多用于保存多用于保存Creative Sound Blaster(创新声霸)系列声卡所采集的(创新声霸)系列声卡所采集的声音数据,被声音数据,被Windows平台和平台和DOS平台所支持,支持平台所支持,支持CCITT A Law和和CCITT Law等压缩算法。等压缩算法。Voice文件是声霸卡(文件是声霸卡(sound blaster)使用的音频文件格式。)使用的音频文件格式。第二章第二章
37、音频信息处理音频信息处理453、Audio文件文件.AU Audio文件是文件是Sun Microsystems公司推出的一种经过压缩的数字公司推出的一种经过压缩的数字声音格式,是声音格式,是Internet中常用的声音文件格式;中常用的声音文件格式;Netscape Navigator浏览器中的浏览器中的Live Audio 也支持也支持Audio格式的格式的声音文件。声音文件。第二章第二章 音频信息处理音频信息处理464、MPEG音频文件音频文件.MP1/.MP2/.MP3 MPEG音频文件格式是音频文件格式是MPEG标准中的音频部分,即标准中的音频部分,即MPEG音音频层(频层(MPEG
38、-1 Audio Layer););MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(复杂程度的不同可分为三层(MPEG-1AudioLayer1/2/3),分别对),分别对应应MP1、MP2和和MP3这三种声音文件;这三种声音文件;MPEG-1AudioLayer1/2/3的压缩比和采样率的压缩比和采样率压缩比压缩比采样率采样率Layer-11:4384kbpsMP1Layer-21:6到到1:8192kbpsMP2Layer-31:10到到1:12112kbpsMP3第二章第二章 音频信息处理音频信息处理47M
39、P4?MP4使用的是使用的是MPEG-2 AAC技术,简称为技术,简称为A2B或或AAC技技术。其特点是音质更加完美而压缩比更大(术。其特点是音质更加完美而压缩比更大(15:120:1)。)。A2B技术:技术:第一,第一,AT&T的音频压缩技术专利,可以将的音频压缩技术专利,可以将AAC压缩比提高到压缩比提高到20:1而不损失音质;第二,安全数据库,可为而不损失音质;第二,安全数据库,可为A2B 音音乐文件创建一个特定的乐文件创建一个特定的密钥密钥,并将此密钥置于数据库中,只有,并将此密钥置于数据库中,只有A2B的播放器才能播放含有这种密钥的音乐;第三,协议的播放器才能播放含有这种密钥的音乐;
40、第三,协议认证认证,这个认,这个认证包含了复制许可、允许复制证包含了复制许可、允许复制 副本数量、歌曲总时间、歌曲可以播副本数量、歌曲总时间、歌曲可以播放时间以及经营销售许可等信息。放时间以及经营销售许可等信息。MP4是是MPEG-4 或者或者MPEG-1 Layer 4 格式。格式。(MP3MPEG-3,VCDMPEG-1,DVD MPEG-2)第二章第二章 音频信息处理音频信息处理485、RealAudio文件文件.RA/.RM/.RAM RealAudio文件是文件是 Real Networks公司开发的一种新型公司开发的一种新型流式流式音频音频(Streaming Audio)文件格式
41、。)文件格式。传统的音频文件传统的音频文件可以存入硬盘或其它的存储介质中。一般来说,可以存入硬盘或其它的存储介质中。一般来说,这种音乐文件在播放之前,需要完全下载。这种音乐文件在播放之前,需要完全下载。流式文件流式文件(如(如RealAudio和和QuickTime使用的文件格式)可以一使用的文件格式)可以一边下载一边听,但无法很容易地把整个文件保存到硬盘上。边下载一边听,但无法很容易地把整个文件保存到硬盘上。注意:注意:一些文件格式,如一些文件格式,如MP3和和WMA,既可以是传统文件,也可以,既可以是传统文件,也可以是流式文件。是流式文件。第二章第二章 音频信息处理音频信息处理496、PC
42、M文件文件.PCM 由模拟音频信号直接通过由模拟音频信号直接通过A/D转换而形成的二进制序列文转换而形成的二进制序列文件。件。特点:特点:保真度高,解码速度快,但编码后的数据量大。保真度高,解码速度快,但编码后的数据量大。如:如:CD-DA就是采用该编码方式,每分钟的音乐约需要就是采用该编码方式,每分钟的音乐约需要10MB磁盘存储空间。一般可通过转换工具将磁盘存储空间。一般可通过转换工具将PCM文件转换成文件转换成WAV文件。文件。第二章第二章 音频信息处理音频信息处理50三、三、MIDI文件格式文件格式.MID/.RMI通过语音合成器产生相应声音的非波形格式的通过语音合成器产生相应声音的非波
43、形格式的MIDI(Musical Instrument DigitalInterface)文件()文件(.MID)。)。属于合成声音文件,属于合成声音文件,即采用数字方式对乐器所演奏出来的声音即采用数字方式对乐器所演奏出来的声音进行记录,然后在播发时再对这些记录进行合成。进行记录,然后在播发时再对这些记录进行合成。存储的是指令和数据,不是数字化的实际声音。存储的是指令和数据,不是数字化的实际声音。即存储的是发即存储的是发给音频合成器的一系列指令,因而占用磁盘空间非常小给音频合成器的一系列指令,因而占用磁盘空间非常小(MID文件文件每每1分钟只用大约分钟只用大约510KB)。缺点:缺点:处理语音
44、能力和效果相对较差。一般只适用于记录乐曲。处理语音能力和效果相对较差。一般只适用于记录乐曲。近年流行的声卡采用近年流行的声卡采用波表法波表法进行音乐合成,使进行音乐合成,使MIDI音乐的质量大大音乐的质量大大提高,效果接近提高,效果接近CD音质。音质。第二章第二章 音频信息处理音频信息处理51四、模块文件四、模块文件MOD/.S3M/.XM/.MTM/.FAR/.KAR/同时具有同时具有MIDI与数字音频(声音文件)的共同特性;与数字音频(声音文件)的共同特性;文件中既包括如何演奏乐器的指令,又保存了数字声音信号的文件中既包括如何演奏乐器的指令,又保存了数字声音信号的采样数据,为此,其声音回放
45、质量对音频硬件的依赖性较小,采样数据,为此,其声音回放质量对音频硬件的依赖性较小,即,在不同的机器上可以获得基本相似的声音回放质量;即,在不同的机器上可以获得基本相似的声音回放质量;根据不同的编码方法有根据不同的编码方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。等多种不同格式。第二章第二章 音频信息处理音频信息处理52WAVE文件与文件与MIDI文件的区别:文件的区别:1、文件格式:文件格式:WAVE文件是通过直接对模拟声波进行数字化得到的文件是通过直接对模拟声波进行数字化得到的音频信号数据;而音频信号数据;而MIDI文件只是记录了一系列乐谱指令。文件只是记录了一系列
46、乐谱指令。2、声音来源:声音来源:WAVE文件是直接通过声卡输入端口获取的音源,并文件是直接通过声卡输入端口获取的音源,并可从输出端口直接播放;而可从输出端口直接播放;而MIDI是通过是通过MIDI接口由音序器记录电接口由音序器记录电子乐谱的指令数据。子乐谱的指令数据。3、存储容量:存储容量:采用采用MIDI格式记录比采用格式记录比采用WAVE格式记录的数据量格式记录的数据量小两个数量级以上。小两个数量级以上。第二章第二章 音频信息处理音频信息处理53一、概述一、概述1、压缩编码的、压缩编码的目的目的 在保证一定图像(或声音)质量的条件下,以在保证一定图像(或声音)质量的条件下,以最小的数据最
47、小的数据率率来表达和传送图像(或声音)信息。来表达和传送图像(或声音)信息。2、压缩编码的压缩编码的重要性重要性 实际应用中,未压缩编码的音频数据量很大,进行实际应用中,未压缩编码的音频数据量很大,进行传输或传输或存储存储数据量很不现实数据量很不现实。第二章第二章 音频信息处理音频信息处理543、数据能够得到压缩的数据能够得到压缩的可能性可能性(1)原始数据中存在着大量的原始数据中存在着大量的冗余冗余信息;信息;(2)视频和音频信息的最终接收者是人,人的视觉和听觉器官视频和音频信息的最终接收者是人,人的视觉和听觉器官都具有某种都具有某种不敏感性不敏感性,舍去人的感官所不敏感的信息对图像或,舍去
48、人的感官所不敏感的信息对图像或声音质量的影响很小,在有些情况下,甚至可以忽略不计;声音质量的影响很小,在有些情况下,甚至可以忽略不计;(3)对声音波形取样后,相邻样值之间存在着很强的对声音波形取样后,相邻样值之间存在着很强的相关性相关性。第二章第二章 音频信息处理音频信息处理554.4.语音压缩编码语音压缩编码算法的评价算法的评价音频质量音频质量数据量数据量 数据量数据量=(采样频率采样频率量化位数量化位数)/8(字节数字节数)声道数目声道数目算法复杂度算法复杂度 在保证质量的前提下,尽量减少算法复杂度在保证质量的前提下,尽量减少算法复杂度第二章第二章 音频信息处理音频信息处理56分数分数质量
49、级别质量级别失真级别失真级别5优优(Excellent)无察觉无察觉4良良(Good)(刚刚)察觉但不讨厌察觉但不讨厌3中中(Fair)(察觉察觉)有点讨厌有点讨厌2差差(Poor)讨厌但不反感讨厌但不反感1劣劣(Bad)极讨厌极讨厌(令人反感令人反感)音频质量:音频质量:主观评价:主观意见打分,歌咏比赛主观评价:主观意见打分,歌咏比赛客观评价:客观评价:信噪比信噪比SNR(signal to noise ratio)声音质量评分标准声音质量评分标准第二章第二章 音频信息处理音频信息处理57说明:说明:声音质量的评价是一个很声音质量的评价是一个很困难困难的,目前还在继续研究的课题。的,目前还在
50、继续研究的课题。两种方法两种方法:一种是客观质量度量,另一种是:一种是客观质量度量,另一种是主观质量度量主观质量度量。用声音信号的用声音信号的带宽来衡量声音的质量带宽来衡量声音的质量,等级由低到高分别是:,等级由低到高分别是:数字电话(数字电话(telephone)调幅(调幅(amplitude modulation,AM)广播)广播 调频(调频((frequency modulation,FM)广播)广播 激光唱盘(激光唱盘(CD-Audio)数字录音带(数字录音带(digital audio tape,DAT)的声音。)的声音。第二章第二章 音频信息处理音频信息处理58二、语音压缩编码分类