1、第七章第七章 多媒体技术基础多媒体技术基础一、多媒体技术概论一、多媒体技术概论 二、音频技术二、音频技术三、视频技术三、视频技术 四、数字图像技术四、数字图像技术 五、数据压缩技术五、数据压缩技术 六、光存储技术及其标准化六、光存储技术及其标准化 一、多媒体技术概论一、多媒体技术概论1.多媒体计算机技术n计算机的发明不仅使信息处理变得更精确、灵活,更重要的是拓展了人类处理复杂信息的能力和手段;n多媒体技术的出现使信息的载体更加丰富,它标志着第四次信息革命的开始,它也将给人类带来极其深刻的影响。n多媒体计算机技术是指用计算机综合处理和控制多媒体信息文字、声音、图形、图象、动画和活动影像等,使多种
2、信息建立逻辑连接,集成为一个系统并具有交互性。2.智能计算机的研制工作推动了计算机多媒体技术的诞生和发展 研究人员开始认识到人机界面问题的重要性:研究人员开始认识到人机界面问题的重要性:良良好的人机界面好的人机界面能充分发挥人类理解能力、想象能力以及能充分发挥人类理解能力、想象能力以及计算机巨大存储和分析计算能力的优势。多媒体计算机计算机巨大存储和分析计算能力的优势。多媒体计算机技术可以认为是这种努力的继续和发展,它最终将实现技术可以认为是这种努力的继续和发展,它最终将实现人与计算机的人与计算机的自然交流自然交流。3.多媒体技术的主要内容(1)多媒体数据压缩技术多媒体数据压缩技术(2)多媒体存
3、储技术多媒体存储技术(3)多媒体专用芯片技术多媒体专用芯片技术(4)多媒体输入多媒体输入/输出技术输出技术(5)多媒体系统软件技术多媒体系统软件技术 多媒体操作系统、多媒体编辑系统、多媒体数据多媒体操作系统、多媒体编辑系统、多媒体数据库管理技术、多媒体信息的混合与重叠技术等。库管理技术、多媒体信息的混合与重叠技术等。二、音频技术 音频技术主要包括音频数字化、语音处理、合成及识别等技术。音频是多媒体应用的重要组成部分。音频是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的,声音不仅与时间和现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中空
4、间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。征和听力范围。声音的数字化原理声音的数字化原理 声音的模声音的模/数转换(数转换(ADCADC),首先需对声波采样,用数字方式记录声音。图中,首先需对声波采样,用数字方式记录声音。图中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模现这个过程的装置就被称为模/数转换器。数转换器。声音的数声音的数/模转换(模转换(DACDAC)
5、即由数字声音变成模拟的波形。即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数实现这个过程的装置被称为数/模转换器。模转换器。1.1.模拟音频的数字化过程模拟音频的数字化过程 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频的采样、量化和编码。频的采样、量化和编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转换器实现实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量
6、化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。模拟信号的数字化过程 100101100011101 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的在一定条件下,用离散的序列可以完全代表一个连续函数序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D转换,需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割,这种方法这种方法称为采样称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值波形上取一个幅度值,把时间上的连续
7、信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。(1 1)采样采样 采样频率与声音频率之间有一定的关系,只有采样频率高于声只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音的声音。2f2ff fs s 采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波
8、波形幅度的数字化表示称之为“量化量化”。量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。(2)量化量化 以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来
9、表示,如下图所示。图中每个正方形表示一次采样。D/A转换器转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真失真在采样过程中是不可避免的,如何减少失真呢如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高采用更高的采样频率。同时,增加量化精度的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样
10、率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,
11、如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储散的量,然后将其转化为代码形式传输或存储。(3)编码编码数字声音质量的主要因素数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即影响数字化声音质量的因素主要有三个,即采样频率采样频率,采样精度采样精度和和通道个数通道个数。(1)(1)声音的采样精度声音
12、的采样精度 采样精度采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。位数。换句话说,采样位数可表示采样点的等级数,若用换句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样二进制描述采样点的幅值,则可以将幅值等量分割为点的幅值,则可以将幅值等量分割为256个区,若用个区,若用16bit二进制分割,则分二进制分割,则分为为65536个区。个区。采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是
13、位数越多,声音质量越高,所占的空间就越大和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6 6分贝。分贝。8 8位的数字系统其信噪比只有位的数字系统其信噪比只有4848分贝,分贝,1616位的数字系统的信噪比可达位的数字系统的信噪比可达9696分贝分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。(2)
14、(2)声音的采样速率声音的采样速率 采样速率采样速率,即采样频率,指每秒钟采样的次数,单位为,即采样频率,指每秒钟采样的次数,单位为HzHz(赫兹)。(赫兹)。奈奎斯特采样定理指出:奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。对于以对于以11kHz11kHz的频率的采样系统,只能恢复的最高音频是的频率的采样系统,只能恢复的最高音频是5.5kHz5.5kHz。如果要把如果要把20Hz20KHz20Hz20KHz范围的模拟音频信号变换为二进制数字信号,那范围的模拟音频信号变换为二进制数字信号,那么脉冲采样频率至少应为么脉冲采样频率至少应为40KHz4
15、0KHz,其周期为,其周期为Tp=1/fp=1/40KHz=25sTp=1/fp=1/40KHz=25s。流行的采样频率主要为流行的采样频率主要为22.05KHz22.05KHz、44.1KHz44.1KHz、48KHz48KHz采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但高采精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但高采样率的数据占有很大空间。样率的数据占有很大空间。(3)(3)声音的通道个数声音的通道个数 声音的采
16、样数据还与声道数有关。单声道只有一个数据流,立声音的采样数据还与声道数有关。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的效果,但相应数据量将成倍增加。的效果,但相应数据量将成倍增加。采样数据量采样数据量 要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率和频率,以采集更多的信号样本。和频率,以采集更多的信号样本。采样数据的
17、存储容量计算公式采样数据的存储容量计算公式如下:如下:存储容量存储容量(字节字节)=)=采样频率采样频率采样精度采样精度/8/8声道数声道数 时间时间 表表6-26-2列出了列出了1 1分钟的双声道声音,采用不同采样频率和精度所需的存储分钟的双声道声音,采用不同采样频率和精度所需的存储容量。例如,采用容量。例如,采用44.1kHz44.1kHz采样频率和采样频率和1616位采样精度时,数字化后需要位采样精度时,数字化后需要的存贮容量为:的存贮容量为:44.144.116/816/82 260=10.584B 60=10.584B 采样频采样频率率kHzkHz采样精采样精度度bit存储容存储容量
18、量MB数据速率数据速率kb/s常用编常用编码方式码方式质量质量44.11610.33688.2PCM激光唱片级质量激光唱片级质量22.05165.16844.1ADPCM调频广播级质量调频广播级质量常用于伴音常用于伴音82.58422.05ADPCM11.025162.58422.05ADPCM调频广播级质量调频广播级质量常用于伴音或解常用于伴音或解说说81.29211.025ADPCM 表表6-2 6-2 几种数字化声音的信息几种数字化声音的信息 为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信
19、息的能力,具有压缩声音信息的能力,压缩方法自适应脉冲编码调制(压缩方法自适应脉冲编码调制(ADPCMADPCM)法)法ADPCMADPCM压缩编码方案的特点是:压缩编码方案的特点是:信噪比高,数据压缩倍率可达信噪比高,数据压缩倍率可达2-52-5倍,而不会倍,而不会明显失真。明显失真。2.2.音频文件的格式音频文件的格式 (1)(1)波形格式波形格式 WAVWAV文件又称波形文件,来源于对声音模拟波形的文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。进制数,然后存入
20、磁盘,这就产生了波形文件。WAVWAV文文件用于保存件用于保存WindowsWindows平台的音频信息资源,被平台的音频信息资源,被WindowsWindows平平台及其应用程序所广泛支持。台及其应用程序所广泛支持。nWave格式支持多种压缩算法,支持多种音频位数、采样格式支持多种压缩算法,支持多种音频位数、采样频率和声道,是频率和声道,是PC机上最为流行的声音文件格式,但其机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。文件尺寸较大,多用于存储简短的声音片断。(2)VOC(2)VOC文件文件 VOCVOC文件是文件是CreativeCreative公司所使用的标准音
21、频文件格式,公司所使用的标准音频文件格式,多用于保存多用于保存 Creative Sound Blaster(创新声霸创新声霸)系列声卡所采系列声卡所采集的声音数据,被集的声音数据,被Windows平台和平台和DOS平台所支持。平台所支持。MIDIMIDI文件所包含的信息完全符合文件所包含的信息完全符合GSGS的标准,所以,不仅在电脑上可以的标准,所以,不仅在电脑上可以处理和重现处理和重现MIDIMIDI音乐,也可以在不同的乐器间传输并且互相控制。音乐,也可以在不同的乐器间传输并且互相控制。MIDIMIDI文件储存着文件储存着MIDIMIDI资料和命令,包括音色、音符、时间码、速度、资料和命令
22、,包括音色、音符、时间码、速度、调号、拍号、键号等乐谱指令,能保存多达调号、拍号、键号等乐谱指令,能保存多达1616个通道的音乐信息。按照指个通道的音乐信息。按照指令中时间码的顺序,音序器能够精确地按时间合成音乐,再现文件内部的令中时间码的顺序,音序器能够精确地按时间合成音乐,再现文件内部的乐谱指令所包含的音乐旋律。乐谱指令所包含的音乐旋律。(3)MIDI(3)MIDI格式格式MIDI MIDI 事件事件所谓所谓MIDIMIDI事件,就是指当用户按下鼠标按钮、键盘或一个琴键的动作,而这个事件,就是指当用户按下鼠标按钮、键盘或一个琴键的动作,而这个动作将激活它所对应消息数据的传递,这些消息包括声
23、音、通道和模式消息数动作将激活它所对应消息数据的传递,这些消息包括声音、通道和模式消息数据。据。标准的标准的MIDIMIDI格式的文件扩展名是格式的文件扩展名是midmid,包括格式,包括格式0 0和格式和格式1 1。midmid格式格式可以用任何可以用任何MIDIMIDI软件进行创建、编辑和处理,但不能保存如强弱、其它符软件进行创建、编辑和处理,但不能保存如强弱、其它符号、歌词等信息。号、歌词等信息。为了控制软件和硬件设备,可以在文件中加入许多其他的信息,并为了控制软件和硬件设备,可以在文件中加入许多其他的信息,并随其它信息一起保存下来。这种文件格式就是非标准的随其它信息一起保存下来。这种文
24、件格式就是非标准的MIDIMIDI文件,由软文件,由软件开发商自己制定的。在这些非标准的件开发商自己制定的。在这些非标准的MIDIMIDI文件里可以记录一些文件里可以记录一些“.mid.mid”文件无法记录的内容。文件无法记录的内容。例如:可以记录强弱、其它符号、歌词的例如:可以记录强弱、其它符号、歌词的tritri格式,可以记录歌词、表格式,可以记录歌词、表情等内容的情等内容的.wrk.wrk(CakewalkCakewalk软件)格式、软件)格式、Band-In-a-boxBand-In-a-box的的“.sgu.sgu”格格式。自定格式的文件可以把效果器代码和参数、音场(指器材所再生的式
25、。自定格式的文件可以把效果器代码和参数、音场(指器材所再生的乐队所排列的形状)和位向(播放方向)、混响度等等信息通过系统码乐队所排列的形状)和位向(播放方向)、混响度等等信息通过系统码的方式保存在文件中。但当将自定格式的文件转存为标准的方式保存在文件中。但当将自定格式的文件转存为标准MIDIMIDI格式,将格式,将会忽略这些信息。会忽略这些信息。有许多播放器,如图有许多播放器,如图5-115-11所示的所示的WinGrooveWinGroove、Roland Virtual Sound Roland Virtual Sound CanvasCanvas和和YAMAHA S-YXG Player
26、YAMAHA S-YXG Player等软音源播放器,它们都支持标准的等软音源播放器,它们都支持标准的MIDIMIDI文件,并且在其中安装了软波表,从而可获得较好的效果。文件,并且在其中安装了软波表,从而可获得较好的效果。(4)(4)压缩格式压缩格式 压缩音频文件是将音频文件按一定的方式压缩而成的文件,它可降低压缩音频文件是将音频文件按一定的方式压缩而成的文件,它可降低原有文件的存储空间,更加便于存储和传递。原有文件的存储空间,更加便于存储和传递。mp3mp3 MP3MP3 即即MPEG1 Layer 3 MPEG1 Layer 3(Moving Picture Experts Group,A
27、udio Layer Moving Picture Experts Group,Audio Layer IIIIII),是),是Fraunhofer-IISFraunhofer-IIS研究所的研究成果。研究所的研究成果。由于使用了由于使用了 MPEG1 Audio Layer 3 MPEG1 Audio Layer 3 技术,可将音频文件以技术,可将音频文件以1:101:10至至 1:12 1:12 的的压缩率进行压缩。这种技术主要是利用了知觉音频编码技术,削减了音乐压缩率进行压缩。这种技术主要是利用了知觉音频编码技术,削减了音乐中人耳所听不到的成分,尽可能保持原有的音质。中人耳所听不到的成分
28、,尽可能保持原有的音质。MP3MP3文件的特点是文件存储空间和音质损坏都较小。每分钟文件的特点是文件存储空间和音质损坏都较小。每分钟MP3MP3格式的音格式的音乐文件大约占有乐文件大约占有1MB1MB左右,便于存储和网上传播。左右,便于存储和网上传播。标准的标准的MP3MP3压缩比是压缩比是1010:1 1,也可以不同的比率进行压缩。压缩得越多,也可以不同的比率进行压缩。压缩得越多,声音质量下降也将越多。声音质量下降也将越多。表表5-3 MPEG1 Audio音频文件压缩比率和播放媒体最低位率音频文件压缩比率和播放媒体最低位率Layer大约压缩比率大约压缩比率播放媒体最低位率播放媒体最低位率1
29、1:4348Kbit/s21:61:8256Kbit/s192Kbit/s31:101:12128Kbit/s112Kbit/sMP3MP3(Layer 3Layer 3)编码是)编码是MPEG1 MPEG1 AudioAudio音频压缩标准之一。音频压缩标准之一。mp3PRO mp3PRO 随着网络上收听声音和收看视频的需求不断增加,网络流媒体随着网络上收听声音和收看视频的需求不断增加,网络流媒体RealReal和和Windows MediaWindows Media格式传播的媒体质量不断提高,特别是格式传播的媒体质量不断提高,特别是MicrosoftMicrosoft推出推出的的WMAWM
30、A格式可使相同内容的格式可使相同内容的MP3MP3文件缩小至原来的一半大小,极大地冲击文件缩小至原来的一半大小,极大地冲击着着MP3MP3格式在流行应用中的地位。格式在流行应用中的地位。图图5-12 Thomson mp3PRO5-12 Thomson mp3PRO播放器播放器 mp3PROmp3PRO的特点是降低了压缩比,并可以在的特点是降低了压缩比,并可以在64KB/s64KB/s速率下最大限度速率下最大限度地保持压缩前的音质。音乐文件大小只有原地保持压缩前的音质。音乐文件大小只有原MP3MP3文件的文件的1 12 2。同时,。同时,MP3ProMP3Pro实现了高低版本的完全兼容,所以它
31、的文件类型也是实现了高低版本的完全兼容,所以它的文件类型也是mp3mp3。高。高版本的版本的MP3ProMP3Pro播放器也可以播放低版本的播放器也可以播放低版本的MP3MP3文件,低版本的播放器文件,低版本的播放器也可以播放高版本的也可以播放高版本的MP3ProMP3Pro文件,但只能播放出文件,但只能播放出mp3mp3的音质。的音质。Real MediaReal Media格式格式 Real MediaReal Media是网络流媒体文件格式。其中包含是网络流媒体文件格式。其中包含RARA、RMARMA这两个音频文件类这两个音频文件类型是由型是由Real NetworksReal Netw
32、orks公司推出的,特点是可以在低达公司推出的,特点是可以在低达28.8kbps28.8kbps的带宽下的带宽下提供足够好的音质。提供足够好的音质。较成功的较成功的Real MediaReal Media播放器是播放器是Real One PlayerReal One Player,其界面如图所示。可以获,其界面如图所示。可以获得许多服务,包括录制音频、播放得许多服务,包括录制音频、播放CDCD或音频文件、管理文件、刻录或音频文件、管理文件、刻录CDCD,并具,并具有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。在网络传输过程中,流
33、媒体是被分割处理的。首先要将原来的音频分割成在网络传输过程中,流媒体是被分割处理的。首先要将原来的音频分割成多个带有顺序标记的小数据包,经过网络的实时传递后,在接收处将重新多个带有顺序标记的小数据包,经过网络的实时传递后,在接收处将重新按顺序组织这些数据包以提供播放。按顺序组织这些数据包以提供播放。Windows MediaWindows Media MicrosoftMicrosoft推出的推出的Windows MediaWindows Media,也是一种网络流媒体技术。,也是一种网络流媒体技术。Windows MediaWindows Media包含了包含了Windows Media A
34、udio&Video Windows Media Audio&Video 编码和解码器、可选编码和解码器、可选集成数字权限管理系统和文件容器。集成数字权限管理系统和文件容器。其特点是高质量、高安全性、最全面的数字媒体格式。可用于其特点是高质量、高安全性、最全面的数字媒体格式。可用于 PCPC、机顶盒、机顶盒和便携式设备上的流式处理和下载并播放等应用程序。和便携式设备上的流式处理和下载并播放等应用程序。Windows MediaWindows Media使用高级的系统格式文件容器,支持高达使用高级的系统格式文件容器,支持高达17001700万万TBTB的文件大小的文件大小。在一个文件中可存储音频
35、、多比特率视频、元数据(如文件的标题和作者。在一个文件中可存储音频、多比特率视频、元数据(如文件的标题和作者)以及索引和脚本命令。)以及索引和脚本命令。为了确保内容与兼容的播放机相关联,提供了多种不同的文件扩展名,如表为了确保内容与兼容的播放机相关联,提供了多种不同的文件扩展名,如表5-45-4所示。所示。WMAWMA用于包括利用用于包括利用 Windows Media Audio Windows Media Audio 编解码器压缩的音频的文件,编解码器压缩的音频的文件,WMVWMV用于同时包括利用用于同时包括利用 Windows Media Audio Windows Media Audi
36、o 和和 Windows Media Video Windows Media Video 编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该存储在文件中,应使用存储在文件中,应使用ASFASF扩展名。扩展名。表表5-4 Windows Media 支持的文件扩展名支持的文件扩展名扩展名扩展名 说明说明.wmv 基于基于 Windows Media Windows Media 的文件,同时包含视频和音频的文件,同时包含视频和音频 .wma 基于基于 Windows Media Windows Media 的文件,只包含音频
37、的文件,只包含音频 .wvx 元文件,指向元文件,指向 Windows Media Video(.WMV)Windows Media Video(.WMV)文件文件 .wax 元文件,指向元文件,指向 Windows Media Audio(.WMA)Windows Media Audio(.WMA)文件文件 .asf ASF 结构的文件,包含利用其它编解码器压缩的音频结构的文件,包含利用其它编解码器压缩的音频和和/或视频内容或视频内容 .asx 元文件,指向元文件,指向 ASF ASF 结构的文件结构的文件 (.ASF)(.ASF).wms Windows Media外观文件,与外观文件,与
38、Windows Media Player Windows Media Player 7 7或高版本兼容或高版本兼容 .wmz 压缩的压缩的Windows MediaWindows Media文件,与文件,与Windows Media Windows Media Player 7 Player 7 或更高版本兼容或更高版本兼容 .wmd Windows Media下载软件包,与下载软件包,与 Windows Media Windows Media Player 7 Player 7 或更高版本兼容或更高版本兼容 常见音频格式的小结常见音频格式的小结WAV wav MicrosoftWAV wav
39、 Microsoft 可通过增加驱动程序而支持各种各样的编码技术。不适于传播和用作聆听。支持的编码技术大部分只能在Windows平台下使用。音频原始素材保存。mp3(MPEG 音频)mp3(包括mp2 mp1 mpa等)Fraunhofer-IIS 在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持。出现得比较早,因此音质不是很好。一般聆听和高保真聆听。mp3PRO mp3 Fraunhofer-IIS CodingTechnologies Thomson Multimedia 在低至64kbps的比特率下提供接近CD音质的音频质量。专利费用较高,支持的软件和硬件不多。一般聆
40、听和高保真聆听。RealMedia ra,rma RealNetworks 在极低的比特率环境下提供可听的音频质量。不适于除网络传播之外的用途。音质不是很好。网络音频流传输。Windows Media wma,asf MicrosoftWindows Media wma,asf Microsoft 功能齐全,使用方便。同时支持无失真、有失真、语音压缩方式。失真压缩方式下音质不高。必须在Windows平台下才能使用。音频档案级别保存,一般聆听,网络音频流传输。MIDI MID MIDI RMI XMI MIDI AssociationMIDI MID MIDI RMI XMI MIDI Asso
41、ciation 音频数据为乐器的演奏控制,通常不带有音频采样。没有波表硬件或软件配合时播放效果不佳。与电子乐器的数据交互,乐曲创作等。Ogg Vorbis OGG Xiph FoundationOgg Vorbis OGG Xiph Foundation 在低至64kbps的比特率下提供接近CD音质的音频质量。开放源代码,不需要支付使用许可费用。跨平台。发展较慢。推广力度不足。一般聆听和高保真聆听。VQF vqf tvq NTT Human Interface LaboratoriesVQF vqf tvq NTT Human Interface Laboratories 在低至96kbps的
42、比特率下提供接近CD音质的音频质量。相关软件太少。一般聆听。Aiff aiff AppleAiff aiff Apple 可通过增加驱动程序而支持各种各样的编码技术 一般限于苹果电脑平台使用。苹果电脑平台下音频原始素材保存。Au au SunAu au Sun Unix和Java平台下的标准文件格式。支持的压缩技术太少且音频数据格式受文件格式本身局限。Unix和Java平台下音频原始素材保存。音频文件的获取可通过音频文件的获取可通过3 3种途径:种途径:通过音频软件可以录音获取声音或语音。通过音频软件可以录音获取声音或语音。通过网络或外接设备获取,例如网上下载、电视接入、通过网络或外接设备获取
43、,例如网上下载、电视接入、CDCD设设备或备或CDCD光盘抓轨。光盘抓轨。通过现有的电子音频素材库。通过现有的电子音频素材库。3.数字音频数据的获取途径4.语音的编辑处理n通过编辑可以实现各种声音混合以及消除或降低声音中的畸变等。n一般的音频编辑软件(如WaveEdit等)都具有设置音量、渐强渐弱处理及多通道的混合等常用功能。n编辑处理WAV(音频波形)文件的软件分为单轨和多轨两种。Windows自带的“录音机”是一个单轨编辑软件,只能作简单的声音处理。专业的编辑软件有Cool Edit、Sound Forge、Vegas Audio等。利用Premiere非线性编辑软件也可以进行WAV声音文
44、件的编辑处理。5.乐器数字接口(MIDI)协议(1)“MIDI”指的是什么指的是什么?nMIDIMusical Instrument Digital InterfacenMIDI是为了把电子乐器与计算机相连而制定的一个规范,是数字音乐的国际标准。nMIDI标准规定了电子乐器与计算机连接的电缆硬件以及电子乐器之间、乐器与计算机之间传送数据的通信协议等规范。MIDI标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。(2)MIDI文件及其播放文件及其播放nMIDI声音与数字化波形声音完全不同,它不是对声波进行采样、量化和编码,而是将电子乐器键盘的弹奏信息记录下来,包括键名、力度、时值长短等,这些信息称之为MIDI消息,是乐谱的一种数字式描述。n当需要播放时,只需要从相应的MIDI文件中读出MIDI消息,生成所需要的乐器声音波形,经放大后由扬声器输出。(3)MIDI文件的生产文件的生产nMIDI文件可以通过作曲软件或电子琴制作。作曲软件电子琴键盘MIDI文件管理MIDI编辑/播放软件声音合成器立体声功放MIDI消息MIDI消息MIDI文件多媒体计算机中多媒体计算机中MIDI声音的处理过程声音的处理过程