1、第二章第二章 数字音频处理数字音频处理 在本次课中,我们将从数字音频在本次课中,我们将从数字音频的概念出发结合声音的特点介绍数字的概念出发结合声音的特点介绍数字音频在计算机中的实现,音频在计算机中的实现,音频卡的工音频卡的工作原理作原理。1 1 概述概述 一般认为,人的声音是由声道产生,当人说话一般认为,人的声音是由声道产生,当人说话时,在声道里会产生两种类型声音;时,在声道里会产生两种类型声音;一、声音媒体的特征一、声音媒体的特征自然界的声音信号究其本质是一种机械振动,自然界的声音信号究其本质是一种机械振动,是一种在空气中随时间而变化的压力信号。是一种在空气中随时间而变化的压力信号。二、语音
2、媒体二、语音媒体 第一种类型声音为浊音,为准周期脉冲,第一种类型声音为浊音,为准周期脉冲,各股空气之间的间隔称为音调周期各股空气之间的间隔称为音调周期;第二种类型为清音,它是由空气通过声道时,第二种类型为清音,它是由空气通过声道时,受声道某些部分的压缩而引起,具有更大的随受声道某些部分的压缩而引起,具有更大的随机性机性理想化的话音波形及频谱如下:理想化的话音波形及频谱如下:音调与语音的频率有关,音强即声音音调与语音的频率有关,音强即声音的大小,取决于声波的幅度,音色则是的大小,取决于声波的幅度,音色则是由混入基音的泛音所决定由混入基音的泛音所决定2 2结论结论 人的听觉范围最低可达人的听觉范围
3、最低可达20Hz20Hz,最高可,最高可达达20kHz20kHz 语音包含三要素:音调、音强、音色语音包含三要素:音调、音强、音色三人的听觉感知机理特征:三人的听觉感知机理特征:人耳对不同频段的声音的敏感程度不同;人耳对不同频段的声音的敏感程度不同;人耳对语音信号的相位变化不敏感。人耳对语音信号的相位变化不敏感。人的听觉具有掩蔽效应。这便是强音掩蔽人的听觉具有掩蔽效应。这便是强音掩蔽弱音,包括同时掩蔽和异时掩蔽两种类型;弱音,包括同时掩蔽和异时掩蔽两种类型;四、数字音频四、数字音频 自然界的声音信号究其本质是一种自然界的声音信号究其本质是一种机械振动,对信号进行处理一般需进行机械振动,对信号进
4、行处理一般需进行变换,对声音信号主要有两种变换器:变换,对声音信号主要有两种变换器:麦克风,将声音的压力变化信号转换成麦克风,将声音的压力变化信号转换成电压信号;喇叭,将电压信号转换成声电压信号;喇叭,将电压信号转换成声音的压力变化信号。音的压力变化信号。传统电子技术采用模拟音频电子技术处传统电子技术采用模拟音频电子技术处理声音信号:它以模拟电压的幅度表示声理声音信号:它以模拟电压的幅度表示声音的强弱,但计算机只认识数字信号音的强弱,但计算机只认识数字信号 在计算机中,所有信息均以数字表示。在计算机中,所有信息均以数字表示。声音信号也用一系列的数字表示,称为数声音信号也用一系列的数字表示,称为
5、数字音频。字音频。将模拟音频转换为数字音频需经采样、将模拟音频转换为数字音频需经采样、量化两个步骤。量化两个步骤。五五 音频数字化原理音频数字化原理 把模拟音频信号转换成有限个数字表把模拟音频信号转换成有限个数字表示的离散序列,即音频数字化。示的离散序列,即音频数字化。音频数字化需经历采样、量化、编码音频数字化需经历采样、量化、编码三个过程三个过程 音频信号事实上是连续信号,或称连续时音频信号事实上是连续信号,或称连续时间函数间函数x(t)x(t)。用计算机处理这些信号首先必。用计算机处理这些信号首先必须先对连续信号进行采样,即按一定的时间须先对连续信号进行采样,即按一定的时间间隔(间隔(T
6、T)取值,得到)取值,得到x(nT)x(nT)(n n为整数)。为整数)。T T称为采样周期,称为采样周期,1/T1/T称为采样频率。称称为采样频率。称x(nTx(nT)为离散信号,其过程如图为离散信号,其过程如图2-2-32-2-3所示。所示。1 1采样采样 采样过程事实上是一个抽样过程。离散信号采样过程事实上是一个抽样过程。离散信号x(nTx(nT)是从连续信号是从连续信号x(t)x(t)上取出一部分,那么用上取出一部分,那么用x(nTx(nT)能够唯一地恢复出能够唯一地恢复出x(t)x(t)吗?吗?采样定理告诉我们,若连续信号采样定理告诉我们,若连续信号x(t)x(t)的的频谱为频谱为x
7、(f)x(f),按采样时间间隔,按采样时间间隔T T采样取值得到采样取值得到x(nTx(nT),如果满足:,如果满足:当当|f|fc|f|fc时,时,fcfc是截止频率是截止频率 T 1/T 1/(2fc2fc)或或 fcfc 1/1/(2T2T)则可以由离散信号则可以由离散信号x(nTx(nT)唯一地恢复出唯一地恢复出x(t)x(t)。常用音频采样频率有:常用音频采样频率有:8kHz8kHz,11.025kHz11.025kHz,22.05kHz22.05kHz,16kHz16kHz,37.8kHz37.8kHz,44.1kHz44.1kHz,48kHz48kHz2量化量化 由于计算机中只能
8、用由于计算机中只能用0 0和和1 1两个数值表示数两个数值表示数据,连续信号据,连续信号x(t)x(t)经采样变成离散信号经采样变成离散信号x(nTx(nT)仍需用有限个仍需用有限个0 0和和1 1的序列来表示的序列来表示x(nTx(nT)的幅度。的幅度。我们把用有限个数字我们把用有限个数字0 0和和1 1表示某一电平范围的表示某一电平范围的模拟离散电压信号称为量化。模拟离散电压信号称为量化。量化过程是一个量化过程是一个A/DA/D转换的过程。在转换的过程。在量化过程中,一个重要的参数便是量化位量化过程中,一个重要的参数便是量化位数,这不仅决定着声音数据经数字化后的数,这不仅决定着声音数据经数
9、字化后的失真度,更决定着声音数据数据量的大小。失真度,更决定着声音数据数据量的大小。存储数字音频数据的比特率为:存储数字音频数据的比特率为:I=BI=Bf fs s(比特(比特/秒)秒)(2-2-12-2-1)f fs s是采样频率是采样频率 B B是每个样值的比特数是每个样值的比特数 如果量化值是均匀的,则称为均匀量化,反如果量化值是均匀的,则称为均匀量化,反之,则为非均匀量化。之,则为非均匀量化。在实际使用上,常常采用均匀量化。对非均在实际使用上,常常采用均匀量化。对非均匀量化,可先均匀量化然后用软件进行变换。匀量化,可先均匀量化然后用软件进行变换。一般而言,量化将产生一定的失真,因此,一
10、般而言,量化将产生一定的失真,因此,量化过程中每个样值的比特数直接决定着量化量化过程中每个样值的比特数直接决定着量化的精度。的精度。声卡的位数事实上便是指量化过程中每个样声卡的位数事实上便是指量化过程中每个样值的比特位数,主要有值的比特位数,主要有8 8位、位、1616位、位、3232位位 几个等级。几个等级。有格式的数据才能表达信息的含义。有格式的数据才能表达信息的含义。在实际使用中,主要有在实际使用中,主要有MicrosoftMicrosoft公司为公司为WindowsWindows操作系统定义的数字音频格式操作系统定义的数字音频格式-WaveWave文件格式,文件格式,CreativeC
11、reative公司为公司为DosDos操作系统操作系统定义的数字音频格式定义的数字音频格式-Voc-Voc文件格式,文件格式,MIDIMIDI规范定义的规范定义的MIDIMIDI标准等标准等3 3 编码并格式化编码并格式化 由于音频数据数据量极大(由于音频数据数据量极大(MIDIMIDI音频例外),因此音频例外),因此,在格式化前总是对其进行编码。,在格式化前总是对其进行编码。音频信号经数字化以后以文件形式存放于音频信号经数字化以后以文件形式存放于计算机中,当需要声音时计算机将其反格式化计算机中,当需要声音时计算机将其反格式化并输出。并输出。在计算机中,数字音频可分为波形音频、在计算机中,数字
12、音频可分为波形音频、语音和音乐。语音和音乐。何为波形音频?何为波形音频?对声音进行直接数字化处理所得到的结果对声音进行直接数字化处理所得到的结果称为波形音频,是对外界连续声音波形进行采称为波形音频,是对外界连续声音波形进行采样并量化的结果。样并量化的结果。六、数字音频的输出六、数字音频的输出 在计算机中,声音产生有两种方法:一在计算机中,声音产生有两种方法:一是录音是录音/重放,二是声音合成。重放,二是声音合成。若采用第一种方法,首先要把模拟语音若采用第一种方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,储设备中
13、(录音),需要时,再经解码,重建声音信号(重放)。用这种方法处理重建声音信号(重放)。用这种方法处理产生的声音称为波形音频,可获得高音质产生的声音称为波形音频,可获得高音质的声音,并能保留特定人或乐器的特色。的声音,并能保留特定人或乐器的特色。美中不足是所需的存储空间较大。美中不足是所需的存储空间较大。第二种方法是一种基于声音合成的声音第二种方法是一种基于声音合成的声音产生技术,包括语音合成、音乐合成两大类。产生技术,包括语音合成、音乐合成两大类。语音合成亦称文语音合成亦称文-语转换,它能把计算语转换,它能把计算机中的文字转换成连续自然的语音流。机中的文字转换成连续自然的语音流。若采用这种方法
14、进行语音输出,应先建立语若采用这种方法进行语音输出,应先建立语音参数数据库、发音规则库,需要输出语音时音参数数据库、发音规则库,需要输出语音时,系统按需求先合成语音单元,再按语音学规,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。则或语言学规则,连接成自然的语流。第二种方法是解决计算机声音输出的最佳方第二种方法是解决计算机声音输出的最佳方案,但第二种方法涉及多个科技领域,走向实案,但第二种方法涉及多个科技领域,走向实用有很多难点。用有很多难点。目前普遍应用的是音乐合成目前普遍应用的是音乐合成 综上所述,数字音频在计算机中实现需经历综上所述,数字音频在计算机中实现需经历
15、音频数字化、数字音频在计算机中输出两个过音频数字化、数字音频在计算机中输出两个过程。在这个实现过程中,音频卡是完成此过程程。在这个实现过程中,音频卡是完成此过程的关键。的关键。七七 音频卡工作原理简介音频卡工作原理简介 处理音频信号的处理音频信号的PCPC插卡是音频卡(插卡是音频卡(Audio Audio CardCard),又称声音卡(简称声卡)。),又称声音卡(简称声卡)。音频卡分类有多种方法,根据数据采样量化音频卡分类有多种方法,根据数据采样量化的位数来分,通常可分为的位数来分,通常可分为8 8位、位、1616位、位、3232位等位等几个等级。几个等级。(一)音频卡的主要功能有:(一)音
16、频卡的主要功能有:1 1 音频的录制与播放音频的录制与播放2 2 音频文件的编辑与合成音频文件的编辑与合成3 3 MIDIMIDI接口和音乐合成接口和音乐合成4 4 文语转换和语音识别文语转换和语音识别(二)(二)音频卡的原理与组成音频卡的原理与组成第第 2 2 课课 本次课主要介绍本次课主要介绍计算机中的三种常计算机中的三种常见声音见声音,WAVWAV波形音频格式及其处理波形音频格式及其处理技术。技术。学时数较少时可不介绍学时数较少时可不介绍WAVWAV波形音波形音频格式。频格式。一一 计算机中的三种常见声音计算机中的三种常见声音 目前,计算机中主要有三种常见声音:目前,计算机中主要有三种常
17、见声音:WAVEWAVE波形音频、波形音频、MIDIMIDI音频和音频和CDCD音频。音频。波形音频是应用最广泛的一种数字音频形式,波形音频是应用最广泛的一种数字音频形式,流行的格式有:流行的格式有:WAVWAV文件格式、文件格式、VOCVOC文件格式及文件格式及MP3,WMA,OGG,MP3pro,AAC,VQF,ASFMP3,WMA,OGG,MP3pro,AAC,VQF,ASF等等有损压缩编码格式。有损压缩编码格式。WAVWAV波形音频是波形音频是MicrosoftMicrosoft公司为公司为WindowsWindows操作系统定义的数字音频格式,操作系统定义的数字音频格式,VOCVOC
18、文件是文件是CreativeCreative公司为公司为DosDos操作系统定义的数字音频操作系统定义的数字音频格式。格式。WAVWAV文件、文件、VOCVOC文件均是声音录制完成后的文件均是声音录制完成后的原始音频格式,一般不压缩,因此所占存储空原始音频格式,一般不压缩,因此所占存储空间较大,尤其不适合于网络传输与发布。间较大,尤其不适合于网络传输与发布。其数据量计算公式如下(单位:字节其数据量计算公式如下(单位:字节/秒):秒):如如1 1分钟的分钟的CDCD音质、音质、1616位立体声音频数据,位立体声音频数据,其数据量为:其数据量为:MP3MP3全称是全称是MPEG Audio Lay
19、e-3MPEG Audio Laye-3,具有较高,具有较高的压缩效率。的压缩效率。VBR(VBR(可变编码率可变编码率)和和ABR(ABR(平均编平均编码率码率)压缩编码方式引入后,压缩编码方式引入后,MP3MP3文件已具有较文件已具有较理想的音质。理想的音质。WMAWMA全称全称Windows Media AudioWindows Media Audio,相对于,相对于MP3MP3的最大特点就是有极强的可保护性。的最大特点就是有极强的可保护性。MP3MP3、WMAWMA均是目前网络上流行的声音媒体均是目前网络上流行的声音媒体格式。格式。CDCD音频具有悠久的历史和丰富的资源,以音频具有悠久
20、的历史和丰富的资源,以光盘为载体,按照音轨组织声音数据。光盘为载体,按照音轨组织声音数据。CDCD音频音频记录的依旧是声音的波形,不过它不是按照文记录的依旧是声音的波形,不过它不是按照文件方式存储组织。件方式存储组织。MIDIMIDI是是MusicalMusical Instrument Instrument DigitialDigitial InterfaceInterface的缩写,是音乐与计算机结合的产的缩写,是音乐与计算机结合的产物,是一项工业产品的产物,泛指数字音乐的物,是一项工业产品的产物,泛指数字音乐的国际标准国际标准。通俗地说,通俗地说,MIDIMIDI文件记录的是音乐的乐谱。
21、文件记录的是音乐的乐谱。MIDIMIDI给出了在计算机中得到音乐声音的另外给出了在计算机中得到音乐声音的另外一种方法,且这种方法极为节省空间,但关键一种方法,且这种方法极为节省空间,但关键是是MIDIMIDI音乐作为一种媒体应能记录这些音乐的音乐作为一种媒体应能记录这些音乐的符号,相应的设备能够产生和解释这些符号。符号,相应的设备能够产生和解释这些符号。必须指出的是,虽然波形音频能够实现全部必须指出的是,虽然波形音频能够实现全部的声音,但的声音,但MIDIMIDI音频、音频、CDCD音频亦是不可代替,音频亦是不可代替,这是由其本质差异所决定的。这是由其本质差异所决定的。WAV WAV 声音是声
22、音是MicrosoftMicrosoft公司为公司为WindowsWindows操作系统定义的数字音频格式,它是波操作系统定义的数字音频格式,它是波形音频的一种;形音频的一种;二二 WAV声音及其应用声音及其应用 要理解要理解WAVWAV文件格式,首先应了解文件格式,首先应了解WindowsWindows操作系统操作系统RIFFRIFF文件格式。文件格式。RIFFRIFF(Resource InterexchangeResource Interexchange File File FormatFormat)文件格式是)文件格式是IBM/MicrosoftIBM/Microsoft公司为公司为W
23、indowsWindows操作系统定义的资源交换文件操作系统定义的资源交换文件 格式。格式。RIFFRIFF文件格式规定文件的基本结构是块,文件格式规定文件的基本结构是块,每个块的前四个字节为块名,接着四个字节每个块的前四个字节为块名,接着四个字节为块数据区大小,块的末尾为第二个四个字为块数据区大小,块的末尾为第二个四个字节规定的数据区大小的数据。节规定的数据区大小的数据。在在WindowsWindows操作系统中,绝大多数文件操作系统中,绝大多数文件均符合均符合RIFFRIFF文件格式,文件格式,WAVWAV文件便是其中之文件便是其中之一。一。RIFFRIFF文件格式认为,文件的基本结构是块
24、;文件格式认为,文件的基本结构是块;【例【例2.4.12.4.1】分析分析“Windows XP Windows XP 登录登录音音.wav”.wav”文件的头数十字节数据内容?文件的头数十字节数据内容?00000000h:52 49 46 46 F8 E6 02 00 00000000h:52 49 46 46 F8 E6 02 00 57 41 56 45 66 6D 74 20 57 41 56 45 66 6D 74 20 00000010h:10 00 00 00 01 00 02 00 00000010h:10 00 00 00 01 00 02 00 22 56 00 00 88
25、 58 01 00 22 56 00 00 88 58 01 0000000020h:04 00 10 00 64 61 74 61 00000020h:04 00 10 00 64 61 74 61 D4 E6 02 00 00 00 00 00 D4 E6 02 00 00 00 00 0000000030h:00 00 00 00 03 00 01 00 00000030h:00 00 00 00 03 00 01 00 07 00 05 00 0F 07 00 05 00 0F(1 1)最左边的最左边的8 8个数字表示数据在文件中的位置个数字表示数据在文件中的位置,每个数据占,每个数据
26、占1 1个字节,数据中的每个字母占个字节,数据中的每个字母占4 4个个二进制位。具体分析时,对照二进制位。具体分析时,对照2.4.12.4.1小节定义的表小节定义的表格及格及C C结构,逐组分析上面数据的含义。结构,逐组分析上面数据的含义。对照表对照表2.4.1:2.4.1:52 49 46 46 52 49 46 46表示块名,数据类型为字符,表示块名,数据类型为字符,用用ASCASC码表示为码表示为“RIFF”RIFF”F8 E6 02 00 F8 E6 02 00为为“RIFF”RIFF”块长度,数据类型块长度,数据类型为为long intlong int,用十进制表示为,用十进制表示为
27、190,200190,200(对数值型数据,计算机中的存储顺序为:(对数值型数据,计算机中的存储顺序为:低位在前,高位在后,低位在前,高位在后,F8 E6 02 00F8 E6 02 00表示表示1616进进制数:制数:2E6 F82E6 F8),),190,200+8=190,208190,200+8=190,208为为“Windows XP Windows XP 登录音登录音.wav”.wav”文件实际长度;文件实际长度;紧接其后为紧接其后为“RIFF”RIFF”块数据。块数据。(2 2)“RIFF”RIFF”块数据前四个字节块数据前四个字节57 41 56 4557 41 56 45用用
28、ASCASC码表示为码表示为“WAVE”WAVE”,紧接其后有两个紧接其后有两个RIFFRIFF格式数据块,其块名分别为:格式数据块,其块名分别为:“fmtfmt”、“data”data”。(3 3)第一个块为)第一个块为“fmtfmt”块,块,66 6D 74 2066 6D 74 20用用ASCASC码表示为码表示为“fmtfmt”,10 00 00 0010 00 00 00为为“fmtfmt”块长度(块长度(“fmtfmt”块名后的块名后的4 4个字节许个字节许多实际多实际WAVWAV文件并不严格按照文件并不严格按照“fmtfmt”块长度定块长度定义),用十进制表示为义),用十进制表示
29、为1616,它表示后面,它表示后面1616字节字节为为“fmtfmt”块数据。块数据。(4 4)“f m tf m t ”块 数 据 具 体 含 义 定 义 见块 数 据 具 体 含 义 定 义 见WAVEFORMATWAVEFORMAT,对照着,对照着WAVEFORMATWAVEFORMAT结构,可以看结构,可以看出,出,“Windows XP Windows XP 登录音登录音.wav”.wav”为为PCM PCM 编码编码格式,格式,22.050 kHz22.050 kHz,16 16 位,位,立体声立体声WAVWAV声音声音格式文件。格式文件。(5 5)该)该WAVWAV文件没有文件没
30、有“fact”fact”块,块,“fmtfmt”块块数据后面为数据后面为“data”data”块,块,64 61 74 6164 61 74 61用用ASCASC码表示为码表示为“data”data”,D4 E6 02 00D4 E6 02 00为为“data”data”块长度,用十进制表示为块长度,用十进制表示为190164190164。必须指出的是,必须指出的是,“data”data”块包含的数字化波形块包含的数字化波形声音数据,其存放格式依赖于声音数据,其存放格式依赖于“fmtfmt”块指定块指定的格式种类,单声道样本一般连续存放,多声的格式种类,单声道样本一般连续存放,多声道样本一般交
31、替存放,存放实例如表道样本一般交替存放,存放实例如表2.4.32.4.3所示。所示。有了有了WAVWAV文件最低级的格式分析,便可以文件最低级的格式分析,便可以编程访问编程访问WAVWAV文件的数据块并进行相应的数据文件的数据块并进行相应的数据处理,此处不再另举实例。处理,此处不再另举实例。三三 通过通过MCI接口使用接口使用WAV文件文件 对多媒体程序开发,对多媒体程序开发,WindowsWindows操作系统将低级操作系统将低级驱动与高级编程相分离,将各种常见媒体定义为驱动与高级编程相分离,将各种常见媒体定义为多媒体设备,为其编写了低级驱动程序(或由所多媒体设备,为其编写了低级驱动程序(或
32、由所对应的多媒体设备厂商提供),并在低级驱动程对应的多媒体设备厂商提供),并在低级驱动程序的基础上定义了诸如序的基础上定义了诸如openopen、stopstop、endend等类似等类似的高级函数接口,称为的高级函数接口,称为MCIMCI(Media Control Media Control InterfaceInterface)多媒体控制接口。)多媒体控制接口。在在WindowsWindows系统中,系统中,WAVWAV文件的多媒体设备文件的多媒体设备名为名为waveaudiowaveaudio,可以通过阅读,可以通过阅读system.inisystem.ini文文件的件的mcimci段
33、得到验证。段得到验证。对对MCIMCI高级函数的调用,高级函数的调用,WindowsWindows系统为其定系统为其定义了两种方式:义了两种方式:1.1.多媒体设备消息方式多媒体设备消息方式 在具体实现上,通过调用在具体实现上,通过调用Windows API Windows API mciSendCommandmciSendCommand函数来实现。函数来实现。2.2.多媒体设备命令字符串方式多媒体设备命令字符串方式 在具体实现上,通过调用在具体实现上,通过调用Windows API Windows API mciSendString mciSendString函数来实现。函数来实现。3.3.
34、为方便编程,为方便编程,WindowsWindows提供了一种更为简洁提供了一种更为简洁的方式,其播放的方式,其播放SOUNDER.WAVSOUNDER.WAV文件的程序如下:文件的程序如下:sndPlaySoundsndPlaySound(sounder.wav,SND_SYNC);(sounder.wav,SND_SYNC);4.4.高级控件方法高级控件方法四四 WAV声音的编辑与处理声音的编辑与处理 WAVWAV文件为常用音频格式文件,得到了几乎文件为常用音频格式文件,得到了几乎所有音频处理软件(如所有音频处理软件(如MediaStudioMediaStudio、WaveStudioWa
35、veStudio、GoldWaveGoldWave、CoolEditCoolEdit等)的支等)的支持。持。下面以下面以GoldWaveGoldWave汉化版为例介绍数字音频汉化版为例介绍数字音频编辑与处理的基本知识编辑与处理的基本知识 GoldWaveGoldWave是一个功能强大的专业数字音频是一个功能强大的专业数字音频编辑软件,支持几乎所有的数字音频格式,具编辑软件,支持几乎所有的数字音频格式,具有精密的过滤器、多种专业的音频效果,通过有精密的过滤器、多种专业的音频效果,通过表达式求值程序,理论上可以制造任意声音,表达式求值程序,理论上可以制造任意声音,支持从简单的声调到复杂的过滤器,内
36、置的表支持从简单的声调到复杂的过滤器,内置的表达式有电话拨号音的声调、波形和效果等,其达式有电话拨号音的声调、波形和效果等,其工作界面如图工作界面如图2-4-12-4-1所示所示 1 1格式转换格式转换GoldWaveGoldWave支持几乎所有的数字音频文件格式,支持几乎所有的数字音频文件格式,可完成不同类型文件之间的转换,如将可完成不同类型文件之间的转换,如将WAVWAV文件文件转换为转换为mp3mp3格式;也可完成同一类型文件不同制格式;也可完成同一类型文件不同制作格式之间的转换。具体实现方法如下:作格式之间的转换。具体实现方法如下:启动启动GoldWaveGoldWave,打开待进行格
37、式转换的文件并,打开待进行格式转换的文件并单击单击“文件文件”-“-“另存为另存为”,在弹出的,在弹出的“另存另存为为”任务窗格中,选择你的目标文件保存类型任务窗格中,选择你的目标文件保存类型及属性即可及属性即可。演示演示CDCD抓音轨、抓音轨、mp3mp3制作等制作等 2.2.波形编辑波形编辑 在图在图2-4-22-4-2所示所示GoldWaveGoldWave工作界面中,工作界面中,屏幕中央的上下波形便是打开的数字音频文屏幕中央的上下波形便是打开的数字音频文件的具体的数据波形,上面区域对应左声道件的具体的数据波形,上面区域对应左声道波形,下面区域对应右声道波形,可利用波形,下面区域对应右声
38、道波形,可利用GoldWaveGoldWave直接对声音波形进行编辑,以达到直接对声音波形进行编辑,以达到所需要的效果。所需要的效果。(1 1)波形选择)波形选择 选择要进行操作的波形是波形编辑的第一步选择要进行操作的波形是波形编辑的第一步。选择具体波形的方法有多种,如鼠标拖动选选择具体波形的方法有多种,如鼠标拖动选择。也可在波形图上用鼠标右键确定选择波形择。也可在波形图上用鼠标右键确定选择波形的开始和结束标记,参考界面如图的开始和结束标记,参考界面如图2-4-32-4-3所示。所示。图中,选中的波形以较亮的颜色并配以蓝色图中,选中的波形以较亮的颜色并配以蓝色底色显示,未选中的波形以较淡的颜色
39、并配以底色显示,未选中的波形以较淡的颜色并配以黑色底色显示黑色底色显示 (2 2)波形的插入与混入)波形的插入与混入波形的插入是指在当前打开的音频文件的当前波形的插入是指在当前打开的音频文件的当前位置前插入另一段音频波形位置前插入另一段音频波形。在在GoldWave中实现方法如下:选择用于插入的音频数据段,将其复制到剪贴板。中实现方法如下:选择用于插入的音频数据段,将其复制到剪贴板。打开需要插入的音频文件,选择某个需要插入的波形段,将复制到剪贴板的音频数据打开需要插入的音频文件,选择某个需要插入的波形段,将复制到剪贴板的音频数据段粘贴到当前段即可。段粘贴到当前段即可。波形的混入是指把当前打开的
40、音频文件的当前波形的混入是指把当前打开的音频文件的当前位置之后的音频数据段与另一个音频数据段二位置之后的音频数据段与另一个音频数据段二者合成一个音频数据段者合成一个音频数据段。在在GoldWave中实现方法如下:打开一个声音文件,选择要混和的声音段,按中实现方法如下:打开一个声音文件,选择要混和的声音段,按CTRL+C复制,关闭这个声音文件,打开另一个声音文件,选择要混和的声音段,复制,关闭这个声音文件,打开另一个声音文件,选择要混和的声音段,按按CTRL+V粘贴,两个声音文件就混和了。粘贴,两个声音文件就混和了。(3 3)其它编辑功能)其它编辑功能1、加回声:单击、加回声:单击效果效果-回声
41、回声,进行相应选择后确定。,进行相应选择后确定。2、消除噪音:单击、消除噪音:单击效果效果-过滤过滤-减少噪声减少噪声,进行相应选,进行相应选择后确定。择后确定。3、音量大小处理:单击、音量大小处理:单击效果效果-卷卷-最大化最大化,进行相应选,进行相应选择后确定。择后确定。4、文件大小调整:单击、文件大小调整:单击效果效果-大小调整大小调整,选择频率后确定。,选择频率后确定。5、升降调:单击、升降调:单击效果效果-音调音调,选择后确定。,选择后确定。6、变速:单击、变速:单击效果效果-语速调整语速调整,选择后确定。,选择后确定。7、渐强:单击、渐强:单击效果效果-卷卷-淡入渐弱淡入渐弱,选择
42、后确定。,选择后确定。8、渐弱:单击、渐弱:单击效果效果-卷卷-最大化最大化,选择后确定。,选择后确定。(4 4)其它效果其它效果 利用利用GoldWaveGoldWave对声音做诸如拷贝、删除、对声音做诸如拷贝、删除、剪裁等处理当然是最常用的编辑操作剪裁等处理当然是最常用的编辑操作上机应用题上机应用题请用请用GoldWaveGoldWave编辑编辑“Windows XP Windows XP 登录音登录音.wav”.wav”声声音文件,具体要求如下:音文件,具体要求如下:(1 1)将其音频波形平坦处音量加大到与非平坦处将其音频波形平坦处音量加大到与非平坦处可以比拟可以比拟(2 2)只保留左声
43、道音频数据,右声道复制一些背只保留左声道音频数据,右声道复制一些背景音乐景音乐(3 3)适当剪裁适当剪裁 3 3、用用GOLDWAVEGOLDWAVE录音:录音:1、单击、单击“文件文件”-“新建新建”,在对话框中选择,在对话框中选择“声道声道”(一(一般选双声道)、频率(一般选般选双声道)、频率(一般选44100或或48100)、拟录时)、拟录时间。间。2、按住、按住CTRL键,同时单击键,同时单击“录音设备控制录音设备控制”面板中的红色面板中的红色录音按钮,进行录音。(如果录音按钮,进行录音。(如果“录音设备控制录音设备控制”面板没出面板没出现,则单击现,则单击“工具工具”-“录音设备控制
44、录音设备控制”。)。)3、单击、单击“录音设备控制录音设备控制”面板中的面板中的“停止停止”按钮,停止录按钮,停止录音。音。4、对录音进行处理。(具体处理方法见三)、对录音进行处理。(具体处理方法见三)6、保存:单击、保存:单击文件文件-保存保存,选择保存路径并输入文件名,选择保存路径并输入文件名,确定。确定。第第3 课课 本次课介绍本次课介绍PCMPCM编码原理及其实现。编码原理及其实现。纯应用专业本课也可不讲,以保证网纯应用专业本课也可不讲,以保证网页设计内容的学时数页设计内容的学时数引言:引言:编码的目的总是在于压缩数据,而音频数据编码的目的总是在于压缩数据,而音频数据存在压缩的基础。这
45、主要体现在以下几个方面:存在压缩的基础。这主要体现在以下几个方面:1.1.时域信息具有较大冗余时域信息具有较大冗余 2.2.频域信息存在冗余频域信息存在冗余 3.3.人的听觉具有其自身的特点人的听觉具有其自身的特点音频编码的分类如下:音频编码的分类如下:(1 1)基于音频数据的统计特性进行编码,)基于音频数据的统计特性进行编码,其典型技术是波形编码;其典型技术是波形编码;(2 2)基于音频数据的声学参数进行编码。)基于音频数据的声学参数进行编码。(3 3)基于人的听觉特性进行编码。)基于人的听觉特性进行编码。一、一、PCMPCM编码的含义编码的含义 PCMPCM编码原理在第二节数字音频在计算编
46、码原理在第二节数字音频在计算机中的实现已经涉及过,机中的实现已经涉及过,PCMPCM编码的过编码的过程事实上是将连续模拟信号变成离散程事实上是将连续模拟信号变成离散的幅度信号、再把离散的幅度信号变的幅度信号、再把离散的幅度信号变成离散的数字信号的过程,这也就是成离散的数字信号的过程,这也就是音频数字化的过程。音频数字化的过程。其原理如图。其原理如图。在上述在上述PCMPCM编码过程中,若以大于两倍的信编码过程中,若以大于两倍的信号最大频率采样,在采样过程中不产生失真。号最大频率采样,在采样过程中不产生失真。在量化过程中,有一定数量的误差或失真引在量化过程中,有一定数量的误差或失真引入到样本中,
47、这种误差称为量化噪声。入到样本中,这种误差称为量化噪声。一般情况下,我们总是希望量化噪声尽量小,一般情况下,我们总是希望量化噪声尽量小,输入信号的动态范围应予以保证。在这种情况输入信号的动态范围应予以保证。在这种情况下,我们总是采用增加量化位数来实现。从这下,我们总是采用增加量化位数来实现。从这个角度,个角度,1616位声卡的信噪比接近位声卡的信噪比接近90dB90dB,可达到,可达到高保真的要求。高保真的要求。二、二、PCMPCM编码量化的两种方式编码量化的两种方式 (1 1)均匀量化:均匀量化:无论对大信号还是小信号,一律都无论对大信号还是小信号,一律都采用相同的量化间隔采用相同的量化间隔
48、 问题:为适应输入信号的动态范围问题:为适应输入信号的动态范围变化大,而又要求量化噪声小,解决的变化大,而又要求量化噪声小,解决的办法之一就是增加样本的量化位数。办法之一就是增加样本的量化位数。PCMPCM编码系统就没有得到充分的利用编码系统就没有得到充分的利用 (2 2)不均匀量化)不均匀量化 根据输入样本的幅度大小去改变根据输入样本的幅度大小去改变量化间隔。量化间隔。比如,可以采用量化间隔与量化比如,可以采用量化间隔与量化幅度成正比的线性量化器,输入信号幅度成正比的线性量化器,输入信号幅度越大,量化间隔越大。这样,在幅度越大,量化间隔越大。这样,在满足信号及量化噪声比的情况下,对满足信号及
49、量化噪声比的情况下,对小信号和大信号,就可以使用较少的小信号和大信号,就可以使用较少的位数来表示每个样本的值。位数来表示每个样本的值。(3 3)压扩编码)压扩编码 在某些应用中,对于不同分布的在某些应用中,对于不同分布的信源使用不同的量化器不大现实,人信源使用不同的量化器不大现实,人们宁可选用那些对输入信号概率分布们宁可选用那些对输入信号概率分布的变化相对不敏感的量化特性。如先的变化相对不敏感的量化特性。如先用一个非线性函数进行压缩变换,然用一个非线性函数进行压缩变换,然后再均匀量化。后再均匀量化。一个典型的压缩和扩展的特性如一个典型的压缩和扩展的特性如图图 三、三、律压扩算法律压扩算法 律压
50、扩特性按下式确定律压扩特性按下式确定 式中,式中,sgnsgn(x x)为符号函数,)为符号函数,x x为输入为输入信号幅度,归一化值为信号幅度,归一化值为-1x1-1x1;为确定压缩量的参数,一般来说,为确定压缩量的参数,一般来说,100500100500。律压扩的逆特性按下式确定律压扩的逆特性按下式确定 式中,式中,sgnsgn(y y)为符号函数,)为符号函数,y y为压缩值,为压缩值,归一化值为归一化值为-1y1-1y1;为压扩参数。为压扩参数。当选择当选择=255=255时,压扩特性可用时,压扩特性可用8 8条折线条折线来表示,这就大大简化了计算过程。来表示,这就大大简化了计算过程。