1、多媒体音频技术第二章数字音频技术多媒体音频技术2.1 2.1 数字音频基础数字音频基础2.2 2.2 数字音频压缩标准数字音频压缩标准2.3 2.3 声卡与电声设备声卡与电声设备2.4 MIDI2.4 MIDI与音乐合成与音乐合成2.5 2.5 音频编辑软件音频编辑软件2.6 2.6 语音识别技术语音识别技术本章小结本章小结多媒体音频技术2-3一、声音的基本概念一、声音的基本概念 声音是通过一定介质传播的连续的波。声音是通过一定介质传播的连续的波。t振幅周期A振幅:音量的大小振幅:音量的大小周期:重复出现的时间间隔周期:重复出现的时间间隔频率:指信号每秒钟变化的次数频率:指信号每秒钟变化的次数
2、多媒体音频技术2-4 声音按频率分类:声音按频率分类:次声波次声波可听声波可听声波超声波超声波20Hz20kHzf(Hz)语音信号频率范围:语音信号频率范围:300300Hz-3kHzHz-3kHz10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电话f(Hz)声音质量的频率范围:声音质量的频率范围:多媒体音频技术2-5 声音的传播携带了信息,它是人类传播声音的传播携带了信息,它是人类传播信息的一种主要媒体。信息的一种主要媒体。声音的三种类型声音的三种类型:波形声音波形声音:包含了所有声音形式:包含了所有声音形式 语音语音:不仅是波形声音,而且还有丰
3、富:不仅是波形声音,而且还有丰富的语言内涵的语言内涵(抽象抽象提取特征提取特征意义理解意义理解)音乐音乐:与语音相比,形式更规范。:与语音相比,形式更规范。音乐是符号化的声音。音乐是符号化的声音。多媒体音频技术2-6二、声音的数字化二、声音的数字化 1.1.声音信号的类型声音信号的类型 模拟信号模拟信号(自然界、物理自然界、物理)数字信号数字信号(计算机计算机)2.2.声音数字化过程声音数字化过程采样采样量化量化编码编码模拟信号模拟信号数字信号数字信号模拟信号模拟信号数字信号数字信号A/D ADCD/A DAC多媒体音频技术2-7 3.3.声音数字化过程声音数字化过程连续的模拟声音信号连续的模
4、拟声音信号声音信号的采样声音信号的采样离散的音频信号离散的音频信号多媒体音频技术2-8 4.4.声音数字化三要素声音数字化三要素每秒钟抽取声每秒钟抽取声波幅度样本的波幅度样本的次数次数每个采样点用每个采样点用多少二进制位多少二进制位表示数据范围表示数据范围使用声音通道的使用声音通道的个数个数采样频率越高采样频率越高声音质量越好声音质量越好数据量也越大数据量也越大量化位数越多量化位数越多音质越好音质越好数据量也越大数据量也越大立体声比单声道立体声比单声道的表现力丰富,的表现力丰富,但数据量翻倍但数据量翻倍11.02511.025kHzkHz22.05 kHz22.05 kHz44.1 kHz44
5、.1 kHz 8 8位位2562561616位位6553665536单声道单声道立体声立体声多媒体音频技术2-9 5.5.声音数字化的数据量声音数字化的数据量 音频数据量采样频率量化位数音频数据量采样频率量化位数 声道数声道数/8/8(字节字节/秒秒)11.02511.0258 810.7710.7721.5321.53161621.5321.5343.0743.0722.0522.058 821.5321.5343.0743.07161643.0743.0786.1386.1344.144.18 843.0743.0786.1386.13161686.1386.13172.27172.27多
6、媒体音频技术2-10三、音频的文件格式三、音频的文件格式 1.1.WAVWAV文件文件 WAVWAV是是Microsoft/IBMMicrosoft/IBM共同开发的共同开发的PCPC波形波形文件。因未经压缩,文件数据量很大。文件。因未经压缩,文件数据量很大。特点特点:声音层次丰富,还原音质好:声音层次丰富,还原音质好 2.2.MP3MP3文件文件 MP3(MPEG Audio layer3)MP3(MPEG Audio layer3)是一种按是一种按MPEGMPEG标准的音频压缩技术制作的音频文件。标准的音频压缩技术制作的音频文件。特点特点:高压缩比:高压缩比(11:1)(11:1),优美音
7、质,优美音质多媒体音频技术2-11 3.3.RARA文件文件 RA(RealAudioRA(RealAudio,即时播音系统)新型流,即时播音系统)新型流式音频,式音频,RARA、RMRM、RMXRMX。特点特点:在低速的广域网上实时传输音频:在低速的广域网上实时传输音频 4.4.WMAWMA文件文件 WMA(Windows Media Audio)WMA(Windows Media Audio)是是Windows Windows MediaMedia格式中的一个子集格式中的一个子集(音频格式音频格式)。特点特点:压缩到:压缩到MP3MP3一半一半多媒体音频技术2-12 5.MIDI5.MID
8、I和和RMIRMI文件文件 MIDI(MIDI(乐器数字接口乐器数字接口)是由一组音乐、乐是由一组音乐、乐谱或乐器符号的数字集合。谱或乐器符号的数字集合。特点特点:播放效果与硬件相关,数据量很:播放效果与硬件相关,数据量很小,音质不高、音色单调等小,音质不高、音色单调等 6.VOC6.VOC文件文件 创新公司开发的声音文件格式,由文件创新公司开发的声音文件格式,由文件头块和音频数据块组成。头块和音频数据块组成。多媒体音频技术2-13四、音频的采集与处理四、音频的采集与处理 1.1.声音的采集声音的采集l录音软件录音软件l专业录音棚专业录音棚l唱盘活录音带转录唱盘活录音带转录l数字音频库数字音频
9、库 2.2.声音的处理声音的处理 剪接、降噪、均衡、效果、动态处理、剪接、降噪、均衡、效果、动态处理、格式转换。格式转换。多媒体音频技术2-14一、音频压缩方法概述一、音频压缩方法概述编码器编码器传输传输/存储存储解码器解码器输入音频信号输入音频信号输出音频信号输出音频信号压缩编码技术是指用某种方法使压缩编码技术是指用某种方法使数字化信息的编码率降低的技术数字化信息的编码率降低的技术 音频信号能压缩的基本依据音频信号能压缩的基本依据:声音信号中存在大量的冗余度;声音信号中存在大量的冗余度;人的听觉具有强音抑制弱音的现象;人的听觉具有强音抑制弱音的现象;低频段敏感、高频段不敏感。低频段敏感、高频
10、段不敏感。多媒体音频技术2-15 音频信号压缩编码的分类音频信号压缩编码的分类:无损压缩无损压缩(熵编码熵编码)霍夫曼编码、算术编码、行程编码霍夫曼编码、算术编码、行程编码 有损压缩有损压缩 波形编码波形编码-PCM-PCM、DPCMDPCM、ADPCMADPCM 子带编码、矢量量化子带编码、矢量量化 参数编码参数编码-LPC-LPC 混合编码混合编码-MPLPC-MPLPC、CELPCELP多媒体音频技术2-16二、音频压缩技术标准二、音频压缩技术标准电话语电话语音质量音质量G.711G.711采样采样8 8kHzkHz,量化量化8 8bitbit,码率码率6464kbpskbpsG.721
11、G.721采用采用ADPCMADPCM编码,码率编码,码率3232kbpskbpsG.723G.723采用采用ADPCMADPCM有损压缩,码率有损压缩,码率2424kbpskbpsG.728G.728采用采用LD-CELPLD-CELP压缩技术,码率压缩技术,码率1616kbpskbps调幅广调幅广播质量播质量G.722G.722采样采样1616kHzkHz,量化量化1414bitbit,码率码率224(64)224(64)kbpskbps高保真高保真立体声立体声MPEGMPEG音频音频采样采样44.144.1kHzkHz,量化量化1616bitbit,码率码率705705kbps(MPEG
12、kbps(MPEG三个压缩层次,三个压缩层次,384-384-6464kbps)kbps)多媒体音频技术2-17三、音频压缩工具三、音频压缩工具 音频文件转换:音频文件转换:Audio ConverterAudio Converter、另存为、另存为 MP3MP3压缩工具:压缩工具:MP3ResizerMP3Resizer多媒体音频技术2-18一、声卡一、声卡(声音卡、音频卡声音卡、音频卡)1.1.声卡的主要功能声卡的主要功能 声卡是负责录音、播音和声音合成的一声卡是负责录音、播音和声音合成的一种多媒体板卡。其功能包括:种多媒体板卡。其功能包括:录制、编辑和回放数字音频文件录制、编辑和回放数字
13、音频文件控制和混合各声源的音量控制和混合各声源的音量记录和回放时进行压缩和解压缩记录和回放时进行压缩和解压缩语音合成技术语音合成技术(朗读文本朗读文本)语音识别技术语音识别技术具有具有MIDIMIDI接口接口(乐器数字接口乐器数字接口)多媒体音频技术2-19 2.2.声卡的组成原理声卡的组成原理线性输出线性输出总线接口芯片总线接口芯片数字音频处理芯片数字音频处理芯片音乐合成器音乐合成器A/DA/D和和D/AD/AMIDIMIDI接口接口混音器混音器CDCD接口接口计算机总线计算机总线话筒输入话筒输入线性输入线性输入扬声器输出扬声器输出A/DA/D数据处理数据处理D/AD/A声波声波喇叭喇叭多媒
14、体音频技术2-20 3.3.声卡的性能指标声卡的性能指标 采样和量化能力采样和量化能力 衡量音响器材音质好坏。衡量音响器材音质好坏。采样频率采样频率:11.02511.025kHz (kHz (语音效果语音效果)22.05 22.05 kHz (kHz (音乐效果音乐效果)44.1 44.1 kHz (kHz (高保真效果高保真效果)量化等级量化等级:8 8位位/256/256级级 (语音质量语音质量)16 16位位/65536/65536级级(高保真质量高保真质量)多媒体音频技术2-21 芯片类型芯片类型 CODECCODEC芯片芯片(依赖依赖CPUCPU,价格便宜价格便宜)数字信号处理器数
15、字信号处理器DSP(DSP(不依赖不依赖CPU)CPU)总线类型总线类型 ISAISA总线、总线、PCIPCI总线、总线、USBUSB接口接口 输出声道数输出声道数 2 2声道声道(立体声立体声)、2.1/4.1/5.12.1/4.1/5.1声道声道 多通道声卡多通道声卡(营造杜比环绕立体声营造杜比环绕立体声)多媒体音频技术2-22 4.4.声卡的外部接口声卡的外部接口多媒体音频技术2-23用来连接外部音频设备以便进行录音,如用来连接外部音频设备以便进行录音,如录音机、录音机、CDCD唱机和音响等唱机和音响等用来连接话筒,直接输入现场的声音信号用来连接话筒,直接输入现场的声音信号用来连接外部音
16、频设备的输入口,也可连用来连接外部音频设备的输入口,也可连接大功率有源音响等接大功率有源音响等用来连接扬声器,从声卡的内置功率放大用来连接扬声器,从声卡的内置功率放大器向扬声器输出声音器向扬声器输出声音用来连接游戏杆或用来连接游戏杆或MIDIMIDI设备。设备。用来连接用来连接CD-ROMCD-ROM驱动器,可以直接播放驱动器,可以直接播放CDCD音乐,而不占用音乐,而不占用CPUCPU时间时间多媒体音频技术2-24二、电声设备二、电声设备 1.1.传声器传声器 传声器是一种将声信号转换成相应电传声器是一种将声信号转换成相应电信号的能量转换器件(话筒、麦克风)。信号的能量转换器件(话筒、麦克风
17、)。传声器的分类传声器的分类:换能原理、声学原理、指向性、用途、换能原理、声学原理、指向性、用途、使用方式、有线无线使用方式、有线无线多媒体音频技术传声器的工作原理传声器的工作原理:声:声 能能(1 1)电动式传声器,包括动圈式传声器)电动式传声器,包括动圈式传声器和带式传声器两种,电磁换能原理。和带式传声器两种,电磁换能原理。优点优点:简单方便、无需放大器、性能稳定:简单方便、无需放大器、性能稳定、价格低廉、价格低廉(2 2)电容式传声器,振膜震动引起电容)电容式传声器,振膜震动引起电容量变化实现换能。量变化实现换能。优点优点:灵敏度高、动态范围大、瞬态特性:灵敏度高、动态范围大、瞬态特性好
18、、失真度低好、失真度低缺点缺点:振膜受潮会导致变形:振膜受潮会导致变形多媒体音频技术(3 3)驻极体式传声器,利用驻极体材料)驻极体式传声器,利用驻极体材料制作的电容传声器。制作的电容传声器。优点优点:简单、体积小、耐振动、价格低:简单、体积小、耐振动、价格低(4 4)无线传声器,声音信号转变为电信)无线传声器,声音信号转变为电信号,形成超高频信号。号,形成超高频信号。无线传声器不是指传声器的结构原理,而无线传声器不是指传声器的结构原理,而是指信号的传输方法。是指信号的传输方法。优点优点:可随身携带、无需电缆:可随身携带、无需电缆缺点缺点:时远时近,影响拾音效果:时远时近,影响拾音效果多媒体音
19、频技术传声器的性能指标传声器的性能指标:(1 1)灵敏度,传声器的声电转换效率。)灵敏度,传声器的声电转换效率。动圈式:动圈式:-60-60-70dB-70dB;电容式:;电容式:-40-40-50dB-50dB(2 2)频率响应,输出电平与频率的关系。)频率响应,输出电平与频率的关系。(3 3)指向性,某频率下声波入射方向对应)指向性,某频率下声波入射方向对应灵敏度的变化特性。灵敏度的变化特性。(4 4)输出阻抗,两根输出线之间在)输出阻抗,两根输出线之间在1kHZ1kHZ时时的阻抗。的阻抗。(5 5)动态阈,规定谐波失真条件下,传声)动态阈,规定谐波失真条件下,传声器承受最大压级与安静时等
20、效噪声级之差。器承受最大压级与安静时等效噪声级之差。多媒体音频技术2-28 2.2.扬声器扬声器 将电信号转换成声音信号的电声器件。将电信号转换成声音信号的电声器件。(1 1)磁路系统,磁铁、导磁板、心柱)磁路系统,磁铁、导磁板、心柱(2 2)振动系统,纸盆、音圈)振动系统,纸盆、音圈(3 3)辅助系统,纸架、铁架、防尘盖)辅助系统,纸架、铁架、防尘盖 电流电流音圈音圈磁力振动磁力振动 纸盆振动纸盆振动声音声音多媒体音频技术扬声器的分类扬声器的分类:(1 1)按工作原理分类,电动式、电磁式)按工作原理分类,电动式、电磁式、静电式、压电式等。、静电式、压电式等。(2 2)按放声频率分类,低音、中
21、音、高)按放声频率分类,低音、中音、高音、全频带等。音、全频带等。性能指标性能指标:输出功率、频率特性、信噪比、谐波失真输出功率、频率特性、信噪比、谐波失真、灵敏度和额定阻抗。、灵敏度和额定阻抗。多媒体音频技术2-30 3.3.音箱音箱 音箱是一种电声转换的发音设备。音箱是一种电声转换的发音设备。将高、中、低音扬声器组装在专门设计将高、中、低音扬声器组装在专门设计的箱体内,经过分频网络将高、中、低频信的箱体内,经过分频网络将高、中、低频信号分别送至相应的扬声器进行重放。号分别送至相应的扬声器进行重放。音箱是扬声器系统音箱是扬声器系统多媒体音频技术2-31音箱的分类:音箱的分类:使用场合:家用音
22、箱、专用音箱使用场合:家用音箱、专用音箱功率放大器:有源音箱、无源音箱功率放大器:有源音箱、无源音箱声道:声道:2.02.0双声道立体声双声道立体声 2.1 2.1双声道超重低音声道双声道超重低音声道 4.1/5.1/7.1 4.1/5.1/7.1 5.1 5.1五声道超重低音声道五声道超重低音声道多媒体音频技术2-32 音箱的性能指标:音箱的性能指标:(1 1)输出功率:额定、最大峰值。)输出功率:额定、最大峰值。(2 2)频率范围:指音箱最低有效回放)频率范围:指音箱最低有效回放频率和最高有效回放频率之间的范围。频率和最高有效回放频率之间的范围。(3 3)信噪比:音箱回放的有效信号与)信噪
23、比:音箱回放的有效信号与噪声信号的比值。信噪比较低时,噪声严重。噪声信号的比值。信噪比较低时,噪声严重。信噪比信噪比70-80dB70-80dB普通音箱普通音箱信噪比信噪比80-90dB80-90dB高档音箱高档音箱信噪比信噪比95dB 95dB 专业音箱专业音箱多媒体音频技术(4 4)失真度:谐波失真、互调失真、瞬)失真度:谐波失真、互调失真、瞬态失真。态失真。其中,瞬态失真直接影响到音质音色还原其中,瞬态失真直接影响到音质音色还原程度。程度。(5 5)灵敏度:指音箱产生全功率输出时)灵敏度:指音箱产生全功率输出时的输入信号。的输入信号。输入信号越低,灵敏度越高,性能越好输入信号越低,灵敏度
24、越高,性能越好(6 6)阻抗:扬声器输入信号的电压与电)阻抗:扬声器输入信号的电压与电流比值。高阻抗、低阻抗。流比值。高阻抗、低阻抗。多媒体音频技术2-34一、一、MIDIMIDI技术概述技术概述 1.1.什么是什么是MIDIMIDI MIDI(Musical Instrument Digital MIDI(Musical Instrument Digital InterfaceInterface,乐器数字接口,乐器数字接口)是一种利用合成是一种利用合成器产生的音乐技术。器产生的音乐技术。采用数字信号处理技术合成的音效采用数字信号处理技术合成的音效:模仿钢琴、小提琴、吉他等音色模仿钢琴、小提琴
25、、吉他等音色 超越时空的太空音乐超越时空的太空音乐多媒体音频技术2-35 2.MIDI2.MIDI标准标准 MIDI MIDI是各种电子音乐设备之间以及与计是各种电子音乐设备之间以及与计算机之间交换信息的国际标准。算机之间交换信息的国际标准。MIDIMIDI硬件规范硬件规范:硬件接口标准和信号传:硬件接口标准和信号传输机制输机制(I/OI/O通道、连接电缆和插座形式通道、连接电缆和插座形式)。MIDIMIDI软件规范软件规范:音乐信息数字化编码方:音乐信息数字化编码方式式(音符、音符长短、音调和音量等音符、音符长短、音调和音量等)。原声钢琴原声钢琴8 8分音符的分音符的C3C3音:音:00 0
26、0 6000 00 60音色音色PianoPiano编号编号 音符音符C3C3编号编号 8 8分音符编号分音符编号多媒体音频技术2-36二、二、MIDIMIDI合成方式合成方式 1.1.调频合成法调频合成法-FM-FM 原理原理:MIDIMIDI合成器接收到合成器接收到MIDIMIDI音乐信息音乐信息后,利用后,利用傅立叶级数傅立叶级数原理将其分解为若干个原理将其分解为若干个不同频率的正弦波,然后生成不同频率的正弦波,然后生成MIDIMIDI音乐信息音乐信息中指定乐器的各个正弦波分量,最后将这些中指定乐器的各个正弦波分量,最后将这些分量合成起来送至扬声器播放。分量合成起来送至扬声器播放。特点特
27、点:系统开销小,声音清脆:系统开销小,声音清脆 声音音色少,音质较差声音音色少,音质较差多媒体音频技术2-37 2.2.波形表合成法波形表合成法-WT-WT 原理原理:在:在MIDIMIDI合成器的合成器的ROMROM中预先存放中预先存放各种实际乐器的各种实际乐器的声音样本声音样本,在进行音乐合成,在进行音乐合成时以查表的方式调用这些样本,使其与时以查表的方式调用这些样本,使其与MIDIMIDI音乐信息的要求完全相配,然后合成器将这音乐信息的要求完全相配,然后合成器将这些分段合成的样本送至扬声器播放。些分段合成的样本送至扬声器播放。特点特点:音乐真实感强,音色自然:音乐真实感强,音色自然 硬波
28、形表,软波形表。硬波形表,软波形表。多媒体音频技术2-38三、三、MIDIMIDI的工作过程的工作过程MIDI输入输入设备设备MIDI接口接口MIDI文件文件音序器音序器合成器合成器扬声器扬声器音频卡PC机 音序器是音序器是MIDIMIDI音乐音乐创作的核心控制部件。创作的核心控制部件。多媒体音频技术2-39四、音乐制作系统四、音乐制作系统 1.1.基本设备基本设备 音源音源:声卡:声卡(模拟乐器发声的设备模拟乐器发声的设备)音序器音序器:硬件音序器、软件音序器:硬件音序器、软件音序器 Cakewalk,Logic AudioCakewalk,Logic Audio 输入设备输入设备:电子琴:
29、电子琴(MIDI In,MIDI Out)MIDI In,MIDI Out)MIDIMIDI键盘键盘(省去音源省去音源)CakewalkCakewalk虚拟键盘虚拟键盘多媒体音频技术2-40 2.2.音乐软件分类音乐软件分类 音序软件音序软件:CakewalkCakewalk、MusicatorWin3MusicatorWin3、Logic AudioLogic Audio、Cubase VSTCubase VST 乐谱打印软件乐谱打印软件:MIDI ScanMIDI Scan、EncoreEncore 音乐教育软件音乐教育软件:EarnasterEarnaster、TonicaTonica
30、音频编辑软件音频编辑软件:Cool EditCool Edit、AuditionAudition、Sound ForgeSound Forge、wavelabwavelab 效果器软件效果器软件:TC NativeTC Native、VSTVST多媒体音频技术2-41 语音识别语音识别:利用计算机自动识别语音的:利用计算机自动识别语音的技术。如将语音转换成其所对应的文字,技术。如将语音转换成其所对应的文字,利用语音信号中所包含的特定人的信息进利用语音信号中所包含的特定人的信息进行说话人身份辨认的说话人识别技术。行说话人身份辨认的说话人识别技术。一、语音识别的发展历史一、语音识别的发展历史 19
31、521952:BellBell实验室研制出可识别实验室研制出可识别1010个英个英文数字的语音识别器文数字的语音识别器(Audry(Audry系统系统)。19881988:卡内基卡内基梅隆大学研制梅隆大学研制SPHINXSPHINX识别识别系统系统(非特定人、大词汇量、连续语音非特定人、大词汇量、连续语音)。多媒体音频技术2-42二、语音识别基本原理二、语音识别基本原理 语音识别本质上是一种模式识别过程,语音识别本质上是一种模式识别过程,主要包括语音信号预处理、特征提取、特征主要包括语音信号预处理、特征提取、特征建模建模(建立参考模式库建立参考模式库)、相似性度量、相似性度量(模式模式匹配匹配
32、)和后处理等几个功能模块。和后处理等几个功能模块。多媒体音频技术2-43三、语音识别系统的分类三、语音识别系统的分类 1.1.根据词汇量大小根据词汇量大小 小词汇量小词汇量:100100词词 中词汇量中词汇量:100-1000100-1000词词 大词汇量大词汇量:10001000词以上词以上 2.2.根据对说话人依赖程度根据对说话人依赖程度 特定人特定人:针对某个用户进行识别工作:针对某个用户进行识别工作 非特定人非特定人:针对任何人进行识别工作:针对任何人进行识别工作 限定人限定人:针对特定一组人进行识别工作:针对特定一组人进行识别工作 多媒体音频技术2-44 3.3.根据对说话人说话方式
33、根据对说话人说话方式 孤立词识别孤立词识别:每次只含词汇表中的一个:每次只含词汇表中的一个词条,如一个词、一个词组或一条命令。词条,如一个词、一个词组或一条命令。连接词识别连接词识别:每次说词汇表中若干个词:每次说词汇表中若干个词条来进行识别,该若干词条以慢速连续的方条来进行识别,该若干词条以慢速连续的方式连续说出,一般指十个数字连接而成的多式连续说出,一般指十个数字连接而成的多位数字的识别。位数字的识别。连续语音识别连续语音识别:指说话人以日常自然的:指说话人以日常自然的方式讲述并进行识别。方式讲述并进行识别。多媒体音频技术2-45四、语音识别软件四、语音识别软件 中文听写中文听写 语音识别
34、软件语音识别软件 语音命令语音命令 语音合成语音合成 IBM ViaVoice 8.0IBM ViaVoice 8.0中文语音识别系统中文语音识别系统多媒体音频技术2-46五、文本五、文本-语音转换技术语音转换技术基于声音合成技术的声音产生技术。能基于声音合成技术的声音产生技术。能将计算机内的文本转换成连续自然的语言流。将计算机内的文本转换成连续自然的语言流。包含两种类型:包含两种类型:(1 1)有效词汇的计算机语音输出。)有效词汇的计算机语音输出。用于语音报时、汽车报站用于语音报时、汽车报站(2 2)基于语音合成技术的文本)基于语音合成技术的文本-语音转语音转换器换器TTSTTS。包括对语言
35、的理解和语音的声韵处理包括对语言的理解和语音的声韵处理 多媒体音频技术2-47专业音乐软件专业音乐软件Cakewalk 1.0-9.0Sonar 1.0-4.xCakewalk 1.0-9.0Sonar 1.0-4.xCubase VSI 5.xCubase SX 2.1Cubase VSI 5.xCubase SX 2.1Logic Audio(PCLogic Audio(PC版、版、AppleApple版版)(MIDI/(MIDI/音频音频/合成器一体化合成器一体化)CoolEditCoolEdit (Syntrillium)(Syntrillium)Audition (Adobe)Aud
36、ition (Adobe)GoldWare (GoldWare Inc.)GoldWare (GoldWare Inc.)Waves Native Gold Bundle(20Waves Native Gold Bundle(20以上以上)TC Native Bundle(4)TC Native Bundle(4)Ultrafunk Sonltus fx(7)Ultrafunk Sonltus fx(7)多媒体音频技术2-48一、一、AuditionAudition概述概述 1.Audition1.Audition的发展历史的发展历史19971997年年 syntrilliumsyntrill
37、ium公司公司 CoolCool EditEdit pro1.0pro1.0、19991999年年(1.2)(1.2)、20022002年(年(2.02.0)20032003年年 AdobeAdobe公司公司 Audition 1.0Audition 1.0、20042004年年(1.5)(1.5)、2006 2006年年(2.0)(2.0)、2007(3.0)2007(3.0)2.Audition2.Audition的主要功能的主要功能 Adobe Adobe Audition 3.0Audition 3.0是集声音录制、音频是集声音录制、音频混合和编辑于一体的数字音频处理软件。混合和编辑于
38、一体的数字音频处理软件。主要功能主要功能:录音、混音、音频编辑、效果处理、降:录音、混音、音频编辑、效果处理、降噪、音频压缩、刻录音乐噪、音频压缩、刻录音乐CDCD等等多媒体音频技术2-49 3.Audition3.Audition的启动和退出的启动和退出 开始开始/程序程序/Adobe Audition/Adobe Audition、图标、启动栏、图标、启动栏 4.Audition4.Audition的窗口组成的窗口组成多媒体音频技术(1 1)标题栏:显示应用程序名称和正在)标题栏:显示应用程序名称和正在处理的音频文件名;处理的音频文件名;(2 2)菜单栏:完成对音频文件的读取、)菜单栏:完
39、成对音频文件的读取、修改、存储和软件设置等;修改、存储和软件设置等;(3 3)工具栏:)工具栏:编辑视图:编辑视图:多轨视图:多轨视图:CDCD视图:视图:工作区:工作区:多媒体音频技术(4 4)“文件文件”和和“效果效果”列表框:列表框:(5 5)波形显示区:显示音频文件的波形)波形显示区:显示音频文件的波形(6 6)控制面板:)控制面板:多媒体音频技术(7 7)“电平电平”指示条:当前音频电平大指示条:当前音频电平大小小(8 8)状态栏:状态信息。)状态栏:状态信息。5.5.编辑视图和多轨视图编辑视图和多轨视图编辑视图:编辑独立的音频文件。编辑视图:编辑独立的音频文件。多轨视图:混合多轨文
40、件或混合多轨视图:混合多轨文件或混合MIDIMIDI音乐音乐及视频。及视频。采用破坏性编辑方法采用破坏性编辑方法采用非破坏性编辑方法采用非破坏性编辑方法多媒体音频技术2-53二、音频的基本操作二、音频的基本操作 1.1.导入、录音与播放导入、录音与播放 (1 1)导入:)导入:文件文件/打开;文件打开;文件/打开视频中的音频打开视频中的音频 多媒体音频技术2-54 (2 2)录音:)录音:a.a.文件文件/新建新建新建波形新建波形b.b.录音按钮录音按钮c.c.录制录制停止停止2.2.后期音频剪辑后期音频剪辑 一方面包括复制、剪切和粘贴,另一方一方面包括复制、剪切和粘贴,另一方面能够选择编辑对
41、象或范围。还包括内部剪面能够选择编辑对象或范围。还包括内部剪贴板、声音混合、删除静音等功能贴板、声音混合、删除静音等功能多媒体音频技术2-55 3.3.后期音效处理后期音效处理施加效果是音频后期处理的重要环节。施加效果是音频后期处理的重要环节。(1 1)振幅类效果)振幅类效果a.a.增大或减小增大或减小音量音量b.b.实现音频淡实现音频淡入、淡出效果入、淡出效果多媒体音频技术(2 2)修复类效果)修复类效果语音停顿的地方有语音停顿的地方有一种振幅变化不大一种振幅变化不大的声音,若贯穿于的声音,若贯穿于录制的整个过程即录制的整个过程即为环境噪声。为环境噪声。(3 3)延迟类)延迟类效果效果模拟房
42、间、空中回声、隧道及立体声远处模拟房间、空中回声、隧道及立体声远处延时。延时。多媒体音频技术2-57三、多轨音频的制作三、多轨音频的制作 1.1.多轨音频波形处理多轨音频波形处理多轨视图可进行多轨视图可进行MIDIMIDI音轨、音频轨和视音轨、音频轨和视频轨等多轨操作。其中包括导入、剪辑和扩频轨等多轨操作。其中包括导入、剪辑和扩展、锁定、多音频处理、合并等。展、锁定、多音频处理、合并等。2.2.多轨混缩工程多轨混缩工程可利用混音器面板进行调节及效果添加。可利用混音器面板进行调节及效果添加。包括编辑:通过时间线对音频片段的某包括编辑:通过时间线对音频片段的某个属性进行动态编辑,使其在播放时随着时
43、个属性进行动态编辑,使其在播放时随着时间变化间变化多媒体音频技术2-58四、环绕声场的制作四、环绕声场的制作5.15.1环绕声场包括前中置、左前、右前、环绕声场包括前中置、左前、右前、左后、右后和一个低音单元。左后、右后和一个低音单元。1.1.设置环绕声场设置环绕声场导入导入环绕编码器环绕编码器设置正确输出通道设置正确输出通道2.2.制作环绕声场制作环绕声场导入六段音频导入六段音频环绕编码器环绕编码器选择音轨选择音轨位置定位位置定位3.3.导出环绕声场导出环绕声场导出为:独立、复合型、格式导出为:独立、复合型、格式多媒体音频技术2-59五五、CDCD音乐刻录音乐刻录 CDCD视图可以整合视图可
44、以整合CDCD轨道、设置轨道属性轨道、设置轨道属性及刻录及刻录CDCD。多媒体音频技术2-60 声音数字化,音乐符号化声音数字化,音乐符号化 数字音频三要素,声音文件格式数字音频三要素,声音文件格式 数字音频压缩标准数字音频压缩标准 音频压缩工具音频压缩工具的使用的使用 声卡、电声设备工作原理及性能指标声卡、电声设备工作原理及性能指标 音频处理软件音频处理软件,AuditionAudition的使用的使用 电子音乐合成技术及其规范电子音乐合成技术及其规范 语音识别技术语音识别技术46凡事不要说我不会或不可能,因为你根本还没有去做!47成功不是靠梦想和希望,而是靠努力和实践48只有在天空最暗的时
45、候,才可以看到天上的星星49上帝说:你要什么便取什么,但是要付出相当的代价50现在站在什么地方不重要,重要的是你往什么方向移动。51宁可辛苦一阵子,不要苦一辈子52为成功找方法,不为失败找借口53不断反思自己的弱点,是让自己获得更好成功的优良习惯。54垃圾桶哲学:别人不要做的事,我拣来做!55不一定要做最大的,但要做最好的56死的方式由上帝决定,活的方式由自己决定!57成功是动词,不是名词!28、年轻是我们拼搏的筹码,不是供我们挥霍的资本。59、世界上最不能等待的事情就是孝敬父母。60、身体发肤,受之父母,不敢毁伤,孝之始也;立身行道,扬名於后世,以显父母,孝之终也。孝经61、不积跬步,无以致
46、千里;不积小流,无以成江海。荀子劝学篇62、孩子:请高看自己一眼,你是最棒的!63、路虽远行则将至,事虽难做则必成!64、活鱼会逆水而上,死鱼才会随波逐流。65、怕苦的人苦一辈子,不怕苦的人苦一阵子。66、有价值的人不是看你能摆平多少人,而是看你能帮助多少人。67、不可能的事是想出来的,可能的事是做出来的。68、找不到路不是没有路,路在脚下。69、幸福源自积德,福报来自行善。70、盲目的恋爱以微笑开始,以泪滴告终。71、真正值钱的是分文不用的甜甜的微笑。72、前面是堵墙,用微笑面对,就变成一座桥。73、自尊,伟大的人格力量;自爱,维护名誉的金盾。74、今天学习不努力,明天努力找工作。75、懂得
47、回报爱,是迈向成熟的第一步。76、读懂责任,读懂使命,读懂感恩方为懂事。77、不要只会吃奶,要学会吃干粮,尤其是粗茶淡饭。78、技艺创造价值,本领改变命运。79、凭本领潇洒就业,靠技艺稳拿高薪。80、为寻找出路走进校门,为创造生活奔向社会。81、我不是来龙飞享福的,但,我是为幸福而来龙飞的!82、校兴我荣,校衰我耻。83、今天我以学校为荣,明天学校以我为荣。84、不想当老板的学生不是好学生。85、志存高远虽励志,脚踏实地才是金。86、时刻牢记父母的血汗钱来自不易,永远不忘父母的养育之恩需要报答。87、讲孝道读经典培养好人,传知识授技艺打造能人。88、知技并重,德行为先。89、生活的理想,就是为了理想的生活。张闻天90、贫不足羞,可羞是贫而无志。吕坤