1、上海建桥学院信息技术系1 1第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3 声卡的组成和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系2 22022-12-4上海建桥学院信息技术系3 34.1.1 声音处理技术历史回顾声音处理技术历史回顾 记录:记录:19世纪,爱迪生,留声机。世纪,爱迪生,留声机。电声技术:电声技术:研究可听声频率范围内声音的产研究可听
2、声频率范围内声音的产生、传播、存储、重放和接收的技术。依靠电来生、传播、存储、重放和接收的技术。依靠电来记录并播放声音,通过电压产生模拟声波变化的记录并播放声音,通过电压产生模拟声波变化的电流信号是模拟信号。电流信号是模拟信号。随着计算机技术和存储设备的发展,数字化随着计算机技术和存储设备的发展,数字化音频处理技术也得到了发展。音频处理技术也得到了发展。2022-12-4上海建桥学院信息技术系4 4图图4-24-2用磁带记录声音的录音机用磁带记录声音的录音机 2022-12-4上海建桥学院信息技术系5 54.1.2 声音信号的形式声音信号的形式 任何声音都是物体振动产生的现象,其在介任何声音都
3、是物体振动产生的现象,其在介质中的传播称为声波。质中的传播称为声波。声源所引起的空气压力变声源所引起的空气压力变化,被耳朵的耳膜所检测,然后产生电信号刺激化,被耳朵的耳膜所检测,然后产生电信号刺激大脑的听觉神经,从而使人们能感觉到声音的存大脑的听觉神经,从而使人们能感觉到声音的存在。在。2022-12-4上海建桥学院信息技术系6 64.1.2 声音信号的形式声音信号的形式 语音信号语音信号:语言的物质载体,具有复杂的语语言的物质载体,具有复杂的语法和语义,难于识别。法和语义,难于识别。非语音信号非语音信号:音乐,自然界的声音,信息量:音乐,自然界的声音,信息量低,识别简单。低,识别简单。202
4、2-12-4上海建桥学院信息技术系7 7图图4-4 4-4 在自然界,声波与水波一样都是一种振动波在自然界,声波与水波一样都是一种振动波2022-12-4上海建桥学院信息技术系8 8 图图4-5 4-5 用声音录制软件记录的英文单词用声音录制软件记录的英文单词”Hello”Hello”语音的实际波形语音的实际波形2022-12-4上海建桥学院信息技术系9 94.1.3 模拟音频信号的物理特征模拟音频信号的物理特征 频率:体现音调的高低,单位频率:体现音调的高低,单位Hz 幅度:体现声音的强弱,单位幅度:体现声音的强弱,单位dB 语音信号频率范围:语音信号频率范围:300Hz3000Hz 可听频
5、率带宽(音频):可听频率带宽(音频):20Hz20kHz2022-12-4上海建桥学院信息技术系10102022-12-4上海建桥学院信息技术系1111振幅周期频率图图4-6 4-6 声波的频率、周期与振幅声波的频率、周期与振幅2022-12-4上海建桥学院信息技术系1212女性语音女性语音电话语音电话语音调幅广播调幅广播(AM)调频广播调频广播(FM)高级音响高级音响男性语音男性语音2022-12-4上海建桥学院信息技术系1313声音质量分级与带宽声音质量分级与带宽电话调幅广播调频广播CD-DA 10 20 502003.4K7K15K频率(Hz)图图4-8 4-8 四级声音质量的频率范围四
6、级声音质量的频率范围 2022-12-4上海建桥学院信息技术系1414声音的质量与声音的频率范围有关。声音的质量与声音的频率范围有关。一般说来,频率范围越宽声音的质量就越高。一般说来,频率范围越宽声音的质量就越高。对语音而言,常用对语音而言,常用可懂度、清晰度、自然度可懂度、清晰度、自然度来衡来衡量;而对音乐来说,量;而对音乐来说,保真度、空间感、音响效果保真度、空间感、音响效果都是重要的指标都是重要的指标2022-12-4上海建桥学院信息技术系1515第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3
7、 声卡的组成和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系16162022-12-4上海建桥学院信息技术系1717借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换2022-12-4上海建桥学院信息技术系18182022-12-4上海建桥学院信息技术系19194.2.1采样采样 为实现为实现A/D转换,需要把模拟音频信号波形进行分转换,需要把模拟音频信号波形进行分 割(每隔一定的时
8、间间隔测一次模拟音频的值割(每隔一定的时间间隔测一次模拟音频的值(如电压如电压)),),以转变成数字信号,这种方法称为采样以转变成数字信号,这种方法称为采样(Sampling)。每。每秒钟采样的次数称为秒钟采样的次数称为采样率采样率。数字音频是离散的,而模拟音频是连续的,数字音频数字音频是离散的,而模拟音频是连续的,数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。机存储、处理和播放。Nyquist采样定理:只有采样频率高于声音信号最高采样定理:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为
9、原来的频率的两倍时,才能把数字信号表示的声音还原为原来的声音。声音。2022-12-4上海建桥学院信息技术系2020图图4-9 4-9 声音的采样和量化示意图声音的采样和量化示意图2022-12-4上海建桥学院信息技术系21214.2.2 量化量化用某种数字化的方法来反映某一瞬间声波幅度的电用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小称为量化。压值的大小称为量化。采样后的信号按照整个声波的幅度(幅度轴采样后的信号按照整个声波的幅度(幅度轴)划分)划分称有限个区段的集合,把落入某个区段内的样值归为一称有限个区段的集合,把落入某个区段内的样值归为一类,并赋予形同的量化值。采用二进制,以类
10、,并赋予形同的量化值。采用二进制,以16位或位或256位等的方式来进行。位等的方式来进行。2022-12-4上海建桥学院信息技术系2222输入输出输入输出均匀量化均匀量化非均匀量化非均匀量化2022-12-4上海建桥学院信息技术系2323数字音频等级数字音频等级信号类型信号类型频率范围频率范围Hz采样频率采样频率KHz 量化精度量化精度(位位)电话语音电话语音200340088宽带音频宽带音频5070001616调频广播调频广播2015k37.816CD-DA2022k44.116SACD2-100k2822.4 1(信息流信息流)DVD-AUDIO100k9619224HDTA48,96,3
11、8424,322022-12-4上海建桥学院信息技术系24242022-12-4上海建桥学院信息技术系2525数据量数据量=采样频率采样频率(量化位数(量化位数/8)声道数声道数声音持续时间声音持续时间 对于调频广播级立体声,采样频率为对于调频广播级立体声,采样频率为44.1kHz,量化等级为,量化等级为16位(即位(即2字节)声道形式为双声道,则转换后每秒以千字节为字节)声道形式为双声道,则转换后每秒以千字节为单位的数据量为:单位的数据量为:44 100(Hz)(16/8)()(B)2=176 400B/s172kB/s 用用44.1kHz的采样频率对声波进行采样,每个采样点的量化位的采样频
12、率对声波进行采样,每个采样点的量化位数选用数选用16位,则录制位,则录制3分钟的立体声节目,其波形文件所需的分钟的立体声节目,其波形文件所需的存储容量为:存储容量为:44 100(Hz)(16/8)()(B)2360=31 752 000B/s 31 007.8kB/s 30.28MB/s2022-12-4上海建桥学院信息技术系2626 2022-12-4上海建桥学院信息技术系27274.2.3 声音采样与量化过程示例声音采样与量化过程示例2022-12-4上海建桥学院信息技术系2828图图4-10 4-10 采样频率为采样频率为1000Hz1000Hz,1010个量化等级的波形个量化等级的波
13、形2022-12-4上海建桥学院信息技术系2929图图4-11 4-11 经过经过D/AD/A转换器得到的信号波形转换器得到的信号波形(直线段的波形直线段的波形)有较大的失真有较大的失真2022-12-4上海建桥学院信息技术系3030图图4-12 4-12 采样率为采样率为2000Hz2000Hz,量化等级为,量化等级为2020的采样量化过程的采样量化过程2022-12-4上海建桥学院信息技术系3131图图4-13 4-13 采样率为采样率为4000Hz4000Hz,量化等级为,量化等级为4040的采样量化过程的采样量化过程2022-12-4上海建桥学院信息技术系32324.2.4 压缩编码压
14、缩编码 依据:依据:声音信息中存在着多种冗余声音信息中存在着多种冗余 听觉器官的不敏感性听觉器官的不敏感性 采样的标本中存在着相关性采样的标本中存在着相关性 压缩算法通常应能满足下列需求:压缩算法通常应能满足下列需求:压缩倍数高,压缩后的数据率低;压缩倍数高,压缩后的数据率低;解码后的信号失真小,质量高;解码后的信号失真小,质量高;算法简单,执行速度快,延迟时间短;算法简单,执行速度快,延迟时间短;编码器、解码器的成本低。编码器、解码器的成本低。2022-12-4上海建桥学院信息技术系3333压缩方法(压缩方法(compression method)有损压缩有损压缩 无损压缩无损压缩编码选择(
15、编码选择(code selection)机常用的声卡上有自适应差分脉冲码调制方机常用的声卡上有自适应差分脉冲码调制方案案,律律a 律等,律等,format(structure)2022-12-4上海建桥学院信息技术系3434音频信息的压缩技术音频信息的压缩技术 HuffmanHuffman 编码编码无损无损压缩压缩 行程编码行程编码 全频带编码:全频带编码:PCMPCM;DPCMDPCM;ADPCMADPCM 子带编码子带编码 :自适应变换编码自适应变换编码ATCATC;心理学模型;心理学模型波形编波形编码码 矢量量化编码矢量量化编码参数编参数编码码 线性预测线性预测 LPCLPC 矢量和激励
16、线性预测矢量和激励线性预测 VSELPVSELP 多脉冲线性预测多脉冲线性预测 MP-LPCMP-LPC有有 损损 压压 缩缩混合编混合编码码 码本激励线性预测码本激励线性预测 CELPCELP2022-12-4上海建桥学院信息技术系3535输入信号解码器传输/存储编码器输出信号图图4-14 4-14 音频信号处理过程音频信号处理过程2022-12-4上海建桥学院信息技术系3636第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3 声卡的组成和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件
17、的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系37374.3.1 声卡的工作原理声卡的工作原理游戏接口MIDI接口混合信号处理器总线接口和控制器数字声音处理器MIC放大器功率放大器音乐合成器麦克风输入Line输入CD输入扬声器输出PC总线数据总线地址总线控制总线图图4-16 4-16 声卡工作原理框图声卡工作原理框图采用大规模采用大规模集成电路设集成电路设计,将音频计,将音频技术范围的技术范围的各类电路以各类电路以专用芯片的专用芯片的形式集成在形式集成在声卡上,并声卡上,并可直接插入可直接插入计算机的扩计算
18、机的扩展槽中使用。展槽中使用。2022-12-4上海建桥学院信息技术系3838 1主芯片主芯片-数字信号处理器数字信号处理器 声音信息处理、特殊音效过滤与处理、语音识别、声音信息处理、特殊音效过滤与处理、语音识别、实施压缩等等任务。实施压缩等等任务。2混音芯片混音芯片-CODEC 负责调节各声音来源的音量、混音与调整录放音的音量大小 图图4-18 Sound Blaster PCI644-18 Sound Blaster PCI64声卡的混音器设置界面声卡的混音器设置界面2022-12-4上海建桥学院信息技术系3939 3.合成器合成器 负责负责 MIDI乐曲的合成可以及时创造各种音乐乐曲的合
19、成可以及时创造各种音乐 MIDI合成器有两种:频率调制合成器合成器有两种:频率调制合成器(FM合成器合成器)、波形表波形表(Wave table合成器合成器)。4.总线接口和控制器总线接口和控制器 总线接口和控制器由数据总线双向驱动器、总线接口总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和控制逻辑、总线中断逻辑和DMA控制逻辑组成。控制逻辑组成。5.外部输入输出口外部输入输出口 声卡外部输入输出口均为声卡外部输入输出口均为3.5mm规格插口规格插口(MIDI/Joystick除外)除外)2022-12-4上海建桥学院信息技术系40402022-12-4上海建桥学院信息技
20、术系41414.3.2 声卡的性能指标声卡的性能指标 1音频技术指标音频技术指标 2MIDI音频音频 3声道数(声道数(Dolby AC-3等)等)图图4-19 5.14-19 5.1声道系统的布局图声道系统的布局图2022-12-4上海建桥学院信息技术系4242 4.多音频流输出多音频流输出 5.I/O设备接口设备接口 6.声卡软件声卡软件 7.总线结构总线结构图图4-20 4-20 支持支持5.15.1声道系统的声卡接口声道系统的声卡接口2022-12-4上海建桥学院信息技术系43432022-12-4上海建桥学院信息技术系44442022-12-4上海建桥学院信息技术系45452022-
21、12-4上海建桥学院信息技术系4646杜比与DTS 1.Dolby Digital Mono:1.Dolby Digital Mono:杜比数字单声道音效杜比数字单声道音效只有单声道的效果只有单声道的效果,并不足以构成立体声并不足以构成立体声,2.Dolby Digital Stereo:2.Dolby Digital Stereo:杜比数字双声道音效杜比数字双声道音效将双声道的立体讯号储存为将双声道的立体讯号储存为AC-3AC-3格式格式,3.Dobly Digital Surround:3.Dobly Digital Surround:杜比数字环绕音效杜比数字环绕音效 4.Dolby Di
22、gital 4.0:4.Dolby Digital 4.0:杜比数字环绕音效杜比数字环绕音效4.04.0 5.Dolby Digital 5.0:5.Dolby Digital 5.0:杜比数字环绕音效杜比数字环绕音效5.05.0 6.Dolby Digital 5.1:6.Dolby Digital 5.1:杜比数字环绕音效杜比数字环绕音效5.15.1以以Dolby DigitalDolby Digital来表示来表示Dolby Digital 5.1,Dolby Digital 5.1,也就是也就是5.15.1声道的声道的 Dolby DigitalDolby Digital或或AC-3.
23、AC-3.7.Dolby digital 7.111.17.Dolby digital 7.111.1等等等等2022-12-4上海建桥学院信息技术系4747杜比与DTSPCM 高音质数字音效高音质数字音效:DVD利用利用PCM格式储存未经压缩格式储存未经压缩的双声道讯号,由于的双声道讯号,由于DVD具有庞大的具有庞大的空间与速度优势空间与速度优势,可以大胆使用更高的取样率与解析度可以大胆使用更高的取样率与解析度,因因此可以提供远高于传统此可以提供远高于传统CD的表现的表现DTS 数字环绕音效数字环绕音效:属于属于5.1声道的环绕效果声道的环绕效果,DTS采用与采用与AC-3不同的压缩技术将环
24、绕音效储存至不同的压缩技术将环绕音效储存至DVD.播放时必须播放时必须采用具有采用具有dts译码能力的系统译码能力的系统.DTS跟跟Dolby Digital 5.1最最大的差别在于两者使用不同的大的差别在于两者使用不同的”算法算法”2022-12-4上海建桥学院信息技术系4848n 4.3.3 声卡的主要功能声卡的主要功能 录制与播放声音录制与播放声音 通过接在声卡上的话筒录制声音,并以文件形式保存在计算机中,随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。音乐合成音乐合成 利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲。通过混合器混合和处理多个不同音
25、频源的声音,控制和调节音量大小,最后送至音箱或耳机播放。2022-12-4上海建桥学院信息技术系4949压缩和解压缩音频文件压缩和解压缩音频文件 目前,大多数声卡上都固化了不同标准的音频压缩和解压缩软件,常用的压缩编码方法有ADPCM(自适应差分脉冲编码调制)和ACM(微软音频压缩管理器)等,压缩比大约为2:15:l。与与MIDI设备和设备和CD驱动器的连接驱动器的连接 通过声卡上的MIDI接口,计算机可以同外界的MIDI设备相连接,如连接电子琴、电吉他等,使MPC具有创作电脑乐曲和播放MIDI文件的功能。游戏杆也可通过MIDI接口与计算机相连接,使游戏玩起来得心应手。2022-12-4上海建
26、桥学院信息技术系5050第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3 声卡的组成和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系5151 4.4.1 数字音频的文件格式数字音频的文件格式图图4-21 4-21 常用音频格式常用音频格式2022-12-4上海建桥学院信息技术系5252 1.WAV文件文件.wav 2.MP3.mp3 3.MP4.mp4 4
27、.RealAudio文件文件.ra/.rm/.ram 5.APE文件文件.ape 图图4-22 MP34-22 MP3是是InternetInternet上流行的音乐格式上流行的音乐格式2022-12-4上海建桥学院信息技术系53536.MIDI文件文件.midi7.CD文件文件.cda8.AAC文件文件.m4a.mp4等等9.PCM文件文件.pcm10.WMA文件文件.wma11.VOC文件文件.voc12.AIFF文件文件.aif/.aiff13.HDTA文件文件.hdta2022-12-4上海建桥学院信息技术系5454HDTA可变结构高解析度音频(可变结构高解析度音频(Hi-Defini
28、tion Transformable Audio)是一种结合了互动性和)是一种结合了互动性和高解析度音频的新一代音频格式。高解析度音频的新一代音频格式。HDTA按照不同的标准,主要分为以下几种:按照不同的标准,主要分为以下几种:TA(只支持(只支持16Bit/44.1KHz传统音频)传统音频)HDTA立体声(只支持高解析度的双声道)立体声(只支持高解析度的双声道)HDTA环绕声(支持环绕声(支持6,8,16个声道的环绕声)个声道的环绕声)新一代的新一代的HDTA格式音乐,是彻头彻尾的数字格格式音乐,是彻头彻尾的数字格式。它不以任何光盘为载体,而是作为一种计算式。它不以任何光盘为载体,而是作为一
29、种计算机数据格式存在机数据格式存在 2022-12-4上海建桥学院信息技术系55554.4.2 音频制作与处理软件音频制作与处理软件 1CoolEdit 图图4-25 CoolEditPro 4-25 CoolEditPro 的界面的界面2022-12-4上海建桥学院信息技术系5656 2Sound Forge图图4-26 Sound Forge4-26 Sound Forge音频处理软件音频处理软件 2022-12-4上海建桥学院信息技术系5757第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3 声
30、卡的组成和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系58584.5.1 什么是什么是MIDI MIDI 是数字音乐接口(是数字音乐接口(Musical Instrument Digital Interface)的缩写。或者说,的缩写。或者说,MIDI是用来將是用来將电子乐器相互连接,或将电子乐器相互连接,或将MIDI设备与电脑连接成系设备与电脑连接成系统的一种通讯协议。统的一种通讯协议。通过它,各种通过它,各种MIDI设备都可设备都可以准确传送
31、以准确传送MIDI信息。信息。不属于数字音响技术的范畴不属于数字音响技术的范畴 Midi数据不是数字的音频波形,而是音乐代码或电数据不是数字的音频波形,而是音乐代码或电子乐谱子乐谱 4.5 乐器数字接口-MIDI2022-12-4上海建桥学院信息技术系59594.5.2 MIDI系统的组成系统的组成2022-12-4上海建桥学院信息技术系6060 1.合成器合成器图图4-28 4-28 具有具有USBUSB接口的接口的MIDIMIDI键盘键盘使用振荡器来产生使用振荡器来产生声乐的一种电子乐声乐的一种电子乐器,通过振荡器的器,通过振荡器的电流震荡产生各种电流震荡产生各种波形并进行处理,波形并进行
32、处理,合成出新的音乐。合成出新的音乐。合成器中的音序器合成器中的音序器和音色分别由软件和音色分别由软件和独立音源来代替,和独立音源来代替,因此产生控制键盘。因此产生控制键盘。2022-12-4上海建桥学院信息技术系6161 2音源音源图图4-29 4-29 硬件音源产品(硬件音源产品(Roland JV1080Roland JV1080)音源音色的数量、品音源音色的数量、品种和质量都将对最终种和质量都将对最终音乐作品的效果产生音乐作品的效果产生重要的影响。重要的影响。音源内部是不同音色音源内部是不同音色的样本波形,由音序的样本波形,由音序器来决定何时调用。器来决定何时调用。分为软硬件两种,专分
33、为软硬件两种,专业硬件音源、多媒体业硬件音源、多媒体声卡上包含声卡上包含GMGM音色库、音色库、以插件形式的软音源。以插件形式的软音源。2022-12-4上海建桥学院信息技术系6262 3音序器音序器(Sequencer)记录、编辑和播放记录、编辑和播放midi文件的设备,文件的设备,硬件音序器又称为编曲机,软件音序器硬件音序器又称为编曲机,软件音序器是音乐创作、编辑软件,比如是音乐创作、编辑软件,比如Cakewalk等。等。4采样器采样器 对声音进行采样、然后编辑成多种对声音进行采样、然后编辑成多种的音色。的音色。5其它设备其它设备 如录音设备、监听设备、音箱功放等如录音设备、监听设备、音箱
34、功放等 Yamaha QY100音序器2022-12-4上海建桥学院信息技术系6363 4.5.3 MIDI的工作过程的工作过程 midi消息实际上是对一段音乐的描述,或理解为对消息实际上是对一段音乐的描述,或理解为对乐谱的数字描述,包括音符、节拍、乐器种类等信息。乐谱的数字描述,包括音符、节拍、乐器种类等信息。消息分为状态信息和数据信息。消息分为状态信息和数据信息。状态信息描述音符被演奏或是声音被加强等状态信息描述音符被演奏或是声音被加强等 数据信息描述那个音符被演奏了,或被加强的声音数据信息描述那个音符被演奏了,或被加强的声音的强度如何这类可以用量来表示的信息。的强度如何这类可以用量来表示
35、的信息。2022-12-4上海建桥学院信息技术系6464MIDI接口音序器合成器MIDI文件MIDI乐器MIDI指令图图4-31 MIDI4-31 MIDI的工作过程的工作过程2022-12-4上海建桥学院信息技术系65652022-12-4上海建桥学院信息技术系66664.5.4 FM与波表合成方式与波表合成方式 1.FM合成法合成法FM称为称为“数字式频率调制合成法数字式频率调制合成法”,简称,简称FM合成法。合成法。FM合成法生成音乐的基本原理是,用数字信号来表示不同音合成法生成音乐的基本原理是,用数字信号来表示不同音乐的波形,然后把它们组合起来,再通过数模转换器(乐的波形,然后把它们组
36、合起来,再通过数模转换器()生成音乐播放。)生成音乐播放。2.波表合成法波表合成法为了能真实地再现音乐,目前的声卡一般采用音乐样本合为了能真实地再现音乐,目前的声卡一般采用音乐样本合成法,即波表合成法。成法,即波表合成法。把真实乐器发出的声音以数字的形把真实乐器发出的声音以数字的形式记录下来,存放在式记录下来,存放在“波表文件波表文件”中,播放时根据命令生中,播放时根据命令生成各种音阶的音符,产生的声音质量比较高。成各种音阶的音符,产生的声音质量比较高。2022-12-4上海建桥学院信息技术系6767FM合成法:合成法:比如比如MIDI音乐(用符号描述的乐器演奏的音乐声音)、合成语音乐(用符号
37、描述的乐器演奏的音乐声音)、合成语音(用声母、韵母或清音、基音频率等参数描述的语音)等音(用声母、韵母或清音、基音频率等参数描述的语音)等。符号。符号化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真,但化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真,但数据量要比波形声音小得多(数据量要比波形声音小得多(23个数量级),而且能产生自然界中个数量级),而且能产生自然界中不存在的声音,其编辑处理也比波形声音更加方便一些。不存在的声音,其编辑处理也比波形声音更加方便一些。2022-12-4上海建桥学院信息技术系6868 4.5.5 GM-标准标准MIDI乐器排序表乐器排序表 4.5.
38、6 MIDI音乐创作软件与音序软件音乐创作软件与音序软件图图4-33 CakeWalk Pro Audio4-33 CakeWalk Pro Audio音序软件主界面音序软件主界面2022-12-4上海建桥学院信息技术系6969 图图4-34 4-34 在在Cakewalk Pro AudioCakewalk Pro Audio能容易地对能容易地对MIDMID乐谱进行编辑和创作乐谱进行编辑和创作2022-12-4上海建桥学院信息技术系7070第第4章章 多媒体音频处理技术多媒体音频处理技术4.1 音频信号及其概念音频信号及其概念4.2 模拟音频的数字化过程模拟音频的数字化过程4.3 声卡的组成
39、和功能声卡的组成和功能4.4 音频文件的格式与处理软件音频文件的格式与处理软件4.5 乐器数字接口乐器数字接口-MIDI4.6 数字音频的应用数字音频的应用2022-12-4上海建桥学院信息技术系7171语音识别语音识别语音合成语音合成2022-12-4上海建桥学院信息技术系7272语音识别语音识别:指机器收到语音信号后,如何模仿人指机器收到语音信号后,如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特的听觉器官辨别所听到的语音内容或讲话人的特征,进而模仿人脑理解出该语音的含义或判别出征,进而模仿人脑理解出该语音的含义或判别出讲话人的过程。讲话人的过程。分类:分类:按讲话者分类:按讲话者分类
40、:(1)(1)特定人的语音识别系统特定人的语音识别系统:其特点是依赖于说话者只有其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后,它才能识别。在用特定单词组形成的词汇表系统训练后,它才能识别。(2)(2)非特定人识别系统非特定人识别系统:此类系统可识别任何用户的语音。此类系统可识别任何用户的语音。2022-12-4上海建桥学院信息技术系7373按识别词的性质分类:按识别词的性质分类:(1)(1)孤立词孤立词(语音语音)识别系统识别系统:一次只提供一个单一词的识别。一次只提供一个单一词的识别。(2)(2)连接词语音识别连接词语音识别:连接词的语音由所说的短语组成,而短语连接词的语音由
41、所说的短语组成,而短语又是由词序列组成又是由词序列组成 。连接词语音识别可用于命令和控制应用。连接词语音识别可用于命令和控制应用 。(3)(3)连续语音识别连续语音识别:这种方法比孤立单词或连接词语音识别都复这种方法比孤立单词或连接词语音识别都复杂许多。杂许多。2022-12-4上海建桥学院信息技术系74742022-12-4上海建桥学院信息技术系7575连续语音识别系统连续语音识别系统分成三部分:数字化、幅度归一化、时间归一化和参数表示。分割并把语音段标记成在基于知识或基于规则系统上的符号串。识别词序列并进行语音段匹配。2022-12-4上海建桥学院信息技术系7676语音识别系统的组成语音识
42、别系统的组成采采样样、量量化化语语音音端端点点检检测测计计算算语语音音谱谱估估价价音音调调轮轮廓廓图图分分解解、鉴鉴定定语语音音特特征征单单词词识识别别识别识别后的后的语音语音语音语音输入输入参考村参考村料库料库语语义义分分析析理解理解后的后的语音语音语义库语义库2022-12-4上海建桥学院信息技术系7777语音识别难度大语音识别难度大 语音变化大,不同人不一样,同一人也会有变化。语音变化大,不同人不一样,同一人也会有变化。语音有模糊性,不同词语听起耒很相似。语音有模糊性,不同词语听起耒很相似。同一字和词的发音受上下文影响而有不同(语音的同化、同一字和词的发音受上下文影响而有不同(语音的同化
43、、异化、换位、弱化、脱落等音变现象)。异化、换位、弱化、脱落等音变现象)。环境噪声的干扰,例如墙壁与物体对声波的反射会与主声环境噪声的干扰,例如墙壁与物体对声波的反射会与主声波重迭。波重迭。连续语音流不易把单字(词)区分出来(端点检测)连续语音流不易把单字(词)区分出来(端点检测)例如,若单字(词)识别正确率为例如,若单字(词)识别正确率为0.950.95,则:,则:3 3个单字(词)组成的句子识别正确率为个单字(词)组成的句子识别正确率为 0.8570.8578 8个单字(词)组成的句子识别正确率为个单字(词)组成的句子识别正确率为 0.6630.663 单字(词)与库中的模板比较之前,必须
44、进行复杂的单字(词)与库中的模板比较之前,必须进行复杂的“时时间归一化间归一化”处理。处理。2022-12-4上海建桥学院信息技术系7878语音合成(语音合成(Speech synthesisSpeech synthesis):):指人们根指人们根据语言学的知识,在语音分析技术和语音存储技据语言学的知识,在语音分析技术和语音存储技术的基础上,利用适当方法和手段,重构语音的术的基础上,利用适当方法和手段,重构语音的过程。过程。有两种情况:有两种情况:第一,语音再现。这是一个声音的还原过程。第一,语音再现。这是一个声音的还原过程。第二,模仿人说话。首先形成要说的内容;其次转成第二,模仿人说话。首先
45、形成要说的内容;其次转成基本发音编码序列;然后进行判断理解,决定声调、基本发音编码序列;然后进行判断理解,决定声调、重音和语气,形成重音和语气,形成“言语码言语码”;最后控制并输出语音。;最后控制并输出语音。2022-12-4上海建桥学院信息技术系7979语音合成语音合成要求要求是可以理解的,并且是很自然的,是可以理解的,并且是很自然的,应用范围应用范围比较广,比如自动报警比较广,比如自动报警,自动应答自动应答,有有声校对声校对,有声电子邮件有声电子邮件,残疾人服务等残疾人服务等2022-12-4上海建桥学院信息技术系8080两类方法对比较两类方法对比较波形合成法波形合成法规则合成法规则合成法
46、语音单位语音单位字、词、短语等字、词、短语等音素音素(元音元音,辅音辅音;声母声母,韵母等韵母等)存储形式存储形式波形形式波形形式特性参数(基频特性参数(基频,幅度幅度,共振共振峰等)峰等)合成方法合成方法波形连接波形连接优缺点优缺点存储量大;可懂度、自然度存储量大;可懂度、自然度受语音单元大小的影响受语音单元大小的影响由音素组成音节,音节组成由音素组成音节,音节组成字和词,然后再组成句子字和词,然后再组成句子在储量小,但很难得到高质在储量小,但很难得到高质量的语音量的语音2022-12-4上海建桥学院信息技术系8181语音生成同样有困难语音生成同样有困难 语音单元的自然连接问题语音单元的自然
47、连接问题 语气、语调问题语气、语调问题 多音字(词)问题多音字(词)问题 趋势趋势:Sound-specific methods(两种方两种方法相结合法相结合)2022-12-4上海建桥学院信息技术系8282语音合成方法(三种)语音合成方法(三种)波形编码波形编码分析合成分析合成 按规则合成按规则合成波形波形特性特性参数参数语言语言符号符号存储器存储器(模拟(模拟/数字数字)存储器存储器(参数)(参数)合成规则合成规则(参数转换(参数转换)存储存储单元单元波形波形连接连接存储器存储器(参数)(参数)参数参数连接连接存储器存储器(参数)(参数)参数序列参数序列的生成的生成存储器存储器(参数)(参
48、数)信息的信息的基本形成基本形成输入数据输入数据语音语音语音语音语音语音2022-12-4上海建桥学院信息技术系8383文语转换器文语转换器文文语转换:语转换:与录音的重放不同,它是从输入与录音的重放不同,它是从输入的任何文本产生合成语音输出,这就相当于人去读的任何文本产生合成语音输出,这就相当于人去读书面文章的过程。这个过程既包含有很高级的信息书面文章的过程。这个过程既包含有很高级的信息处理,又包含发音器官复杂的生理控制。处理,又包含发音器官复杂的生理控制。两个组成部分:两个组成部分:发音器:发音器:语音合成器,它相当人的发音系统。驱动器驱动器:输入是要发声的文本串或其它语言信息,输出用来驱
49、动发声器发音。2022-12-4上海建桥学院信息技术系8484语法语法规则规则词库词库发音发音词典词典文本分析文本分析语音控制语音控制韵律控制韵律控制(节奏节奏,音调音调)语语音音合合成成器器音素库音素库 韵律韵律规则库规则库语音语音输出输出文本文本音标音标韵律韵律音长,加重,声调,停顿音长,加重,声调,停顿综合谱,形状反射,声道特性综合谱,形状反射,声道特性2022-12-4上海建桥学院信息技术系8585总结课后习题:课后习题:1,2,3,7,8,9,11,15,16,17实践题目:实践题目:使用声音处理软件进行声音的采集和处理使用声音处理软件进行声音的采集和处理2022-12-4上海建桥学院信息技术系8686作业课后作业:课后作业:书上:书上:1,2,3,7,8,9,11,15,16,17 课外:课外:2022-12-4