1、西安交通大学计算机教学实验中心1音频处理技术简述2w音频是多媒体技术中媒体的一种,由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行编辑和存储。声音的基本特性 3w音频信号所携带的信息大体上可分为语音、音乐和音响三类。语音是指具有语言内涵和人类约定的特殊媒体;音乐是规范的符号化了的声音;而音响指其他自然声音,如动物的叫声、机器的轰鸣声、风雨雷电声等 音频信号的特征 4机械振动引起周围弹性媒质发生波动,产生声波。产生声波的物体为声源(如人的声带、乐器等),声波传到人耳,经过人类听觉系统的感知就是
2、声音。声波在时间和幅度上都是连续的,称为模拟音频信号。声波可以分解成一系列正弦波的线性叠加:声音的物理特性 5w频率/周期/带宽 单位时间内声源振动的次数称为声源的频率f,单位赫兹(Hz)频带宽度:带宽,它描述组成复合信号的频率范围 声压和声强6声波造成空气中的气压发生变化,相当于在无声波气压上叠加一个变化的压强,叠加上的压强称为声压,记作P。单位有帕斯卡(Pa)和微巴(bar)。人耳刚能听到声音时的声压称为可听阈声波有能量。单位时间内通过垂直于声波传播方向的单位面积内的声波能量为声强,记作I,单位为瓦米2(Wm2)。声强与声压最大值的平方成正比关系。7在声学中引用分贝来表示声压或声强的变化程
3、度。人的听觉神经的刺激程度不与刺激量大小成正比,而是按刺激量以10为底的对数增长声压和声强8动态范围 9声音的动态范围指声音的最大声压级和最小声压级之间的差值。每种声源的动态范围依据各自的特性有所不同。w如女声的动态范围为2550dB,w男声为3050dB,w交响乐队的动态范围大于100dB。动态范围不仅用来表示一个声源产生的最大声压级与最小声压级之间的差值,录音设备或声音载体用动态范围表示能够处理信号的电平范围。w如磁带的动态范围为50dB60dB,wCD光盘96dB,频谱 10物体在一定位置的附近作来回往复的运动,称为简谐振动。简谐振动会产生一个特定音调的纯音,听起来感觉单薄。乐器很少产生
4、单一频率的纯音,而是复音。复音可以分解为许多不同振幅和不同频率的简谐振动叠加。简谐振动的振幅按频率排列的图形称为频谱。频谱可一目了然地看出复杂振动的频率结构。11钢琴(基频为253Hz)的复音频谱(2)声音的心理学特性 12w从声学心理角度,声音的三个要素是音调、响度和音色。它们与声波的频率、声压和频谱结构对应。w音调人对声音频率的感觉表现为音调的高低,即音高。音调与基频的对数(20lg)成线性关系,单位为美(mei)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度 频率与音调的关系 13响度 14响度是人耳对声音强弱的感觉程度响度与声压有一定关系,但声压大的感觉不一定响
5、。n响度还与频率有关。等响度曲线描述响度、声压以及声响度还与频率有关。等响度曲线描述响度、声压以及声源频率之间的关系。源频率之间的关系。n 从曲线看出,当音量开到使声压级为从曲线看出,当音量开到使声压级为80 dB时,就可做时,就可做到高低频声音丰满到高低频声音丰满 n响度的单位是宋(响度的单位是宋(Sone)音色15w音色又称音品,是声音的音调和响度以外的音质差异。w声音的音色取决于该声音的频谱结构或是频谱包络(声波曲线)。w高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。w它是一个主观量,常用柔和、刺耳、饱满等词描述。掩蔽效应16w称听不到的声音为被
6、掩蔽声,而起掩蔽作用的声音为掩蔽声。w掩蔽效应的一般规律是强音压低音、低频率声音压高频率。w利用掩蔽效应可以用有用信号去掩蔽无用的信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。w在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。空间感 17w一个声源发出的声音同时向各个方向散开,直接和经反射到达的两个声音存在时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回音。经多次反射,造成余声。w回声与余音的感觉可使听者感受出房间大小、高低及内表面结构上的差异,这便是空间感。2.音频信号的质量指标 18w(1)频带宽度 音频信号所包含的谐波分量越
7、丰富,音色越好。用声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。不同质量的声音的频带对比示意图不同质量的声音的频带对比示意图(2)动态范围 19w动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。w动态范围一般用dB为单位来计量。FM广播的动态范围约60dB,AM广播的动态范围约40dB。CDDA的动态范围约100dB,数字电话约50dB。(2)信噪比 20w信噪比SNR(Signal Noise Ratio)是有用信号与噪声之比的简称,即有用信号的平均功率与噪声的平均功率之比 w信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。w录制时应尽可能减小环境噪
8、音。输出时应使音量适当大,以减少环境噪音对听音的影响。22 数字音频 21w1.声音的数字化 数字化就是将连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。(1)PCM编码 22wPCM是一种把模拟信号转换成数字信号的最基本的编码方法,它主要包括采样、量化和编码3个过程。采样是每隔一定的时间测量一次声音信号的幅值。如果采样的时间间隔相等,称为均匀采样;量化是将采样得到的数值限定在几个有限的数值中;编码(coding)是将量化后的信号转换成一个二进制码。比如,量化得到的数据
9、中只会出现两个数值51和80,则只用一位二进制的数表示即可,用0表示51,用1表示80。若量化级别为256(有256级量化数据),则可用8位二进制数表示,这种编码方法称为自然编码。模拟声音信号的采样和量化过程示意 23PCM编码原理 24w编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果就是离散时间信号,然后对采样后的信号幅值进行量化。w量化过程由量化器来完成。对经量化器AD(模/数)变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制数据序列x(n),w计算机对量化后的二进制数据可以用文件的形式存储、编辑和处理,并可还原成原始的模拟信号播放
10、。还原的过程称为解码,它是AD变换的逆过程,即DA(数/模)变换 PCM编码示意图 25 PCM编码示意图(2)均匀量化和分均匀量化 26量化时,如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化.缺点缺点:增加样本位数增加样本位数.非均匀量化27非线性量化的思想是大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。(3)律压扩 28w律(-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入
11、和输出的关系(4)A律(A-Law)29wA律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系 30w对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制 2.数字音频的技术指标 31w(1)采样频率采样频率是指一秒钟采样的次数。采样频率越高,得到波形越接近于原始波形,音质就越好。根据奈奎斯特(Harry Nyquist)采样理论:如果采样频率高于输入
12、信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。例如,电话话音的信号频率约为3.4 kHz,若采样频率选为8kHz,就能无失真地重放原始声音。32w采样的3个常用频率分别为11.025kHzAM广播22.05kHz FM广播44.1kHz CD高保真音质声音w现在声卡的采样频率一般为48kHz甚至96kHz。(2)采样精度 33w采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映声音波幅度的精度。例如,每个声音样本用16位表示,则量化样本值在065535的整数范围内,它的精度是输入信号的1/65536 w采样精度决定了模拟信号数字化以后的动态范围。若以8位量化,
13、则其波形的幅值可分为28=256等份,等效的动态范围为20lg(256)=48dB。若以16位采样,则可分为216=65536等份,等效动态范围为20lg(65536)=96dB。w采样精度影响到声音的质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。(3)声道数 34单声道(mono)信号一次产生一组声波数据。如果一次产生两组声波数据,则称其为双声道或立体声(stereo)。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。除采样频率、采样精度、声道数
14、影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用(4)音频数据传输率 35音频信号数字化后,产生大量数据 播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bit per second)。未经压缩的数字音频数据传输率为 w数据传输率(bits)=采样频率(Hz)量化位数(bit)声道数 声音质量和数字化指标 36质量质量采样频率采样频率(kHz)样本精度样本精度(bit)单道声单道声/立体声立体声数据率数据率(kB/s)(未压缩未压缩)
15、频率范围频率范围电话电话*88单道声单道声82003 400 HzAM11.0258单道声单道声11.0507 000HzFM22.05016立体声立体声88.22015 000HzCD44.116立体声立体声176.42020 000 HzDAT4816立体声立体声192.02020 000 Hz(5)编码算法与音频数据压缩比 37未压缩的音频数据量非常大,因此在编码的时候常常要采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比38w采用不同的数字化指标实际上也是进行了
16、不同比例的数据压缩。如果PCM编码采用4bit量化对CD音质信号压缩,其压缩比为4:1。这种情况下,用来记录幅值的比特位越少,编码后数据量就越小,压缩比越大。但压缩比越大,丢掉的信息就会越多,信号还原后失真就越大。(对有损压缩)w压缩算法包括有损压缩和无损压缩;有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号3.数字音频文件格式 39w数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式.(1)WAVE文件格式 wWAVE文件是一种通用的音频数据文件,文件扩展名为“WAV”,Windows系统和一般的音频卡都支持这种格式
17、文件的生成、编辑和播放。wWAVE文件由三部分组成:文件头(标明是WAVE文件、文件结构和数据的总字节数)、数字化参数(如采样率、声道数、编码算法等),最后是实际波形数据。CD激光唱盘中包含的就是WAVE格式的波形数据,只是扩展名没写成“.WAV”。一般说来,声音质量与其WAVE格式的文件大小成正比。wWAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放(2)MP3文件40MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。MP3利用MPEG(Motion Picture Expert Group,运动图像专家组)制定的MPEG
18、-1 Audio layer 3的压缩标准,将音频信息用10:1甚至12:1的压缩率。MPEG1压缩主要用于VCD数据的压缩,也用来压缩不包含图像的纯音频数据,音频压缩算法包括MPEG Audio Layer1、MPEG Audio Layer2等,而MPEG Audio Layer3有很高的压缩比。虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CDDA的内容可以压缩到l张CDROM中,而且视听效果相当好。(3)RA文件 41wReal Audio是Real networks推出的一种音乐压缩格式,它的压缩比可达到96
19、:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kbs的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。电子合成音乐 42w在多媒体系统中,除了用数字音频的方式以外,还可以用合成的方式产生音乐.w音乐合成的方式根据一定的协议标准,使用音乐符号来记录和解释乐谱,并组合成相应的音乐信号,这就是MIDI(Musical Instrument Digital Interface 乐器数字接口)。1.电子合成音乐的有关概念 43wMIDI将数字式电子乐器的弹奏过程以命令符号的形式记录下来,如按了哪一个键、力度多大、时间多长等。当需要
20、播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。44w(1)MIDI电子乐器它是能产生特定声音的合成器,如电子键盘、吉他、萨克斯管等;它们相互间的数据传送符合MIDI的通信约定。w(2)MIDI消息(message)或指令MIDI软件通信协议,实际上是用数字指令描述的音乐乐谱,其中包含音符、强度、定时及乐器的指派等。w(3)MIDI接口(interface)MIDI硬件通信协议,可使电子乐器互连或与计算机硬件端口相连,可发送和接收MIDI消息。w(4)MIDI通道(channel)MIDI标准提供了16个通道,每种通道对应一种逻辑的合成器,即对应一种乐器的
21、合成。w(5)音序器(sequencer)它指可用来记录、编辑和播放MIDI文件的计算机程序。电脑合成音乐的制作原理 45w电脑合成音乐需要使用MIDI语言。MIDI语言利用字节传送来告知相应的设备做什么。MIDI字节通知乐器、声卡和其他MIDI设备什么时候开始和什么时候结束演奏音符.wMIDI自身并不产生和传送声音,只是传送产生声音的控制符号.w使用MIDI语言的设备(MIDI设备)可以互联。典型设备是合成器或者MIDI控制键盘,也可以是外挂式音响效果单元、计算机、配备有MIDI接口的吉他等(1)MIDI音乐的产生过程 46(2)MIDI通道 47w当MIDI设备交流信息时,需要遵循一定的事
22、件序列。例如,两个MIDI设备在建立连接之后首先要做的事情就是在使用相同的MIDI通道方面达成一致。MIDI可以在16个这样的通道上进行操作,这些通道用数字分别标记为015。只要两个MIDI设备进行交流,就必须使用相同的通道。对电脑合成音乐,每个逻辑通道可指定一种乐器,音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收(3)MIDI接口和计算机的连接 48wMIDI接口由三个端口组成:输入端口(In)、输出端口(0ut)和直达端口(Thru)直达端口对MIDI数据只是进行简单传输,来自直达端口的数据仅仅是来自输入端口数据的拷贝,在离开直达端
23、口前数据不会发生任何的改变 4.MIDI音乐合成器 49wMIDI指令送到合成器,由合成器(synthesizer)产生相应的声音。同样的乐谱如选择不同的乐器播放,会听到不同的音色 wMIDI制造商协会(MIDI Manufacturers Association)制定了通用MIDI规格(General MIDI Mode),简称GM规格。通用MIDI标准同时定义了GM音色库(一个音色库,也被称为音色映射,支持128种乐器声音)和GM打击音色库(只包含打击乐器发出的声音),另外还定义了其他一些与音乐相关的性能,如每个GM设备应支持的声音数量和MIDI消息种类。不同类别MIDI设备的音色代码区间
24、 50程序号程序号乐器族乐器族程序号程序号乐器族乐器族1 18 8钢琴钢琴65657272簧管乐器簧管乐器9 91616半音打击乐器半音打击乐器73738080笛笛17172424风琴风琴81818888合成主音合成主音25253232吉他吉他89899696合成衰减合成衰减33334040贝司贝司9797104104合成效果合成效果41414848琴弦琴弦105105112112民间乐器民间乐器49495656合唱合唱113113120120打击乐器打击乐器57576464铜管乐器铜管乐器121121128128声音效果声音效果51wMIDI合成的产生方式有两种:FM(frequency m
25、odulation)合成和波表(Wavetable)合成。FM频率调制合成是通过硬件(称为发生器)产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。w这种方式在理论上有无限多组波形,即可以模拟任何声音,而且可以任意修改音色。由此模拟的乐器较高或较低频率的信号失真度很大,音色真实度很差 52波表的原理是在ROM中以数字格式存储各种实际乐器的声音采样,声音采样以声波的形式被组织到能够对其进行单独处理的库中或者表内,需要合成某种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。wROM存储器的容量越大,合成的效果越好 3.MIDI文件 53w用乐谱指令代替声音数据 w有效记录和重现各
26、种乐器声音 MIDI声音仅适于重现打击乐或一些电子乐器的声音 w占用存储空间极小 例如一个8位、22.05kHz的波形音频文件持续2s就需超过40KB的容量,而一个MIDI文件播放2分钟所需的空间不超过8KB。w适合乐曲创作和远距离传输数字音频处理 54多媒体数据的编码技术 55w1.数据压缩的基本原理 数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有大的信息量.(1)信息和熵56香农(C.E.Shannon)信息论应用概率来描述不确定性。事件出现的概率小,不确定性越多,信息量就大,反之则少。在数学上,所传输的消息
27、是其出现概率的单调下降函数。所谓信息是指从N个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在辨识N个事件中特定的一个事件过程中所需要提问“是”或“否”的最少次数。如从64个数中选定某一个数,提问:“是否大于32?”,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数。我们可以用二进制的6个位来记录这一过程,就可以得到这条信息。5758香侬理论的要点是 59w信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。但信
28、源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。(2)信息冗余 60w多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。w冗余是指信息存在的各种性质的多余度.w减少数据冗余可以节省存储空间,有效利用网络带宽。数据冗余的类型61w(1)空间冗余 w(2)时间冗余 w(3)信息熵冗余 w(4)视觉冗余 w(5)听觉冗余 w(6)知识冗余(3)压缩算法的分类 62w(1)从信息量有无损失划分,有可逆编码和不可逆编码 1)可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度,
29、而不损失任何信息。解压时可以完全恢复出原来的数据,亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。可逆编码由于不会产生失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全地恢复原始数据。但这种方法的压缩比较低,一般在2:15:1之间。632)不可逆编码是有失真压缩,信息论中叫熵压缩。由于压缩了熵,会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中,由于存在视觉冗余和听觉冗余,减少这种信息并不影响人们的听觉效果和视觉效果,所以经常采用这种方法,有损压缩常用于数字化存储的模拟数据,并且主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的JPEG
30、标准,对自然景物的彩色图像,压缩比可达到几十倍甚至上百倍。64w(2)根据压缩原理划分有预测编码、变换编码、矢量编码、子带编码、熵编码等。1)预测编码 w对于语音,就是通过预测去除语音信号时间上的相关性。而对于图像,帧内预测去除了空间上的冗余,帧间预测则可以去除时间上冗余。w目前大多数语音、图像编码中都采用了预测技术。w例如语音中的LPC(linear Predictive Coding,线性预测)、CELP(码激励线性预测)、图像中的ADPCM(自适应差分脉冲编码调制)等。652)变换编码 w变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。w变换域中表现为能量集中在某些区域,就
31、可以利用这一特点在不同区域间有效地分配量化比特数,或者去掉这些能量很小的区域,从而达到数据压缩的目的。w例如声音中的频谱分析实际上是对语音波形进行了快速傅里叶变换(FFT),将时域信号变到了频域中,可以清楚地看到能量集中在哪些频率范围内。663)矢量量化w矢量量化是利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩方法。和预测编码一样,矢量量化本质也是利用数据序列的统计相关性进行压缩的。4)子带编码w子带编码首先让原始数据分别通过若干个具有不同通频带的滤波器,将信号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码。当滤波器选取得合适时,它们的输出将各自具有不同的分布特性,对各频段
32、进行不同的量化处理,可以有效地进行数据压缩。675)熵编码w根据信息墒的原理,用短码表示出现概率大的数据,用长码表示出现概率小的数据。这是一种无损数据压缩技术,在语音和图像编码中常常和其它有损压缩编码方法结合使用。2.基本压缩编码方法 68w(1)霍夫曼编码 霍夫曼(Huffman)编码在1952年为文本文件而建立。霍夫曼编码的码长是变化的,对于出现频率高的信息,编码的长度较短;而对于出现频率低的信息,编码长度较长。这样,处理全部信息的总码长一定小于实际信息的符号长度。w(1)将信号源的符号按照出现概率递减的顺序排列。w(2)将两个最小出现概率进行合并相加,得到的结果作为新符号的出现概率。w(
33、3)重复进行步骤1和2,直到概率相加的结果等于1为止。w(4)在合并运算时,概率大的符号用编码1表示,概率小的符号用编码0表示。w(5)记录下概率为1处到当前信号源符号之间的0、1序列,从而得到每个符号的编码 69w例2.12 设信号源为X=、a、e、I、m、t、c、h、r。w对应的概率为p=O.22、0.22、0.14、O.07、0.07、0.07、0.07、0.07、0.07,试给出该信源的霍夫曼编码方案。w若传送一个串字符串“I am a teacher”,共14个字符。若用ASCII传送,每个字符8位,共需112位。该字符串中有9个不同的符号,至少需要4位二进制才能表示,这样传送该字符
34、串也要56位。若用刚计算的Huffman编码,只需要42位。霍夫曼编码过程 70(2)行程编码原理 71w由字符(或信号采样值)构成的数据流中相同的字符(或字符串)会连续重复出现,重复出现的字符长度称为游程长度RL(Run Length)。如果给出了形成串的字符,串的长度及串的位置,就能复出原来的数据流。行程编码RLC(Run Length Coding)就是用二进制码字给出上述信息的一类方法。行程编码又称“运行长度编码”或“游程编码”72w例2.13 设有数据流“AAABBBBCCCCCDAAAAAA”,试计算该数据的行程编码。w解:A重复3次,B重复4次,C重复5次,D不重复,A重复6次,
35、RLC数据流为:“SA3SB4SC5DSA6”,其中S为指示符。总共占用13个字节,而源数据占用19个字节。w有时行程编码不用指示符,重复与否相同对待,则相应的RLC为“A3B4C5D1A6”占用10个字节。3.数字音频压缩标准 73w1.电话质量的语音压缩标准 w电视会议的语音编码、为提高线路利用率的多媒体多路复用装置、数字录音电活的数字记录部件以及高质量的语音合成器;数字移动通信、无绳电话wITU 国际电信联盟 International Telecommunication Union标准编号标准编号要要 点点G.711G.711采用采用PCMPCM编码,采样频率编码,采样频率8kHz8k
36、Hz,采样精度,采样精度8bit8bit,数据率,数据率64kb/s64kb/s,非线性量化非线性量化G.721G.721基于基于ADPCMADPCM编码,采样频率编码,采样频率8kHz8kHz,数值差分用,数值差分用4 4位量化,数据率位量化,数据率32kb/s32kb/sG.723G.723ADPCMADPCM编码,数据率编码,数据率24k/s24k/sG.728G.728LD-CELPLD-CELP编码技术,数据率编码技术,数据率16k/s16k/s,音质与,音质与G.721G.721相当相当(2)调幅广播质量的音频压缩标准74调幅广播质量音频信号的频率范围是50Hz7kHz,又称“7k
37、Hz音频信号”,当使用16kHz的采样频率和14bit的量化位数时,信号速率为224kbs。1988年ITU制定了G.722标准,它可把信号速率压缩成64kbs。G.722标准基于子带ADPCM技术(SBADPCM),将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流。这种压缩方法能够在每秒8kB的存储量下给出相当好的音乐信号,也很适合于需要存储大量高质量音频信号的多媒体系统使用(3)高保真立体声音频压缩标准 75高保真立体声音频信号的频率范围50Hz20kHz,在44.1 kHz采样频率下用16bit量
38、化,信号速率为每声道1410kbs。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG Audio是一个子带编码系统,声音数据压缩算法的根据是心理声学模型。心理声学模型中一个最基本的概念是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到。听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz5kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。76wMPEG声音(ISO/IEC 11172-3)压缩算法是世界上第一个高保真声音数据压缩国际标准,并且得到了极其广泛的应用。MP
39、EG声音标准是MPEG标准的一部分,但它也完全可以独立应用。MPEG声音标准提供三个独立的压缩层次:层1(Layer 1)、层2(Layer 2)和层3(Layer 3),用户对层次的选择可在复杂性和声音质量之间进行权衡。调音台调音台本章要点本章要点调音台的分类与作用调音台的分类与作用调音台的组成与性能指标调音台的组成与性能指标调音台的使用与操作要点调音台的使用与操作要点调音台的调音技巧调音台的调音技巧调音台的分类与作用调音台的分类调音台的分类1.按输入路数分w 4路、6路、8路、12路、16路、24路、32路、40路、48路、56路等。在歌舞厅及专业演出系统中常用824路。2.按主输出路数分
40、w 单声道、双声道(立体声)、三声道、四声道、多声道等。专业演出系统中常用双声道调音台。此外,输出路数有时还需考虑编组输出、辅助输出路数。3.按用途分w 扩声调音台、录音调音台、播音调音台、迪斯科专用调音台(又称DJ混音台)。在会堂、舞台演出及歌舞厅中常用扩声调音台。4.按信号处理方式分w 模拟式调音台和数字式调音台。数字式调音台含有模数转换(AD)、数模转换(DA)和数字信号处理(DSP)等功能单元,目前在歌舞厅、会堂中应用还不多,现在广泛使用的是模拟式调音台。调音台的基本功能调音台的基本功能w1.信号放大 w2.信号处理 w3.信号混合 w4.信号分配 w 除了上述四大功能之外,调音台还有
41、显示、监听、编组、遥控、对讲等功能。调音台主要由三部分组成,即输入通道部分、主控输出部分、外接效果器接口及内部混响延时器部分。调音台的组成与性能指标w7.2.1.调音台的组成调音台的组成w1.输入通道部分 (1)主干通道 (2)辅助通道 w2.主控输出部分 w3.外接效果器接口及内部混响延时器部分 外接效果器接口电路由放大器、主电平控制(SEND LEVEL)、效果输出接口(SEND)、效果返送输入插口(RETURN-L 和 RETURN-R)、环绕声控制(B LEVEL)及声像控制(PAN)等电路组成。该电路的输入信号取自效果总线(EFF BUS),经外接效果器后的输出分配到左右总线(LEF
42、T BUS 和 RIGHT BUS)上。外接效果自动将内部的混响延时器(DIGITAL DELAY)切断。w4.LED、VU表和PPM表 在调音台的输入部分和输出部分中还有显示单元,用以指示信号音量的大小,调音台的显示部件有LED(发光二极管)、VU表(音量单位表)和PPM表(峰值音量表)三种,其中LED灯一般用于指示输入单元的信号大小,VU表和PPM表一般用于输出部分,用来指示输出的信号电平。例如,接在输入单元的均衡器EQ之后的峰值(PEAK)LED或过载削波(CHIP)LED指示灯,用来指示该输入通道信号的峰值。当它闪亮太频繁或总是亮着时,表明输入信号过强,这时需调小调音台输入放大器增益,
43、或调节节目源的输出电平使输入信号减小,否则就会产生过载削波失真。反之,如果该LED灯长灭不亮,表明激励不足,应将输入信号幅度调大,否则会导致信噪比下降。调音台的主要性能指标w1.增益 w2.等效输入噪声电平 w3.频率响应 w4.非线性谐波失真 w5.动态余量 w6.串音 w 调音台系统的基本接法调音台系统的接法与使用调音台与周边设备的连接w1.接在辅助输出与辅助输入之间w2.接在辅助输出与某一输入通道之间 w3.接在调音台输入通道中 w4.接在调音台输出通道中 调音台与周边设备的连接位置调音台与周边设备的连接位置调音台的操作要点w 1调音台与周边设备的连接 调音台与外围设备连接图 2调音台的
44、操作要点 w(1)开机前 先按前面所述接好系统。并且将调音台的分推子、主推子置最小位置,台上均衡器(EQ)和声像电位器(PAN)置中央位置,输入通道增益(GAIN)、辅助电位器(如效果AUX2、返听AUX1电位器)置最小位置,总之所有控制钮都回到起始状态。w(2)开机后 先将音源设备(如CD)的音量电位器开到最大不失真状态。调节输入增益(GAIN)旋钮到其旁边的PEAK(峰值)指示灯到刚亮未亮处;调节调音台该输入通道的分推子(FADER)于70%处。调节调音台输出主推子,使主输出的VU表指针大致在0VU附近摆动(不允许长时间指针超过+3VU),此时主推子位置也宜在5075%的位置内。如果不在此
45、范围,可相应调整输入增益或音源输出电平。如果还觉得音箱响度不够,可开大功放音量旋钮到所需扩声声压级。注意此时功放不得进入削波状态,否则应换用大功率功放。以上调控顺序是由输入逐步向输出调整。如果不是音源而只是用话筒,由于话筒输入信号很小,初学者调输入通道时听不到声音而常常感到茫然不知所措,此时可先将输出主推子置70处,再调输入增益旋钮和分推子(分推子也宜在5070%范围内),再按上述步骤调整。这种调音方法对初学者比较适合。按照节目要求,分别调节调音台上的EQ、PAN及效果等。w(3)关机 将主推子和分推子均推回最小位置。然后先关功放电源,后关调音台及其他设备电源。3调音台上的音色和效果的调控 调
46、音台输入通道的均衡器(EQ)是用来对输入信号的音色进行补正。由于是单路控制,所以调音台可以对每一路进行均衡调控而不会相互干扰。通常调音台的输入均衡器分为三段,即高频(HIGH)、中频(MID)、低频(LOW),其中中频又往往为中心频率可调(半参量式)。三段的中心频率或转折频率一般为:高音(10kHz)、中音(350Hz5kHz可调)、低频(100Hz)。调音台还常用四频段EQ方式,通常四段为:高频(HF)为616kHz,它主要影响音色的表现力、解析力;中高频(MID HF)为600Hz6kHz,主要影响音色的明亮度、清晰度;中低频(MID LF)为200600Hz,主要影响音色的力度感和结实度
47、;低频(LP)为20200Hz,主要影响音色的浑厚感和丰满度。四段均衡器的频率特性四段均衡器的频率特性 人耳的听觉感受过度衰减适中过度提升高音(620kHz)单高、平淡色彩鲜明富于表现力尖噪、嘶哑刺耳 中高音(600Hz6kHz)暗淡、朦胧明亮、清晰呆板 中低音(200600Hz)空虚无力圆润有力生硬 低音(20200Hz)苍白单薄丰满、混厚深沉浑浊不清w面板各旋钮和插孔的作用wMX-200型调音台分析wMX-200调音台的调控w数字信号效果处理器的应用w图示均衡器的调整调音台操作实例YAMAHA MX-200型调音台系统现场演出应用接线图型调音台系统现场演出应用接线图 AB:输人选择开关按钮
48、。PAD:衰减开关按钮。GAIN:增益旋钮。PEAK:峰值电平指示灯。:低切开关按键。三段频率均衡(EQ)旋钮。辅助(AUX)输出。PAN:声像控制旋钮。ON:通道开关按键。PFL:推子前监听。11 FADER:音量推子。80 面板各旋钮和插孔的作用面板各旋钮和插孔的作用1、ON:主输出开关。2、立体声(ST)左右主推子 3、MONO ON:单声道开关 4、AFL:推子后监听 5、单声道(MONO)输出推子6、辅助输出监听(AFL)按键 7、辅助输出推子 8、AUX RETURN:辅助返回通道控制钮 9、REC OUT:录音输出电平控制钮 10、TAPE IN:磁带输入电平控制钮11、PHON
49、ES:耳机音量控制钮 12、耳机插座 13、METER SELECT:表头显示选择按键 14、PHANTOM:幻象供电指示灯 15、监听(PFL)指示灯 YAMAHA MX-200型调音台的系统方框图 MX-200型调音台分析型调音台分析MX-200调音台及周边设备的接线图调音台及周边设备的接线图 MX-200调音台的调控调音台的调控数字信号效果处理器的应用数字信号效果处理器的应用图示均衡器的调整图示均衡器的调整调音台的调音技巧各类乐器乐音的拾音、调音技巧各类乐器乐音的拾音、调音技巧w1.小提琴小提琴 w2.中提琴中提琴 w3.大提琴大提琴 w4.贝司提琴贝司提琴 w5.长笛长笛 w6.单簧管
50、单簧管(黑管黑管)w7.铜管乐器铜管乐器w8.吉他吉他 w9.电吉他电吉他 w10架子鼓架子鼓 w 小提琴小提琴 小提琴的基音由G3至E6,高次谐波可达20kHz。小提琴500Hz以下的声能向各方向辐射是均匀的。当频率增高时,辐射方向将主要集中在垂直于声板的方向,因而在垂直方向的15度夹角范围内拾音,可以获得全频带的声音。除此之外,拾音传声器还应该对准小提琴的f形孔。因此选择话筒的位置时,一般可将其置于靠近小提琴、并且高于小提琴的位置放置,如图所示。对于小提琴类的弦乐器拾音,适合使用频带宽的电容式传声器。当对小提琴作远距离拾音时,应选用质量最佳的电容传声器,一般选择心形或超心形指向特性的传声器