1、h1第 5 章 音频技术 音频也是多媒体应用的重要组成部分。音频也是多媒体应用的重要组成部分。 现实世界的声音来源是相当复杂的,声音不仅与时间和现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中空间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。征和听力范围。 数字音频主要分为声波、语音和音乐三类。数字音频主要分为声波、语音和音乐三类。 h2要模拟出符合现实世界的数字声音,我们首先得了解要模拟出符合现实世界的数字声音,我们首先得了解声音
2、的基本特性声音的基本特性: :包括声音的物理特性和人们在听觉方面的心理特性包括声音的物理特性和人们在听觉方面的心理特性. .以以便创建出一定格式的数字声音编码,满足人们对模拟声音在便创建出一定格式的数字声音编码,满足人们对模拟声音在采集、处理、质量等各方面的需求。采集、处理、质量等各方面的需求。 5.1 声音声音h35.1.1 5.1.1 声音的物理特征声音的物理特征 声音是声音是纵波纵波。决定声波的物理特性有振幅、频率和相位。决定声波的物理特性有振幅、频率和相位。 一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目
3、称之为信号的频率,单位用赫兹为信号的频率,单位用赫兹(Hz)(Hz)或千赫兹或千赫兹(kHz)(kHz)表示。信号的幅度是从信号的基线表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝音频信号,声音的强度用分贝(dB)(dB)表示,分贝的幅度就是音量。表示,分贝的幅度就是音量。 h41.1.声音的强度声音的强度 在在1kHz1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是频率的正弦波中,能被人耳察觉的最弱声压大约是2.83102.8310- -4
4、 4dyndyn(达因)(达因)/cm/cm2 2,这个最弱音已经作为国际标准的参照声。,这个最弱音已经作为国际标准的参照声。 描述声音强度的量值是采用分贝表示描述声音强度的量值是采用分贝表示: :分贝分贝是指两个相同的物理量(例是指两个相同的物理量(例A1A1和和A0A0)之比,取以)之比,取以1010为底的对数并乘为底的对数并乘以以1010(或(或2020)。)。N = 10lg(A1/A0) N = 10lg(A1/A0) 分贝符号为分贝符号为“dB”dB”。N N是被量度量的是被量度量的“级级”。,这也被称。,这也被称为声压级。为声压级。A1A1是被量度量。是被量度量。A0A0是基准量
5、是基准量如果如果2.8310-4dyn/cm2被看作被看作0dB那么在特别安静的环境中,单独检测:动物的呼吸声大那么在特别安静的环境中,单独检测:动物的呼吸声大约约20 dB,人们正常的谈话声约,人们正常的谈话声约60dB,汽车的喇叭声约,汽车的喇叭声约100dB,飞机起飞的声音约,飞机起飞的声音约120 dB120dB以上的强度可使人产生痛苦的感觉。以上的强度可使人产生痛苦的感觉。 h5一般人的听力范围是一般人的听力范围是 20Hz20Hz20kHz20kHz。这个频率区域称为可闻。这个频率区域称为可闻声段,大致可分为低频、中频和高频声段,大致可分为低频、中频和高频低频的频率约在低频的频率约
6、在250250500 Hz500 Hz(如鼓声)(如鼓声)中频的频率约在中频的频率约在100010002000 Hz2000 Hz,高频的频率约在高频的频率约在300030004000 Hz4000 Hz(如哨子声)。(如哨子声)。2.2.频率频率是指物体每秒钟振动的次数。是指物体每秒钟振动的次数。我们听到的声音都是物体振动后会产生声波我们听到的声音都是物体振动后会产生声波不同的振动频率将会产生不同的声波。不同的振动频率将会产生不同的声波。 低于低于20Hz20Hz和高于和高于20kHz20kHz的频率段分别称为次声和超声。的频率段分别称为次声和超声。h6瞬时T3.3.相位相位是波形的变化方向
7、,如果是多个波形组合,起始是波形的变化方向,如果是多个波形组合,起始相位可以相同或不同。相位可以相同或不同。在某一个瞬时在某一个瞬时T T,不同波形的相位都可以是不同的。,不同波形的相位都可以是不同的。右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波形。形。 规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量模拟量。h75.1.2 5.1.2 声音的听觉心理特性声音的听觉心理特性 对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和对
8、于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和语言声学内。语言声学内。听觉心理的主观感受主要有:听觉心理的主观感受主要有:响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位。响度、音度、音色:响度、音度、音色:可以在主观上用来描述任何复杂的声音而对于多种音源场合:而对于多种音源场合:人的耳掩蔽效应等特性尤为重要。h8 1 1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。反之亦然。 当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软
9、件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。 2 2)音色:即特色的声音。)音色:即特色的声音。声音分纯音纯音和复音复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音
10、色来辨别声源种类的。 3 3)音强:声音的强度,也被称为声音的响度,常说的)音强:声音的强度,也被称为声音的响度,常说的“音量音量”也是指音强。也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。 h9等响曲线等响曲线 响度响度表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小,物理上声压级的值一般不等于响度级的值。小,物理上声压级的值一般不等于响度级的值。声音的感知响度声音的感知响度1 sone1 sone相当于相当于404
11、0分贝的音调在分贝的音调在1kHz1kHz下的响度。下的响度。响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到。到一定程度,人耳都无法听到。实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。阈随频率变化的等响度曲线之间的区域就是人耳的
12、听觉范围。声压级 可闻阈的分贝值频率Hz就是说,小于就是说,小于0dB0dB闻阈和大于闻阈和大于140dB140dB痛阈时为不可听声。痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。这些等响度曲线表明了听觉在有些频率下较为灵敏。 h10所谓所谓“等响等响”就是对于就是对于1kHz1kHz以外的可听声,在同一级等响度曲线上有无数个等效以外的可听声,在同一级等响度曲线上有无数个等效的声压的声压频率值,频率值,例如,例如,200Hz200Hz的的30dB30dB的声音和的声音和1kHz1kHz的的10dB10dB的声音在人耳听起来具有的声音在人耳听起来具有相同的响度。相同的响度。 高
13、频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导高频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导致响度的较大变化。致响度的较大变化。 在较低的声压级上,等响上曲线各频率声音的声压级相差很大,在较低的声压级上,等响上曲线各频率声音的声压级相差很大,较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。 这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。段比高频段灵敏度降低
14、更加剧烈,一般应特别重视加强低频音量。h11听觉的听觉的掩蔽效应掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的是一个较为复杂的心理和生理现象,包括人耳的频域频域掩蔽掩蔽效应和效应和时域掩蔽时域掩蔽效应。而且人耳对声音源方向的辨别能力,也与效应。而且人耳对声音源方向的辨别能力,也与频率的高低有关。频率的高低有关。由于对于由于对于2KHZ2KHZ以上的高频声音信号,人耳很难判断其方向性,因而在以上的高频声音信号,人耳很难判断其方向性,因而在数字处理时,就可以不必重复存贮立体声广播的高频部分。数字处理时,就可以不必重复存贮立体声广播的高频部分。 屏蔽屏蔽是指是指一个弱声音被另一个强声音所遮盖一个
15、弱声音被另一个强声音所遮盖。当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时,屏蔽效应最有效。强声音的频率与弱声音相同或更高时,屏蔽效应最有效。 屏蔽屏蔽如果同时存在的是两个纯音如果同时存在的是两个纯音实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其
16、频率附近,另一种是低频的纯音可以有效地掩蔽高频的纯音。近,另一种是低频的纯音可以有效地掩蔽高频的纯音。 如果同时存在的是噪音和纯音如果同时存在的是噪音和纯音情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。 h12临界频带临界频带 当某个纯音被当某个纯音被以它为中心频率且具有一定带宽的连续噪声以它为中心频率且具有一定带宽的连续噪声所屏蔽所屏蔽时,如果该纯音刚好能被听到时的时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功功率等于这一频带内噪声的功率率,那么这个带宽就称为临界频带宽度。,那么这
17、个带宽就称为临界频带宽度。但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。表中跨越多个临界频带的声音感知程度是不相同的。 可以说明人类的听觉对声音的感知特性。可以说明人类的听觉对声音的感知特性。表表5-15-1列出的是在列出的是在20Hz20Hz16kHz16kHz范围内,通常可分出的范围内,通常可分出的2424个子临界个子临界频带。频带。人耳对同一个临界频段内频率的听觉和感知是较接近的。人耳对同一个临界频段内频率的听觉和感知是较接近的。h135.1.3 5.1.3 声音的数字原理声音
18、的数字原理 模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成。模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成。实际声音信号的计算机获取过程就是声音的数字化的处理过程。实际声音信号的计算机获取过程就是声音的数字化的处理过程。声音的模声音的模/ /数转换(数转换(ADCADC),首先需对声波采样,用数字方式记录声音。图中,首先需对声波采样,用数字方式记录声音。图中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模现这个过程的装置就被称为模/ /数转换器。数转换器
19、。 声音的数声音的数/ /模转换(模转换(DACDAC)即由数字声音变成模拟的波形。即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数实现这个过程的装置被称为数/ /模转换器。模转换器。 h143.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频的采样、量化和编码。频的采样、量化和编码。 采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转
20、换器实现实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。 模拟信号的数字化过程 100101100011101 h15 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的在一定条件下,用离散的序列可以完全代表一个连续函数序列可以完全代表一个连续函数,这是采样定理的基本内容。 为实现A/D转换,需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割,这种方法这种方法称为采样称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟
21、声音的采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。 1. 1. 采样采样 采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音才能把数字信号表示的声音还原成为原来的声音。 2f2ff fs sh16 采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的
22、数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。 量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。2. 量化量化h17 以下图所示的原始模拟波形为例进行采样和量化
23、。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。h18 D/A转换器转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。 h19 失真失真在采样过程中是不可避免的,如何减少失真呢如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高采用更高的采样频率。同时,增加量化精度的采
24、样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。h20模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据把经过采样和量
25、化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储散的量,然后将其转化为代码形式传输或存储。3. 编码编码h215.1.4 5.1.
26、4 数字声音质量的主要因素数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即影响数字化声音质量的因素主要有三个,即采样频率采样频率,采样精度采样精度和和通道个数通道个数。 1.1.声音的采样精度声音的采样精度 采样精度采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。位数。换句话说,采样位数可表示采样点的等级数,若用换句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样二进制描述采样点的幅值,则可以将幅值等量分割为点的幅值,则可以将幅值等量分割为256个区,若用个区,若用16bit二进制
27、分割,则分二进制分割,则分为为65536个区。个区。 可见,采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小可见,采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。就越大。 常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。 根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6 6分贝。分贝。8 8位的数字系统其信噪比只有位的数字系统其信噪比
28、只有4848分贝,分贝,1616位的数字系统的信噪比可达位的数字系统的信噪比可达9696分贝分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。 h222.2.声音的采样速率声音的采样速率 采样速率采样速率,即采样频率,指每秒钟采样的次数,单位为,即采样频率,指每秒钟采样的次数,单位为HzHz(赫兹)。(赫兹)。 奈奎斯特采样定理指出:奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。 对于以对于以11kHz11kHz的频率的采样系统,只能恢复的最高音频是的频率的采样系统,
29、只能恢复的最高音频是5.5kHz5.5kHz。如果要把如果要把20Hz20KHz20Hz20KHz范围的模拟音频信号变换为二进制数字信号,那范围的模拟音频信号变换为二进制数字信号,那么脉冲采样频率至少应为么脉冲采样频率至少应为40KHz40KHz,其周期为,其周期为Tp=1/fp=1/40KHz=25sTp=1/fp=1/40KHz=25s。 流行的采样频率主要为流行的采样频率主要为22.05KHz22.05KHz、44.1KHz44.1KHz、48KHz48KHz采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的
30、表示越精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但高采精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但高采样率的数据占有很大空间。样率的数据占有很大空间。 h233.3.声音的通道个数声音的通道个数 声音的采样数据还与声道数有关。单声道只有一个数据流,立体声声音的采样数据还与声道数有关。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的效特征,因此,声音的播放在时间和空间性能方面都能显示更好的效果,但相应数据量
31、将成倍增加。果,但相应数据量将成倍增加。 h245.1.5 5.1.5 采样数据量采样数据量 要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率和频率,以采集更多的信号样本。而能够进一步进行处理的首要和频率,以采集更多的信号样本。而能够进一步进行处理的首要问题,那就是大量采样数据文件的存储。问题,那就是大量采样数据文件的存储。采样数据的存储容量计算公式如下:采样数据的存储容量计算公式如下: 存储容量存储容量( (字节字节)=)=采样频率采样频率 采样精度采样精度/8/8 声道数声道数 时间时间 h25表表5-25-2列出了列出了1
32、1分钟的双声道声音,采用不同采样频率和精度所需的存储分钟的双声道声音,采用不同采样频率和精度所需的存储容量。例如,采用容量。例如,采用44.1kHz44.1kHz采样频率和采样频率和1616位采样精度时,数字化后需要位采样精度时,数字化后需要的存贮容量为:的存贮容量为:44.144.1 16/816/8 2 2 60=10.584B 60=10.584B 采样频采样频率率kHzkHz采样精采样精度度bit存储容存储容量量MB数据速率数据速率kb/s常用编常用编码方式码方式质量质量44.11610.33688.2PCM激光唱片级质量激光唱片级质量22.05165.16844.1ADPCM调频广播
33、级质量调频广播级质量常用于伴音常用于伴音82.58422.05ADPCM11.025162.58422.05ADPCM调频广播级质量调频广播级质量常用于伴音或解常用于伴音或解说说81.29211.025ADPCM 表表5-2 5-2 几种数字化声音的信息几种数字化声音的信息 为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信息的能力,具有压缩声音信息的能力,压缩方法自适应脉冲编码调制(压缩方法自适应脉冲编码调制(ADPCMADPCM)法)法ADPCMADPCM压缩编码方案的特点是:压缩编码方案的特点
34、是:信噪比高,数据压缩倍率可达信噪比高,数据压缩倍率可达2-52-5倍,而不会明倍,而不会明显失真。显失真。h26语音是声音的一种,与人类的语言学有关,又与发声器官的发声范围语音是声音的一种,与人类的语言学有关,又与发声器官的发声范围有关,因此,对于语音的本质分析相当重要。有关,因此,对于语音的本质分析相当重要。在语言数字处理中,是以语音的基本特性为基础,主要针对的语音的在语言数字处理中,是以语音的基本特性为基础,主要针对的语音的成分进行相应的处理,包括语音采样、识别、模拟、合成等技术。成分进行相应的处理,包括语音采样、识别、模拟、合成等技术。 5.2 5.2 语音语音5.2.1 5.2.1
35、语音的基本特性语音的基本特性语音就是人们说话的声音。语音就是人们说话的声音。在数字处理中,语音是音素、音位到句子音段、轻重音到语调等语音手段的在数字处理中,语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。语音以语言系统有声单位的形式出现,具有语言学区别功能。统称。语音以语言系统有声单位的形式出现,具有语言学区别功能。 人的声带就是一个发出声音的声源,声源振动将引起空气振动而产生声波。由人的声带就是一个发出声音的声源,声源振动将引起空气振动而产生声波。由于声波是具有振幅、方向、频率等多种物理属性的,因此,语音声包含了声源于声波是具有振幅、方向、频率等多种物理属性的,因此,语音声包含了声
36、源和传播过程的自然信息。和传播过程的自然信息。h27虽然声波的振幅、波长和频率是因人而异的,但是也存在一定的自然规虽然声波的振幅、波长和频率是因人而异的,但是也存在一定的自然规律。律。一般男性的发音周期在一般男性的发音周期在10ms10ms左右,发音频率就在左右,发音频率就在100Hz100Hz左右。女性的发左右。女性的发音周期较男性短,一般为音周期较男性短,一般为6ms6ms左右,发音频率在左右,发音频率在166Hz166Hz左右。人类很难发左右。人类很难发出频率极高或极低的语音,所以,从语音中我们可以分辨说话人、声带出频率极高或极低的语音,所以,从语音中我们可以分辨说话人、声带变化以及环境
37、干扰声的各项性质。变化以及环境干扰声的各项性质。 语音不仅仅是有声,它还包含了语音系统按一定方式确认的声语音不仅仅是有声,它还包含了语音系统按一定方式确认的声音类别,也包含了语音系统赋予的一定功能。音类别,也包含了语音系统赋予的一定功能。 也就是说,语音的内容是按一定方式组织的,例如有词、句、调、语气也就是说,语音的内容是按一定方式组织的,例如有词、句、调、语气等,其含义又是建立在一定的文化基础上的。因此,是否能理解语音的等,其含义又是建立在一定的文化基础上的。因此,是否能理解语音的实际内涵,这与接收者对语音的认知能力有关。实际内涵,这与接收者对语音的认知能力有关。 h285.2.2 5.2.
38、2 语音处理的任务和目标语音处理的任务和目标 计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合成。成。数字语音数字语音处理的最终目标应该满足计算机发展的需要。而未来的处理的最终目标应该满足计算机发展的需要。而未来的智能化计算机应具有能看,能听,能说,具有分析、判断、推理智能化计算机应具有能看,能听,能说,具有分析、判断、推理和思考的能力,那么语音就是人与机器之间进行交流最自然的方和思考的能力,那么语音就是人与机器之间进行交流最自然的方式。式。h295.2.3 5.2.3 语音识别语音识别 语音自动识别的最终目标是要将连
39、贯的语音变换成文字符号系列语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。而在自然的音语中,每个音素的声学特性与作为语句元素时完。而在自然的音语中,每个音素的声学特性与作为语句元素时完全不同,再加上由于自然发音时,各语音单位是连贯的,具有协全不同,再加上由于自然发音时,各语音单位是连贯的,具有协同调音效应,同时还具有语调、重音和抑扬顿挫等韵律方面的影同调音效应,同时还具有语调、重音和抑扬顿挫等韵律方面的影响,这使得实现语音到文字符号的识别非常困难。响,这使得实现语音到文字符号的识别非常困难。 语音识别以语音为研究对象,是语音信号处理的一个重要研究方向,语音识别以语音为研究对象,是语音
40、信号处理的一个重要研究方向,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,在人机语音通讯中在人机语音通讯中“听懂听懂”人类口述的语言。根据不同的需求,语音人类口述的语言。根据不同的需求,语音识别的识别内容可分为狭义的语音识别和说话人语音识别识别的识别内容可分为狭义的语音识别和说话人语音识别 。h30一个完整的语音识别系统可大致分为三部分:一个完整的语音识别系统可大致分为三部分:(1 1)语音特征提取)语音特征提取:其目的是从语音波形中提取出随时间变化的语:其目的是从语音波形中提取出随时间变化的语音特征序列。音特征序列。(2
41、2)声学模型与模式匹配(识别算法)声学模型与模式匹配(识别算法):声学模型通常将获取:声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。(模式)进行匹配与比较,得到最佳的识别结果。(3 3)语言模型与语言处理)语言模型与语言处理:语言模型包括由识别语音命令构成的语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理
42、部分。分析。对小词表语音识别系统,往往不需要语言处理部分。h31 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型
43、与基于规则语法结构命令语言模型。语法结构可以限定统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。统的识别。 声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声每个发音模板之间的距
44、离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。点、识别系统词汇量的大小决定识别单元的大小。h322 2语音识别的基本原理语音识别的基本原理 预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等
45、,并涉及到语音识别基元的选取和端点检测问题:影响等,并涉及到语音识别基元的选取和端点检测问题: 特征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰特征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等;等; 训练在识别之前进行,通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留训练在识别之前进行,通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库;关键数据,再按照一定规则对数据加以聚类,形成模式库; 模式匹配部分是整个语音识别系统的核心,它是根据一定的准则(如某种距离
46、测度)以及模式匹配部分是整个语音识别系统的核心,它是根据一定的准则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度,专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度,判断出输入语音的语意信息。判断出输入语音的语意信息。 h333 3处理的方法:处理的方法:(1) (1) 连续语音流的预处理连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定;波形硬件采样率的确定、分帧大小与帧移策略的确定;剔除噪声的带通滤波、高频预加重处理、各种变换策略;剔除噪声的带通滤波、高频预加重处理、各种变换策略;波形的自动
47、切分波形的自动切分(依赖于识别基元的选择方案依赖于识别基元的选择方案)。 (2) (2) 特征参数提取特征参数提取 识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此,必须寻找一语音特征参数的选取对系统识别结果起着重要的作用。因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征参数,这是语音识别中的一个既能充分表达语音特征又能彼此区别的特征参数,这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频个最重要基本问题。语音识别系统常用的特征
48、参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。 h34 (3(3)参数模板存储。在建立识别系统时,首先进行特征参数提参数模板存储。在建立识别系统时,首先进行特征参数提取,然后对系统进行训练和聚类。通过训练,系统建立并存储一取,然后对系统进行训练和聚类。通过训练,系统建立并存储一个该系统需识别字(或音节)的参数模板库。个该系统需识别字(或音节)的参数模板库。 (4)识别判决。识别时,待识语音信号经过与训练时相同的特征)识别判决。识别时,待识语音信号经过与训练时相同的特征参数提取后,与模式模板存储器中的模式进
49、行匹配计算和比较,参数提取后,与模式模板存储器中的模式进行匹配计算和比较,并根据一定的规则进行识别判决,最后输出识别结果。并根据一定的规则进行识别判决,最后输出识别结果。h354. 语音识别系统的类型语音识别系统的类型 1按可识别的词汇量多少按可识别的词汇量多少 2按照语音的输入方式按照语音的输入方式 3按发音者为特定按发音者为特定/非特定人非特定人4按发音者的声纹按发音者的声纹 5. 语音识别的应用语音识别的应用 n1 1在信息处理领域的应用在信息处理领域的应用n(1 1)给计算机发送指令)给计算机发送指令 。n(2 2)听写系统)听写系统 。n(3 3)信息查询。)信息查询。n(4 4)网
50、上交谈。)网上交谈。n2 2教育与商务应用教育与商务应用n(1 1)语音教学软件。)语音教学软件。n(2 2)电话查询。)电话查询。n(3 3)电子商务。)电子商务。 n3消费电子产品应用消费电子产品应用 h36孤立词的模式孤立词的模式是一种认人的识别方式,就是因人而异进行语音是一种认人的识别方式,就是因人而异进行语音识别。实验结果表示,一般识别率都在识别。实验结果表示,一般识别率都在95%95%以上。孤立词的模式识以上。孤立词的模式识别系统的原理如图别系统的原理如图5-65-6所示,所示,h37实际上,人们更需要计算机能不因人而变,且能识别由大量词汇组成的连续语句实际上,人们更需要计算机能不