1、 第三章第三章 音频信息处理技术音频信息处理技术l3.1 声学基础知识l3.2 音频信号数字化l3.3 音频信号压缩编码l3.4 语音压缩编码标准l3.5 IP电话技术 自然界的声音信号究其本质是一种机械振动,是一种在空气中随时间而变化的压力信号。音频信息涉及人耳所能听到的声音信息,包括语声和乐声。2.1 声学基础知识声学基础知识l2.1.1 音频信号特征 1、声音信号的时域特征 该特征说明人们听到的声音从产生到结束的过程。这个过程大致可分为三个阶段:起始、稳定和结束。2、声音信号的频域特征 声音信号是有很多的正弦分量组成的。声音信号在频域是具有离散的线性谱和连续谱的特征有明确音高的有调声音无
2、明确音高的无调声音l声波频率 20Hz20kHzl声压:对声音强弱的感觉 1kHz听阈210-5Pal声压级:表示声音强弱的对数级(分贝)听阈0dB 痛阈 120dB 3.1.2 人耳听觉特性人耳听觉特性l1、响度:人耳对声音强弱的感觉。l2、掩蔽效应:一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音。3.2 音频信号数字化音频信号数字化 音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列,即数字音频序列。模拟音频信号音频信号数字化采 样量 化编 码按不同应用目标进行数字压缩 音频信息处理框图 1、采样l在时间上将连续信号离散化的过程,采样一般
3、都是按照均匀的时间间隔进行。数字激光唱盘CD10 205020034007 k 15 k 20 k 频率/HzFM无线电广播AM无线电广播电 话常见音频应用带宽示意图2、量化l量化是将每个采样值在幅度上进行离散化处理。3、编码l编码过程是指用二进制数来表示每个采样的量化值。音频信号经数字化以后以文件形式存放于计算机中,当需要声音时计算机将其反格式化并输出。3.3 音频信号压缩编码音频信号压缩编码l3.3.1 音频信号编码分类 1、波形编码:基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原信号波形保持一致。优点:实现简单、语音质量较好、适应性强。缺点:压缩程度不高,需要较高的编
4、码速率。常用的波形编码技术:增量调制编码(DM)差值脉冲编码调制(DPCM)自适应差分脉冲编码调制(ADPCM)子带编码(SBC)矢量量化编码(VQ)2、参数编码 通过语音信号的数学模型,对语音信号特征参数进行提取及编码,力图使重建的语音信号尽可能保持原信号的语意。语音编码速率较低,压缩的比特率较低。合成语音质量较差,很难辨别说话人是谁。常用的有线性预测编码。多用在移动通信、多媒体通信和IP网络电话中。3、混合编码、混合编码 同时使用两种或两种以上编码方法进行编码的过程。采用混合编码的编码器有多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预
5、测编码器(celp)等。3.3.2 常用的压缩编码方法常用的压缩编码方法l1 一般增量调制(DM)输入信号比较器极性判别译码器调制器脉 冲发生器信 道 增量调制的系统结构框图 基本思想:在编码端,由前一个输入信号的编码值经解码器可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减,从而得到差值。若为正,则编码输出为1;若为负,则编码输出为0。1 1 1 1 1 110 0 0 0 1 100 0 1 0 0010u(模拟输入)输出码 增量调制编码过程示意图 当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时,会发生斜率过载。当输入信号没有变化时,预测信号和输入信
6、号的差会十分接近,这时,编码器的输出是1和0交替出现的,这种现象叫散粒噪声。2、自适应增量调制(ADM)输出编码1位所表示的模拟电压叫做量化阶距。基本思想:当发现信号变化快时,增加阶距;当发现信号变化缓慢时,减少阶距。一种是控制可变因子 M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大M。当0,1信号交替出现时,说明信号变化很慢,会产生散粒噪声,这时就要减少M 值。其典型的规则为)1()(2/1)1()(2kykykykyM 自适应增量调制称为连续可变斜率增量(CV
7、SD)调制。工作原理如下:如果调制器(CVSD)连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,因为三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。QkkykykyPkk)1()2()1()()1()(3、差值脉冲编码调制 基本思想:对输入的音频信号进行均匀量化,不管输入的信号是大是小,据采用同样的量化间隔。例如:如输入的音频信号是语音信号,使用8kHz采样频率进行均匀采样,而后将每个样本编码为8位二进制数字信号,则得到数据率为64kb/s的PCM信号。基本思想:对相邻的差值进行量化编码。这个差值是指信号值和预测值的差值。量化器输 出输 入信 号信 号y0采样预测
8、器(a)预测器滤波(b)差分脉冲调制系统的方框图 (a)编码器;(b)解码器 4、子带编码 用一组带通滤波器,将输入的音频信号分成若干个连续的频段,并将这些频段称为子带。分别对这些子带中的音频分量进行采样和编码。将各子带的编码信号组织到一起进行存储或送到信道上传送。在信道的接收端(或在回放时)得到各子带编码的混合信号,将各子带的编码取出来,对它们分别进行解码,产生各子带的音频分量,再将各子带的音频分量组合在一起,恢复原始的音频信号。带 通 滤 波 1综合器信 号输 入输 入输 出信 号输 出带 通 滤 波 2带 通 滤 波n编 码 器编 码 器编 码 器分配器译 码 器译 码 器译 码 器带
9、通 滤 波 1带 通 滤 波 2带 通 滤 波n子带编码的原理框图5、矢量量化编码 矢量量化(VQ):是指将输入的信号样值按照某种方式进行分组,把每个分组看做是一个矢量,并对该矢量进行量化。信 号 序列 输 入构 成矢 量传 送下 标矢 量输 出接 收下 标搜 索矢 量码 本查 表矢 量码 本矢量量化编码及解码原理框图l 假定将语音数据分组,每组有 k个数据。这样,一组就是一个k 维的矢量。把每一个组形成的矢量看成一个元素,又叫码字,那么,语音所分成的组就形成了各自的码字。这些码字排列起来,就构成了一个表,人们将此表叫做码本或码书。形象一点说,码书就类似于汉字的电报号码本,电报号码本里面是复杂
10、的汉字,而在这里是一组原始的语音数据;电报号码本里每个汉字旁边标有只用4位阿拉伯数字表示的号码,而在矢量量化方法里就是每组数据所对应的下标。工作原理为:先将待编码的序列划分成一个个等长的段,每段含有若干个样点,这一段段样点就构成一个个矢量列,每一个矢量与已预先训练(是指某种算法计算)好的一个矢量码本(Codebook)中的每一个码字(Codeword,它与输入矢量一样,也是同维数的矢量)按某种失真准则进行比较,求出误差。3.4 音频信号压缩标准音频信号压缩标准l3.4.1 波形编码标准 1、G.711标准 采用非均匀量化的方法。在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关
11、系:律压扩算法和A律压扩算法。G.711针对电话质量的窄带话音信号,频率范围是0.33.4kHZ,采样频率采用8kHZ,每个采样值用8位二进制编码,其速率为64kbit/s。优点:这种编码方法的语音质量最好,算法延迟几乎可以忽略不计。缺点:压缩率有限。2、G.721标准 基于ADPCM(自适应脉冲编码调制),采样频率为8kHZ,每个样值与预测值的差值用4位编码,其编码速率为32kb/s。ADPCM一种对中等质量音频信号进行高效编码的有效算法之一,不仅适用于语音压缩,而且也适用于调幅广播质量的音频压缩和CD-I音频压缩等应用。3、G.722标准 音频信号质量高于G.711和G.721。采用的编码
12、方法是子带自适应差分脉冲编码调制编码方法,将语音频带划分为高低两个子带,高低子带间以4kHz频率为界限。每个子带内采用自适应差值脉冲编码调制方式。在多媒体和会议电视方面得到应用。3.4.2 混合编码标准混合编码标准 1、G.728标准 主要应用于公共电话网中的。采用的压缩算法是低延时码激励线性预测(LD-CELP)方式。该算法考虑了人耳的听觉特性,具有以块为单位的后向自适应高阶预测、后向自适应型增益量化、以矢量为单位的激励信号量化等特点。2、G.729标准 该标准的码率只有8kbit/s,压缩算法相对其它算法来说比较复杂,采用的算法是共轭结构代数码激励线性预测(CS-ACELP)技术。3、G.
13、723.1标准 该标准压缩编码是一种用于各种网络环境下的多媒体通信标准。分别为5.3kbit/s和6.3kbit/s,可应用于IP电话、会议电视系统等通信系统中。5.3采用多脉冲最大似然量化技术,6.3采用代数码激励线性预测技术。3.4.3 MPEG音频编码标准音频编码标准 MPEG音频编码是国际上公认的高保真立体声音压缩标准。MPEG-1声音编码标准规定。其音频信号采样频率可以有32kHz,44.1kHz或48kHz三种,带宽可以选择15kHz,20kHz。MPEG音频编码等级比较表 1.MPEG-1声音标准声音标准 该标准采用的编码算法是感知子带编码。共分为32个子带。layer-1:简单
14、,应用于小型数字盒式磁带中 layer-2:复杂程度中等,主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘。layer-3:最复杂,用于ISDN上的声音传输。(1)MPEG音频Layer1 l MPEG音频Layer1是MUSICAM的一个简化版本。帧头占用32 bit,由同步和状态信息组成,12 bit的同步码字全为1;帧校验占用16 bit,用于检测比特流中的差错;音频数据由比特分配信息、比例因子信息和子带样值组成,不同的层其音频数据不同;辅助数据用于传输辅助信息。帧头 帧校验 音频数据 辅助数据(2)MPEG音频Layer2 Layer1音频编码中,只能传送左右两个声道。为此,MP
15、EG 音频Layer2扩展了低码率多声道编码,将多声道扩展信息加到Layer1音频数据帧结构的辅助数据段(其长度没有限制)中。这样可将声道数扩展至5.1,即3个前声道(左L、中C和右R)、2个环绕声(左LS、右RS)和1个超低音声道LFE(常称之为0.1),由此形成了MPEG Layer2音频编码标准。MPEG Layer 1帧头MPEG Layer1帧校验MPEG Layer 1音频数据MPEG Layer 2多声道扩展(MC)数据MPEG Layer 1辅助数据MC帧头MC帧校验MC组合状态信息MC音频数据MC辅助数据MPEG Layer2 数据帧结构(3)MPEG音频Layer3(MP3
16、)采用 MDCT(改进型DCT)变换增强频率的分辨率,使频率分辨率提高了18倍,从而使得Layer3的播放器能更好地适应量化噪声;只有Layer3使用了熵编码(像MPEG视频)进一步地减少了冗余;Layer3还可以使用更高级的联合立体声编码机制。滤 波 器 组比特流复接MP3编 码数 据 流反 复 循 环信 号 输 入注:数 据 线 控 制 线感 知模 型联 合 立 体声 编 码比 例 因 子速 率/失 真控 制 处 理量 化熵 编 码2 MPEG-2 AAC编码标准编码标准 采用感知编码方法,利用听觉系统的掩蔽特性来减少声音编码的数据量,并通过子带编码将量化噪声分散到各个子带中,用全局的声音
17、信号将噪声掩蔽调。比 特 流 复 接 成 帧输 入AAC码 流 输 出增益控制强度/耦合立体声滤波器组时间噪声成形预测M/S比例因子量化无噪声编码感 知 模 型码 率/失 真 控 制3.5 多媒体音频信号文件格式多媒体音频信号文件格式 音频文件通常分为两类:声音文件和MIDI文件。声音文件:通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大。MIDI文件:一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,文件较小。(1)Wave文件,扩展名为wav。wav是由微软公司开发的一种声音文件格式,来源与对声音模拟信号波形的采样。用不
18、同的采样频率对声音的模拟波形进行采样,得到一系列离散的采样点,以不同的量化位数把这些采样点的值转换成二进制,然后存入磁盘,这就产生了声音的wav文件,即波形文件。(2)Audio文件,扩展名为AU sun 公司推出的经过压缩的数字声音格式,在Internet中常用的声音文件格式。(3)MPEG音频文件,扩展名mp1/mp2/mp3 有损压缩,有很高的压缩率,且音质基本保持不失真。(4)RealAudio文件,扩展名RA/RM/RAM 是RealNetworks公司开发的一种新型流式音频信息。为解决网络传输带宽资源而设计的,主要目标是压缩比和容错行,其次才是音质。主要用于低速率的广域网上实时传输音频信息。