第二章语音信号的压缩编码-ppt课件.ppt_163文库

资源描述

1、第第2 2章章信源编码信源编码1PPT课件PCM码率：采样率值码率：采样率值采样大小值采样大小值声道数声道数 bps。PCM数字电话的数码率为数字电话的数码率为64kb/s；视频视频:如如320233窗口中，以窗口中，以25帧帧/秒速度播放秒速度播放1分钟颜色数为分钟颜色数为8bit的视频信号，其数据量为：的视频信号，其数据量为： 320 233 82560/(81024 1024) 107(M) 对一首长约对一首长约4分钟的歌曲采样，将其存储在磁盘上，以分钟的歌曲采样，将其存储在磁盘上，以CD音质音质的的WAV格式抽样，抽样率为格式抽样，抽样率为44.1kHz，即每秒钟接收，即每秒钟接收4

2、4100个值，个值，立体声，每次抽样数据为立体声，每次抽样数据为16位（位（2字节），则这首歌占的空间为：字节），则这首歌占的空间为：44100 x2声道声道x16bitx60秒秒x4分钟分钟=40.4MB 如果下载传输率为如果下载传输率为56kbps，则下载时间为：，则下载时间为： 40.4x106x8/56x103x60= 96分钟分钟即使是即使是1M的宽带网也需的宽带网也需5分钟分钟以上以上。2PPT课件1 1、无损压缩、无损压缩所谓无损压缩格式，所谓无损压缩格式，是利用数据的统计冗余进行压缩，是利用数据的统计冗余进行压缩，可完全回复原始数据而不引起任何失真，可完全回复原始数据而不引起

3、任何失真，但压缩率受但压缩率受到数据统计冗余度的理论限制，一般为到数据统计冗余度的理论限制，一般为2:1到到5:1.这类这类方法广泛用于文本数据，程序和特殊应用场合的图像方法广泛用于文本数据，程序和特殊应用场合的图像数据数据(如指纹图像，医学图像等如指纹图像，医学图像等)的压缩。的压缩。目前比较出名的无损压缩格式有目前比较出名的无损压缩格式有APEAPE、FLACFLAC、LPACLPAC、WavPackWavPack、TTA TTA ； PNG PNG 、TIFF TIFF 、JPEG 2000JPEG 2000；无损压缩格式的优势：无损压缩格式的优势：1 1、100100的保存、没有任何信

4、号丢失的保存、没有任何信号丢失 2 2、音质高，不受信号源的影响、音质高，不受信号源的影响 3 3、转换方便、转换方便 3PPT课件2 2、有损压缩、有损压缩有损数据压缩方法是有损数据压缩方法是经过压缩、解压的数据与原始经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。数据不同但是非常接近的压缩方法。这种方法经常用这种方法经常用于因特网尤其是流媒体以及电话领域。于因特网尤其是流媒体以及电话领域。通过在用户的忍耐范围内损失一些精度，我们可以通过在用户的忍耐范围内损失一些精度，我们可以把图像（也包括音频和视频）压缩到原大小的把图像（也包括音频和视频）压缩到原大小的十分之十分之一、百分之一甚

5、至千分之一一、百分之一甚至千分之一，这远远超出了通用压缩，这远远超出了通用压缩算法的能力极限。算法的能力极限。举例举例 jpeg和和bmp4PPT课件应用应用图像压缩图像压缩：分形压缩：分形压缩/JPEG/JPEG2000/JPEG/JPEG2000视频压缩：视频压缩：H.261 /H.263 /H.264/MPEG-1 H.261 /H.263 /H.264/MPEG-1 /MPEG-2 /MPEG-4/MPEG-2 /MPEG-4音频压缩音频压缩 :MP2 /MP3 /AAC /ADPCM /G.711 :MP2 /MP3 /AAC /ADPCM /G.711 / G.726/ G.7

6、265PPT课件本章内容本章内容n2.1 模拟信号的数字化模拟信号的数字化n2.2 语音编码技术语音编码技术u波形编码波形编码u参数编码参数编码 u混合编码混合编码n2.3图像编码图像编码u图像信号及其数字化图像信号及其数字化u数字图像压缩编码数字图像压缩编码u图像压缩编码标准图像压缩编码标准6PPT课件2.2.2 2.2.2 语音信号的波形编码语音信号的波形编码n脉冲编码调制（脉冲编码调制（PCM）n自适应差分脉冲编码调制（自适应差分脉冲编码调制（ADPCM）uDPCM的基本原理的基本原理u自适应量化自适应量化u自适应预测自适应预测uADPCM编译码系统编译码系统n子带编码（子带编码（SBC

7、）u子带编码原理；子带编码原理；u子带传输速率的计算；子带传输速率的计算；u子带的划分方法；子带的划分方法；u正交镜象滤波器正交镜象滤波器7PPT课件DPCM的基本原理的基本原理1.差值脉冲编码调制的概念差值脉冲编码调制的概念2.DPCM的系统原理框图的系统原理框图3.极点与零点预测极点与零点预测4.预测增益预测增益8PPT课件一般一般PCM对样值信号编码都是按照样值幅度独立进对样值信号编码都是按照样值幅度独立进行，行，每一编码码组允许的信号动态范围就是原信号每一编码码组允许的信号动态范围就是原信号的动态范围，的动态范围，它比较大，需要较多编码位数。它比较大，需要较多编码位数。任何信号任何信号

8、,不论语音或图像不论语音或图像,采用直接采样采用直接采样-量化量化-编码编码的方式进行编码的方式进行编码,都会发现码组之间具有很强的都会发现码组之间具有很强的相关相关性性.由于相关性的存在由于相关性的存在,传输数据中存在大量不需要传输传输数据中存在大量不需要传输的信息的信息,称为称为冗余冗余.1.差值脉冲编码调制（差值脉冲编码调制（ Differential Pulse Code Modulation ）的概念的概念9PPT课件差值脉冲编码调制（差值脉冲编码调制（DPCM）就是）就是考虑利用信号相考虑利用信号相关性找到可以反映信号变化特征的一个差值进行编码关性找到可以反映信号变化特征的一个差值

9、进行编码。（通过（通过预测预测和和差值编码差值编码方式来减少冗余方式来减少冗余,实现数据压实现数据压缩的目的）缩的目的）编码：编码：对信号实际值和预测值的差值进行量化编码并传对信号实际值和预测值的差值进行量化编码并传输输. 译码：译码：接收端将接收到的差值和恢复的预测值相加得到此接收端将接收到的差值和恢复的预测值相加得到此次采样值次采样值. 由于只传输动态范围较小的差值由于只传输动态范围较小的差值,所以编码的码组不需太长所以编码的码组不需太长,在在DPCM中中,一般采用一般采用4位位.数码率为数码率为8k*4bit=32kbps10PPT课件1）预测）预测:指当知道有冗余性（相关性）信号

10、的一部分时就可以对指当知道有冗余性（相关性）信号的一部分时就可以对其余部分进行推断和估计。其余部分进行推断和估计。（通过前几次的样值来预测后一次（通过前几次的样值来预测后一次的样值）的样值）假如有一个信号假如有一个信号x(t),x(t),用速率用速率1/T1/TS S进行采样，进行采样，那么在时刻那么在时刻t=t=nTsnTs，我们可以掌握此前，我们可以掌握此前N N个样值序列个样值序列 x(x(nTnTs s-T-Ts s), x(nT), x(nTs s-2T-2Ts s),x(),x(nTnTs s-NT-NTs s) ) 根据前根据前N N个样值对个样值对x(nTx(nTs s) )

11、进行预测进行预测, ,定义为定义为: :1()()Nsissix nTW x nTiTWi-加权常数，可为常数或变量加权常数，可为常数或变量-x(nTs)的预测值。的预测值。11PPT课件预测过程可用预测过程可用横截滤波器横截滤波器实现实现12PPT课件在每个抽样时刻到来时，滤波器输出将会给出下一在每个抽样时刻到来时，滤波器输出将会给出下一个样值的预测值。个样值的预测值。注意：预测值与实际值并不相同。注意：预测值与实际值并不相同。所谓差值脉冲编码就是所谓差值脉冲编码就是对真正样值对真正样值x(nTs)与以过去与以过去样值为基础得到的估计值样值为基础得到的估计值之间的差值进行之间的差值进行量

12、化和编码。量化和编码。()sx nT13PPT课件2、DPCM的系统原理框图的系统原理框图后向序贯自适应预测算法后向序贯自适应预测算法量化后的差值量化后的差值输入端抽样信号输入端抽样信号接收端重建接收端重建信号信号预测信号预测信号DPCMDPCM输出码字输出码字差值差值14PPT课件编码器和译码器中的预测器应完全相同。编码器和译码器中的预测器应完全相同。DPCM的的总量化误差总量化误差定义为定义为( )( )( )e nx nx n根据原理框图：根据原理框图：( )( )( )x nd nx n( )( )( )d nx nx n( )( )( )e nd nd nDPCM系统总量化误差只和

13、差值信号的量化误差有关。系统总量化误差只和差值信号的量化误差有关。图图3.1.3说明了预测原理说明了预测原理15PPT课件举例：举例：4-DPCM系统编码器系统编码器量化器特性量化器特性3() 20() 2( )2() 03()2qqqqd kTsd kTsd nd kTsd kTs ( )310( )( )01( )00( )3d nd nc nd nd n 试分别画出试分别画出的的c(n)波形波形( )2.7d t 编码器特性编码器特性16PPT课件线性预测网络可分为线性预测网络可分为极点预测器极点预测器和和零点预测器零点预测器两种两种（1 1）极点预测器极点预测器（即采用重建信号（即采

14、用重建信号进行的预测）进行的预测）3.3.极点与零点预测极点与零点预测( )x n设发送系统预测器传递函数为设发送系统预测器传递函数为P(Z)1()()Njjjx Za x Z Z1P(Z)=Njjja Z预测器传递函数为：1( )()Njjx na x nj17PPT课件式中式中是一组预测系数。是一组预测系数。ja 由于重建滤波器传递函数由于重建滤波器传递函数只有极点没有零点只有极点没有零点, 故称为故称为全极点预测器全极点预测器.( )( )( ) ( )x Zd Zx Z P Z重建信号 1( )1H( )( )(1)Njjjx Zzd Za z重建滤波器的传函：18PPT课件（2

15、2）零点预测器（即采用重建信号）零点预测器（即采用重建信号进行的预测）进行的预测）( )d n1()()Mjjjx Zb d Z Z 重建滤波器的传递函数重建滤波器的传递函数只有零点没有极点只有零点没有极点，称称为为全零点预测器。全零点预测器。1( )( )(1)Mjjjx Zd Zb Z重建信号 1( )H( )1( )Mjjjx Zzb Zd Z 重建滤波器的传函：1( )()Mjjx nb d nj( )x n( )d n1Mjjjb Z( )d n( )x n$19PPT课件（3）极零点预测器（把零点和极点预测器组合起来）极零点预测器（把零点和极点预测器组合起来）1111( )()(

16、)1H ( )1NMjjjjMjjjNjjjx na x njb d njb Zza Z重建滤波器的传函：有零点有极点有零点有极点,称为称为极零点预测器极零点预测器20PPT课件系统信噪比定义为：系统信噪比定义为：22()()E xnSN RE en=)()()()(2222neEndEndEnxE=qPSNRG 量化器的量量化器的量化信噪比化信噪比GP1加预测器后加预测器后反而不利反而不利2x2d2e4.4.预测增益预测增益预测器增益预测器增益预测器有预测器有增益增益21PPT课件要使信号总信噪比大要使信号总信噪比大,就要使预测增益大就要使预测增益大,也就也就是使差值是使差

17、值d(n)减小，增加预测的准确性；同时还要求减小，增加预测的准确性；同时还要求降低降低e(n)，达到最佳量化，达到最佳量化. 只有采用自适应系统，才能得到最佳性能。只有采用自适应系统，才能得到最佳性能。有自适应系统的有自适应系统的DPCM称为称为ADPCM(自适应差值脉码自适应差值脉码调制调制)22PPT课件二、二、自适应量化自适应量化1、最佳量化、最佳量化用用均方误差均方误差D衡量量化器对衡量量化器对x带来的损伤带来的损伤使使D最小的量化特性为最小的量化特性为最佳量化特性最佳量化特性 y(n)有有N个可能的取值，可变为个可能的取值，可变为22 ( ) ( )( ) D E e nE y

18、 nx n21 ( )( ) NkkDE y nx n23PPT课件说明：说明：1）最佳判决电平在相邻量化电平中心上）最佳判决电平在相邻量化电平中心上 2）量化电平在相应间隔的功率密度函数的重）量化电平在相应间隔的功率密度函数的重心上心上max0min,Nxxxx11( )1,2,.,( )kkkkxxkxxxp x dxykNp x dx0kkDDxy可得11,2,.12kkkyyxkN 24PPT课件高斯分布，非均匀量化器最佳值高斯分布，非均匀量化器最佳值N=8xkoptykopt00.2640.510.7561.051.3441.7482.15225PPT课件介绍以下两种方式：介绍以下

19、两种方式： 1）前向自适应量化：）前向自适应量化：严格根据严格根据输入方差输入方差确定量化器分级判决电平确定量化器分级判决电平xk与量化器的量化电平与量化器的量化电平yk值，称为前向自适应。值，称为前向自适应。这种方法在实时系统不易实现。这种方法在实时系统不易实现。2.自适应量化自适应量化自适应量化指自适应量化指量化器的量化间隔（阶距）能随信号的瞬时值量化器的量化间隔（阶距）能随信号的瞬时值作自适应调整作自适应调整,以达到最佳量化。以达到最佳量化。为使量化器始终处于最佳状态或接近最佳状态，量化器参数为使量化器始终处于最佳状态或接近最佳状态，量化器参数（量化电平量化电平yk、分级判决电平、分

20、级判决电平xk、量阶、量阶）能够自适应差）能够自适应差值信号值信号d(n)变化。变化。26PPT课件2）后向自适应量化）后向自适应量化根据前一时刻的输出数字码根据前一时刻的输出数字码C(n-1)或量化器输出值或量化器输出值y(n-1)来确定本次来确定本次x(n)与与y(n)称为后向自适应。称为后向自适应。 Jayant提出的一码字后向自适应算法：根据离量化器最提出的一码字后向自适应算法：根据离量化器最近的近的Rbit码字，确定现在的量阶码字，确定现在的量阶 (n)。(1)(1)(1)2(1)1,3,5.21Rny nI nI n其中已知：已知：( )| (1)|(1)nMI nn现在量阶现

21、在量阶第第(n-1)时刻时刻幅度幅度I的函数，的函数，与此时量化电平有关与此时量化电平有关已知量阶已知量阶27PPT课件原教材图原教材图3.1.8 一码字记忆一码字记忆3bit自适应量化自适应量化R=3M10.9M20.9M31.25M41.757(1)25(1)2(1).5(1)27(1)2nny nnn 28PPT课件1、最佳线性预测器、最佳线性预测器预测器具有一组预测系数预测器具有一组预测系数 , ,怎样选择这一怎样选择这一组数据，使组数据，使预测值更接近实际值预测值更接近实际值，使差值功率使差值功率Ed2 (n) 最小最小，实现，实现GP和和SNR的最大，是最佳预测器所要解决的最大

22、，是最佳预测器所要解决的问题。的问题。jbja三、三、自适应预测自适应预测29PPT课件1）一阶固定线性预测）一阶固定线性预测假定一阶预测，即假定一阶预测，即 1N 1( )( )( )( )(1)d nx nx nx nh x n222211 1( )(12)dxE dnhp h22110ddhh令，可以求得最佳，使得最小30PPT课件21221122211(1)()(1)(1)optoptpppphhpp2)二阶固定预测器二阶固定预测器 12( )( )(1)(2)d nx nh x nh x n22( )dE dn222212min121()1dxpppp除去除去之外，二阶预测的

23、误差总比之外，二阶预测的误差总比一阶预测的小一阶预测的小 212pp222121200dddhhhh令，可以求得最佳，，使得最小22 ( ) (2)( )E x n x npE xn31PPT课件8KHz抽样的语音信号（带通滤波）的相关系数抽样的语音信号（带通滤波）的相关系数p01.00p10.79p20.38p30.05p4-0.08p5-0.1632PPT课件作业题作业题1 1、已知一阶固定的、已知一阶固定的DPCMDPCM系统，其预测系数系统，其预测系数h h1 1=1=1，归，归一化相关系数一化相关系数p p1 1定义为：定义为：其中其中为相关系数，求该系统的预测增益为相关系数，

24、求该系统的预测增益G Gp p。825. 0)0() 1 (1xxRRp)1 (xR2 2、上题中若取一阶预测系数、上题中若取一阶预测系数h h1 1=h=h1opt1opt，试求，试求 G GpoptpoptGpGp=1/2(1-0.825)=2.8571=1/2(1-0.825)=2.8571h1=p1 h1=p1 GpGp=3.13=3.1333PPT课件求偏微分，并令为零求偏微分，并令为零2221( ) ( )( ) ( )() NjjE dnEx nx nEx nh x nj2( )01,2,.jE dnjNh3)N阶最佳线性预测阶最佳线性预测最佳线性预测器是最佳线性预测器是均方预

25、测误差最小均方预测误差最小的预测器，可获得最的预测器，可获得最大预测增益大预测增益GP和最大信噪比。和最大信噪比。34PPT课件所以得到一组线性方程所以得到一组线性方程12(1)(0)(1).(1)(2)(1)(0).(2).(1) (2) .(0)()optoptNoptRhRRR NRhRRR NR NR NRhR N 1optxxxxhRr35PPT课件差值信号在差值信号在预测系数取最佳值时预测系数取最佳值时最小，有最小，有12(1)(0)(1).(1)(2)(1)(0).(2).,.(1) (2) .(0)()optoptxxxxopthRRRR NhRRRR NR NR NRR N

26、 rRh其中.Nopth最佳预测增益最佳预测增益2221( )1( )( )1( )PoptNjoptiE xnGRjE dnhE xn( ) ( ) ()1,2,.1R jE x n x njjN36PPT课件4)GP与预测阶数的关系与预测阶数的关系预测通常要选用前多少次的样值来参与，见下图预测通常要选用前多少次的样值来参与，见下图当阶数大于当阶数大于2时，最佳预测增益就趋于饱和，时，最佳预测增益就趋于饱和，饱和值一般为饱和值一般为6-12dB37PPT课件2、自适应预测自适应预测为了获得最大的预测增益为了获得最大的预测增益,通常采用通常采用自适应预测自适应预测方方式式,预测系数在预

27、测过程中实时调整预测系数在预测过程中实时调整.前向自适应预测算法前向自适应预测算法l后向序贯自适应预测算法后向序贯自适应预测算法最佳预测系数是根据量化后的编码数据最佳预测系数是根据量化后的编码数据x(n)进行估值，可进行估值，可以快速修正系数。如果由一个样值至一个样值逐个修正则称为以快速修正系数。如果由一个样值至一个样值逐个修正则称为序贯后向自适应预测序贯后向自适应预测。推导过程：搜索底部顶点的过程（利用梯度），图推导过程：搜索底部顶点的过程（利用梯度），图3.1.1038PPT课件2(1)( )( )/2snnn hhd梯度法中，按样值顺序逐个重新调整梯度法中，按样值顺序逐个重新调整n时

28、刻给定时刻给定的矢量的矢量h(n),每次的调整量正比于梯度估值的负数。每次的调整量正比于梯度估值的负数。均方差期望梯度估值均方差期望梯度估值矢量矢量调整步长，常数调整步长，常数39PPT课件四、四、32kbit/s的的ADPCM编译码系统编译码系统ADPCM技术指标：满足技术指标：满足G.712的语音质量要求；经的语音质量要求；经4次音频转换后次音频转换后MOS应应大于大于3.5分；在分；在Pe小于小于1e-3下下能稳定工作能稳定工作ADPCM主要改进：量化器和预测器均采用自适应方主要改进：量化器和预测器均采用自适应方式。抽样频率为式。抽样频率为8KHz，每一样值编，每一样值编4位码位码。A

29、DPCM编译码器原理框图编译码器原理框图 P9940PPT课件自适应量化自适应量化自适应预测自适应预测（6个零点和个零点和2个极点）个极点）41PPT课件42PPT课件子带编码子带编码（1）子带编码原理）子带编码原理（2）子带传输速率的计算）子带传输速率的计算（3）正交镜象滤波器）正交镜象滤波器（4）子带的划分方法）子带的划分方法（5) 子带编码举例子带编码举例 43PPT课件1 1、子带编码原理、子带编码原理子带编码（子带编码（SBC，Sub-band Coding）是一种在）是一种在频率频率域域中进行数据压缩的方法。中进行数据压缩的方法。在子带编码中，首先用一组带通滤波器将在子带编码中

30、，首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带输入信号分成若干个在不同频段上的子带信号信号;将这些子带信号经过频率搬移转变成基带将这些子带信号经过频率搬移转变成基带信号，再对它们在奈奎斯特速率上分别重信号，再对它们在奈奎斯特速率上分别重新取样。新取样。每个子带取样后的信号经过单独的自适应每个子带取样后的信号经过单独的自适应PCM编码，并合并成一个总的码流传送编码，并合并成一个总的码流传送给接收端。给接收端。44PPT课件编码器编码器PCM工作原理图工作原理图45PPT课件在接收端，首先把码流分成与原来的各子带信号相对在接收端，首先把码流分成与原来的各子带信号相对应的子带码流，然后

31、解码、将频谱搬移至原来的位置，应的子带码流，然后解码、将频谱搬移至原来的位置，最后经带通滤波、相加，得到重建的信号。最后经带通滤波、相加，得到重建的信号。解码器解码器46PPT课件对每个子带分别编码的好处对每个子带分别编码的好处（1 1）可以利用人耳（或人眼）对不同频率信号的感知）可以利用人耳（或人眼）对不同频率信号的感知灵敏度不同的特性，在人的听觉（或视觉）不敏感的灵敏度不同的特性，在人的听觉（或视觉）不敏感的频段采用较粗糙的量化，从而达到数据压缩的目的。频段采用较粗糙的量化，从而达到数据压缩的目的。例如：例如：音调和共振峰音调和共振峰，用较小的量化阶、较多的量化，用较小的量化阶、较多的量

32、化级数，即分配较多的比特数来表示样本值。级数，即分配较多的比特数来表示样本值。而而话音中的摩擦音和类似噪声的声音话音中的摩擦音和类似噪声的声音，通常出现在高，通常出现在高频子带中，用较大量化阶距，分配较少的比特数。频子带中，用较大量化阶距，分配较少的比特数。0200040006000800010000120001400016000-1-0.8-0.6-0.4-0.200.20.40.60.81原始语音信号time nfuzhi n0100200300400500600010203040原始语音信号 FFT频谱0200040006000800010000120000102

33、03040原始语音信号频谱Hzfuzhi47PPT课件（2 2）每个子带使用独立的量化阶距，这就可以避免）每个子带使用独立的量化阶距，这就可以避免能量较小的频带内的信号被其他频带中的量化噪声所能量较小的频带内的信号被其他频带中的量化噪声所掩盖。掩盖。（3 3）通过频带分裂，各个子带的取样频率可以成倍）通过频带分裂，各个子带的取样频率可以成倍下降。下降。16kbps SBC26.5kbps ADPCM9.6kbps SBC19kbps ADMMp3编码器编码器48PPT课件2 2、传输速率、传输速率在子带编码中，若各个子带的带宽在子带编码中，若各个子带的带宽Wk是相同的，则是相

34、同的，则称为称为等带宽子带编码等带宽子带编码，否则，称为，否则，称为变带宽子带编码变带宽子带编码。 1/MskkkIf Rbit s/22 /kskkMfM 假设每个子带波形抽样为假设每个子带波形抽样为fsk,每个抽样用每个抽样用Rk比特编比特编码，则码，则总的传输速率等于每个子带的编码比特率总的传输速率等于每个子带的编码比特率的总和。的总和。在等带宽子带编码中在等带宽子带编码中式中式中W为总带宽，单位是赫兹；为总带宽，单位是赫兹；M为子带的数目为子带的数目49PPT课件由于第由于第k个子带的抽样率为个子带的抽样率为 ,则则总传输速率总传输速率简化为：简化为：2k12/MkkIRbit sM

35、上式为等带宽分割时的传输率。上式为等带宽分割时的传输率。如果将总比特数表示为如果将总比特数表示为1MkkRMR则则2/IRbit s这是这是全带编码时的传输速率表示式全带编码时的传输速率表示式，R为对全带采样编码为对全带采样编码时的平均比特数。时的平均比特数。11MkkRRM50PPT课件例题例题一个一个4子带的子带的SBC系统，子带分别为系统，子带分别为0800,8001600,16002400,24003200,如果忽略同步码的边带信息，子带的比特分如果忽略同步码的边带信息，子带的比特分配分别为配分别为3，2，1，0 比特比特/样值样值,求总的传输速求总的传输速率和全带采样时的平均比特

36、数。率和全带采样时的平均比特数。51PPT课件正交镜象滤波器正交镜象滤波器(QMF)是数字滤波器中的一种特是数字滤波器中的一种特殊的新型滤波系统，它由一个低通滤波器和一个殊的新型滤波系统，它由一个低通滤波器和一个与其正交的镜象高通滤波器构成，其最大优点是与其正交的镜象高通滤波器构成，其最大优点是在对信号进行滤波选抽分解和反滤波插值重构时在对信号进行滤波选抽分解和反滤波插值重构时不会产生因频率混叠而带来的信号失真。不会产生因频率混叠而带来的信号失真。由于分割频带所用的滤波器不是理想的滤波器，由于分割频带所用的滤波器不是理想的滤波器，经过分带、编码、译码后合成的输出音频信号会经过分带、编码、译

37、码后合成的输出音频信号会有混迭效应。采用正交镜象滤波器来划分频带，有混迭效应。采用正交镜象滤波器来划分频带，混迭效应在最后合成时可以抵消。混迭效应在最后合成时可以抵消。3 3、正交镜象滤波器正交镜象滤波器52PPT课件 QMF简化的幅频特性简化的幅频特性 ( )()2sHLfHfHf53PPT课件图中，用图中，用QMF把全带音频信号分割成两个把全带音频信号分割成两个等带宽子带。等带宽子带。hH(n)和和hL(n)分别表示高通滤分别表示高通滤波器和低通滤波器，它们组成一对正交镜波器和低通滤波器，它们组成一对正交镜象滤波器。这两个滤波器也叫做分析滤波象滤波器。这两个滤波器也叫做分析滤波器。器。用

38、正交镜象滤波器分割频带的子带编译码简化框图。用正交镜象滤波器分割频带的子带编译码简化框图。54PPT课件4 4、子带的划分、子带的划分根据根据各频段对主管听觉贡献相等各频段对主管听觉贡献相等的原则作合理分配。的原则作合理分配。音频频带的分割可以用树型结构的式样进行划分。音频频带的分割可以用树型结构的式样进行划分。首先把整个音频信号带宽分成两个相等带宽的子带：高频子首先把整个音频信号带宽分成两个相等带宽的子带：高频子带和低频子带。然后对这两个子带用同样的方法划分，形成带和低频子带。然后对这两个子带用同样的方法划分，形成4个个子带。这个过程可按需要重复下去。用这种办法可以产生等带子带。这个过程

39、可按需要重复下去。用这种办法可以产生等带宽的子带，也可以生成不等带宽的子带宽的子带，也可以生成不等带宽的子带。 P40 图图2.2.655PPT课件子带编码存在的问题是子带编码存在的问题是编解码的延时比较长编解码的延时比较长，约在，约在几十几十100ms之间，这主要是滤波器组的延时造成的，之间，这主要是滤波器组的延时造成的，这种延时对于一些通信系统是不能接受的，因此子这种延时对于一些通信系统是不能接受的，因此子带编码主要用于声频存储、数字声广播以及一些允带编码主要用于声频存储、数字声广播以及一些允许延时较长的电话传输系统中。许延时较长的电话传输系统中。56PPT课件5、子带编码举例：、子带编

40、码举例： mp3人耳感受声音的频率范围是人耳感受声音的频率范围是20Hz-20kHz，MP3截掉截掉了大量的冗余信号和无关的信号，编码器通过混合滤了大量的冗余信号和无关的信号，编码器通过混合滤波器组将原始声音变换到频率域，利用心理声学模型，波器组将原始声音变换到频率域，利用心理声学模型，估算刚好能被察觉到的噪声水平，再经过量化，转换估算刚好能被察觉到的噪声水平，再经过量化，转换成成Huffman编码，形成编码，形成MP3位流。位流。57PPT课件1)1)滤波器段滤波器段 (filterbank)(filterbank)：输入的音频信号在输入的音频信号在20Hz-20k 20Hz-20k HzH

41、z的频率范围内，通过第一个滤波器段后，把信号按频的频率范围内，通过第一个滤波器段后，把信号按频率分成率分成3232个小频带，称为子带个小频带，称为子带(Subband)(Subband)。20000Hz/32=625Hz20000Hz/32=625Hz，那么每个子带的宽度就是，那么每个子带的宽度就是625Hz625Hz。人耳对不同频段的灵敏度是不同的，编码器可对不同的子人耳对不同频段的灵敏度是不同的，编码器可对不同的子带进行不同的量化分层。带进行不同的量化分层。2)2) 人体听觉心理学模型：人体听觉心理学模型：最小听觉门槛判定（最小听觉门槛判定（把大部分把大部分数据空间分配到人耳最灵敏的数据空

42、间分配到人耳最灵敏的2kHz2kHz到到5kHz5kHz范围，其余频范围，其余频率分配比较少的空间；率分配比较少的空间；）和遮蔽效应（）和遮蔽效应（表现在强信号会遮表现在强信号会遮蔽邻近频率的弱信号蔽邻近频率的弱信号）。）。3) 量化和编码：量化和编码：当当PCM讯号被分成好几个频段并经过一系列的讯号被分成好几个频段并经过一系列的处理后，最后经过处理后，最后经过MDCT，将波型转换为一连串的系数。，将波型转换为一连串的系数。MDCT滤波器将滤波器将32个子带中每一个子带的的信号在频域上进一步划分，个子带中每一个子带的的信号在频域上进一步划分，长块进行长块进行18点（点（18个频域采样点）的个

43、频域采样点）的MDCT变换，短块进行变换，短块进行6点点的的MDCT变换，以窗为单位分变换，以窗为单位分3次进行。次进行。这些系数就由这些系数就由Huffman编码器会选择最合适的编码器会选择最合适的Huffman表来做最后的压缩。表来做最后的压缩。58PPT课件PCM ADPCM16 64/LPC/kbit skbit skbit s波形编码：、语音编码参数编码：声码器编码方式以下其他编码： SBC等 4.8 162.2.3 2.2.3 参数编码参数编码（1）了解语音信号模型的相关概念；）了解语音信号模型的相关概念；（2）理解线性预测声码器的

44、基本原理；）理解线性预测声码器的基本原理；（3）了解）了解LPC声码器的缺点声码器的缺点 59PPT课件1 1、语音信号模型、语音信号模型不同语音是由于发音器官中的声音激励源和口腔声道不同语音是由于发音器官中的声音激励源和口腔声道的形状不同引起的。的形状不同引起的。根据激励源和声道模型的不同，语音主要分根据激励源和声道模型的不同，语音主要分为浊音和清音。为浊音和清音。60PPT课件 1 1）浊音浊音：又称声音。声带在气流的作用下准周期地闭合或开启，：又称声音。声带在气流的作用下准周期地闭合或开启，从而在声带中激励起准周期的声波。具有明显的准周期特性。从而在声带中激励起准周期的声波。具有明显

45、的准周期特性。浊音浊音信号的能量主要集中在各基音的谐波频率附近，而且主要集中于低信号的能量主要集中在各基音的谐波频率附近，而且主要集中于低于于3KHz的范围内。的范围内。P4161PPT课件2 2）清音：清音：气流速度达到某一临界速度时，会引起湍流，气流速度达到某一临界速度时，会引起湍流，此时声带不震动，声道被噪声状随机波激励，产生较此时声带不震动，声道被噪声状随机波激励，产生较小幅度的声波，其波形与噪声很像。小幅度的声波，其波形与噪声很像。P42P42清音信号没有准周期性，能量主要集中在比浊音更高的清音信号没有准周期性，能量主要集中在比浊音更高的频率范围内。频率范围内。语音学中，将发音时声带

46、振动的音称为浊语音学中，将发音时声带振动的音称为浊音音( (又称有声又称有声) )，声带不振动的音称为清音，声带不振动的音称为清音( (又称无声又称无声) )。 62PPT课件3 3）共振峰：共振峰：声道频率特性对应的谐振点叫做共振峰声道频率特性对应的谐振点叫做共振峰频率。共振峰出现在浊音频谱中。一般的浊音在频率。共振峰出现在浊音频谱中。一般的浊音在5Khz5Khz以下有以下有3535个共振峰。个共振峰。4 4）语音信号发生模型语音信号发生模型 P42 P42 1( )( )()Miis nGx na s ni63PPT课件2 2、线性预测声码器、线性预测声码器1 1）语音信号分析合成的定义：

47、）语音信号分析合成的定义：以语音模型为基础，在发端分析提取表征音源和以语音模型为基础，在发端分析提取表征音源和声道的相关特征参数，通过量化编码将这些参数传声道的相关特征参数，通过量化编码将这些参数传输到收端，在收端再应用这些特征参数重新合成为输到收端，在收端再应用这些特征参数重新合成为语音信号的过程。语音信号的过程。64PPT课件2 2）LPCLPC声码器的基本原理声码器的基本原理清音模型简化为由白色随机噪声激励；浊音为准周期清音模型简化为由白色随机噪声激励；浊音为准周期脉冲序列，周期为基音周期脉冲序列，周期为基音周期Tp在发端，对语音信号样值在发端，对语音信号样值s(n)逐帧进行线性预测分

48、析，逐帧进行线性预测分析，并作相应的清并作相应的清/浊音判决和基音提取。浊音判决和基音提取。分析前预加重是为了加强语音谱中的高频共振峰，使分析前预加重是为了加强语音谱中的高频共振峰，使语音短时谱及线性预测分析中的余数谱更加平坦，从而语音短时谱及线性预测分析中的余数谱更加平坦，从而提高预测模型参数提高预测模型参数ai估值的准确度。估值的准确度。线性预测大多采用自相关法。采用汉明窗。线性预测大多采用自相关法。采用汉明窗。65PPT课件LPC声码器方框图声码器方框图自信道入自信道入译码译码合成器合成器反预加重反预加重合成语音合成语音66PPT课件3、 LPC声码器的缺点声码器的缺点1）损失了语音自

49、然度）损失了语音自然度2）降低了方案的可靠性）降低了方案的可靠性3）易引起共振峰位置失真）易引起共振峰位置失真4）带宽估值误差大）带宽估值误差大67PPT课件2.3 2.3 图像编码技术图像编码技术68PPT课件2.3.1 2.3.1 图像信号及其数字化图像信号及其数字化2.3.2 2.3.2 数字图像压缩编码数字图像压缩编码2.3.3 2.3.3 图像压缩编码标准图像压缩编码标准69PPT课件2.3.1 2.3.1 图像信号及其数字化图像信号及其数字化一幅平面图像包括的信息首先表现为光的强度或一幅平面图像包括的信息首先表现为光的强度或灰度，它随平面坐标、光的波长和时间变化，表灰度，它随平面

50、坐标、光的波长和时间变化，表示为示为 I=f(x,y,t) 黑白活动图像：黑白活动图像：I=f(x,y,t) 彩色活动图像：彩色活动图像：I=fr(x,y,t), fg(x,y,t), fb(x,y,t) 黑白静止图像函数黑白静止图像函数 I=f(x,y)70PPT课件通常把图像定义为平面上连续的一个矩形区域，通常把图像定义为平面上连续的一个矩形区域，长宽分别为长宽分别为Lx和和Ly。平面坐标。平面坐标x和和y的取值范围：的取值范围：图像函数在某一点的值，即强度或灰度与图像在图像函数在某一点的值，即强度或灰度与图像在这一点的亮度成正比，该值为一正数，而且有界，这一点的亮度成正比，该值为一正数，

展开阅读全文