第5章-视频编码方法课件.ppt

上传人(卖家):ziliao2023 文档编号:5874331 上传时间:2023-05-13 格式:PPT 页数:123 大小:1.49MB
下载 相关 举报
第5章-视频编码方法课件.ppt_第1页
第1页 / 共123页
第5章-视频编码方法课件.ppt_第2页
第2页 / 共123页
第5章-视频编码方法课件.ppt_第3页
第3页 / 共123页
第5章-视频编码方法课件.ppt_第4页
第4页 / 共123页
第5章-视频编码方法课件.ppt_第5页
第5页 / 共123页
点击查看更多>>
资源描述

1、1 1第5章视频编码方法5.1 视频编码基础5.2 基于块的变换编码5.3 预测编码5.4 基于内容的编码5.5 可分级视频编码5.6 本章小结2 25.1 视频编码基础视频编码基础5.1.1 编码概述编码概述1.编码系统编码系统视频编码算法的组成在很大程度上是由视频序列建模所采用的信源模型确定的。视频编码器寻求用它的信源模型描述视频序列的内容。信源模型可做出图像序列的像素之间在时间和空间上相关性的假设,也可考虑物体的形状和运动或照度的影响。图5-1中,给出了一个视频编码系统的基本组成。3 3图 5-1 视频编码系统的基本组成4 4在视频编码器中,首先用信源模型的参数描述数字化的视频序列。如果

2、使用像素统计独立的信源模型,那么这种信源模型的参数就是每个像素的亮度和色度的幅度。另一方面,如果使用把一个场景描述成几个物体的模型,那么参数就是各个物体的形状、纹理和运动等。然后,信源模型参数被量化成有限的符号集。量化参数取决于比特率与失真之间所期望的折中。最后,用无损编码技术把量化参数映射成二进制码字,这种技术进一步利用了量化参数的统计特性。解码器反向进行编码器的二进制编码和量化过程,重新得到信源模型的量化参数,然后,解码器的图像合成算法用信源模型的量化参数计算解码的视频帧。5 52.视频编码方案分类视频编码方案分类按照是否需要对视频图像的内容进行分析,可将视频编码技术分为基于波形的视频编码

3、和基于内容的视频编码,前者允许对任意视频信号进行有效编码而不需要分析视频内容,后者需要识别视频序列中的区域和物体并对它们进行编码。1)基于波形的编码该技术试图尽可能准确地表示各个像素的颜色值,而不考虑一组像素可以表示一个物理物体这一事实。该技术建立的信源模型、编码参数以及使用的编码技术如表5-1所示。6 67 7把像素假设为统计上独立的,这样得到的模型是最简单的信源模型(如表5-1所示)。相关的编码技术就称为脉冲编码调制(Pulse Coded Modulation,PCM)。图像信号的PCM表示通常不用于视频编码,因为与其他信源模型相比,它的效率较低。在大多数图像中,邻近像素的颜色相关性很高

4、。为了减少比特率,可以通过变换来利用这种性质,如Karhunen-Loveve变换(KL)、离散余弦变换(DCT)或小波变换。变换旨在去除原样点值间的相关性,并把原始信号的能量集中到几个系数上。利用相邻样点间相关性的另一种方法是预测编码,这种方法是先由前面编码的采样点预测要编码的样点值,然后对预测误差进行量化和编码,预测误差与原始信号相比具有较小的相关性和较低的能量。变换编码和预测编码都可看作是矢量量化的一种特殊情况,矢量量化一次量化一个采样点块(一个矢量)。从本质上说,它寻找出现在信号中的典型块模式,并用典型模式之一来近似任何一个块。8 8如今的视频编码标准H.261、H.263、H.264

5、、MPEG-1、MPEG-2和MPEG-4都采用基于块的混合编码方法,综合了预测编码和变换编码。这种编码技术把每幅图像分成固定大小的块。第k帧的每个块用前面第k1帧的一个已知位移位置处的相同尺寸的块合成得到,这样产生的图像称为预测图像。编码器把所有块的二维运动矢量传送到解码器,以便解码器能够计算同样的预测图像。编码器从原始图像中减去这幅预测图像,得到的就是预测误差图像。如果用预测图像合成的一个块不够准确也就是说,如果块的预测误差超出某个阈值,那么编码器就用变换编码把这个块的预测误差传送到解码器。解码器把预测误差与预测图像相加,从而合成解码图像。因此,基于块的混合编码是基于平衡的运动块信源模型的

6、。除了颜色信息编码为预测误差的变换系数外,还必须传输运动矢量。值得注意的是,这种编码可切换到较简单的像素统计相关的信源模型。每当编码不涉及前面一帧就能更有效地完成块的编码时就进行这种切换。9 92)基于内容的编码基于块的混合编码技术实际上是用固定大小的方块来近似场景中物体的形状。因此在目标边界上的块中会产生高预测误差。这些边界块包含具有不同运动的两种物体,因此用一个运动矢量不能说明两个不同的运动。基于内容的编码器认识到这样的问题,它把视频帧分成对应于不同物体的区域,并分别编码。对于每个物体,除了运动和纹理信息外,还必须传输形状信息。10 10在基于物体的分析与合成编码中,通过物体模型描述视频场

7、景的每个运动物体。为了描述物体的形状,分析与合成编码采用分割算法。此外,还估计每个物体的运动和纹理参数。在最简单情况下,用二维轮廓描述物体形状,运动矢量场描述它的运动,用颜色波形描述它的纹理,其他方法用三维线框描述物体。用第k1帧中物体的形状、颜色以及形状和运动的更新参数来描述第k帧中的物体。解码器用当前运动和形状参数以及前一帧的颜色参数合成物体。只对那些图像合成失败的图像区域,才传输颜色信息。11 11在视频序列中的物体种类已知的情况下,可采用基于知识的编码,这种编码使用特别设计的模型来描述已识别出的物体类型。例如,目前已经提出了一些用预定义的模型来对人头编码的方法。使用预定义模型可增加编码

8、效率,因为它自适应于物体的形状。有时,也把这种技术称为基于模型的编码。当已知可能的物体类型和它们的行为时,可以用语义编码。例如,对于一个人脸,“行为”指的是与特殊面部表情相关的一系列面部特征点的时间轨迹。人脸的可能行为包括典型面部表情,诸如高兴、悲伤、生气等。在这种情况下,估计描述物体行为的参数并传输给解码器。这种编码方法可以达到非常高的编码效率,因为物体(如脸)可能的行为数目非常小,所以说明行为所需的比特数比用传统的运动和颜色参数描述实际动作所需的比特数少得多。12 125.1.2 信源编码的评价指标信源编码的评价指标1.图像熵图像熵(Entropy)设数字图像像素灰度级集合为(W1,W2,

9、Wk,WM),其对应的概率分别为P1,P2,Pk,PM。按信息论中信源信息熵定义,数字图像的熵H为(5-1)21log(bit)MkkkHPP 由此可见,一幅图像的熵就是这幅图像的平均信息量,也是表示图像中各个灰度级比特数的统计平均值。式(5-1)所表示的熵值是在假定图像信源无记忆(即图像的各个灰度级不相关)的前提下获得的,这样的熵值常称为无记忆信源熵值,记为H0()。对于有记忆信源,假如某一像素灰度级与前一像素灰度级相关,那么公式(5-1)中的概率要换成条件概率P(Wi/Wi1)和联合概率P(Wi,Wi1),则图像信息熵公式变为13 13(5-2)11111(/)(,)lb(/)MMiiii

10、iikkH W WP W WP W W 式中,P(Wi,Wi1)=P(Wi)P(Wi/Wi1),则称H(Wi/Wi1)为条件熵。因为只与前面一个符号相关,故称为一阶熵H1()。如果与前面两个符号相关,求得的熵值就称为二阶熵H2()。依此类推,可以得到三阶和四阶等高阶熵,并且可以证明H0()H1()H2()H3()(5-3)香农信息论已证明:信源熵是进行无失真编码的理论极限。低于此极限的无失真编码方法是不存在的,这是熵编码的理论基础。而且可以证明,如果考虑像素间的相关性,使用高阶熵一定可以获得更高的压缩比。14 142.性能评价性能评价评价一种数据压缩技术的性能优劣主要有三个关键的指标:压缩比、

11、重现质量、压缩和解压缩的速度。除此之外,主要考虑压缩算法所需要的软件和硬件环境。1)压缩比压缩性能常常用压缩比来定义,也就是压缩过程中输入数据量和输出数据量之比。压缩比越大,说明数据压缩的程度越高。在实际应用中,压缩比可以定义为比特流中每个样点所需要的比特数。对于图像信息,压缩比可使用公式(5-4)计算:(5-4)sCLCLLs为原图像的平均码长,LC为压缩后图像的平均码长。15 15其中,平均码长L的计算公式为1(bit)miiiLP(5-5)其中,i为数字图像第i个码字的长度(二进制代数的位数),其相应出现的概率为Pi。除压缩比之外,编码效率和冗余度也是衡量信源特性以及编解码设备性能的重要

12、指标,定义如下:编码效率:(5-6)HL其中,H为信息熵,计算公式如(5-1)所示,L为平均码长。冗余度:=1(5-7)16 16由信源编码理论可知,当LH时,可以设计出某种无失真编码方法。如果所设计出编码的L远大于H,则表示这种编码方法所占用的比特数太多,编码效率很低。例如,在图像信号数字化过程中,采用PCM对每个样本进行的编码,其平均码长L就远大于图像的熵H。因此,编码后的平均码长L等于或很接近H的编码方法就是最佳编码方案。此时并未造成信息的丢失,而且所占的比特数最少,例如熵编码。当LH时,必然会造成一定信息的丢失,从而引起图像失真,这就是限失真条件下的编码方案。17 172)重现质量重现

13、质量是指比较重现时的图像信号与原始图像之间有多少失真,这与压缩的类型有关。压缩方法可以分为无损压缩和有损压缩。无损压缩是指压缩和解压缩过程中没有损失原始图像的信息,所以对无损系统不必担心重现质量。有损压缩虽然可获得较大的压缩比,但压缩比过高,还原后的图像质量就可能降低。图像质量的评价常采用客观评价和主观评价两种方法。图像的主观评价采用5分制,其分值在15分情况下的主观评价如表5-2所示。18 1819 19而客观评价通常有以下几种:(1)均方误差:21()()niEx ix in(5-8)(2)信噪比:(5-9)22(dB)10lgxrSNR(3)峰值信噪比:(5-10)2max2(dB)10

14、lgrxPSNR20203)压缩和解压缩的速度压缩与解压缩的速度是两项单独的性能度量。在有些应用中,压缩与解压缩都需要实时进行,这称为对称压缩,如电视会议的图像传输;在有些应用中,压缩可以用非实时压缩,而只要解压缩是实时的,这种压缩称为非对称压缩,如多媒体CD-ROM的节目制作。从目前开发的压缩技术看,一般压缩的计算量要比解压缩要大。在静止图像中,压缩速度没有解压缩速度要求严格。但对于动态视频的压缩与解压缩,速度问题是至关重要的。动态视频为保证帧间变化的连贯要求,必须有较高的帧速。对于大多数情况来说,动态视频至少为15帧/s,而全动态视频则要求有25帧/s或30帧/s。因此,压缩和解压缩速度的

15、快慢直接影响实时图像通信的完成。21 21此外,还要考虑软件和硬件的开销。有些数据的压缩和解压缩可以在标准的PC硬件上用软件实现,有些则因为算法太复杂或者质量要求太高而必须采用专门的硬件。这就需要在占用PC上的计算资源或者另外使用专门硬件的问题上做出选择。22225.1.3 二进制编码二进制编码二进制编码是用二进制比特序列(称为码字)表示有限字母表信源中每个可能符号的过程。所有可能符号的码字形成码书。一个符号可以对应一个或几个原始的或量化后的像素值或模型参数。因为从符号到码字的映射是一一对应的,因此这个过程也称为无损编码。对于一个有用的码,它应该满足以下属性:(1)它应该可惟一解码,这就意味着

16、在码字和符号之间有一对一映射的关系;(2)码应该是即时可解码的,这意味着如果一组比特与码字相匹配,那么可立即解码这组比特,而不需检查编码序列中的后继比特。这第二个属性要求任何码字的前缀都不是另一个有效的码字,这种码称为前缀码。尽管即时可解码性是比唯一性更强的要求,而且允许快速解码,但它不限制编码效率。可以证明,对于同一信源,在所有唯一可解码的码中前缀编码可产生最小比特率。所有实际编码方法都产生前缀码。2323很明显,最简单的二进制码是所有可能符号的固定长度的二进制表示。如果符号数是L,那么比特率就是比特/符号。由上一节知道,任何码书的最低可能比特率是信源的熵率。除非信源是均匀分布的,否则固定长

17、度编码方案效率将是很低的,因为比特率比熵率高得多。为了降低比特率,需要可变长编码(VLC),它分配一个较短的码字给一个较高概率的符号,所以平均比特率低。因为适当设计的可变长编码器的比特率可接近信源的熵,所以可变长编码也称为熵编码。2log L2424有三种流行的可变长编码方法。哈夫曼(Huffman)编码把固定数目的符号转成可变长的码字;LZW方法把可变数目的符号转成固定长度的码字;而算术编码把可变数目的符号转成可变长度的码字。哈夫曼和算术编码是基于概率模型的,且都可逐渐地达到熵界限。算术编码方法更容易达到渐进性能,且容易适应信号统计特性的变化,但它比哈夫曼编码更复杂。LZW方法不要求了解信号

18、的统计特性,因此是普遍适用的,但它比其他两种方法的效率低。哈夫曼和算术编码已经用于各种视频编码标准中。以下将重点介绍这两种编码方法。25251.哈夫曼编码哈夫曼编码哈夫曼编码是由哈夫曼(D.S.Huffman)于1952年提出的一种不等长编码方法,这种编码的码字长度的排列与符号的概率大小的排列是严格逆序的,理论上已经证明其平均码长最短,因此被称为最佳码。1)编码步骤(1)将信源符号的概率由大到小排列;(2)将两个最小的概率组合相加,得到新概率;(3)对未相加的概率及新概率重复(2),直到概率达到1.0;(4)对每对组合概率小的指定为1,概率大的指定为0(或相反);(5)记下由概率1.0处到每个

19、信源符号的路径,对每个信源符号都写出1、0序列,得到非等长的Huffman码。下面以一个具体的例子来说明其编码方法,如图5-2所示。2626图 5-2 哈夫曼(Huffman)编码的示例2727表5-3列出了各个信源符号的概率、哈夫曼编码及码长。28282)前例哈夫曼编码的编码效率计算根据式(5-1)求出前例信息熵为 71lb(0.2lb0.20.19lb0.190.18lb0.180.17lb0.17 0.15lb0.150.10lb0.100.01lb0.01)2.61iikHPP 根据式(5-5)求出平均码字长度为712 0.20.19 20.18 30.17 30.15 30.10 4

20、0.01 42.72iikLP 2929根据式(5-6)求出编码效率为2.6195.9%2.72HL可见,哈夫曼编码效率很高。3)哈夫曼编码实例使用哈夫曼编码算法对实际图像进行编码,使用的图像为Couple和lena,这两幅图像均为256级灰度图像,大小为256256像素,图像如图5-3所示。编码结果如表5-4所示,限于篇幅,给出了部分结果。3030图 5-3 图像Couple和lena31 313232从表中可以看出,Couple图像的色调比较暗,因此低灰度值像素较多,低灰度值像素点概率比Lena图像相同灰度值像素的大,因此,哈夫曼编码也相对短一些。而整个哈夫曼编码的长度严格地和概率成反比。

21、表5-5给出了对Couple和lena两幅图像哈夫曼编码后的性能指标计算。33333434从表中可以看出,哈夫曼的编码效率还是很高的,但由于哈夫曼编码是无损的编码方法,所以压缩比不高。从表中还发现Couple图像的压缩比较大,但是编码效率却较小,这主要是由于该幅图像的信息熵较小,其冗余度较高造成的。35354)哈夫曼编码的特点(1)编码不唯一,但其编码效率是唯一的。由于在编码过程中,分配码字时对0、1的分配的原则可不同,而且当出现相同概率时,排序不固定,因此哈夫曼编码不唯一。但对于同一信源而言,其平均码长不会因为上述原因改变,因此编码效率是唯一的。(2)编码效率高,但是硬件实现复杂,抗误码力较

22、差。哈夫曼编码是一种变长码,因此硬件实现复杂,并且在存储、传输过程中,一旦出现误码,易引起误码的连续传播。3636(3)编码效率与信源符号概率分布相关。由于编码效率与信源符号概率分布相关,编码前必须有信源的先验知识,这往往限制了哈夫曼编码的应用。当信源各符号出现的概率相等时,此时信源具有最大熵Hmax=lbn,编码为定长码,其编码效率最低。当信源各符号出现的概率为2n(n为正整数)时,哈夫曼编码效率最高,可达100%。由此可知,只有当信源各符号出现的概率很不均匀时,哈夫曼编码的编码效果才显著。(4)只能用近似的整数位来表示单个符号。哈夫曼编码只能用近似的整数位来表示单个符号而不是理想的小数,因

23、此无法达到最理想的压缩效果。37372.算术编码算术编码在信源概率分布比较均匀的情况下,哈夫曼编码的效率较低,而此时算术编码的编码效率要高于哈夫曼编码,同时又无需像变换编码那样,要求对数据进行分块,因此在JPEG扩展系统中以算术编码代替哈夫曼编码。算术编码也是一种熵编码。当信源为二元平稳马尔可夫源时,可以将被编码的信息表示成实数轴01之间的一个间隔,这样,如果一个信息的符号越长,编码表示它的间隔就越小,同时表示这一间隔所需的二进制位数也就越多。下面对此作具体分析。38381)码区间的分割设在传输任何信息之前信息的完整范围是0,1,算术编码在初始化阶段预置一个大概率p和一个小概率q,p+q=1。

24、如果信源所发出的连续符号组成序列为Sn,那么其中每个Sn对应一个信源状态,对于二进制数据序列Sn,可以用C(S)来表示其算术编码,可以认为它是一个二进制小数。随着符号串中“0”、“1”的出现,所对应的码区间也发生相应的变化。如果信源发出的符号序列的概率模型为m阶马尔可夫链,那么表明某个符号的出现只与前m个符号有关,因此其所对应的区间为C(S),C(S)L(S),其中L(S)代表子区间的宽度,C(S)是该半开子区间中的最小数,而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程,如图5-4所示的码区间的分割。3939图 5-4 码区间的分割40402)算术编码规则在进行编码的过程中,随

25、着信息的不断出现,子区间按下列规律减小:新子区间的左端=前子区间的左端+当前子区间的左端前子区间长度 新子区间长度=前子区间长度当前子区间长度下面以一个具体的例子来说明算术编码的编码过程。例:已知信源分布,如果要传输的数据序列为1011,写出算术编码过程。43 411 0解 (1)已知小概率事件q=1/4,大概率事件为431qp41 41(2)设C为子区间左端起点,L为子区间的长度。根据题意,符号“0”的子区间为0,1/4),因此C=0,L=1/4;符号“1”的子区间为1/4,1),因此C=1/4,L=3/4。4242子区间左端起点为850.01010101256bdC子区间长度为270.00

26、011011256bdL子区间右端为852770.011125625616bddM子区间:0.01010101,0.0111。4343编码的结果为位于区间的头尾之间的取值0.011。算术编码 011 占三位原码 1011 占四位44444)算术编码效率(1)算术编码的模式选择直接影响编码效率。算术编码的模式有固定模式和自适应模式两种。固定模式是基于概率分布模型的,而在自适应模式中,其各符号的初始概率都相同,但随着符号顺序的出现而改变,在无法进行信源概率模型统计的条件下,非常适于使用自适应模式的算术编码。(2)在信道符号概率分布比较均匀的情况下,算术编码的编码效率高于哈夫曼编码。随着信息码长度的

27、增加,间隔越小,而且每个小区间的长度等于序列中各符号的概率p(S)。算术编码是用小区间内的任意点来代表这些序列,设取L位,则(5-11)1lb()Lp S其中,X代表取小于或等于X的最大整数。例如,在上例中,4545325.341431lb3L(3)硬件实现时的复杂程度高。算术编码的实际编码过程也与上述计算过程有关,需设置两个存储器,起始时一个为“0”,另一个为“1”,分别代表空集和整个样本空间的积累概率。随后每输入一个信源符号,更新一次,同时获得相应的码区间,按前述的方法求出最后的码区间,并在此码区间上选定L值,解码过程也是逐位进行的,可见计算过程要比哈夫曼编码的计算过程复杂,因而硬件实现电

28、路也要复杂。46465.2 基于块的变换编码基于块的变换编码1)把变换看做到所选择的基函数上的投影可以把变换过程认为是把一个图像块表示为一组基本图形(称为变换基函数)的线性组合。每个基本图形的贡献是对应于那个变换基函数的变换系数。对于一个给定的图像块,导出变换系数的过程是正变换,而用变换系数重建图像块的过程是逆变换。47472)变换设计准则显然,变换编码器的性能取决于所用的基函数。一个好的变换应该:(1)对欲量化的信号去相关,以便可以对各个值有效地使用标量量化而不会损失太多的编码效率。(2)把原始像素块的能量尽量压缩到少数的几个系数。后一个特性允许用几个具有大幅度的系数表示原始块。在这些准则下

29、,最好的变换是卡胡南-洛耶夫变换(KLT)。但是,因为KLT取决于信号的二阶统计特性且难以计算,所以实际中用固定的变换来近似KLT。对于一般的图像信号,最近似KLT的变换是离散余弦变换(DCT),因此在几乎所有的基于变换的图像编码器中都用DCT。48483)变换编码和矢量量化通常图像中的相邻像素之间是相关的,因此单独表示每个像素值效率是不高的。利用相邻像素之间的相关性的一种方法是用矢量量化把像素块一起量化,它用最接近原始块的一个典型的块图形来代替每个图像块。块越大,就越能充分利用像素之间的相关性,可以达到的压缩增益就越高。遗憾的是,搜索最佳匹配模式的复杂度也随块的大小而指数增长。变换编码是无需

30、穷尽搜索而实现条件矢量量化器的一种途径。49495.2.1 最佳变换设计和最佳变换设计和KLT正如上一小节提到的,一个好的变换使用最佳标量量化和最佳比特分配,会产生比较低的失真,那么自然会问到是否存在失真最小的最佳变换。如果信源是高斯分布,且信源的方差是固定的,回答是肯定的,这样的变换就是KLT。KLT是基于原始信号的协方差矩阵设计的,KLT产生的变换系数方差的几何平均最小。因此,如果信源是高斯分布,则它使变换编码增益最大。从而可以认为KLT是最佳变换。5050KLT的另一个性质是它在所有变换中用较少的系数得到最小的近似误差,也就是说,KLT在所有变换中具有最高的能量紧缩能力。这是因为近似误差

31、与系数方差的几何平均有直接联系。几何平均越低,这些方差的分布就越不均匀,因此,能够紧缩到固定数目系数上的能量就越多。尽管KLT在能量紧缩方面和信号去相关方面的能力是最佳的,但它仅对已知协方差矩阵的平稳信源才是可以计算的。实际上,信源可以在时间或空间上变化,所以必须不断更新基于前面信号采样点的协方差矩阵并重新计算特征矢量,故计算上的需求量很大。而且,不存在从任意协方差矩阵中导出KLT的快速算法。而对于实际应用系统,希望采用独立于信号的变换。因此,一般只将KLT作为理论上的比较标准,作为一种参照物,用来对一些新方法、新结果进行分析比较,其理论价值高于实际价值。51 515.2.2 离散余弦变换离散

32、余弦变换(DCT)目前已经证明,对于通常图像信号的协方差矩阵,DCT非常接近KLT,因此DCT已在图像编码中广泛应用。设f(x,y)是MN子图像的空域表示,则二维离散余弦变换(DCT)定义为 11002(21)(21)(,)()()(,)coscos22MNxyxuyvF u vc u c vf x yMNMNu=0,1,M1;v=0,1,N1 (5-12)反余弦变换(IDCT)的公式为11002(21)(21)(,)()()(,)coscos22MNuvxuyvf x yc u c v F u vMNMN(5-13)x=0,1,M1;y=0,1,N1 5252以上两式中,c(u)和c(v)的

33、定义为(5-14)1 0 21 1,2,11 0 21 1,2,1uc uuMvc vvN5353二维MN点的DCT是由一维M点DCT和N点DCT构成的,可以先对图像块的每行运用对应的一维DCT,然后再对进行变换的块的每列应用一维DCT。典型的DCT编码器有四步:图像分块、DCT、量化和编码。一个图像被分解为非重叠的块,每个块变换成一组系数。这些系数用标量化器分别量化。然后用可变长编码把量化的系数转换成二进制比特。在解码器中,通过逆变换由量化系数恢复图像块。图5-5给出了一个典型DCT编码器编码及解码的工作过程。5454图 5-5 DCT编码器编码及解码的工作过程5555DCT能够很好地适用于

34、图像编码,其原因是图像块经常可以用几个低频DCT系数表示,这是因为图像中的灰度值通常是平滑变化的,高频部分只在边缘附近存在。空域图像f(x,y)经过式(5-12)正向离散余弦变换后得到的是一幅频域图像。当f(x,y)是一幅M=N=8的子图像时,其F(u,v)可表示为(5-15)000107101117707177(,)FFFFFFF u vFFF5656其中,64个矩阵元素称为f(x,y)的64个DCT系数。正向DCT变换可以看成是一个谐波分析器,它把f(x,y)分解成为64个正交的基信号,分别代表着64种不同频率成分。第一个元素F00是直流系数(DC),其他63个都是交流系数(AC)。矩阵元

35、素的两个下标之和小者(即矩阵左上角部分)代表低频成分,大者(即矩阵右下角部分)代表高频成分。由于大部分图像区域中相邻像素的变化很小,所以大部分图像信号的能量都集中在低频成分,高频成分中可能有不少数值为0或接近0值。图5-6给出了DCT变换示例图。5757图5-6(a)为原图,将原图分为88的块进行DCT变换,图5-6(b)为原图DCT变换后的频域图,图5-6(c)、(e)、(g)分别为舍弃少部分高频分量、舍弃大部分高频分量和舍弃低频分量后的频域图,图5-6(d)、(f)、(h)为对应频域图反变换后的图像。从这个示例可以看出,DCT系数的低频分量集中了图像中的绝大部分能量,通过舍弃DCT系数的高

36、频成分,可以达到压缩图像的目的,而且恢复出的图像质量是可以被接受的。5858图 5-6 DCT变换示例图59595.3 预测编码预测编码5.3.1 帧内预测帧内预测帧内预测编码是针对一幅图像以减少其空间上的相关性来实现数据压缩的。通常采用线性预测法,也采用差分脉冲编码调制(differential pulse code modulation,DPCM)来实现,这种方法简单且易于硬件实现,得到广泛应用。差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。这个差值是指信号值与预测值的差值。预测值可以由过去的采样值进行预测,其计算公式如下所示:(5-16)11122111NNNNiii

37、ya ya yaya y6060其中,y N为当前值yN的预测值;y1,y2,yN1为当前值前面的N1个样值;a1,a2,aN1为预测系数。当前值yN与预测值yN的差值表示为e0=yNyN(5-17)差分脉冲编码调制就是将上述每个样点的差值量化编码,而后用于存储或传送。由于相邻采样点有较大的相关性,预测值常接近真实值,故差值一般都比较小,从而可以用较少的数据位来表示,这样就减少了数据量。在接收端或数据回放时,可用类似的过程重建原始数据。差分脉冲调制系统方框图如图5-7所示。61 61图 5-7 差分脉冲调制系统方框图6262为了求出预测值yN,要先知道先前的样值y1,y2,yN1,所以预测器端

38、要有存储器,以存储所需的系列样值。只要求出预测值,用这种方法来实现编码就不难了。而要准确得到yN,关键是确定预测系数ai。如何求ai呢?定义ai就是使估值的均方差最小的ai。估值的均方差可由下式决定:(5-18)22112211()()NNNNNEyyEya ya yay为了求得的均方差最小,就需对式(5-18)中各个ai求导数并使方程等于0,最后解联立方程可以求出ai。预测系数与输入信号特性有关,也就是说,采样点同其前面采样点的相关性有关。只要预测系数确定,问题便可迎刃而解。通常一阶预测系数ai的取值范围为0.81。6363下面介绍一种简单的图像有损预测编码方法,德尔塔调制。其预测器为,即采

39、用一阶预测。对预测误差的量化器为,图5-8给出了图像的原图、预测编码结果及解码结果。1nnfaf0nnee当其他6464图 5-8 德尔塔调制编解码示例6565在图5-8(b)所示的预测编码图中,误差大于0的用白色像素点表示,误差小于0的用黑色像素点表示,图5-8(c)为解码结果,与图5-8(a)所示的原图相比,由于预测算法简单,整个图像目标边缘模糊且产生纹状表面,有一定的失真。DPCM编码性能的优劣,很大程度上取决于预测器的设计,而预测器的设计主要是确定预测器的阶数N,以及各个预测系数。阶数N即公式(5-16)中的样值个数。对于一般图像,取N=4就足够了。当N5时,预测效果的改善程度已不明显

40、。由于在预测编码中,接收端是以所接收的前N个样本为基准来预测当前样本,因而在信号传输过程中一旦出现误码,就会影响后续像素的正确预测,从而出现误码扩散现象。可见,采用预测编码可以提高编码效率,但它是以降低系统性能为代价的。66665.3.2 帧间预测帧间预测 对于视频图像,当图像内容变化或摄像机运动不剧烈时,前后帧图像基本保持不变,相邻帧图像具有很强的时间相关性。如果能够充分利用相邻帧图像像素进行预测,将会得到比帧内像素预测更高的预测精度,预测误差也更小,可以进一步提高编码效率。这种基于时间相关性的相邻帧预测方法就是帧间预测编码。在采用运动补偿技术后,帧间预测的准确度相当高。67671.运动估计

41、与补偿运动估计与补偿在帧间预测编码中,为了达到较高的压缩比,最关键的就是要得到尽可能小的帧间误差。在普通的帧间预测中,实际上仅在背景区域进行预测时可以获得较小的帧间差。如果要对运动区域进行预测,首先要估计出运动物体的运动矢量V,然后再根据运动矢量进行补偿,即找出物体在前一帧的区域位置,这样求出的预测误差才比较小。这就是运动补偿帧间预测编码的基本机理。简而言之,通过运动补偿,减少帧间误差,提高压缩效率。理想的运动补偿预测编码应由以下四个步骤组成:(1)图像划分。将图像划分为静止部分和运动部分。6868(2)运动检测与估值。即检测运动的类型(平移、旋转或缩放等),并对每一个运动物体进行运动估计,找

42、出运动矢量。(3)运动补偿。利用运动矢量建立处于前后帧的同一物体的空间位置对应关系,即用运动矢量进行运动补偿预测。(4)预测编码。对运动补偿后的预测误差、运动矢量等信息进行编码,作为传送给接收端的信息。由于实际的序列图像内容千差万别,把运动物体以整体形式划分出来是极其困难的,因此有必要采用一些简化模型。例如,把图像划分为很多适当大小的小块,再设法区分是运动的小块还是静止的小块,并估计出小块的运动矢量,这种方法称为块匹配法。目前块匹配法已经得到广泛应用,在H.261、H.263、H.264、MPEG-1以及MPEG-4等国际标准中都被采用,下面进行详细介绍。69692.块匹配运动估计块匹配运动估

43、计运动估计从实现技术上可以分为像素递归法(Pixel Recursive Algorithm,PRA)和块匹配法(Block Matching Motion Estimation,BMME)。像素递归法的基本思想是对当前帧的某一像素在前一帧中找到灰度值相同的像素,然后通过该像素在两帧中的位置差求解出运动位移。块匹配法的思想是将图像划分为许多互不重叠的子图像块,并且认为子块内所有像素的位移幅度都相同,这意味着每个子块都被视为运动对象。对于第k帧图像中的子块,在第k1帧图像中寻找与其最相似的子块,这个过程称为寻找匹配块,并认为该匹配块在第k1帧中所处的位置就是k帧子块位移前的位置,这种位置的变化就

44、可以用运动矢量来表示。7070在一个典型的块匹配算法中,一帧图像被分割为MN或者是更为常用的NN像素大小的块。在(N+2w)(N+2w)大小的匹配窗中,当前块与前一帧中对应的块相比较,基于匹配标准,找出最佳匹配,得到当前块的替代位置。常用的匹配标准有平均平方误差(Mean Square Error,MSE)和平均绝对误差(Mean Absolute Error,MAE),定义如下:22111(,)(,)(,),NNmnMSE i jf m nf mi njwi jwN(5-19)(5-20)2111(,)|(,)(,)|,NNmnMAE i jf m nf mi njwi jwN其中,f(m,

45、n)表示当前块在位置(m,n),f(m+i,n+j)表示相应的块在前一帧中的位置为(m+i,n+j)。71 71全搜索算法(Full Search Algorithm,FSA)在搜索窗(N+2W)(N+2W)内计算所有的像素来寻找具有最小误差的最佳匹配块。对于当前帧中的一个待匹配块的运动向量的搜索要计算(2W+1)(2W+1)次误差值,如图5-9所示。由于全搜索算法的计算复杂度过大,近年来,快速算法的研究得到了广泛的关注,研究人员提出了很多快速算法。7272图 5-9 块匹配原理图73733.帧间预测实例帧间预测实例图5-10给出了一个常用测试序列帧间预测的结果。图5-10(a)、(b)分别是

46、第一帧和第二帧原图,图5-10(c)、(d)分别是未进行运动补偿和运动补偿后的帧间差分。图 5-10 常用测试序列的帧间预测的结果74745.4 基于内容的编码基于内容的编码5.4.1 基于区域的视频编码基于区域的视频编码大多数图像和视频编码器都为了编码效率而做了优化。图像和视频的质量是由峰值信噪比PSNR测量的。已经证明简单的PSNR测度不能很好地记录人类视觉系统(Human Vision System,HVS)的特性。在低比特率下这变得非常明显,此时块失真使图像变形,但并不能得到低的PSNR。基于区域的图像和视频编码,也就是所谓的第二代图像和视频编码,试图给予HVS以特别关注,从HVS的性

47、质出发提出以下的基本要求,这些要求为设计选择算法奠定了基础:7575 边缘和轮廓信息对于人类视觉系统是非常重要的,是人类的感觉所依赖的。纹理信息具有相对的重要性,当与轮廓信息在一起时会影响人类的感觉。在这些假设的基础上,基于区域的视频编码更注重编码轮廓而不是编码纹理。当确定重要的轮廓时,运动是不考虑的。基于区域的视频编码器把每个图像分割为相似纹理的区域。由于轮廓被认为是非常重要的,所以编码器以高精度传送区域的轮廓。区域的纹理是用原始区域的纹理的平均值近似的。图5-11是一个被分割为区域的图像。7676图 5-11 图像分割7777不同的分割结果取决于相似性准则定义的精确程度和最小区域尺寸。与低

48、码率下的基于DCT的图像编码器比较,这种编码器不产生任何块效应。然而,平坦的纹理表示可能会产生失真。在高码率下,基于DCT的编码明显优于基于区域的编码,因为基于区域的编码需要传输许多轮廓。可以把这种概念扩展到视频编码。为了减少形状编码所需要的码率,要从一幅图像到另一幅图像进行区域跟踪。把具有类似的或相同运动的区域聚合在一起,对于这个新的图像,编码器传送当前图像中区域的运动、形状的变化以及新出现的区域,也传送纹理值的变化。78785.4.2 基于物体的视频编码基于物体的视频编码基于物体的编码是由Musmann等提出的,其目标是以较低比特率传送可视电话图像序列。其基本思想是:把每一个图像分成若干个

49、运动物体,对每一物体的基于不明显物体模型的运动Ai、形状Mi和彩色纹理Si等三组参数集进行编码和传输。其图像编码原理框图如图5-12所示。基于物体的编码需要一个存储器存储欲编码和传输的物体的参数。基于物体的编码的特点是把三维运动物体描述成模型坐标系中的模型物体,用模型物体在二维图像平面的投影(模型图像)来逼近真实图像。这里不要求物体模型与真实物体形状严格一致,只要最终模型图像与输入图像一致即可,这是它与基于语义的编码的根本区别。7979图 5-12 基于物体的图像编码原理框图8080经过图像分析后,图像的内容被分为两类:模型一致物体(MC物体)和模型失效物体(MF物体)。MC物体是被模型和运动

50、参数正确描述的物体区域,可以通过只传送运动Ai和形状Mi的参数集以及利用存在存储器中的彩色纹理Si的参数集重建该区域;MF物体则是被模型描述失败的图像区域,它是用形状Mi和彩色纹理Si的参数集进行编码和重建的。从目前研究比较多的头肩图像的实验结果可以看到,通常MC物体所占图像区域的面积较大,约为图像总面积的95%以上,而Ai和Mi参数可用很少的码字编码;另一方面,MF通常都是很小的区域,约占图像总面积的4%以下。81 81基于物体的编码中的最核心的部分是物体的假设模型及相应的图像分析。选择不同的源模型时,参数集的信息内容和编码器的输出速率都会改变。目前已出现的有二维刚体模型(2DR)、二维弹性

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第5章-视频编码方法课件.ppt)为本站会员(ziliao2023)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|