1、2023-5-6 第第5章章 图像编码与压缩图像编码与压缩n5.1 引言引言n 数字图像数据量很大,因此为了快速传输,总是希望进行合理的图像压缩。压缩的理论基础是信息论,是一种通过删除冗余的或者不需要的信息来达到压缩数据量目的的技术。虽然表示图像需要大量的数据,但是图像数据是高度相关的,或者说存在冗余(Redundancy)信息,去掉这些冗余信息后可以有效压缩图像,同时又不会损害图像的有效信息。n 数字图像的冗余主要表现为以下几种形式:空间冗余、时间冗余、视觉冗余、信息熵冗余、结构冗余和知识冗余。2023-5-6n1.空间冗余空间冗余 图像内部相邻像素之间存在较强的相关性所造成的冗余。也称为像
2、素相关冗余。场景中总有一些物体,图像中就有一些目标,同一目标的像素之间一般具有相关性。根据相关性,由某一个像素的性质可以获得其邻域像素的性质,各像素的值可以由其邻近像素的值预测出来,每个独立的像素所携带的信息相对较少。图像中存在与像素间相关性直接联系的数据冗余,即为像素相关冗余,也称为空间冗余或几何冗余。第第5章章 图像编码与压缩图像编码与压缩2023-5-6n2.时间冗余时间冗余 视频图像序列中的不同帧之间的相关性所造成的冗余。n3.视觉冗余视觉冗余 是指人眼不能感知或不敏感的那部分图像信息。人的眼睛对图像细节和颜色的辨认受到人的视觉特性的限制,人类最多能分辨 种颜色,而彩色图像用24表示,
3、即 种颜色,这种数据冗余称为视觉冗余。162242第第5章章 图像编码与压缩图像编码与压缩2023-5-6n4.信息熵冗余信息熵冗余 也称编码冗余,如果图像中平均每个像素使用的比特数大于该图像的信息熵,则图像中存在冗余,称为信息熵冗余。为表达图像数据需要使用一系列符号,如字母、数字等,用这些符号根据一定的规则来表达图像就是对图像进行编码。在这里对每个信息或事件所附的符号序列称为码字,而每个码字里的符号个数称为码字的长度。当使用不同的编码方法时,得到的码字及其长度都会不同。第第5章章 图像编码与压缩图像编码与压缩2023-5-6n5.结构冗余结构冗余 是指图像中存在很强的纹理结构或自相似性。n6
4、.知识冗余知识冗余 是指在有些图像中还包含与某些先验知识有关的信息。数字压缩技术利用了数据固有的冗余性和不相干性,将一个大的图像数据文件转换成较小的文件。经过压缩的文件可以在以后需要的时候以某种方式将原文件恢复出来,两个文件的大小之比即为压缩比。压缩比反映了图像文件的压缩程度。第第5章章 图像编码与压缩图像编码与压缩2023-5-6n 有些图像文件数据无损压缩的算法删除的仅仅是冗余的信息,因此可以在解压缩时精确地恢复图像。有损压缩算法删除了不相干的信息,因此只能对原有的图像进行近似地重构,而不能精确的复原。有损压缩的算法可以达到较高的压缩比。对于多数图像来说,为了得到更高的压缩比,保真度的轻微
5、损失是可以接受的。但是,有些图像是不允许进行有损压缩的。第第5章章 图像编码与压缩图像编码与压缩2023-5-6n 对图像文件进行压缩和解压缩都是需要时间的。图像文件在系统与系统之间或用户与用户之间进行交换时,这个时间是不容忽略的。所以要根据具体情况选择进行有损压缩和无损压缩,以及在速度和压缩比之间、保真度之间进行折衷。第第5章章 图像编码与压缩图像编码与压缩2023-5-65.2 图像保真度准则图像保真度准则n 图像编码结果减少了数据量,提高了存储和传输的速度。实际应用时需要将编码结果解码,恢复成图像的形式才能使用。根据解码图像对原始图像的保真程度,图像压缩的方法可以分为两大类:信息保存型和
6、信息损失型。n 信息保存型在图像的压缩和解压缩的过程中没有信息损失,得到的解码图像与原始图像完全相同。信息损失型可以取得很高的压缩比。但是不能通过解码恢复原图像。需要一种测度描述解码图像对于原始图像的偏离程度,这些测度一般称为保真度准则。2023-5-6 5.2 图像保真度准则图像保真度准则n1.客观保真度准则客观保真度准则n 1)均方根误差n 常用的准则是输入图像和输出图像的均方根误差。令f(x,y)表示输入图像,表示对输入图像压缩编码和解码后的近似图像,则和之间的误差可以表示为n n ),(yxf),(),(),(yxfyxfyxe2023-5-6 5.2 图像保真度准则图像保真度准则n设
7、图像的大小为 ,则 和 之间的均方根误差为NM),(yxf),(yxf2/110102),(),(1MxNyrmsyxfyxfMNe2023-5-65.2 图像保真度准则图像保真度准则n2.主观保真度准则主观保真度准则2023-5-6 5.3 无损压缩技术无损压缩技术n 无损压缩算法可以分为两大类:基于字典的技术和基于统计的方法。基于字典的技术生成的文件包含的是定长码,每个码字代表原文件中数据的一个特定的序列。基于统计的方法通过用较短代码代表频繁出现的字符,用较长的代码代表不常出现的字符,从而实现图像数据文件的压缩。2023-5-6 5.3.1 基于字典的技术基于字典的技术1.行程编码行程编码
8、 最简单的基于字典的压缩技术是行程编码(Run Length Encoding,RLE),是一种熵编码。对于某些图像的一些区域,它们是由相同的灰度或颜色的相邻像素组成的。在一个逐行存储的图像中,具有相同灰度值的一些像素组成序列,称为一个行程。可以只存一个代表那个灰度值的码,后面是行程的长度,而不需要将同样的灰度值存储很多次,这就是行程编码。它对有单一颜色背景下物体的图像可以达到很高的压缩比,但对其它类型的图像压缩比就很低。2023-5-6n 行程编码比较适合于二值图像的编码,一般用于量化后出现大量零系数连续的场合,用行程来表示连零码。如果图像是由很多块颜色或灰度相同的大面积区域组成的,那么采用
9、行程编码可以达到很高的压缩比。如果图像中的像素中的数据非常分散,则行程编码不但不能压缩数据,反而会增加图像文件的大小。为了达到较好的压缩效果,在进行图像编码时不单独采用行程编码,而是和其他编码方法综合使用。5.3.1 基于字典的技术基于字典的技术2023-5-6n例1 某一图像的第i行为(180,180,180,)共10000个数据,模仿RLE编码可以简单写成(180,10000)。n例2 某一图像的第i行为(ai1,ai2,ai3,aij),其中j=10000,如果仍然采用RLE编码,则写成(ai1,ai2,1,ai3,1,aij,1)共有20000个数据,文件被加倍是显而易见的。5.3.1
10、 基于字典的技术基于字典的技术2023-5-6n2.LZW编码编码 LZ编码是由Lemple和Ziv最早提出的无损压缩技术。它由Welch加以充实而形成了广泛应用的有专利保护的LZW算法。同RLE类似,它也是对字符串编码从而实现数据压缩。然而,与RLE不同的是,它在对文件进行编码的同时,生成特定字符序列的表以及它们对应的代码 5.3.1 基于字典的技术基于字典的技术2023-5-6n LZW编码的基本思想:在编码过程中,将所遇到的字符串建立一个字符串表,表中的每个字符串都对应一个索引,编码时用该字符串在字串表中的索引来代替原始的数据串。例如,一幅8位的灰度图像,可以采用12位来表示每个字符串的
11、索引,前256个索引用于对应可能出现的256种灰度,由此可建立一个初始的字符串表,而剩余的3840个索引就可分配给在压缩过程中出现的新字符串,这样就生成了一个完整的字符串表,压缩数据就可以只保存它在字符串表中的索引,从而达到压缩数据的目的。5.3.1 基于字典的技术基于字典的技术2023-5-6 5.3.2 统计编码技术统计编码技术n1.哈夫曼编码哈夫曼编码n 哈夫曼编码(Huffman Coding)是图像压缩中最重要的编码方式之一,它是1952年由哈夫曼提出的无损的统计编码方法。是一种非等长最佳编码方法。用变长的码来使冗余量达到最小。编码器的输出码字是字长不等的编码,按编码输入信息符号出现
12、的统计概率不同,给输出码字分配以不同的字长。在编码输入中,对于那些出现概率大的信息符号编以较短的字长的码,而对于那些出现概率小的信息符号用较长的字长的编码。其编码结构实际上是一个二叉树,使常出现的字符用较短的码代表,不常出现的字符用较长的码代表。2023-5-62023-5-6n 观察符号序列,发现s0,s1,s2这三个符号出现的频率比较大,其他符号出现的频率比较小,如果采用一种编码方案使得s0,s1,s2的码字短。其他符号的码字长,这样就能够减少符号序列占用的位数。5.3.2 统计编码技术统计编码技术2023-5-6n设s0=01,s1=11,s2=101,s3=000,s4=0010,s5
13、=0001,s6=0011,s7=100n那么符号序列变成n01 11 100 01 11 0011 101 101 0000 0010 0001 01 01 11 共39bit5.3.2 统计编码技术统计编码技术2023-5-6n 尽管s4,s5,s6的码字由原来的3位变成4位变长了,但是使用频繁的几个码字s0,s1变短了,使得整个序列的编码缩短,实现了数据的压缩。编码必须保证不能出现一个码字和另一个码字的前几位相同的情况,例如:如果的码字为01,的码字为011,那么当序列中出现011时,便无法判断是的码字后面跟了个1,还是完整的一个的码字。按照哈夫曼编码算法就可以保证编码正确,如图5.1所
14、示为哈夫曼编码树示意图。5.3.2 统计编码技术统计编码技术2023-5-62023-5-6nHuffman编码算法步骤:(1)统计出每个符号出现的频率,s0-s7出现的频率分别为4/14,3/14,2/14,1/14,1/14,1/14,1/14,1/14;5.3.2 统计编码技术统计编码技术2023-5-6(2)从左到右将上述频率按从小到大的顺序排列;(3)每次选出最小的两个值,作为二叉树的两个叶子的节点,将它们的和作为其根节点。之后,这两个叶子节点不再参与比较,新的根节点参与比较;(4)重复步骤3,直到最后得到和为1的根节点;(5)将形成的二叉树的左节点标0,右节点标1。把从最上面的根节
15、点到最下面的叶子n节点途中遇到的0,1序列串起来,就得到了的编码。Huffman编码2023-5-6Huffman编码n 产生Huffman编码需要对原始数据扫描两遍。第一遍扫描要精确地统计出原始数据中每个值出现的频率,第二遍是建立Huffman树并进行编码。由于需要建立二叉树并遍历二叉树生成编码,因此Huffman编码数据压缩和还原速度都较慢。但是哈夫曼编码简单有效,因而得到了广泛的应用。2023-5-6n2香农编码(shannon coding)n 香农编码的过程与哈夫曼编码有些相似。其编码步骤简述如下。n(1)图像灰度级按概率递减顺序排序;n(2)将分成两组,每组的概率和相同或相似。对第
16、一组分配代码“0”,第二组分配代码“1”;n(3)执行步骤(2)后,若每组还是由两个或两个以上的灰度级组成,就重复上述步骤,直到每组只有一个灰度级。n至此,可获得表5.2所示的香农编码,由表5.2可计算出香农编码的平均码字长度。5.3.2 统计编码技术统计编码技术2023-5-6 5.3.2 统计编码技术统计编码技术n 表5.2香农编码与哈夫曼编码2023-5-65.4 无损预测编码无损预测编码n 预测编码的基本思想是通过仅对每个像素中提取的新信息编码,来消除像素之间的冗余。这里一个像素的新信息定义为该像素的当前或现实值与它预测值的差值。n 一个无损预测编码系统主要由一个编码器和一个解码器组成
17、,它们各有一个相同的预测器,如图5.2所示。2023-5-65.4 无损预测编码无损预测编码图5.2 无损预测编码系统2023-5-6 5.4 无损预测编码无损预测编码n 当输入图像的像素序列逐个进入编码器时,预测器根据若干个过去的输入产生对当前输入像素的预测值,也称为估计值。将这个预测值进行整数舍入,得到预测器的输出值,则由此产生的预测误差表示为kkkffe2023-5-6 5.4 无损预测编码无损预测编码n 预测误差可以用符号编码器,借助变长码进行编码用以产生压缩图像数据流的下一个元素。利用解码器,根据接收的变长码字重建预测误差,则解压缩图像的像素序列表示为kkkfef2023-5-65.
18、4 无损预测编码无损预测编码n 利用预测器,可以将对原始图像序列的编码转换成对预测误差的编码。由于在预测比较时,预测误差的动态范围会远小于原始图像序列的动态范围,所以对预测误差的编码所需的比特数会大大减少,这是预测编码可以获得数据压缩结果的原因。n 在多数情况下,可以通过将个先前的像素进行线性组合得到预测值。2023-5-6 5.4 无损预测编码无损预测编码n 将m个先前的像素进行线性组合得到预测值。n式中,m称为线性预测器的阶,R是舍入函数,ai是预测系数。下标n为图像序列的空间坐标,在一维线性预测编码中,设扫描沿行进行,式(5.5)可以表示为inmiinfaRf12023-5-6 5.4
19、无损预测编码无损预测编码n 一维线性预测仅是当前行扫描到的先前像素的函数。在二维线性预测编码中,预测是对图像从左向右,从上向下进行扫描时所扫描到的先前像素的函数。在三维线性预测编码中,预测基于上述像素和前一帧的像素。预测误差的概率密度函数一般用零均值不相关拉普拉斯概率密度函数表示为),(),(1yixfaRyxfmiin2023-5-6 5.4 无损预测编码无损预测编码n式中,是e的标准差。eeeeep2exp21)(e2023-5-6 5.5 有损预测编码有损预测编码n 有损预测编码系统与无损预测编码系统相比,主要增加了量化器。量化器的作用是将预测误差映射到有限个输出 中,决定了有损预测编码
20、中的压缩量和失真量。有损预测编码系统组成如图5.3所示。ke ke 2023-5-6 5.5 有损预测编码有损预测编码 图 5.3 有损预测编码系统2023-5-6 5.5 有损预测编码有损预测编码n 解码器的输出表示为n式中,为过去预测值,为量化误差函数,为解码器的输出。如图5.3所示的闭环结构可以防止在解码器的输出端产生误差。kkkfefkfke kf2023-5-65.6 图像变换编码基本原理图像变换编码基本原理n 图像的变换编码是利用某种变换将空间域里描述的图像 ,变换为变换域中描述的 。对变换域中 编码压缩,比对空间域压缩更为有效。因为在频域中相关性明显下降,能量主要集中于少数低频分
21、量系数上。通常采用正交变换。例如傅里叶变换、沃尔什变换、离散余弦变换等。以傅里叶变换为例,变换具有能量集中于少数低频系数、各系数不相关、高频分量衰减很快且能量较小等性质。这些性质都可以用于图像数据压缩。),(yxf),(vuF),(vuF2023-5-65.6 图像变换编码基本原理图像变换编码基本原理n 变换编码就是对数字图像经过正交变换的系数矩阵进行量化编码。图5.4所示为变换编解码系统的组成框图。系统由五部分组成,图像输入与变换、系数量化编码、信道传输、解码和逆变换。在变换阶段,将原始图像划分成若干子块,对每个子块进行某种正交变换。通过变换,降低或消除相邻像素之间或相邻扫描行之间的相关性,
22、提供用于编码压缩的变换系数矩阵。编码过程实现图像信息的压缩。在变换域中,图像信号的绝大部分能量集中在低频分量部分,编码中如果略去那些能量很小的高频分量,或者给这些高频分量分配较小的合适的比特数,就可以明显减少图像传输或存储的数据量。2023-5-6 5.6 图像变换编码基本原理图像变换编码基本原理 5.4 正交变换及编解码框图2023-5-65.7 视频图像编码简介视频图像编码简介n 随着计算机网络及通信技术的迅速发展,图像通信受到该领域科技工作者的广泛关注。国际标准化组织(ISO)、国际电工委员会(IEC)和国际电信联盟(ITU)下属的国际电报电话咨询委员会(CCITT)等国际组织积极致力于
23、图像处理的标准化工作。特别是图像编码,涉及到多媒体、数字电视、可视电话、会议电视等图像传输方面的广泛应用,为此制定的国际标准极大地推动了图像编码技术的发展与应用。这些图像编码的国际标准有:JPEG、MPEG、H.26x等标准。2023-5-6 5.7.1 JPEG标准标准n 1986年,ISO和CCITT成立了“联合图片专家组”(Joint Photographic Expert Group),主要任务是研究静止图像压缩算法的国际标准。1987年用Y:U:V=4:2:2,每像素16比特,宽度为4:3的电视图像进行了测试,选择出三个方案进行评选,其中的DCT方案得分最高,它制定的以自适应离散余弦
24、变换编码(ADCT)为基础的“连续色调静止图像压缩编码”JPEG标准于1991年3月正式提出。2023-5-6 5.7.1 JPEG标准标准n JPEG标准根据不同的应用场合对图像的压缩要求提出了几种不同的编、解码方法,主要分为基本系统、扩展系统和信息保持型系统。所有符合JPEG标准的编码器都必须支持基本系统,而其他系统则作为不同应用目的的选择项。n基本系统提供顺序建立方式的高效有失真编码,输入图像的精度为8比特/像素。图5.5所示为JPEG标准基本系统的编码器结构图,图中,量化用Q表示,IQ表示反量化。编码器对彩色图像采用分量编码。2023-5-6 5.7.1 JPEG标准标准n 图5.5
25、JPEG基本系统编码器结构图2023-5-6JPEG基本系统组成模块基本系统组成模块2023-5-6 5.7.1 JPEG标准标准n (1)将整个图像分为不重叠的 像素子块,共有Y、U、V三幅数字图像,Y表示图像的亮度,即明暗程度,UV代表图像色彩度。n (2)对各个子块进行DCT变换,n (3)对所有的系数进行线性量化。量化的过程是对系数值的量化间距划分后的简单的取整运算,量化步长取决于一个视觉阈值矩阵,它随系数的位置而改变,并且对Y和UV分量也不相同。利用这些阈值,在编码率小于1比特/像素的条件下依然可以获得非常好的图像质量。当把量化步长乘以一个公共因数后,一般可以调整比特数,由此可以实现
26、自适应编码。882023-5-6 5.7.1 JPEG标准标准n(4)对DCT量化系数进行熵编码,进一步压缩码率。可以采用算数编码或Huffman编码(可变字长编码VLC)。对于当前子块的DC系数与上一块的DC系数之差值进行VLC编码压缩数据,由于DC分量是子块的平均值,相邻子块间的相关性很强,同时,视觉上要求各子块的平均灰度无明显的跳跃,因此对DC的差值作无失真的熵编码是合适的。对于AC系数不为零,采用Z字形方式(Zig-zig)进行一维扫描,然后将非零系数前面的0的游程长度(个数)与该系数值一起作为统计事件进行VLC编码。在基本系统中共推荐了两组Huffman码表,一组用于亮度信号Y,另一
27、组用于色差信号U、V,每一组表又包括两张表,一个用于DC分量,一个用于AC分量。2023-5-6 5.7.2 MPEG标准标准n 1987年,ISO和CCITT成立了“活动图像专家组”(Moving Picture Expert Group),任务是制定用于数字存储媒介中活动图像及伴音的标码标准。1991年11月提出了1.5Mb/s的编码方案。1992年通过了ISO11172号建议,即MPEG标准。MPEG标准主要由视频、音频和系统三个部分组成,是一个完整的多媒体压缩编码方案。MPEG标准阐明了编解码过程,严格规定了编码后产生的数据流的句法结构,但是并没有规定编解码的算法。2023-5-65.
28、7.2 MPEG标准标准n1MPEG-1标准标准n MPEG-1标准为1.5Mbit/s数字存储媒体上的活动图像及其伴音的编码。标准主要包括:系统、视频、音频、一致性、参考软件等五部分,这五部分的简单描述如下。2023-5-6 5.7.2 MPEG标准标准n1MPEG-1标准标准n第一部分:MPEG-1系统,主要描述如何将符合该标准的视频和音频的一路或多路数据流与定时信息相结合,形成单一的复合流。n第二部分:MPEG-1视频,描述视频编码方法,以便存储压缩的数字视频。n第三部分:MPEG-1音频,描述高质量的音频的编码表示和高质量音频信号的解码方法。n第四部分:一致性,描述测试一个编码码流是否
29、符合MPEG-1码流的方法。n第五部分:参考软件。2023-5-65.7.2 MPEG标准标准n MPEG-1的目的是满足各种存储媒体对压缩视频的统一格式的需要,可用于625线和525线电视系统,对传输速率1.5Mbit/s的存储媒体提供连续的、活动图像编码表示,如VCD、光盘及计算机磁盘存储等。下面仅介绍视频和系统部分。2023-5-6 5.7.2 MPEG标准标准n 1)编码图像格式n MPEG-1处理对象是逐行扫描的图像,对于隔行扫描的图像源,必须在编码前先转换为非隔行格式。输入的视频信号必须是数字化的一个亮度信号和两个色差信号(Y,Cb,Cr),经过预处理和格式转换选择一个合适的窗口、
30、分辨率和输入格式,要求色差信号和亮度信号在垂直和水平方向按2:1进行抽样。MPEG-1编码技术的选择是基于高质量的连续活动图像、高压缩比以及对编码比特流的随机操作需求之间的平衡。为此定义了四种编码帧:I帧、P帧、B帧和D帧。2023-5-6 5.7.2 MPEG标准标准nI帧:采用帧内编码方法,无需参考其它帧,是独立压缩的,给出编码序列的解码的起始操作点,满足随机操作的要求,但是仅能获得中等的压缩比。nP帧:采用预测编码的方法,利用过去的I帧和P帧进行运动补偿预测,可以得到更有效的编码。nB帧:采用双向预测方法,能够提供最大限度的压缩。它需要用过去和将来的参考帧I帧或P帧进行运动补偿,但是B帧
31、本身不能用作为预测参考帧。nD帧:仅含有DCT的直流分量。在D帧组成的序列中不含其它类型的图。2023-5-6 5.7.2 MPEG标准标准n 2)编解码n MPEG-1没有规定编码过程,仅规定了比特流的语法和语义,以及解码器中的信号处理。在有B帧时,要有两个帧存储器分别存储过去和将来的两个参考帧,以便进行双向运动补偿。编码器设计必须在图像质量、编码速率以及编码效率之间进行综合考虑,选择合适的编码工作模式和控制参数。在一些具体模块的实现上,标准开放,例如运动矢量的估计算法、图像的刷新机制、编码控制等可以根据情况由设计者自行选用。2023-5-6 5.7.2 MPEG标准标准n 编码时输入的视频
32、信号的每一幅图像都包括一个亮度分量和两个色差分量,编码器必须首先为每帧选择其类型。如果用到B帧,则编码时必须对图像的顺序先进行调整,因为B帧在预测时要利用它过去的I帧和P帧作为参考帧。编码时的基本单元是宏块,它包括六个 的子块,其中四个是亮度块,剩下的一个是色差信号Cr,另一个是色差信号Cb。宏块是运动补偿预测的基本单元、最小的量化步长选择单元以及编码控制单元。对于每个宏块,要决定它的编码模式,然后进行相应的处理。子块则是DCT、量化以及“Z”字形扫描和VLC编码输出的基本单元。882023-5-6 5.7.2 MPEG标准标准n 解码是编码的逆操作,由于无需运动估计,因此比编码简单。只要根据
33、接收到的码流的语义进行相应的处理即可。当一幅图像所有的宏块都处理完毕,则整个图像被重建。如果编码序列包括B帧,则解码后还应按显示顺序重新排序后才能进行显示。2023-5-6 5.7.2 MPEG标准标准n 3)编码视频流的结构n MPEG-1编码视频比特流的构成共分为六层,最高层为序列层,下面依次为图像组层、图像层、宏块条层、宏块层和最低的块层。由若干相连的宏块可以组成宏块条层,并且设置同步标志,便于在解码端实现重同步;由若干图像帧可以组成图像组层,形成便于随机存取的单元;由若干图像组可组成视频序列,便于形成特定的视频节目。2023-5-6 5.7.2 MPEG标准标准n 图像组是视频随机存取
34、单元,长度随意,可以包含一个或多个I帧。编码器可根据需要选择图像组的长度以及I、P、B帧出现的频率和位置。在要求能随机播放、快进、快倒等应用场合,可以使用较短的图像组。MPEG-1可以在两个参考帧I帧和P帧之间安排任意幅B帧。插入的B帧越多,编码效率越高,但编码器所需要的存储器也越多,处理的实时性也越差。对于大多数景物而言,在参考帧之间插入两个B帧比较适宜。一般每秒钟使用两次I帧,即在每15帧中安排一次I帧。2023-5-6 5.7.2 MPEG标准标准n2MPEG-2标准标准n MPEG-2标准是MPEG于1995年推出的第二个国际标准,标准号是ISO/IEC 13818,题目是通用的活动图
35、像及其伴音的编码。它主要包括:系统、视频、音频、一致性、参考软件、数字存储媒体的命令与控制(DSM-CC)、高级音频编码、10bit视频编码、实时接口等9个部分。2023-5-6 5.7.2 MPEG标准标准n 视频部分和ITU-T的H.262标准等同,作为一个通用的编码标准,它的应用范围更广,既包括标准数字电视、高清晰度电视,也包括MPEG-1的工作范围。MPEG-1成为MPEG-2的一个子集,即MPEG-2的解码器可以对MPEG-1码流进行编码。MPEG-2的视频编码方案与MPEG-1相类似,在编码比特流的分层次组织上也有类似的地方。根据应用的不同,MPEG-2的码率范围为1.5100Mb
36、it/s,一般情况下,只有码率超过4Mbit/s的MPEG-2视频质量才能明显优于MPEG-1。MPEG-2在区别不同应用的编码参数上使用了所谓Profile和Level。国内的技术翻译上将其称为档次和级别,或称为型和级。表5.3列出了MPEG-2的型和级。2023-5-62MPEG-2标准标准n 1)基于场或基于帧的DCTn 为了更好地适应隔行扫描视频信号的特点,在DCT和运动估计算法中对帧和场进行了不同的处理。MPEG-2在把宏块数据分割为块的时候,可以选择按帧分割或按场分割,相应地就可以在帧或场的模式下进行DCT编码,以便在不同的情况下适当地对子块的空间冗余度加以利用,从而得到最佳的压缩
37、效果。当序列是逐行时,或者图像是场方式时,采用的分割方式与MPEG-1相同;但对于隔行扫描的帧图像,既可以采用上述按帧的分割方式,也可以采用按场的隔行分割方式。选择的标准的依据是帧的行间相关系数和场的行间相关系数的大小。一般而言,对于静止或缓变图像和区域宜采用按帧的DCT编码;反之,对于大的运动区域,则宜采用按场的DCT编码。2023-5-62MPEG-2标准标准n MPEG-2规定了四种图像的运动预测方式和补偿方式,即基于帧的预测模式、基于场的预测模式、168的运动补偿以及双场(DualPrime)预测模式。在具体使用时,必须考虑编码是针对帧格式图像还是场格式图像。2023-5-62MPEG
38、-2标准标准n 2)编码的可分级性n 为了扩大应用范围和增强对各种信道的适应性,MPEG-2引入了三种编码的可分级性、即空间可分级性、时间可分级性以及信噪比(SNR)可分级性。可分级编码的特点是整个码流被分为基本码流和增强码流两部分,基本码流可以提供一般质量的重建图像,但如果解码器“叠加”上增强部分的码流,就可以将图像质量提高很多。可分级编码的优点是同时提供不同的编码服务水平,例如可以在一个公共的信道实现HDTV(High Definition Television,高清晰度电视)和SDTV的同播,以供不同水平的接收机使用,但代价是要增加一定的额外码字。此外,MPEG-2还允许空间分级、时间分
39、级以及SNR分级等以各种方式结合,形成多层次的分级扩展。2023-5-63MPEG-4标准标准n MPEG-4是1999年12月通过的一个适应各种多媒体应用的“视听对象的编码”标准,国际标号是ISO/IEC14496。它主要包括:系统、视觉信息、音频、一致性、参考软件、多媒体传送集成框架、优化软件、IP中的一致性、参考硬件描述等9个部分。n 与MPEG-1、MPEG-2不同,MPEG-4不仅仅着眼于定义不同码流下具体的压缩编码标准,而是更多地强调多媒体通信的灵活性和交互性。一方面MPEG-4要求有高效的压缩编码方法,另一方面MPEG-4要求有独立于网络的基于视频、音频对象的交互性。2023-5
40、-63MPEG-4标准标准n 1)场景描述n 在目前的音频和视频应用中,图像是矩形像素的序列,音频是声波强弱的数字表示。在MPEG-4中任何一个场景被理解为由若干视音频对象组成。MPEG-4能够提供多种工具,把一组对象组合为一个场景。此时所必需的组合信息就构成了场景描述(Scene Description)信息,并且可以将他们编码,与各种视音频(AV)对象一起传输。场景描述信息具体定义了所有视音频对象在场景中的组织和同步参数。2023-5-63MPEG-4标准标准n 2)可视信息的编码n MPEG-4同时支持自然和合成可视信息(如图形、计算机动画等)的编码。对于自然视频的编码,MPEG-4仍然
41、采用了预测、变换同时使用的混合编码的框架。在和H.263兼容的基础上还提供一些高层次的编码方法,例如基于内容的编码,允许对任意形状视频对象进行编码。n MPEG-4标准为可视视频编码提供了一个包含多种工具和多种算法的工具集,供用户选择,对各种应用提供不同的解决方法,以下是其中的几例。2023-5-63MPEG-4标准标准n(1)自然与综合图像的混合编码;n(2)各种隐式2D网格的高效率压缩;n(3)各种图像和视频的信息内容基(content-based)n 编码;n(4)各种纹理、图像和视频的信息内容基的可分级编n 码;n(5)空间域的、时间域的和质量的可分级性编码;n(6)在误码多发环境中的
42、误码健壮性(robustness)和n 复原能力。2023-5-63MPEG-4标准标准n MPEG-4可视信息的编码部分包括了许多内容,其工具集可以不断地扩充进新的编码工具,甚至用户自己的编码方法也可以放入工具集,因此标准可随时赶上技术的发展而保持长时间有效。2023-5-63MPEG-4标准标准n3)MPEG-4数据结构n 在MPEG-4中,采用发送多媒体综合框架(DMIF:Delivery Multimedia Intergration Framework)的结构,它极大地方便了多媒体的各种应用,且独立于具体的通信网络。对于用户而言,DMIF是一个灵活的应用接口。MPEG-4的应用可以从
43、DMIF申请到自己所需要的“服务质量”,如对带宽、时延的要求等。2023-5-63MPEG-4标准标准n MPEG-4的数据流主要分为两个部分,与传输有关的下层及与媒体有关的上层。以发送数据过程为例,各种媒体的基本数码流通过基本码流接口进入接入单元层,在该层进行分组打包处理,然后通过码流复用接口进入灵活复用层(Flex Multip Lexing)。灵活复用层提供一种复用工具,将上层来的多路码流进行汇合。复用后的数据再经过灵活复用接口送到传输复用层,最后送到一个具体的外部通信网络,如ATM(Asynchronous Transfer Mode,异步传输模式)网或PSTN(Public Swit
44、ched Telephone Network,公共交换电话网)网。2023-5-6 5.7.3 H.261标准标准 n1.编码方案的提出编码方案的提出n 为适应可视电话和会议电视的需要,1984年国际电报电话咨询委员会(CCITT)的第15研究组,对于可视电话的编码问题,提出了一个H.120标准,针对625行/帧,50场/秒,在PCM一次群上传输图像信号,在此基础上,1988年提出了一个传输速率为5级的标准,。在综合业务数字网ISDN(Integrated Service Digital NeTwork)中称为H0 通道。1990年通过H.261建议“视听业务的视频编解码器”,其中p=130,
45、覆盖了整个窄带ISDN的基群信道速率。当H.261用于可视电话时,p=2速率只有128kb/s,当H.261标准用于会议电视时,建议p6,速率384kbit/s,最高可达2048kbit/s。5,4,3,2,1,/384PskbitPskbitP/642023-5-6 5.7.3 H.261标准标准n H.261 的编码方案,其中p=130,对应的比特率为 。首次采用了 块的DCT变换去除空间相关性,采用帧间运动补偿预测方法去除时间相关性的混合编码模式。这个编码标准初步解决了静止图像、可视电话、会议电视、多媒体视频的压缩编码的需要。从采用的技术来看,采用了最基本的编码技术,通过组合应用,达到了
46、预期的编码效果。这些编码方法都属于混合编码的范畴。H.261标准规定了视频输入信号的数据格式、编码输出码流的层次结构以及开放的编码控制与实现策略等技术。skbitP/64skbit/192064882023-5-65.7.3 H.261标准标准n2.H.261的图像格式的图像格式n 图像的纵横像素数是图像的基本格式。为使现行的各种电视制式方便地转换为电视会议和可视电话的图像形式,即同时适用PAL制(25帧/秒,625行/帧)和NISC制(30帧/秒,525行/帧)模拟电视标准。确保符合H.261标准的编解码设备能在不同电视制式的国家使用和互通,H.261标准采用一种通用的公共中间格式,即CIF
47、(Common Intermediate Format)格式或通用的CIF中间格式。即对于更低比特率的应用,H.261标准采用了只有CIF图像的更小图像QCIF(Quarter Common Intermediate Format)格式。主要参数如表5.4所示。2023-5-6 5.7.3 H.261标准标准2023-5-65.7.3 H.261标准标准n3.图像信号的编解码图像信号的编解码n 图像信号的输入、输出指的是CIF或QCIF格式的数字信号,如果是NTSC、PAL或SECAM信号应先分解成R、G、B信号,经模数转换再变换为Y、U、V亮度及色度信号,然后再转换为CIF或QCIF格式和帧
48、频30Hz的信号,经帧存缓冲后进入输入端。输出仍然是CIF或QCIF格式、帧频30Hz信号,经相反的变换,还原成视频复合信号。输出的比特流可以进入ISDN网或其它信道。2023-5-6 H.261信源编码方框图信源编码方框图2023-5-6 H.261信源编码方框图信源编码方框图n 图示信源编码方框图,信源编码器的作用主要是数据压缩,采用DCT变换后把系数量化,之后输入到图像复用编码器。图像复用编码器的功能是把每帧图像数据编排四个层次的数据结构,同时对交流DCT系数进行可变长度编码(VLC),对直流DCT系数进行固定长度编码(FLC),编码位流送入传输缓冲器。传输缓冲器的存储量是按比特率加上固
49、定余量后确定的。由于图像内容变更使传输比特率变更,可以在缓冲器中得到反映。由此传给编码控制方框,由编码控制器控制信源编码中量化器的步长,同时将步长辅助数据送到图像复用编码中的相应层次,以供解码用。这样就可以自动控制比特率的高低。以便适应图像变更的内容,充分发挥既定的比特率的传输能力。2023-5-6 5.7.3 H.261标准标准n 在H.261标准的编解码过程中,还要用到传输编码器。其主要功能是插入BCH正性纠错码,以便传输终端的解码器能检测和纠正错误码字。H.261中规定要用BCH纠错码,在解码中可任选。另外传输码中还要插入同步码,以便解码器正确解码。n编码控制器,除控制量化步长外,还控制
50、编码模式,即控制编码应是帧间编码还是帧内编码。这一操作在信源编码中进行。外部控制有如下两个功能。n (1)CIF和QCIF格式的选择;n (2)允许每二帧图像之间有0到3帧图像不传。这主要是因为可视电话图像的帧间相关性很强,不传的图像可以由已经传的图像计算得到,这种方式属于帧间编码。2023-5-6 DCT变换变换n 由于DCT变换核构成的基向量与图像内容有关,且变换核是可以分离的,故可通过两个一维DCT变换得到二维DCT变换。即先对图像的每一行进行一维DCT变换,再对每一列进行一维DCT变换。而二维离散IDCT也可以通过两次一维IDCT得到。DCT具有快速算法,它使得DCT运算的复杂度大大降