1、1.5 多媒体数据压缩技术1.5.1 多媒体数据的冗余类型1.5.2 数据压缩方法1.5.3 视频编码的国际标准1第1页,共46页。1.5.1 多媒体数据的冗余类型图像数据表示中存在着大量的冗余,图像数据压缩技术就是利用图像数据的冗余性来减少图像数据量的方法。常见图像数据冗余类型如下:1.空间冗余2.时间冗余3.视觉冗余2第2页,共46页。空间冗余一幅图像表面上各采样点的颜色之间往往存在着空间连贯性,基于离散像素采样来表示物体表面颜色的像素存储方式可利用空间连贯性,达到减少数据量的目的。例如,在静态图像中有一块表面颜色均匀的区域,在此区域中所有点的光强和色彩以及饱和度都是相同的,因此数据有很大
2、的空间冗余。3第3页,共46页。时间冗余运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。同理,语音数据中也存在着时间冗余。4第4页,共46页。视觉冗余人类的视觉系统对图像场的敏感度是非均匀的。但是,在记录原始的图像数据时,通常假定视觉系统近似线性的和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生比理想编码(即把视觉敏感和不敏感的部分区分开来的编码)更多的数据,这就是视觉冗余。5第5页,共46页。数
3、字压缩技术三个重要指标1、信息存储量之比 大2、压缩的算法 简单3、恢复效果 好6第6页,共46页。1.5.2 数据压缩方法压缩处理一般是由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便存储与传输;二是解码过程,此过程对编码数据进行解码,还原为可以使用的数据。数据压缩可分为两种类型:一种叫做无损压缩,另一种叫做有损压缩。无损压缩混合压缩有损压缩7第7页,共46页。8第8页,共46页。9第9页,共46页。10第10页,共46页。11第11页,共46页。编码编码通过模型,我们已经确定了对某一个符号该用多少位二进制数进行编码。现在的问题是,如何设计一种编码方案,使其尽量精确地用模型计
4、算出来的位数表示某个符号。最先被考虑的问题是,如果对 a 用 3 个二进制位就可以表示,而对 b 用 4 个二进制位就可以表示,那么,在解码时,面对一连串的二进制流,我怎么知道哪三个位是 a,哪四个位是 b 呢?所以,必须设计出一种编码方式,使得解码程序可以方便地分离每个字符的编码部分。于是有了一种叫“前缀编码”的技术。该技术的主导思想是,任何一个字符的编码,都不是另一个字符编码的前缀。反过来说就是,任何一个字符的编码,都不是由另一个字符的编码加上若干位 0 或 1 组成。看一下前缀编码的一个最简单的例子12第12页,共46页。符号 编码 A 0 B 10 C 110 D 1110 E 111
5、10 有了上面的码表,你一定可以轻松地从下面这串二进制流中分辨出真正的信息内容了:1110010101110110111100010-DABBDCEAAB13第13页,共46页。无损压缩无损压缩常用在原始数据的存档,如文本数据、程序以及珍贵的图片和图像等。其原理是统计压缩数据中的冗余(重复的数据)部分。常用的有:RLE(run length encoding)行程编码Huffman 编码算术编码LZW(lempel-ziv-welch)编码14第14页,共46页。15第15页,共46页。16第16页,共46页。1)将给定符号按照其频率从大到小排序。对上面的例子,应该得到:a-16 b-7 c-
6、6 d-6 e-5 2)将序列分成上下两部分,使得上部频率总和尽可能接近下部频率总和。我们有:a-16 b-7-c-6 d-6 e-5 3)我们把第二步中划分出的上部作为二叉树的左子树,记 0,下部作为二叉树的右子树,记 1。4)分别对左右子树重复 2 3 两步,直到所有的符号都成为二叉树的树叶为止。现在我们有如下的二叉树:根(root)0|1 +-+-+0|1 0|1 +-+-+-+-+|a b c|0|1 +-+-+|d e 17第17页,共46页。18第18页,共46页。Huffman Huffman 编码编码Huffman 编码构造二叉树的方法和 Shannon-Fano 正好相反,不
7、是自上而下,而是从树叶到树根生成二叉树。现在,我们仍然使用上面的例子来学习 Huffman 编码方法。1)将各个符号及其出现频率分别作为不同的小二叉树(目前每棵树只有根节点)。a(16)b(7)c(6)d(6)e(5)2)在 1 中得到的树林里找出频率值最小的两棵树,将他们分别作为左、右子树连成一棵大一些的二叉树,该二叉树的频率值为两棵子树频率值之和。对上面的例子,我们得到一个新的树林:|(11)a(16)b(7)c(6)+-+-+|d e 3)对上面得到的树林重复 2 的做法,直到所有符号都连入树中为止。这一步完成后,我们有这样的二叉树:根(root)0|1 +-+-+|0|1|+-+-+|
8、0|1 0|1 a +-+-+-+-+|b c d e 由此,我们可以建立和 Shannon-Fano 编码略微不同的编码表:a-0 b-100 c-101 d-110 e-111 19第19页,共46页。对例子中信息的编码为:cabcedeacacdeddaaabaababaaabbacdebaceada101 0 100 101 111 110 111 0 101 0 101.码长共 88 位。这比使用 Shannon-Fano 编码要更短一点。让我们回顾一下熵的知识,使用我们在第二章学到的计算方法,上面的例子中,每个字符的熵为:Ea=-log2(16/40)=1.322 Eb=-log2
9、(7/40)=2.515 Ec=-log2(6/40)=2.737 Ed=-log2(6/40)=2.737 Ee=-log2(5/40)=3.000 信息的熵为:也就是说,表示该条信息最少需要 86.601 位。我们看到,Shannon-Fano 编码和 Huffman 编码都已经比较接近该信息的熵值了。20第20页,共46页。(1)、行程编码(RLE)RLE 编码是将数据流中连续出现的字符用单一记号表示。例如,字符串AAABCDDDDDDDDBBBBB可以压缩为3ABC8D5B。RLE编码简单直观,编码/解码速度快,因此许多图形和视频文件,如.BMP.TIFF及AVI等格式文件的压缩均采用
10、此方法.21第21页,共46页。(3)、算术编码其方法是将被编码的信源消息表示成实数轴0-1之间的一个间隔,消息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位数就越多。该方法实现较为复杂,常与其它有损压缩结合使用,并在图像数据压缩标准(如JPEG)中扮演重要角色。22第22页,共46页。(4)、LZW编码LZW(Lempel-Ziv-Welch)压缩使用字典库查找方案。它读入待压缩的数据并与一个字典库(库开始是空的)中的字符串对比,如有匹配的字符串,则输出该字符串数据在字典库中的位置索引,否则将该字符串插入字典中。许多商品压缩软件如ARJ、PKZIR、ZOO、LHA等都采用了设方法。
11、另外,.GIF 和.TIF 格式的图形文件也是按这一文件存储的。23第23页,共46页。有损压缩图像或声音的频带宽、信息丰富,人类视觉和听觉器官对频带中某些频率成分不大敏感,有损压缩以牺牲这部分信息为代价,换取了较高的压缩比。常用的有损压缩方法有:PCM(脉冲编码调制)、预测编码、变换编码、插值与外推等。新一代的数据压缩方法有:矢量量化和子带编码、基于模型的压缩、分形压缩及小波变换等。24第24页,共46页。25第25页,共46页。分形的方法是把一幅数字图像,通过一分形的方法是把一幅数字图像,通过一些图像处理技术,如颜色分割,边缘检测、些图像处理技术,如颜色分割,边缘检测、频谱分析、统理变化分
12、析等原始图像分成频谱分析、统理变化分析等原始图像分成一些子图像。然后在分形集中查找这样的一些子图像。然后在分形集中查找这样的子图像。分形集实际上并不是存储所有可子图像。分形集实际上并不是存储所有可能的子图像,而是存储许多迭代函数,通能的子图像,而是存储许多迭代函数,通过迭代函数的反复迭代,可以恢复出原来过迭代函数的反复迭代,可以恢复出原来的图像的图像26第26页,共46页。混合压缩混合压缩是利用了各种单一压缩的长处,以求在压缩比、压缩效率及保真度之间取得最佳折衷。该方法在许多情况下被应用,如JPEG 和MPEG 标准就采用了混合编码的压缩方法。27第27页,共46页。1、基于音频数据的统计特性
13、进行编码2、基于音频的声学参数,进行参数编码3、基于人的听觉特性进行编码28第28页,共46页。29第29页,共46页。30第30页,共46页。31第31页,共46页。32第32页,共46页。声音品质与MP3压缩比例关系表如下:声音质量带宽模式比特率压缩比率电话2.5kHz单声道8kbps*96:1好于短波4.5kHz单声道16kbps48:1好于调幅广播7.5kHz单声道32kbps24:1类似调频广播11kHz立体声56-64kbps26-24:1接近CD15kHz立体声96kbps16:1CD15kHz立体声112-128kbps14-12:133第33页,共46页。1.5.3 视频编码
14、的国际标准1、静止图像压缩标准2、运动图像压缩标准3视频通信编码标准34第34页,共46页。静止图像压缩标准国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立的“联合照片专家组“JPEG(joint photographic experts group)于1991年提出的“多灰度静止图像的数字压缩编码“(简称JPEG标准)。这是一个适应于彩色和单色多灰度或连续色调静止数字图像的压缩标准。35第35页,共46页。JPEG标准支持很高的图像分辨率和量化精度。它包含两部分:1、36第36页,共46页。37第37页,共46页。运动图像压缩标准视频图像压缩的一个重要标准是MPEG(M
15、oving Picture Experts Group)于1990年形成的一个标准草案(简称MPEG标准)。它兼顾了JPEG标准和CCITT专家组的H.261标准。MPEG制订过三种版本的运动图像及其伴音的编码标准,即MPEG1、MPEG2和MPEG3。1998年又推出了两种新的图像压缩编码标准,这就是MPEG4和MPEG738第38页,共46页。图像压缩技术一览表压缩标准MPEG4 MPEG2MPEG1MJPEG特点兼容前几种标准,采用更为优化的编码技术,基于场景描述和面向带宽设计基于帧重建算法进行压缩和传输,动态监测图像变化,根据对象的空间及时间特征来调整压缩方法,帧间加入预测帧单独对一帧
16、进行压缩,基本不考虑视频流中不同帧之间的变化优点图像质量好;可变带宽传输;错误恢复能力强。压缩比可调范围广,支持包括高速体育运动在内的活动图像在实时压缩、每帧数据量和处理速度上优于MJPEG图像质量好缺点无现成算法,实现的技术难度大 压缩效率仍不理想、窄带网传输质量受限,对媒体的兼容能力有待提高图像质量相当于VHS视频,不能满足广播级的要求;传输带宽有一定的要求。实时性差,压缩效率低,文件量巨大应用领域固定和无线网络,交互AV服务以及远程传输DVD,广播级的数字电视,HDTVVCD,CD-ROM,VOD 39第39页,共46页。分辨率768X576(PAL)或720X480(NTSC)NTSC
17、:720X480SIF标准分辨率(NTSC:352X240;PAL:352X288)码流多种带宽可调 分 四 级,3 -100Mbits/sec最高1.5Mbits/sec 图像质量在各种码率下画质良好极低码率下无法保证图像质量基本无法进行窄带传输 多路实时存储多路实时存储,占用存储空间小能实现多路实时存储,文件量大,消耗硬盘。能实现多路实时存储,文件量大,消耗硬盘。单路存储,丢帧切换联网要求全带宽解决方案,支 持 P S T N,ISDN,DDN,局域网,广域网等适用于局域网适用于局域网定制带宽,不支持联网。40第40页,共46页。MPEG标准分成MPEG视频、MPEG音频和MPEG系统三大
18、部分。MPEG算法除了对单幅图像进行编码外(帧内编码),还利用图像序列的相关特性去除帧间图像冗余,大大提高了视频图像的压缩比。压缩比可达到60-100倍。41第41页,共46页。MPEG与其它算法或压缩方案相比有什么优点?一、国际化的开放标准,兼容性好,代表技术发展趋势。二、能够比其他算法提供更好的压缩比。三、MPEG在提供高压缩比的同时,对数据的损失很小。42第42页,共46页。43第43页,共46页。44第44页,共46页。视频通信编码标准多媒体通信中的电视图像编码标准都采用H.261和H.263。H.261主要用来支持电视会议和可视电话。电视图像数据压缩后的数据速率为P64kb/s,其中P是一个可变参数,取值范围是1-30。H.263是在H.261的基础上开发的电视图像编码标准,用于低位速率通信的电视图像编码。45第45页,共46页。46第46页,共46页。