数字媒体技术课件：第08章数字媒体压缩技术.ppt_163文库

资源描述

1、第八章第八章数字媒体压缩技术数字媒体压缩技术华中师范大学清华大学出版社第八章第八章数字媒体压缩技术数字媒体压缩技术 8.18.1数据压缩及分类数据压缩及分类 8.1.18.1.1压缩的可能性与信息冗余压缩的可能性与信息冗余 8.1.28.1.2数据压缩分类数据压缩分类 8.28.2通用的数据压缩技术通用的数据压缩技术 8.2.18.2.1编码的理论基础编码的理论基础 8.2.28.2.2霍夫曼编码霍夫曼编码 8.2.38.2.3行程编码行程编码 8.2.48.2.4词典编码词典编码 8.2.58.2.5脉冲编码调制脉冲编码调制 8.2.68.2.6增量调制（增量调制（DMDM） 8.2.7

2、8.2.7差分脉冲编码调制差分脉冲编码调制第八章第八章数字媒体压缩技术数字媒体压缩技术 8.38.3数字媒体压缩标准数字媒体压缩标准 8.3.18.3.1声音压缩标准声音压缩标准 8.3.28.3.2图像压缩标准图像压缩标准 8.3.38.3.3运动图象压缩标准运动图象压缩标准 8.3.3.1 MPEG8.3.3.1 MPEG标准标准 8.3.3.2 H.26X8.3.3.2 H.26X系列视频标准系列视频标准 8.3.3.3 AVS8.3.3.3 AVS标准标准8.1.1压缩的可能性与信息冗余数据能够被压缩的主要原因在于媒体数据中存在数据的信息冗余。信息量包含在数据之中，一般的数据冗余主

3、要体现在：空间冗余结构冗余时间冗余视觉冗余知识冗余信息熵冗余数据压缩分类数据压缩分类按信息压缩前后比较是否有损失进行划分按信息压缩前后比较是否有损失进行划分按信息压缩前后比较是否有损失，可以划分有损压缩和无损压缩。无损压缩指使用压缩后的数据进行重构，重构后的数据与原来的数据完全相同。常用的无损压缩算法有霍夫曼(Huffman)算法和LZW算法。有损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解。按数据压缩编码的原理和方法进行划分按数据压缩编码的原理和方法进行划分按数据压缩编码的原理和方法可划分为统计编码，

4、主要针对无记忆信源，根据信息码字出现概率的分布特征而进行压缩编码，寻找概率与码字长度间的最优匹配。预测编码是利用空间中相邻数据的相关性来进行压缩数据的。变换编码是将图像时域信号转换为频域信号进行处理。分析合成编码是指通过对源数据的分析，将其分解成一系列更适合于表示的“基元”或从中提取若干更为本质意义的参数，编码仅对这些基本单元或特征参数进行。按照媒体的类型进行压缩划分按照媒体的类型进行压缩划分图像压缩标准声音压缩标准运动图象压缩标准 8.2通用的数据压缩技术通用的数据压缩技术：行程编码字典编码熵编码等 PCM DM DPCM 通用的压缩方法具有压缩比低、通用性强等特点 8

5、.2.1编码的理论基础数据压缩技术的理论基础是信息论。根据信息论的原理，可以找到最佳数据压缩编码方法，数据压缩的理论极限是信息熵。熵是信息量的度量方法，它表示某一事件出现的消息越多，事件发生的可能性就越小，数学上就是概率越小。信息与信息量信息与信息量信息量是指信源中某种事件的信息度量或含量。一个事件出现的可能性愈小，其信息量愈多，反之亦然。若pi为第i个事件的概率为0 pi 1，则该事件的信息量为一个信源包括的所有数据叫数据量，而数据量中包含有冗余信息。信息量 = 数据量-冗余量信息熵信息熵信息熵就是将信源所有可能事件的信息量的平均。设从N个数中选定任一个数xj的概率为p(

6、xj)，假定选定任意一个数的概率都相等，即p(xj) 1/N，则 I(xj)log2N-log2 1/N -log2p(xj)=Ip(xj) 上式中，p(xj)是信源X发出xj的概率。I(xj)的含义是信源X发出xj这个消息（随机事件）后，接收端收到信息量的量度。信息熵信息熵( (续续) ) 信源X发出的xj(j=1,2,n)共n个随机事件的信息量的统计平均，即 H(X)=EI(xj)= H(X)称为信源X的“熵”，即信源X发出任意一个随机变量的平均信息量。其中，等概率事件的熵最大，假设有N个事件，此时熵为： H(X) njjjxPxP12)(log)(NNNj1log121N2log信息

7、熵信息熵( (续续) ) 当P(x1)1时，P(x2)P(x3)P(xj)0，此时熵为 H(X) P(x1) 0 由上可得熵的范围为： 0 H(X) )(log12xPN2log信息熵信息熵( (续续) ) 在编码中用熵值来衡量是否为最佳编码。若以Lc表示编码器输出码字的平均码长，其计算公式为： Lc （j=1,2,n）其中：P(xj) 是信源X发出xj的概率，L(xj)为xj的编码长。njjjxLxP1)()(信息熵信息熵( (续续) ) 平均码长与信息熵之间的关系为： LcH(X) 有冗余，不是最佳。 Lc H(X)不可能。 Lc H(X)最佳编码（ Lc稍大于H(X) ）熵值为平均码

8、长Lc的下限。8.2.2霍夫曼编码霍夫曼编码（Huffman）是运用信息熵原理的一种无损编码方法，这种编码方法根据源数据各信号发生的概率进行编码。在源数据中出现概率大的信号，分配的码字越短；出现概率越小的信号，其码字越长，从而达到用尽可能少的码表示源数据。霍夫曼编码的算法 1. 初始化，根据符号概率的大小顺序对符号进行排序。2. 把概率最小的两个符号组成一个新符号（节点），即新符号的概率等于这两个符号概率之和。3. 重复第2步，直到形成一个符号为止（树），其概率和等于1。4. 分配码字。码字分配从最后一步开始反向进行，即从最后两个概率开始逐渐向前进行编码，对于每次相加的两个概率，给概率大

9、的赋“0”，概率小的赋“1”（也可以全部相反，如果两个概率相等，则从中任选一个赋“0”，另一个赋“1”）。霍夫曼编码构造出来的编码值不是唯一的。对不同信号源的编码效率不同由于编码长度可变，因此译码时间较长；编码长度的不统一，也使得硬件实现有难度。霍夫曼编码的特点行程编码行程编码又称行程长度编码（Run Length Encoding，RLE），是一种熵编码。这种编码方法广泛地应用于各种图像格式的数据压缩处理中。行程编码的原理是在给定的图像数据中寻找连续重复的数值，然后用两个字符取代这些连续值。即将具有相同值的连续串用其串长和一个代表值来代替，该连续串就称为行程，串长称为行程长度。行程

10、编码如图所示，假定一幅灰度图像，第n行的像素值为：用RLE编码方法得到的代码为：4 41606083 3113130。代码斜黑体表示的数字是行程长度，黑体字后面的数字代表像素的颜色值。例如黑体字60代表有连续60个像素具有相同的颜色值，它的颜色值是8。行程编码分类行程编码分类定长编码定长编码是指编码的行程长度所用的二进制位数固定不定长编码变长行程编码是指对不同范围的行程长度使用不同位数的二进制位数进行编码。使用变长行程编码需要增加标志位来表明所使用的二进制位数。 8.2.4词典编码词典编码（dictionary encoding）技术属于无损压缩技术，主要是利用数据本身包含许多重

11、复的字符串的特性。可以用一些简单的代号代替这些字符串，就可以实现压缩，实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。词典编码法的种类有很多，归纳起来大致有两种。词典编码第一种方法的思想是查找目前正在压缩的字符序列在以前输入的数据中是否出现过，然后用出现过的字符串代替重复的部分，它的输出仅仅是指向早期出现过的字符串“指针”。这种编码的概念如右图所示。这里所指的词典是指用以前处理过的数据表示编码过程中遇到的重复部分。这类编码的所有算法都是以LZ77算法为基础的。输入数据输入数据 A A B B C C D D X X 输出数据输出数据 A B C M M P . . .

12、 . . 词典编码第二种算法的思想是从输入的数据中创建一个“短语词典”，这类短语不一定有具体的含义，可以是任意字符的组合。在编码过程中遇到在“短语词典”中出现的短语是，编码器就输出这个词典中的短语“索引号”，而不是短语本身。其概念如右图所示。输输入入数数据据输输出出数数据据 A 4 B 1 C C X X A D Y 编编码码词词典典 1. A B 2. A X 4. A X X 3. A E 5. B X D A A D Y . . 8.2.4.1 LZ77 LZ77算法算法 LZ77是以以色列计算机专家Abraham Lempel和Jakob Ziv在1977年开发和发表的。此算法

13、的一个改进算法是由Storer和Szymanski在1982年开发的，称为LZSS算法。 LZ77 算法在某种意义上又可以称为“滑动窗口压缩”，该算法将一个虚拟的、可以跟随压缩进程滑动的窗口作为词典，要压缩的字符串如果在该窗口中出现，则输出其出现位置和长度。LZ77LZ77算法中涉及的概念算法中涉及的概念 1. 输入字符流(input stream)：要被压缩的字符序列。 2. 字符(character)：输入数据流中的基本单元。 3. 编码位置(coding position)：输入数据流中当前要编码的字符位置，指前向缓冲存储器中的开始字符。 4. 前向缓冲存储器(Lookahead buf

14、fer)：存放从编码位置到输入数据流结束的字符序列的存储器。 5. 窗口(window)：指包含W个字符的窗口，字符是从编码位置开始向后数也就是最后处理的字符数。 6. 指针(pointer)：指向窗口中的匹配串且含长度的指针。LZ77LZ77算法具体步骤算法具体步骤（1）把编码位置设置到输入数据流的开始位置。（2）找窗口中最长的匹配串（3）以“(Pointer, Length) Characters”的格式输出，其中Pointer是指向窗口中匹配串的指针，Length表示匹配字符的长度，Characters是前向缓冲存储器中的不匹配的第1个符。（4）如果前向缓冲存储器不是空的，则把编码位置

15、和窗口向前移(Length+1)个字符，然后返回到步骤（2）。8.2.4.2 LZW算法 LZW压缩算法是一种新颖的压缩方法，它采用了一种先进的串表压缩，将每个第一次出现的串放在一个串表中，用一个数字来表示串，压缩文件只存贮数字，则不存贮串，从而使图像文件的压缩效率得到较大的提高。 LZW编码是围绕称为词典的转换表来完成的。LZW算法中的术语和符号算法中的术语和符号 1. 前缀(Prefix)：在一个字符之前的字符序列。 2. 缀-符串(String)：前缀字符。 3. 码字(Code word)：码字流中的基本数据单元，代表词典中的一串字符。 4. 码字流(Codestream)：码字和

16、字符组成的序列，是编码器的输出。 5. 词典(Dictionary)：缀-符串表。按照词典中的索引号对每条缀-符串(String)指定一个码字(Code word)。 6. 当前前缀(Current prefix)：在编码算法中使用，指当前正在处理的前缀，用符号P表示。 7. 当前字符(Current character)：在编码算法中使用，指当前前缀之后的字符，用符号C表示。 8. 当前码字(Current code word)：在译码算法中使用，指当前处理的码字，用W表示当前码字，String.W表示当前码字的缀-符串。LZWLZW编码算法执行步骤编码算法执行步骤 1. 开始时的词典包

17、含所有可能的根(Root)，而当前前缀P是空的；2. 当前字符(C) ：=字符流中的下一个字符；3. 判断缀-符串P+C是否在词典中1. 如果“是”：P ：= P+C / (用C扩展P) ；2. 如果“否”：把代表当前前缀P的码字输出到码字流；把缀-符串P+C添加到词典；令P ：= C /(现在的P仅包含一个字符C)；4. 判断字符流中是否还有字符要编码1. 如果“是”，就返回到步骤2；2. 如果“否”：把代表当前前缀P的码字输出到码字流；结束。8.2.5脉冲编码调制脉冲编码调制 (Pulse Code Modulation, PCM)就是将模拟调制信号的采样值变换为脉冲码组。 P

18、CM编码包括如下三个过程：采样，采样，将模拟信号转换为时间离散的样本脉冲序列。量化量化，将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。编码，编码，用一定位数的脉冲码组表示量化采样值。PCMPCM系统原理图系统原理图模拟信号滤波采样量化编码数字化（A/D）传输模拟信号 D/A 转换逆量化解码模拟化（D/A） PCMPCM编码的优点编码的优点有很强的抗干扰性能方便的利用计算机编程，实现各种智能化设计。8.2.6增量调制（DM）增量调制也称调制(delta modulation，DM)，它是一种预测编码技术，是PCM编码的一种变形。 DM是

19、对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反。DMDM波形编码的原理波形编码的原理在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象就称为增量调制器的“斜率过载” 。在输入信号缓慢变化部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声 8.2.7差分脉冲编码调制差分脉冲编码调制（Differential Pulse Code Modulation，DP

20、CM）是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差值脉冲编码调制是利用信号的相关性找出可以反映信号变化特征的一个差值量进行编码。DPCMDPCM的基本工作原理的基本工作原理根据过去的样本去估算（estimate）下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制（PCM）不同处在于，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码。DPCMDPCM的原理图的原理图量化器S(k) +逆量化器预测器d(k)I(k)Se(k-1)8比特PCM样本

21、kPCM样本k-1Se(k-1)dq(k)Sr(k)+-声音压缩标准MP3 MP3是MPEG-1的标准草案中音频编码的Layer 3。 MP3 最大特点是能以较小的比特率、较大压缩比达到近乎完美的CD音质，制作简单，交流方便。 MP3压缩编码是一个国际性全开放的编码方案,其编码算法流程大致分为时频映射、心理声学模型、量化编码三大功能模块，这三个功能模块是实现MP3 编码的关键。 MP3MP3编码框图编码框图下图为MP3编码框图MP4MP4 MP4是MPEG-2 AAC(ISO/IEC 13818-7)技术(Advanced Audio Coding)。 MP4的特点是音质更加完美而压缩比更大

22、。它增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等MP3没有的特性，使得在音频压缩后仍能完美的再现CD的音质。 8.3.2图像压缩标准 JPEG是国际标准组织(ISO)和国际电工委员会（IEC）制定出的第一套国际静态图像压缩标准：ISO/IEC 109181号标准 “多灰度连续色调静态图像压缩编码”俗称为JPEG，以其优异的性能，该标准一直到当前仍被因特网、数码相机等很多领域广泛应用。 JPEG包含两种基本的压缩算法：无损压缩算法（基于差分脉冲调制）和有损压缩算法（基于离散余弦变换）。 JPEGJPEG算法框图算法框图 JPEGJPEG算法压缩编码步骤算法压缩编码步骤（

23、1）使用正向离散余弦变换（Forward Discrete Cosine Transform，FDCT）把信息从空间域变换成频率域的数据，并利用数据的频率特性进行处理；（2）使用加权函数对DCT系数进行量化，这个加权函数对于人的视觉系统是最佳的；（3）使用霍夫曼可变字长熵编码器对量化系数进行编码。JPEGJPEG压缩编码算法的主要计算步骤压缩编码算法的主要计算步骤（1）正向离散余弦变换(FDCT)。（2）量化(quantization)。（3）Z字形编码(zigzag scan)。（4）使用差分脉冲编码调制（differential pulse code modulation，DPCM）

24、对直流系数（DC）进行编码。（5）使用行程长度编码（Run Length Encoding，RLE）对交流系数(AC)进行编码。（6）熵编码(entropy coding)。JPEG2000 JPEG2000 JPEG2000弥补了传统JPEG压缩技术缺陷，有以下优点高压缩率支持无损压缩和有损压缩渐进传输对感兴趣区域压缩 8.3.3.1 MPEG标准运动图像专家组MPEG是由国际标准化组织ISO和国际电工委员会IEC联合成立的，负责开发电视图像数据和声音数据的编码、解码和它们的同步标准。这个专家组开发的标准称为MPEG标准。 MPEG-1标准 MPEG-1标准于1993年公布，用

25、于传输1.5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码。该标准包括五个部分，分别为：系统、电视图像、音频、一致性测试和软件模拟。 MPEG-1的数据流包含：图像流、伴音流和系统流三种成分。MPEG-1MPEG-1译码器方框图译码器方框图下图为MPEG-1译码器方框图。图像流包含画面信息，伴音流包含声音信息，系统流实现图像和伴音的同步，所有播放MPEG图像和伴音数据所需的时钟信息都包含在系统流中。 MPEG-2标准 MPEG-2标准包括了系统、电视图像、音频、一致性测试、软件模拟、数字存储媒体命令和控制扩展协议、先进声音编码、编码器实时接口扩展标准、DSM-CC一致性扩展测试等。

26、 MPEG-2的主要特点是：1）MPEG-2解码器兼容MPEG-1和MPEG-2标准。2）其视频数据速率为3 Mb/s15Mb/s，基本分辨率为720576像素，每秒可播放30帧画面。3）可以301或更低的压缩比提供具有广播级质量的视频图像。4）允许在画面质量、存储容量和带宽之间选择，在一定范围内改变压缩比。MPEG-2MPEG-2的系统模型的系统模型MPEG-4标准 MPEG-4标准于1998年11月公布，是各种音频/视频对象的编码，包括了系统、电视图像、音频、一致性测试和参考软件、传输多媒体集成框架等。 MPEG-4为多媒体数据压缩编码提供的是一种格式、一种框架，而不是具体算法，以建立一种

27、更自由的通信与开发环境。 MPEG-4的目标是支持多种多媒体的应用，特别是多媒体信息基于内容的检索和访问，可以根据不同的应用需求现场配置解码器。其编码系统也是开放的，可以随时加入新的有效的算法模块。 MPEG-4MPEG-4系统示意图系统示意图MPEG-7标准 MPEG-7标准于2001年公布，称为多媒体内容描述接口，包括系统、描述定义语言、电视图像、音频、多媒体描述框架、参考软件以及一致性测试七个部分。 MPEG-7标准的目的是产生一个描述多媒体内容的标准，支持对多媒体信息在不同程度层面上的解释和理解，从而使其可以根据用户的需要进行传递和存取。 MPEG-7注重的是提供视听信息内容的描述方案

28、，并不包括针对不同应用的特征提取方法和搜索引擎。MPEG-21标准 MPEG-21基于两个基本概念：分布和处理基本单元（Digital Item，DI）以及DI与用户间的互操作。 MPEG-21可表述为以一种高效、透明和可以互操作的方式支持用户交换、接入、使用甚至操作DI的技术。 DI是MPEG-21框架中一个具有标准表示、身份认证和相关元数据的数字对象。这个实体是框架中分布和处理的基本单元。用户是指与MPEG-21进行环境交互或者使用DI的任何实体。 MPEG-21可以被看成是提供用户间交互的一个框架。H.26X系列视频标准 H.26X系列视频标准是国际电信联盟ITU的视频编码专家组（IT

29、U-T）制定的系列图像压缩标准，主要有H.261、H.263、H264等。这些视频标准主要应用于实时视频通信领域，如会议电视、可视电话等。H.26X系列视频标准（续） H.261又称Px64，传输码率为P*64kbps，其中P可变。根据图像传输清晰度的不同，传输码率变化范围在64kbps至1.92Mbps之间，编码方法包括DCT变换，可控步长线性量化，变长编码及预测编码等。 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准，其标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色420子取样图像。 H.264引入了很多先进的技术，可得到较高的压缩比，但提高了算法的复杂度。因此H.264标准中加入了去块效应滤波器，对块的边界进行滤波。8.3.3.3 AVS标准 AVS（Audio Video Standards）是中国自主制定的音视频编码技术标准，其核心是把数字视频和音频数据压缩为原来的几十分之一甚至百分之一以下。 AVS标准包括系统、视频、音频、数字版权保护等四个主要技术标准和一致性测试等支撑标准。 AVS-视频当中具有特征性的核心技术包括：8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。

展开阅读全文

数字媒体技术课件：第08章 数字媒体压缩技术.ppt

数字媒体技术课件：第08章数字媒体压缩技术.ppt