1、第5章 多媒体数据压缩编码技术 多媒体数据压缩编码的重要性 随着计算机技术的高度发展以及通信、计算机和大众传媒三大技术的相互融合,计算机已经不再局限于数值计算、文字处理的范畴,而成为处理图形、图像、视频、音频等多种信息的工具。但数字化后的声音、图像、视频和音频等多媒体数据是非常庞大的。例如:一页在A4(216mm300mm)纸上的照片,以300dpi(12像素/mm)采样,每个像素用24位真彩色信号表示,其数据量约为25MB/页,650MB的CD-ROM只可放14页;双声道立体声光盘,采样率是44.1kHz,采样精度16位,一秒钟数据量是44.1162/8=176KB/s,一张CD只能存放约1
2、小时的声音。多媒体数据压缩编码的重要性 对于如此巨大的多媒体数据,如果不经过压缩,不仅超出了计算机的存储和处理能力,而且在现在的通信信道的传输速率下,是无法完成大量多媒体信息的传输的,多媒体数据的高速传输和储藏所需要的巨大容量已经成为多媒体数据通信技术的最大障碍。因此,为了存储、处理和传输这些数据,必须进行压缩。多媒体数据压缩编码的重要性 多媒体数据之所以能够进行压缩是因为原始数据是高度相关的,存在很大的数据冗余。多媒体数据所包含的冗余信息一般有以下几种:(1)统计冗余。(2)信息熵冗余。(3)结构冗余。(4)知识冗余。(5)视觉冗余。统计冗余 图像数据存在大量的统计特征的重复,这种重复包括静
3、态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。信息熵冗余 信息熵定义为一组数据所表示的信息量,即 式中,E为信息熵,N为数据的种类(或称码元)个数,为第i个码元出现的概率。一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即 式中,D为数据量,为第i个码元的二进制位数。一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。iNiippE210logiNiibpD10
4、110Nbbb信息熵冗余图 26个英文字母相对频率结构冗余 有些图像从大面积上或整体上看存在着重复出现的相同或详尽的纹理结构,例如布纹图像和草席图像,被称为结构冗余。知识冗余 许多图像的理解与图像所表现内容的基础知识(鲜艳或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,如鼻子上方有眼睛、鼻子又在嘴的上方等。视觉冗余 人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨率为64灰度级,而一般图像量化采用的是256灰度级,这类冗余称
5、为视觉冗余。多媒体数据压缩方法的分类 多媒体数据压缩方法有许多种,从不同的角度出发有不同的分类方法。1从信息论角度出发可分为两大类(1)冗余度压缩方法。也称无损压缩、信息保持编码或熵编码。(2)信息量压缩方法。也称有损压缩、失真度编码或熵压缩编码。2按压缩算法分类 现有多媒体数据的压缩编码方案可分为统计编码、预测编码、脉冲编码调制、变换编码、子带编码、分形编码和小波编码等。评价多媒体数据压缩方法的指标 评价多媒体数据压缩方法有3个主要指标:1压缩比2压缩质量(失真度)3压缩与解压的速度 压缩比并不是一个绝对的指标压缩比并不是一个绝对的指标将16M色的真彩图像(图A)转变为256色(图B),数据
6、量减少了约3倍,压缩比为1:3.当然这时产生了色彩失真,但如果选择原图的色彩范围定义调色板,色彩失真较小,人眼一般都还能接受.如果把图像深度从8位再压缩到4位,即从256色再压到16色(图C),虽然数据量只减少了2倍,压缩比为1:2,但这时的人眼所看到的色彩失真比第一次大得多,效果很差图像效果 图像类型图A 真彩色图像图B 256色图像图C 16色图像压缩比8/24=1/34/24=1/6常用的编码方法 根据压缩算法的原理,可以将压缩算法分为如下几类:信息熵编码(主要有行程长度编码、哈夫曼编码和算术编码)、通用编码、预测编码、模型法编码、矢量量化编码、子带编码和混合编码等。信息熵编码 1行程长
7、度编码行程长度编码(Run-Length Encoding,RLE)又叫游程编码,是压缩文件最简单的方法之一。把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。很多位图文件格式都用行程长度编码,例如TIFF,PCX、GEM等。行程长度编码例有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。如果用行程编码方法对其编码,其编码就变成了100,011;
8、011,101,共用了12比特,比前一种编码节约了9个比特。哈夫曼编码编码步骤如下:(1)统计信源符号出现的概率;(2)将信源符号按概率递减顺序排列;(3)把两个最小的概率值加起来,作为一个新组合符号的概率;(4)重复步骤(2)、(3),直到概率和达到1为止;(5)在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);(6)寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0”;(7)对每一符号写出“1”和“0”序列;哈夫曼编码的 例子考虑信源进行哈夫曼编码的过程如下:信源符号 X1 X2 X3 X4 X5 X6 概 率 0.25
9、0.25 0.20 0.15 0.1 0.05X1X6X5X4X3X20.050.100.150.200.250.2511010010100(0.15)(1.00)(0.55)(0.30)(0.35)01001100100001110432224信源符号概率编码过程码字码长哈夫曼编码的不足 它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。它对于位的增删比较敏感。算术
10、编码 算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。算法举例假设信源符号为00,01,10,11,这些符号的概率分别为 0.1,0.4,0.2,0.3,根据这些概率可把间隔0,1)分成4个子间隔:0,0.1),0.1,0.5),0.5,0.7),0.7,1),二进制消息序列的输入为:10 00 11 00 10 11 01算术编码算术编码的
11、主要特点(1)信源符号的出现概率比较接近时,算术编码的效率比哈夫曼编码高。(2)算术编码的实现比哈夫曼编码复杂。算术编码是一种相对比较新的编码,它在许多方面比哈夫曼编码优越;算术编码是按照分数比特逼近熵,而哈夫曼编码是按照整数比特逼近熵;算术编码可以有效地从模型中分离出来,而哈夫曼编码是与统计模型强相关的。算术编码需要注意的几个问题1.由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、32位或者64位的精度,因此可使用比例缩放法解决。2.算术编码器对消息只产生一个码字,这个码字是在0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。3.算术
12、编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开发动态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效方法是在编码过程中估算概率。因此动态建模成为确定编码器压缩效率的关键。词典编码词典编码的思想 第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用
13、已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。第二类词典编码 第二类算法的想法是企图从输入的数据中创建一个“短语词典(dictionary of the phrases)”,这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。LZW算法的压缩过程 LZW算法在压缩过程中主要处理3种数据:输入流、输出流和一张字符串表。输入流就是原始的字符流(对图像处理而言就是图像数据),输出流则是压缩生成的代码流。LZW压缩程序的任务就是把输入的原始数据转换成比原来短的代码串。字符串表是整个
14、算法的核心。LZW算法和其他一些压缩技术的不同之处在于它是动态地标记数据流中出现的重复串。它把压缩过程中遇到的字符串记录在这张庞大的表中,在下一次又碰到这一字符串的时候,就用一个代码来表示它,通过用短代码来表示相对较长的字符串来压缩数据量。其具体压缩流程如右图所示。LZW算法的解压缩过程 解开一个GIF图像实际上刚好是压缩的一个逆过程。字符流变成了输出流,而代码流变成了输入流。同样,解压缩程序也要生成并维护与压缩时所用的一模一样的串表。解压缩程序从串表中查到输入代码对应的字符串,再将此字符串输出。右图给出了解压缩过程的流程。预测编码 通常,图像中局部区域的像素是高度相关的,因此可以用先前像素的
15、有关灰度知识来对当前像素的灰度进行估计,这就是预测。如果预测是正确的,则不必对每一个像素的灰度都进行压缩,而是把预测值与实际像素值之间的差值经过熵编码后发送到接收端,接收端通过预测值+差值信号来重建原像素。预测编码可分为线性预测编码和非线性预测编码。前者常被称为差分脉冲编码调制,即DPCM(Differential Pulse Code Modulation)。DPCM的原理框图(a)DPCM编码框图(b)DPCM译码框图DPCM编码示例DPCM系统如图所示,预测器的预测值为前一个样值(图中D表示单位延迟)。假设输入信号已经量化,差 值 不 再 进 行 量 化。若D P C M 系 统 的 输
16、 入 为0,1,2,1,1,2,3,3,4,4,则编码过程如下:变换编码 变换编码是进行一种可逆的函数变换(例如离散傅里叶变换),映射变换从一个信号域变换到另一个信号域。在变换到另一个信号域的过程中,只要适当处理,就可以大大减少需要编码的信息,从而达到减化编码过程,实现数据压缩的目的,通常压缩效果很好。变换编码原理图 模型编码 模型编码将图像信号看成三维世界中的目标和景物投影到二维平面的产物,而对这一产物的评价是由人类视觉系统的特性决定的。模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。解码时根据参数和已知模型用图像合成技术重建图像。由于编
17、码的对象是特征参数,而不是原始图原像,因此有可能实现比较大的压缩比。模型编码引入的误差主要是人眼视觉不太敏感的几何失真,因此重建图像非常自然和逼真。1988年召开的首届“64kb/s活动图像编码工作会议”确定了模型编码为新一代的编码方法。混合编码 以两种或两种以上的方法对图像进行编码称为混合编码,本章后面介绍的JPEG和MPEG都属于混合编码。多媒体数据压缩的国际标准 音频压缩标准 音频信号是多媒体信息的重要组成部分。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz20kHz;调频广播FM质量,其信号带宽为20Hzl5kHz;调幅广播AM质量,其信号带宽
18、为50Hz7kHz;电话的话音质量,其信号带宽为200Hz3.4kHz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩、高保真立体声音频压缩三种。ITU-T的G系列声音压缩标准 ITU-T是国际电信联盟电信标准化部门,它研究和制定除无线电以外的所有电信领域标准。对于不同的音频信号,ITU-T制定了不同的音频标准。(1)用于电话质量的语音压缩标准。(2)用于调幅广播质量的音频压缩标准。G.7xx标准 G.7xx是一组ITU-T标准,用于音频压缩和解压缩,主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在mu-law算法(
19、美国使用)和a-law算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。G.7xx协议组的组成 G.711:64kb/s信道上的语音频率脉冲编码调制(PCM)。量化位数为8bit,采样频率为8kHz。G.721:32kb/s自适应差分脉冲编码调制(ADPCM)。量化位数为4bit,采样频率为8kHz。G.722:64 kb/s下的7 kHz音频编码,采样频率为16 kHz。采用子带编码,即将16kHz的频带分为两个子带,通过ADPCM分别进行编码。G.722.1:带有低帧损耗的具有免提操作的系统在24 kb/s和32 kb/s上的编码。G.722.
20、2:利用自适应多频率宽带(AMR-WB)以16 kb/s多频率语音编码。G.7xx协议组的组成G.723:24 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.726:40、32、24、16 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.727:采用嵌入式自适应差分脉冲编码调制。G.728:利用短时延码本激励线性预测(LD-CELP)算法,比特率为16 kb/s,采样频率为8 kHz。G.729:利用共轭结构代数激励编码线性预测(CS-ACELP),比特率为8 kb/s。高保真立体声音频压缩标准 高保真立体声音频信号的频率范围为50 Hz20 kHz,在44.1 kHz采
21、样频率下用16 bit量化,信号速率为每声道705 kb/s。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG是由音频和视频两部分组成的,可以分别进行压缩。MPEG MPEG音频根据不同的算法分为三个层次。Layer 1与Layer 2具有大致相同的算法。输入音频信号的采样频率为48 kHz、44.1 kHz或32 kHz,经过滤波器组分成32个子带。同时编码器利用人耳的掩蔽效应,根据音频信号的性质计算各个频率分量的掩蔽门限,以控制每一个子带的量化参数,达到数据压缩的目的。MPEG音频的Layer 3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩码率,目前在
22、因特网CD光盘中广泛使用的MP3音乐就属于这一层次。立体声信号的编码也可以在MPEG音频中作为附加功能实现。MPEG音频压缩技术的传输速率为每声道32448 kb/s。MPEG音频编码器和解码器的原理框图 MPEG音频编码器原理框图 MPEG音频解码器原理框图 静止图像的压缩标准 对于静止图像来说,目前有很多压缩标准,如ISO制定的JPEG标准、JBIG标准、ITU-T制订的G3和G4标准等。JPEG标准适用于黑白及彩色照片、彩色传真和印刷图片,可以支持很高的图像分辨率和量化精度。JPEG 联合图像专家组(Joint Photographic Coding Experts Group,JPEG
23、)是由国际标准化组织ISO和国际电报电话咨询委员会CCITT组织于1986年底成立的,负责制定一种用于连续色调的(黑白的或真彩色的)静止图像压缩编码的通用算法的国际标准。该组织于1991年3月公布了他们提出的压缩标准的草案,1992年JPEG成为ISO国际标准。JPEGJPEG专家组开发了两种基本的压缩算法:一种是以空间线性预测技术(DPCM)为基础的无损压缩算法,不会产生失真,但压缩比很小;另一种是采用以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩算法,它利用了人们视觉系统的特性,去掉视觉冗余信息和数据本身的冗余信息,包含基本系统(必须保证的功能
24、)和扩展系统(扩充功能),这种算法进行图像压缩时信息虽有损失,但压缩比可以很大,例如当压缩比达到25:1左右时,人眼基本上无法察觉失真。现在应用较多的是有损压缩算法。JPEGJPEG定义了3种编码系统。无损预测编码系统:用于无失真的应用场合。基于DCT的有损编码基本系统:可用于绝大多数压缩应用场合基于DCT的有损编码增强系统:用于高压缩比、高精确度或渐进重建应用等场合。JPEGJPEG规定了4种运行模式,以满足不同需要。无损预测编码模式:压缩比可以达到2:1。基于DCT的有损顺序编码模式:压缩比可以达到10:1以上。基于DCT的渐进编码模式。基于DCT的分层编码模式。JPEG的无损预测编码 P
25、EG采用了基于预测编码的压缩算法,其框图如下图所示。该算法采用一个简单的预测器,其工作原理是从X中减去预测值,得到差值,然后不进行量化,直接进行无失真的熵编码(哈夫曼编码或算术编码),从而满足无失真压缩图像数据的要求。JPEG的无损预测编码框图JPEG的无损预测编码的优点是硬件易实现,重建图像质量好。缺点是压缩比太低,大约为2:1。基于OCT的有损压缩编码 基于OCT的压缩编码算法包括两种不同层次的系统,即基本系统和增强系统。增强系统是基本系统的扩充。JPEG还定义了两种工作方式,即顺序方式和渐进方式。基本系统只能采用顺序工作方式,熵编码只能采用哈夫曼编码,而且只能存储两套码表。基于OCT的有
26、损顺序编码框图及解码框图 基于DCT的有损顺序编码框图 基于DCT的有损顺序编码的解码框图 JPEG算法的不同压缩比及其压缩效果实例算法的不同压缩比及其压缩效果实例JPEG2000 放弃了JPEG 所采用的以离散余弦变换算法(DCT)为主的区块编码方式,而改用以离散小波变换算法(DWT)为主的多解析编码方式。JPEG2000还将彩色静态画面采用的JPEG编码方式、2值图像采用的JBIG(Joint Binary Image Group)编码方式及低压缩率采用JPEGLS统一起来,成为对应各种图像的通用编码方式。DCT和DWT变换图(a)采用DCT变换得到的图像图(b)采用DWT变换得到的图像J
27、PEG2000的优势高压缩率 无损压缩 渐进传输 感兴趣区域压缩 JPEG2000的应用目前,支持JPEG2000的软件已经出现,如LuraWave Smart Compress Freeware for Windows为ACDSee 3.0提供 JPEG2000 LWF 格式的外挂插件,这样只要安置了这个插件就可以观看和制作采用JPEG2000编码的LWF格式文件。在不久的将来,JPEG2000无论是在传统的JPEG市场(如数码相机、扫描仪等)还是在新兴应用领域(如网路传输、无线通讯、医疗影像等)都将大有用武之地。MPEG压缩标准 MPEG标准是面向运动图像压缩的一个系列标准。ISO和CCI
28、TT于1988年成立运动图像专家组(Moving Picture Experts Group,MPEG),研究制定了用于数字存储媒介中活动图像及其伴音的编码的国际标准。最初MPEG专家组的工作项目是三个,即分别1.5Mb/s、10Mb/s、40Mb/s传输速率下对图像编码,分别命名为MPEG-1、MPEG-2、MPEG-3,MPEG-3于1992年被合并到高清晰度电视(HDTV)工作组。为了满足不同应用的要求,MPEG又陆续增加了其他一些标准MPEG-4、MPEG-7、MPEG-21。MPEG-l压缩标准为VCD所采纳,MPEG-2压缩标准为DVD采纳,MPEG-4是为交互式多媒体通信制定的压
29、缩标准,MPEG-7是为因特网视频检索制定的压缩标准。MPEG标准 MPEG标准一般包括4个部分:MPEG视频(ISO/IEC l1172-2)。MPEG音频(ISO/IEC l1172-3)。MPEG系统(ISO/IEC l1172-1)。MPEG测试与验证(ISO/IEC 11172-4)。已经开发的MPEG标准有:MPEG-1:1992年正式发布的数字电视标准。MPEG-2:数字电视标准。MPEG-4:1999年发布的多媒体应用标准。MPEG-7:多媒体内容描述接口标准。MPEG-21:有关多媒体框架的协议标准。MPEG-1压缩标准 用于数字存储媒体运动图像及其伴音速率为1.5 Mb/s
30、的压缩编码简称MPEG-1,于1992年正式发布,标准的编号为ISO/IEC 1172。它针对标准分辨率(NTSC制为352240,PAL制为352288)的图像进行压缩,每秒30帧画面,具备CD音质。它还用于数字电话网络上的视频传输,如视频点播、教育网络等。使用MPEG-1的压缩算法,可将一部120 min长的电影压缩到1.2GB左右。因此,它被广泛地应用于VCD制作。MPEG-1压缩标准MPEG-1分为5个部分:MPEG系统(11172-1):定义音频、视频及有关数据的同步。MPEG视频(11172-2):定义视频数据的编码和重建图像所需的解码过程。MPEG音频(11172-3):定义音频
31、数据的编码和解码。一致性测试(11172-4)。软件模拟(11172-5)。MPEG-1压缩标准 MPEG-1的主要任务是将视频信号及其伴音以可接收和重建质量压缩到1.5Mb/s的码率,并复合成一个单一的MPEG位流,同时保证视频和音频的同步。MPEG-l编码解码器框图 MPEG-2压缩标准 MPEG-2标准于1994年公布,包括编号为13818-1的系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。它能适用于更广的领域,主要包括数字存储媒体、广播电视和通信。MPEG-2 适合高于2 Mb/s的视频压缩。MPEG-2压缩标准MPEG
32、-2利用网络提供的3100 Mb/s的数据传输率支持具有更高分辨率图像的压缩和更高的图像质量。可支持交叠图像序列、可调节性编码,多种运动估计方式,提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量和带宽的要求。它在与MPEG-1兼容的基础上实现了低码率和多声道扩展:MPEG-2可以将一部120 min长的电影压缩到48 GB(DVD质量),其音频编码可提供左、右、中及两个环绕声道、一个加重低音声道和多达7个伴音声道。MPEG-2分为系统、视频、音频、一致性测试、软件模拟、数字存储媒体命令和控制扩展协议、先进声音编码、系统解码器和实时接口扩展标准10个部分。MPEG-2系统 MPEG-2
33、系统规定电视图像数据、音频数据和其他相关数据的同步性。MPEG-2标准的压缩编码系统是将视频和音频编码算法结合起来开发的。系统编码可有两种方法,其编码输出包括传送流和程序流两种定义流。传送流和协议ISO/IECl1172-1系统定义的流相似;程序流是一种用来传送和保存一道程序的数据或其数据的数据流。MPEG-2视频 MPEG-2视频规定视频数据的编码和解码。MPEG-2按压缩比大小的不同分成5个档次(Profile),每一个档次又按图像清晰度的不同分成四种图像格式,或称为级别(Level)。5个档次4种级别共有20种组合,但实际应用中有些组合不太可能出现,较常用的是11种组合。MPEG-2视频
34、MPEG-2的5个档次按功能增强逐次为:简单型(Simple)。基本型(Main)。信噪比可调型(SNR Scalable)。空间可调型(Spatial Scalable)。增强型(High)。MPEG-2的4个等级为:低级(Low):35228830,面向VCR并与MPEG-1兼容。基本级(Main):7046030或72057625,面向视频广播信号。高1440级(High-1440):440108030或1440l15225,面向HDTV。高级(High):1930108030或1920l15225,面向HDTV。MPEG-2视频较常用的是11种组合:高级的基本型,MPHL。高级的增强型
35、,HPHL。高-1440级的基本型,MPH1440。高-1440级的空间可调型,SSPH1440。高-1440级的增强型,HPH1440。基本级的简单型,SPML。基本级的基本型,MPML。基本级的信噪比可调型,SNPML。基本级的增强型,HPML。低级的基本型,MPLL。低级的信噪比可调型,SNPLL。MPEG-2音频 MPEG-2音频的基本特性之一是与MPEG-l音频兼容,并且支持5.1或7.1通道的环绕立体声。5.1通道采用左、右声道,中置和后面两个环绕声通道,总共5个通道。“1”是指LFE(Low Frequency Effect),是低频音效的加强通道,也就是通常所说的“低音炮”。7
36、.1通道环绕立体声比5.1还多中左、中右两个喇叭通道。MPEG-2技术就是实现DVD的标准技术,现在DVD播放器在家庭中已经普及了。除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。MPEG-4 MPEG-4于1988年11月公布。它是为视听数据的编码和交互播放而开发的算法。其目标是极低码率的音频/视频压缩编码。它所涉及的应用范畴包括有线、无线、移动通信和Internet等领域。MPEG-4可使用户实现音频、视频内容交互性的多种形式,以及以一种整体的方式将人工和自然的音频和视频信息融合在一起。MPEG-4具有高速压缩,基于内容交互和内
37、容分级扩展等特点,并且具有基于内容方式表示的视频数据。MPEG-4在信息描述中引入了对象(Object)的概念,用来表达视频对象(Video Object,VO)和音频对象(Audio Object,AO)。MPEG-4对AV对象的操作 MPEG-4对AV对象的操作主要有:采用AV对象来表示听觉、视觉或者视听组合内容。组合己有AV对象来生成复合的AV对象,并生成AV场景。对AV对象的数据灵活地多路合成与同步,以选择合适的网络来传输AV对象数据。允许接收端用户在AV场景中对AV对象进行交互操作等。基于内容的视频编码过程 基于内容的视频编码过程可由三步完成:1)VO的形成:先从原始视频流中分割出V
38、O。2)编码:对各VO分别独立编码,即对不同VO和运动信息、形状信息和纹理信息分别编码,分配不同的码字。3)复合:将各个VO的码流复合成一个符合MPEG-4标准的位流。MPEG-7压缩标准 MPEG-7标准于2001年11月正式推出。MPEG-7的正式名称为多媒体内容描述接口(Multimedia Content Description Interface),它为各种类型的多媒体信息规定一种标准化的描述。这种描述以提取待描述对象的各种特征为基础,便于人们对多媒体信息进行快速有效的检索。这种描述与多媒体信息的内容一起,支持对用户感兴趣的图形、图像、3D模型、视频、音频等信息以及它们的组合的快速有
39、效的查询,满足实时、非实时以及推拉应用的要求。MPEG-7可应用于数字图书馆、各种多媒体目录服务、广播媒体的选择以及多媒体编辑等领域。MPEG-7 MPEG-7的研究重点是多媒体对象的特征提取、数据库类层次划分、不同数据类型的有机联系等。MPEG-7采取的描述方案和方法与被描述内容是否编码或如何存储无关,例如视觉信号仍可以用已有的各种编码方案(如JPEG、MPEG-l、MPEG-2、MPEG-4等)进行编码。MPEG-7将扩展现有标识内容的专用方案及有限的能力,包含更多的多媒体数据类型。MPEG-7的功能与其他MPEG标准互为补充。MPEG-l、MPEG-2和MPEG-4是内容本身的表示,而M
40、PEG-7是有关内容的信息。MPEG-7构成要素 MPEG-7标准化的范围包括:一系列的描述子(描述子是特征的表示法,是定义特征的语法和语义学),一系列的描述结构(详细说明成员之间的结构和语义),一种详细说明描述结构的语言、描述定义语言(DDL),一种或多种编码描述方法。1)描述工具。2)描述定义语言。3)系统工具。MPEG-7的组成 MPEG-7系统:它保证MPEG-7描述有效传输和存储所必需的工具,并确保内容与描述之间同步进行,这些工具有管理和保护的智能特性。MPEG-7描述定义语言:用来定义新的描述结构的语言。MPEG-7音频:只涉及音频描述的描述子和描述结构。MPEG-7视频:只涉及视
41、频描述的描述子和描述结构。MPEG-7属性:实体和多媒体描述结构。MPEG-7参考软件:实现MPEG-7标准相关成分的软件。MPEG-7一致性:测试MPEG-7执行一致性的指导方针和程序。MPEG-21 随着多媒体信息技术和因特网技术的飞速发展,多媒体信息资源的每个消费终端都将是多媒体信息内容的制作者和消费者,多媒体信息在不同的用户层和应用范围中漫游,必然需要综合地利用不同层次的多媒体技术标准。然而,现在的技术标准还不能真正做到匹配衔接,在各个技术标准之间还存在缺漏,有必要用一个综合性的技术标准来加以协调;MPEG提出的MPEG-21多媒体框架标准(也简称MPEG-21)就是这样一个支持通过异
42、构终端和网络,使用户透明地、广泛地、交互地使用多媒体信息资源的综合性的技术标准。MPEG-21的研究目标 分析是否需要和如何将相关的协议、标准和技术等不同的组件有机地结合起来。分析在技术、标准、协议的融合中是否需要新的标准(规范)。如何将这些不同的标准集成在一起,组成综合统一的、高效集成的和透明交互的多媒体框架(Multimedia Framework)。通过多媒体框架对多媒体信息资源进行透明和增强使用,实现内容创建、表示、识别、描述、发布、消耗、使用、知识产权管理和保护、财政管理,用户隐私权保护、终端和网络资源抽取、事件报告等功能。MPEG-21的基本概念 MPEG-21形成了一个开放的用于
43、多媒体信息传送和消费的框架。该框架既给予内容的创建者和提供者平等的机遇,也方便了内容的消费者以交互的方式存取大量内容。MPEG-21的行为主体是用户,规范的动作是使用,作用的客体是数字项,在作用过程中形成多媒体信息的内容传送链和价值传送链。1)用户)用户 2)使用)使用 3)数字项)数字项 4)多媒体信息内容传送链)多媒体信息内容传送链 MPEG-21的基本要素 1)数字项的发布)数字项的发布 2)数字项的识别与描述)数字项的识别与描述。3)内容的表示)内容的表示。4)内容的管理与使用。)内容的管理与使用。5)知识产权的管理与保护。)知识产权的管理与保护。6)终端与网络。)终端与网络。7)事件报告。)事件报告。MPEG-21目前,MPEG标准正在向整个多媒体领域扩展,MPEG-21就是一个有关多媒体框架及其综合应用的全新的多媒体框架标准,必将对多媒体信息技术的广泛应用产生深远的影响。MPEG-21多媒体框架标准将为多媒体信息的用户提供综合统一的、高效集成的和透明交互的电子交易和使用环境,能够解决如何获取、如何传送各种不同类型多媒体信息以及如何进行内容的管理、各种权利的保护、非授权存取和修改的保护等问题,为用户提供透明的和完全个性化的多媒体信息服务。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。