1、多媒体技术基础与应用12.1 12.1 视频编码标准概述视频编码标准概述12.2 12.2 第一代的视频编码技术:第一代的视频编码技术:MPEGMPEG12.3 MPEG-412.3 MPEG-4:基于对象的视频编码技术:基于对象的视频编码技术12.4 12.4 基于内容的信息存取与基于内容的信息存取与MPEG-7MPEG-7第第1212章章 运动图像压缩标准运动图像压缩标准MPEGMPEG与与H.26XH.26X多媒体技术基础与应用MPEG家族 与H.26X家族 ITU-T(国际电信联盟远程通信标准化组织)(国际电信联盟远程通信标准化组织)与与ISO/IEC(国际标准化组织(国际标准化组织/
2、国际电工委员会国际电工委员会)是是制定视频编码标准的两大国际组织。制定视频编码标准的两大国际组织。ITU-T的标准的标准包括包括H.261,H.262、H.263、H.264、H.265,主,主要应用于实时视频通信领域,如会议电视。要应用于实时视频通信领域,如会议电视。MPEG系统标准由系统标准由ISO/IEC制定,制定的标准主制定,制定的标准主要有要有MPEG-1、MPEG-2、MPEG-4和和MPEG-7等。等。主要应用于视频存储主要应用于视频存储(DVD)、广播电视、因特网、广播电视、因特网和流媒体以及内容服务与管理等方面和流媒体以及内容服务与管理等方面多媒体技术基础与应用 H.26x与
3、MPEG标准的发展演进多媒体技术基础与应用MPEG标准简述 视频能够压缩的根本原因在于视频数据具有视频能够压缩的根本原因在于视频数据具有较高的冗余度。压缩就是指冗余的消除,主要基较高的冗余度。压缩就是指冗余的消除,主要基于两种技术:统计学和心理于两种技术:统计学和心理 视觉。消除统计冗视觉。消除统计冗余的基本依据是视频数字化过程在时间和余的基本依据是视频数字化过程在时间和 空间空间上采用了规则的采样过程。视频画面数字化为规上采用了规则的采样过程。视频画面数字化为规则的像则的像 素阵列,其密集程度适于表征每点最高素阵列,其密集程度适于表征每点最高的空间频率,而绝大多数画面帧包含非常少甚至的空间频
4、率,而绝大多数画面帧包含非常少甚至不含这种最高频率的细节。不含这种最高频率的细节。多媒体技术基础与应用MPEG-1MPEG-1MPEG-1标准标准 19921992年公布,其任务是在一年公布,其任务是在一种可接受的质量下,把视频和伴音信号压缩种可接受的质量下,把视频和伴音信号压缩到速率大约为到速率大约为1.5Mb/s1.5Mb/s或更高的单一的或更高的单一的MPEGMPEG数数据流。它可对据流。它可对SIFSIF(标准交换格式)分辨率(标准交换格式)分辨率(NTSC(NTSC制式为制式为352352240240;PALPAL制式为制式为352352288)288)的图像进行压缩,每秒播放的图像
5、进行压缩,每秒播放3030帧,具有帧,具有CDCD音音质,图像质量基本与质,图像质量基本与VHSVHS家用录像机相当。家用录像机相当。多媒体技术基础与应用MPEG-2MPEG-2MPEG-2是一个直接与数字电视广播有关是一个直接与数字电视广播有关的高质量图像和声音编码标准。的高质量图像和声音编码标准。MPEG2MPEG2所能提所能提供的传输率在供的传输率在3 310Mbit/s10Mbit/s之间,在之间,在NTSCNTSC制式制式下的分辨率可达下的分辨率可达720720486486,可提供广播级的,可提供广播级的图像质量和图像质量和CDCD级的音质。级的音质。MPEG-2MPEG-2主要针对
6、高主要针对高清晰度电视清晰度电视(HDTV)(HDTV)所需要的视频及伴音信号,所需要的视频及伴音信号,与与MPEG-1MPEG-1兼容。兼容。多媒体技术基础与应用MPEG-4 MPEG-4采用第一代视频编码的核心技术,如采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的在第一代视频编码技术基础上进行了卓有成效的完善和改进。完善和改进。MPEG-4实现基于内容交互的首要任务就是实现基于内容交互的首要任务就
7、是把视频把视频/图像分割成不同对象或者把运动对象从背图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视方法,以实现高效压缩。因此视频对象提取即视频对象分割,是频对象分割,是MPEG-4视频编码的关键技术,视频编码的关键技术,也是新一代视频编码的研究热点和难点。也是新一代视频编码的研究热点和难点。多媒体技术基础与应用MPEG-7 MPEG-7作为作为MPEG家庭中的一个新家庭中的一个新成员,正式名称叫作成员,正式名称叫作“多媒体内容描述接多媒体内容描述接口口”,它将为各种类型的多媒体信
8、息规定,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣息的内容本身一起,支持用户对其感兴趣的各种的各种资料资料进行快速、有效的检索。进行快速、有效的检索。多媒体技术基础与应用MPEG-7 MPEG-7既不同于基于波形和基于压缩既不同于基于波形和基于压缩的表示方式如的表示方式如MPEG-1和和MPEG-2,又不同,又不同于基于对象的表示方式如于基于对象的表示方式如MPEG-4,而是将,而是将对各种不同类型的多媒体信息进行标准化对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,描述,
9、并将该描述与所描述的内容相联系,以实现快速有效的搜索。以实现快速有效的搜索。MPEG-7的功能与的功能与其他其他MPEG标准互为补充。标准互为补充。多媒体技术基础与应用视频编码技术的发展的三个阶段多媒体技术基础与应用第一代视频压缩编码技术第一代视频压缩编码也可称之为传统的压缩编码第一代视频压缩编码也可称之为传统的压缩编码方式,它建立在方式,它建立在Shannon信息论的基础上,以经信息论的基础上,以经典的集合论为基础,用概率统计模型来描述信源,典的集合论为基础,用概率统计模型来描述信源,压缩就是去掉数据的冗余。压缩就是去掉数据的冗余。多媒体技术基础与应用第一代视频压缩编码技术MPEG-1、MP
10、EG-2、H.261、H.262、H.263都都是采用第一代压缩编码技术,着眼于图像信号的是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器。空间域的压缩依赖于图统计特性来设计编码器。空间域的压缩依赖于图像大块区域中相邻象素间的相似之处。在帧间编像大块区域中相邻象素间的相似之处。在帧间编码的情况下,每一帧图像划分成宏块以进行运动码的情况下,每一帧图像划分成宏块以进行运动补偿和编码以压缩时间冗余度。补偿和编码以压缩时间冗余度。多媒体技术基础与应用第一代视频编码技术:基于块的编码与运动补偿多媒体技术基础与应用第二代压缩编码技术以以H.264和和MPEG-4标准代表了基于对象的标准代表了
11、基于对象的第二代压缩编码技术。它以视听媒体对象第二代压缩编码技术。它以视听媒体对象为基本单元,采用基于内容的压缩编码,为基本单元,采用基于内容的压缩编码,充分利用了人眼视觉特性,抓住了图像信充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。的访问、检索及操作的发展趋势。多媒体技术基础与应用第二代压缩编码技术MPEG-4则代表了基于模型则代表了基于模型/对象的第二代对
12、象的第二代压缩编码技术,它充分利用了人眼视觉特压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,以对象性,抓住了图像信息传输的本质,以对象的轮廓、纹理、位移特征,支持基于视觉的轮廓、纹理、位移特征,支持基于视觉内容的交互功能,适应了多媒体信息的应内容的交互功能,适应了多媒体信息的应用由播放型转向基于内容的访问、检索的用由播放型转向基于内容的访问、检索的发展趋势。发展趋势。多媒体技术基础与应用基于视频平面对象(VOP)的编码多媒体技术基础与应用基于视频平面对象(VOP)的编码视频对象平面(视频对象平面(VOP,Video Object Plane)是)是MPEG-4视频编码的核心
13、概念。视频编码的核心概念。因此视频对象提取即视频对象分割,是因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的关键技术,也是新一代视频编码的研究热点和难点视频编码的研究热点和难点.多媒体技术基础与应用12.2 12.2 基于基于第一代的视频编码技术第一代的视频编码技术-MPEGMPEGMPEGMPEG的数据分为的数据分为MPEGMPEG视频、视频、MPEGMPEG音频和音频和同步信号三个部分,视频流包含画面信息,同步信号三个部分,视频流包含画面信息,音频流包含伴音信息,所有播放音频流包含伴音信息,所有播放MPEGMPEG图像和图像和伴音数据所需的时钟信息都包
14、含在同步信号伴音数据所需的时钟信息都包含在同步信号流中。流中。多媒体技术基础与应用MPEG系统的编码过程多媒体技术基础与应用MPEG系统的解码过程多媒体技术基础与应用 MPEGMPEG为更好地表示编码数据,规定了一个分为更好地表示编码数据,规定了一个分层的结构,自上到下分别是层的结构,自上到下分别是:MPEG流(流(MPEG stream)图像组(图像组(GOP,Group of Pictures)图像(图像(Image)宏块(宏块(Macro block)块(块(Block)MPEG流的分层结构多媒体技术基础与应用 MPEG流的分层结构多媒体技术基础与应用MPEG的流结构 MPEGMPEG流
15、(流(MPEG streamMPEG stream)包含音频流和视)包含音频流和视频流。视频流是由图像组(频流。视频流是由图像组(GOPGOP)构成的图像)构成的图像序列,有表示开始的图像序列头和表示结束的序列,有表示开始的图像序列头和表示结束的图像终止码。图像终止码。图像组(图像组(GOPGOP)是为方便随机存取而加的,)是为方便随机存取而加的,其结构和长度均可变。图像组是随机存取视频其结构和长度均可变。图像组是随机存取视频单位。一个单位。一个GOPGOP由一串由一串IBPIBP帧组成,起始为帧组成,起始为I I帧。帧。GOPGOP的长度是一个的长度是一个I I帧到下一个帧到下一个I I 帧
16、的间隔。帧的间隔。多媒体技术基础与应用MPEG的流结构 图像图像(Image)(Image)是独立的显示单位,也是基本编是独立的显示单位,也是基本编码单位。码单位。宏块(宏块(Macro blockMacro block)是进行运动补偿的基本)是进行运动补偿的基本单位。由一个单位。由一个1616 1616像素的亮度信息和两个像素的亮度信息和两个8 8 8 8像素的色度信息组成的块称为宏块。像素的色度信息组成的块称为宏块。块(块(BlockBlock)是由)是由8 8 8 8像素组成的基本单位,是像素组成的基本单位,是进行进行DCTDCT运算的单位,块可分为亮度块或色度运算的单位,块可分为亮度块
17、或色度块块。多媒体技术基础与应用宏块由1个亮度块和两个色度块组成多媒体技术基础与应用MPEG图像的类型 I I图(帧内图图(帧内图Intra PictureIntra Picture)是对整幅图像采)是对整幅图像采用用JPEGJPEG编码的图像,它是一个独立的帧,其信编码的图像,它是一个独立的帧,其信息由自身画面决定,不需要参照其他画面而产息由自身画面决定,不需要参照其他画面而产生,它是生,它是P P图和图和B B图的参考图。图的参考图。P P图(前向预测帧图(前向预测帧Predicted PicturePredicted Picture),它参它参照前一幅照前一幅I I或或P P图像做运动补
18、偿编码。图像做运动补偿编码。B B图像图像(双向预测双向预测 Bidirectional Prediction)Bidirectional Prediction),它参照前一幅和后一幅它参照前一幅和后一幅I I或或P P图像做双向运动补图像做双向运动补偿编码。偿编码。多媒体技术基础与应用MPEG定义的三种帧类型图像多媒体技术基础与应用典型的MPEG帧序列MPEG的的I帧、帧、P帧和帧和B帧是由帧是由MPEG编码器生编码器生成的。当第一帧编码完成后,编码器将其数据进成的。当第一帧编码完成后,编码器将其数据进行存储和传送,这就是行存储和传送,这就是I帧。紧接着第二帧输入,帧。紧接着第二帧输入,并以
19、同样的过程和方法对其进行处理,但编码器并以同样的过程和方法对其进行处理,但编码器并非将第二帧完整的数据进行存储和传送,而是并非将第二帧完整的数据进行存储和传送,而是将它与第一帧进行比较运算。将它与第一帧进行比较运算。按此方法对其后的帧进行处理,直到找到某一帧按此方法对其后的帧进行处理,直到找到某一帧与第一帧的差别超过规定值,则将此帧与第一帧与第一帧的差别超过规定值,则将此帧与第一帧的差别(包括位移量和差值)存储起来,并将此的差别(包括位移量和差值)存储起来,并将此帧排列在第一帧后传送出去,这就是帧排列在第一帧后传送出去,这就是P帧。帧。多媒体技术基础与应用典型的MPEG帧序列帧内图帧内图像像I
20、的距离为的距离为N=9,预测图预测图像像(P)的距离为的距离为M=3多媒体技术基础与应用帧间预测编码:运动估计与运动补偿运动估计技术是帧间压缩模块的核心环运动估计技术是帧间压缩模块的核心环节,因此受到人们的广泛关注。运动矢量节,因此受到人们的广泛关注。运动矢量(Motion Vector,MV)和运动补偿)和运动补偿(Motion Compensation,MC)是帧间)是帧间预测编码中两个最重要的概念。预测编码中两个最重要的概念。多媒体技术基础与应用运动估计与运动矢量 运动估计研究的是视频序列图像中投影运动估计研究的是视频序列图像中投影坐标在像平面上的变化,获取运动参数,坐标在像平面上的变化
21、,获取运动参数,估计运动前后相邻时刻两幅图像上对应点估计运动前后相邻时刻两幅图像上对应点坐标之间的差值,即运动矢量。坐标之间的差值,即运动矢量。可以通过运动物体的特征来观察分析物可以通过运动物体的特征来观察分析物体的运动。运动物体特征是指物体形状或体的运动。运动物体特征是指物体形状或表面特征,如尖锐点、边缘线等。在这里表面特征,如尖锐点、边缘线等。在这里主要是指运动物体在二维图像平面上的投主要是指运动物体在二维图像平面上的投影坐标的对应关系。影坐标的对应关系。多媒体技术基础与应用运动估计与运动矢量设设t1t2时,物体由时,物体由P运动至运动至P,即:,即:空间坐标:空间坐标:P(X,Y,Z)P
22、(X,Y,Z)像平面坐标:像平面坐标:p(x,y)p(x,y)二维位移(二维位移(x,y)称为二维运动矢量,标记)称为二维运动矢量,标记为为d(dx,dy)对于一组点,二维空间位移记为对于一组点,二维空间位移记为d(dxi,dyi)多媒体技术基础与应用运动估计与运动矢量多媒体技术基础与应用运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一。运动补偿工作于宏块一级,主要是消除预测图与插补图在时间上的冗余,以提高压缩比。运动补偿是一种预测,它不是对每个像素预测,而是以1616的图像宏块为单位的预测。运动预测与补偿多媒体技术基础与应用基于块匹配的运动补偿基于块匹配算法(基于块匹配算法(Bloc
23、k Matching Algorithm)的运动估计就是在参考帧(可能是的运动估计就是在参考帧(可能是前一帧)的搜索窗口中找到和目标帧中的当前块前一帧)的搜索窗口中找到和目标帧中的当前块的最匹配的块。其基本思想是首先要将目标帧和的最匹配的块。其基本思想是首先要将目标帧和参考帧图像分块,一般宏块为参考帧图像分块,一般宏块为1616 像素大小。像素大小。然后确定搜索范围大小,最后在参考图像相应搜然后确定搜索范围大小,最后在参考图像相应搜索区域中寻找最匹配的宏块,运动矢量(包括位索区域中寻找最匹配的宏块,运动矢量(包括位移和方向)从参考宏块位置指向当前宏块位置。移和方向)从参考宏块位置指向当前宏块位
24、置。多媒体技术基础与应用基于块匹配的运动补偿多媒体技术基础与应用基于块匹配的运动估计编码器的结构多媒体技术基础与应用运动估计与补偿解码器的结构多媒体技术基础与应用12.3 12.3 MPEG-4MPEG-4:基于对象的视频编码技术:基于对象的视频编码技术 MPEG-4 采用了新一代视频编码技术,它在视采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现了从基于像素的传统编码向基于对象和内容的现代编码的转变,
25、是视频编码技术突破性的飞跃。代编码的转变,是视频编码技术突破性的飞跃。多媒体技术基础与应用MPEG-4的对象 传统的视频压缩技术都是以一帧画面作为压缩传统的视频压缩技术都是以一帧画面作为压缩的单位,而的单位,而MPEG-4将输入视频系列每一帧分割将输入视频系列每一帧分割成相应形状的图形区域(即视频对象),以便每成相应形状的图形区域(即视频对象),以便每一视频对象代表语义上有意义的对象或感兴趣的一视频对象代表语义上有意义的对象或感兴趣的视频内容。视频对象是构成内容的基本要素。因视频内容。视频对象是构成内容的基本要素。因此原本是一张张画面的视频序列被分割成数个以此原本是一张张画面的视频序列被分割成
26、数个以对象为主的视频序列。对象为主的视频序列。多媒体技术基础与应用基于对象编码技术的场景示例多媒体技术基础与应用基于对象编码技术的场景示例 在这个场景中,对象主要包含了三大类:在这个场景中,对象主要包含了三大类:静态图像(静态图像(Still images,如场景中的背景),如场景中的背景)视频对象(视频对象(Video Objects,如场景中的节目,如场景中的节目主持人,不含背景)主持人,不含背景)音频对像(音频对像(Audio Objects,如场景中节目主,如场景中节目主持人声音持人声音)多媒体技术基础与应用场景中的音视频对象 音视频对象即音视频对象即(AVO:Audio visual
27、 Object)对象是对象是MPEG-4为支持基于内容编码而提出的重为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵要概念。对象是指在一个场景中能够访问和操纵的实体,的实体,AV对象是听觉、视觉、或者视听内容的对象是听觉、视觉、或者视听内容的表示单元,它可以是自然的或合成的声音、图像。表示单元,它可以是自然的或合成的声音、图像。原始原始AV对象具有高效编码、高效存储与传输以及对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合可交互操作的特性,它又可进一步组成复合AV对对象。象。多媒体技术基础与应用MPEG-4场景中的AV对象及交互多媒体技术基础与应
28、用 MPEG-4视频编码的数据层次结构多媒体技术基础与应用 MPEG-4:对象的提取与分割 MPEG-4实现基于内容交互的首要任务就是把实现基于内容交互的首要任务就是把视频视频/图像分割成不同对象或者把运动对象从背景图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频法,以实现高效压缩。因此视频对象提取即视频对象分割,是对象分割,是MPEG一一4视频编码的关键,是实现视频编码的关键,是实现基于对象编码的第一步,也是新一代视频编码的基于对象编码的第一步,也是新一代视频编码的研究热点和难
29、点。研究热点和难点。多媒体技术基础与应用图像分割的主要步骤多媒体技术基础与应用VOP视频编码技术 VOP是是MPEG-4视频编码的核心概念,视频视频编码的核心概念,视频对象对象VO是构成内容的基本要素。视频对象平面是构成内容的基本要素。视频对象平面(VOP)是)是 VO 在时间上(即每帧中)的体现。在时间上(即每帧中)的体现。如何得到如何得到 VOP 成为实现成为实现 MPEG-4的先决条件和的先决条件和关键。将视频关键。将视频/图像分割成不同对象或者把运动对图像分割成不同对象或者把运动对象从背景中分离出来后,就可单独对属于相同视象从背景中分离出来后,就可单独对属于相同视频对象频对象(VO)的
30、的VOP的轮廓、运动和纹理信息进行的轮廓、运动和纹理信息进行编码和传送,以实现高效压缩。编码和传送,以实现高效压缩。多媒体技术基础与应用VOP的编码流程多媒体技术基础与应用MPEG-4编解码过程视频对象编码首先从原始图像中分割出各个视频对象编码首先从原始图像中分割出各个视频对象,然后由编码控制机制为不同的对象分视频对象,然后由编码控制机制为不同的对象分配码率,之后对各个对象进行独立编码,最后将配码率,之后对各个对象进行独立编码,最后将各个对象的码流复合成一个码流,形成压缩视频各个对象的码流复合成一个码流,形成压缩视频数据流。解码时首先将压缩视频数据流分解,得数据流。解码时首先将压缩视频数据流分
31、解,得到每一个对象的编码数据流,然后分别进行对象到每一个对象的编码数据流,然后分别进行对象解码,解码结果组合在一起形成输出视频。解码,解码结果组合在一起形成输出视频。多媒体技术基础与应用MPEG-4 VOP视频编解码器结构多媒体技术基础与应用12.4 12.4 基于内容的信息存取与基于内容的信息存取与MPEG-7MPEG-7 MPEG-7 的产生,其重点在于影音内容的描述的产生,其重点在于影音内容的描述和定义,以有弹性、具延伸性、多层次及明确的数和定义,以有弹性、具延伸性、多层次及明确的数据结构和语法来定义影音数据的内容,经由据结构和语法来定义影音数据的内容,经由 MPEG-7 的定义格式,使
32、用者可以有效率地搜寻、的定义格式,使用者可以有效率地搜寻、过滤和定义想要的影音数据。过滤和定义想要的影音数据。MPEG-7在在2001年年9月被确定为国际标准。在月被确定为国际标准。在ISO/IEC 15938文档中,文档中,MPEG-7 的正式名称为的正式名称为“多媒体内容描述接口多媒体内容描述接口”(multimedia content description interface)。)。多媒体技术基础与应用MPEG-7:基于信息内容的搜索引擎 MPEG-7是属于信息方面的检索和搜寻,而所是属于信息方面的检索和搜寻,而所谓信息,则可以是影像或音乐;谓信息,则可以是影像或音乐;MPEG-7在本
33、质在本质上来说就是一个搜索引擎,只不过它提供的是多上来说就是一个搜索引擎,只不过它提供的是多媒体的信息查询服务。媒体的信息查询服务。将将 MPEG-7 对图像内容的标准描述应用到实际对图像内容的标准描述应用到实际的的 CBIR 系统中,从而改善检索系统的通用性,系统中,从而改善检索系统的通用性,并提高检索资源的重复利用率。基于并提高检索资源的重复利用率。基于 MPEG-7 与与 CBIR 这两项技术的研究既有深远的意义,也将这两项技术的研究既有深远的意义,也将面临巨大的挑战。面临巨大的挑战。多媒体技术基础与应用MPEG-7应用的表示多媒体技术基础与应用CBIR:基于内容的图像检索 基于内容的图
34、象检索(基于内容的图象检索(CBIR:Content-based image retrieval),可看作是介于信息用),可看作是介于信息用户和图象数据库之间的一种信息服务系统,它能户和图象数据库之间的一种信息服务系统,它能从数据库中直接找到具有指定特征或含有特定内从数据库中直接找到具有指定特征或含有特定内容的图像。容的图像。多媒体技术基础与应用基于内容的图象检索系统的组成多媒体技术基础与应用按图例检索(Query By Example):多媒体技术基础与应用语义的检索示例 “man with dog under tree”多媒体技术基础与应用使用关联反馈机制参与检索过程示例多媒体技术基础与应
35、用 CBIR系统的应用 近年来,基于内容的图像检索己成为一个非常近年来,基于内容的图像检索己成为一个非常活跃的领域,许多大学、研究单位和公司都投入活跃的领域,许多大学、研究单位和公司都投入了大量的人力、物力和财力进行研究和开发。无了大量的人力、物力和财力进行研究和开发。无论是在研究方面还是在商业方面,他们都取得了论是在研究方面还是在商业方面,他们都取得了可喜的成就,发展了许多技术,同时也引出了可喜的成就,发展了许多技术,同时也引出了 CBIR 中许多值得研究的课题。在这些基础上也中许多值得研究的课题。在这些基础上也产生了一些产生了一些 CBIR 系统,他们的处理框架大致相系统,他们的处理框架大
36、致相同,只是在特征的选取、查询算法以及用户接口同,只是在特征的选取、查询算法以及用户接口的设计等方而各有不同而已。的设计等方而各有不同而已。多媒体技术基础与应用IBM的QBIC系统QBIC实现了基于颜色、纹理或形状的组合查实现了基于颜色、纹理或形状的组合查询以及文字关键字的查询,在用颜色特征查询时询以及文字关键字的查询,在用颜色特征查询时允许用户指定各种颜色的百分比;在用纹理特征允许用户指定各种颜色的百分比;在用纹理特征查询时允许用户从给定纹理库中选取有代表性的查询时允许用户从给定纹理库中选取有代表性的纹理图案;在用形状特征查询时允许用户指定一纹理图案;在用形状特征查询时允许用户指定一个已有目
37、标,也允许用户勾画草图来表示形状。个已有目标,也允许用户勾画草图来表示形状。多媒体技术基础与应用根据用户草图形状所匹配的查询结构多媒体技术基础与应用 MARS系统多媒体技术基础与应用Photobook MITPhotobook MIT(MIT:美国麻省理工学院):美国麻省理工学院)的媒体实验室开发的一套交互式图像数据库浏览的媒体实验室开发的一套交互式图像数据库浏览和查询工具。提供了三种应用领域的示范演示和查询工具。提供了三种应用领域的示范演示:纹纹理识别、形状识别和人脸识别。理识别、形状识别和人脸识别。多媒体技术基础与应用形状识别(左上角为查询图像)多媒体技术基础与应用形状特征提取形状是描述图
38、像内容的又一个主要特征,也形状是描述图像内容的又一个主要特征,也是图像目标的显著特征之一。许多物体具有不同是图像目标的显著特征之一。许多物体具有不同的颜色,但其形状总是类似的。的颜色,但其形状总是类似的。MPEG-7 定义了三种形状描述符,分别是基于定义了三种形状描述符,分别是基于区域的形状(区域的形状(Region Shape)、基于轮廓的形)、基于轮廓的形状(状(Contour Shape)和三维形状()和三维形状(Shape 3D)。)。多媒体技术基础与应用基于区域的形状(Region Shape)一个对象的形状可能只包括一个单一区域,一个对象的形状可能只包括一个单一区域,也可能包括多个
39、区域。因为基于区域的形状描述也可能包括多个区域。因为基于区域的形状描述符充分利用了一个帧内组成形状的所有像素,所符充分利用了一个帧内组成形状的所有像素,所以它可以描述任何形状,不但可以描述有一个单以它可以描述任何形状,不但可以描述有一个单一连通区域的简单形状,而且可以描述由对象中一连通区域的简单形状,而且可以描述由对象中一些孔或几个不相连区域组成的复杂形状。一些孔或几个不相连区域组成的复杂形状。多媒体技术基础与应用基于轮廓的形状(Contour Shape)形状被认为是形状被认为是一条封闭的轮廓曲一条封闭的轮廓曲线所包围的区域,线所包围的区域,基于轮廓的形状描基于轮廓的形状描述符基于对象或区述
40、符基于对象或区域的轮廓获得它的域的轮廓获得它的形状特征。形状特征。多媒体技术基础与应用运用机器学习算法进行关联反馈从机器学习的视角来看,关联反馈是一个评从机器学习的视角来看,关联反馈是一个评价监督检索结果的过程。当用户给定一个查询,价监督检索结果的过程。当用户给定一个查询,CBIR系统首先获取一个按图像相似性列表的排名系统首先获取一个按图像相似性列表的排名度量。然后,用户选择从返回的搜索结果中标记度量。然后,用户选择从返回的搜索结果中标记出与查询图像的呈正相关(出与查询图像的呈正相关(positive)或负相关)或负相关(negative)的例子。)的例子。多媒体技术基础与应用按图例轮廓检索多媒体技术基础与应用示例:第一轮检索显示的结果 多媒体技术基础与应用若干次关联反馈迭代后的查询结果