1、第10章 多媒体信息检索第10章 多媒体信息检索10.1 基于内容的图像信息检索10.2 图像特征提取10.3 图像相似量度10.4 基于内容的视频信息检索10.5 基于内容的音频信息检索10.6 小结思考题第10章 多媒体信息检索随着网络带宽的增加,通过网络提供音频、视频服务成为可能。第十六次中国互联网络发展状况统计报告表明,最受欢迎的八大热门服务中,在线音乐占45.6%,在线影视占37.8%。可见,包含音视频等多媒体的信息服务已经成为互联网络上的热点。但是,如何在浩如烟海的网络中找到所需要的多媒体信息呢?前面的章节已经学习了文本检索的相关技术,在某种程度上,这些技术同样适用于多媒体信息检索
2、,但多媒体信息本身具有独特的性质,所以多媒体信息检索还需要特殊的处理技术。第10章 多媒体信息检索多媒体信息检索是根据用户的要求,对图像、文本、声音、视频等多媒体信息进行检索,得到用户所需的信息。本章将从网络图像、音频、视频等三方面展开多媒体信息检索技术的学习。多媒体信息检索主要分为两种:基于关键字的多媒体信息检索和基于内容的多媒体信息检索。前者通过对多媒体信息作文字标注或描述来建立索引,后者则通过提取多媒体信息的内容特征来建立索引。从网络上进行多媒体信息检索的流程示意图如图10-1所示。第10章 多媒体信息检索图10-1 网络多媒体信息检索流程示意图第10章 多媒体信息检索可见,多媒体信息检
3、索的流程类似于普通的信息检索流程,所不同的主要是解析和特征提取两个步骤。在解析时,不丢弃图像、音频、视频等信息,而是需要对它们进行一定的预处理,例如对图像来说,每个网页上的图像非常多,但大多数是网页的装饰图,并不是真正反映网页内容的图像。所以,应该把这些图像去掉,去掉的原则可以根据具体的情况制定,如像素值小于某个阈值,或者图像的长宽比例大于某个阈值的图像先被去掉,初筛后留下的图像才送去进行特征提取。第10章 多媒体信息检索采取文本标注的方式建立索引,一般需要人工进行,随着多媒体数据的飞速增长,人工标注变得越来越不现实,而且受到语言种类的限制。所以,基于内容的多媒体信息检索引起了极大的关注。本章
4、也将重点介绍基于内容的多媒体信息检索以及相关的特征提取技术。多媒体信息资源包括图形图像,音频和视频等信息,多媒体信息检索除了可以按照传统的关键字检索外,还可以按照多媒体资源中涵盖的内容来检索,如可以检索所有含有老虎的图像,虽然可能错误地检索出含有猫的图像,但比起传统的检索方法,已经有了本质的不同。本章重点介绍基于内容的多媒体信息检索,并且根据多媒体资源的表现形式,把它分为基于内容的图像检索、基于内容的视频检索、基于内容的音频检索三大类。第10章 多媒体信息检索10.1 基于内容的图像信息检索基于内容的图像信息检索可以说,几乎每一个Web页面上都有图像,这些图像有些是和页面主题相关的,而大部分是
5、一些Logo或广告图像。如何有效地检索出所需的网络图像是一个难题。传统的按照关键字的图像检索仍然起着重要的作用,如著名网站Google,它提供的图像检索基本是按照关键字进行的,Google 分析页面上图像附近的文字、图像标题以及许多其他元素来确定图像的内容,Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像。目前,可通过Google检索到的图像超过3.9亿幅。这种检索方法的检索性能关键要看对内容的描述是否准确,相对于基于内容的图像检索来说,按照关键字检索图像准确率效果更好。第10章 多媒体信息检索但是按照关键字的检索具有如下缺点:(1)面对WWW上成千上万
6、幅的图像,对它们进行正确的文本索引,是非常困难的事情。(2)文本描述不可避免地带有主观性,不同的人从同一幅图像里读出的信息可能大相径庭。(3)一幅图像胜似千言万语,多少关键词才可能代表一幅图像呢?(4)依赖于文本描述所使用的语言种类。基于内容的图像检索(Content-Based Image Retrieval,CBIR)可以在一定程度克服上述缺陷。CBIR提取每幅图像的视觉内容(如色彩、纹理和形状等)作为其索引,用户选择具有代表性的一幅或多幅例子图像,依据图像视觉特征的相似度进行查询,然后由系统查找与例子图像在视觉内容上相似的图像,按相似度大小排列返回给用户,或者用户制定图像的主要视觉特征,
7、如红色,按照指定的颜色来检索。一般来说,基于内容的网络图像检索流程如图10-2所示。第10章 多媒体信息检索图10-2 基于内容的网络图像检索流程示意图第10章 多媒体信息检索首先将机器人下载回来的图像进行视觉特征分析,主要包括颜色、形状和纹理特征的提取,形成特征索引;用户检索时,通过提交例图或直接的特征查询,再通过同样的颜色、形状和纹理特征提取,形成特征向量;然后,将该特征向量和索引库中的特征向量进行相似度计算;最后输出超过阈值或者按相似度大小排列的图像。可见,基于内容的图像检索关键在于特征提取和相似度的计算,所以,这也是本章重点讲述的内容。目前国内外已有不少应用于实验环境的CBIR系统,其
8、中比较有名的有IBM公司开发的最早商业化QBIC系统,哥伦比亚大学研发的WebSEEK系统、麻省理工学院研发的Photobook系统。第10章 多媒体信息检索1 QBICQBIC1是基于图像内容查询的英文缩写(Query By Image Content)。QBIC系统是由国际商用机器公司IBM(International Business Machinery)Almaden研究中心研发的第一个商业化的基于内容的图像检索系统。该系统的框架和采用的技术对后来的图像检索系统产生了深刻的影响。QBIC系统支持基于范例图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩与纹理样式的查找方式,以
9、及其他一些查询方式。在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成查找功能。第10章 多媒体信息检索2 VirageVirage2是由Virage有限公司开发的基于内容的图像检索引擎。同QBIC系统一样,它也支持基于色彩、色彩布局、纹理和结构特征(对象边缘)的视觉查询功能。但 Virage比QBIC在技术上向前迈了一步,Virage支持以上四种基本查询的任意组合的查询方式。用户还可以根据需要来调整一些基本图像特征的权重。Jeffery等人进一步提出了图像管理的开放式框架,他们将图像的视觉特征分为两类:一类是通用特征(如色彩、形状或纹理),一类是领域
10、相关的特征(如用于人脸识别、癌细胞检测的特征)。根据不同领域的具体需要,各种专用的基本特征就可以加入到这个开放式结构中来。第10章 多媒体信息检索3 PhotobookPhotobook3是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户就可以分别在这三个子系统中根据相应的特征来进行查找。然而,对于不同的领域,没有哪一种“最好”的特征能够完美地描述一幅图像,所以,在Photobook更新一些的版本FourEyes中,Picard等人提出了把用户加入到图像注释和检索过程中的想法。更进一步,由于人的感知是主观
11、的,他们又提出了“模型集合”来结合人的因素。实验表明,这种方法对于交互式图像注释来说非常有效。第10章 多媒体信息检索4 VisualSEEK和和WebSEEKVisualSEEK4是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的基于内容的搜索引擎,而WebSEEK是一种面向WWW的文本或图像搜索引擎,也都是由哥伦比亚大学开发的。这两个系统的主要技术特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征,包括颜色特征和基于小波变换的纹理特征。为了加快检索速度,系统采用基于二叉树的索引算法。VisualSEEK可同时支持基于视觉特征的查询和基于空间关系的查询。比如,用
12、户如果要查找一幅“日落”的图像,那用户的查询可以是一幅草图:草图的上半部分是桔红色的区域,下半部分是蓝绿色的区域。而WebSEEK是一个面向WWW的搜索引擎,它不仅支持基于关键字的查找,还支持基于视觉内容的查找。第10章 多媒体信息检索5 MARSMARS5是伊利诺斯大学Urbana-Champaign分校(UIUC)开发的多媒体分析和检索系统(Multimedia Analysis and Retrieval System)的英文缩写。MARS无论在研究角度还是应用领域都和其他的图像检索系统有很大的差异。这主要体现在MARS是一个多学科交叉融合的产物,包括计算机视觉、数据库管理系统以及传统的
13、信息检索技术。MARS在科研方面的主要特点包括数据库管理系统DBMS和信息检索技术IR的结合(如何进行分级的精确匹配),索引和检索技术的融合(即检索算法如何发挥底层索引结构的优点),以及计算机和人的融合(相关反馈技术)。MARS系统的重点并不在于找到所谓“最好”的图像特征,而在于根据实际的应用环境和用户需要在检索框架中动态地组合调整各种不同的图像特征。MARS在图像检索领域正式提出了相关反馈的体系结构。相关反馈的技术在各种层次上融合到检索的过程中,包括查询向量的优化、相似度算法的自动选择以及图像特征权重的调整。第10章 多媒体信息检索 10.2 图像特征提取图像特征提取10.2.1 颜色特征颜
14、色特征1 颜色模型颜色模型颜色、形状和纹理是图像中三种最重要的低层视觉特征,相比之下,其中的颜色特征提取方法又较为成熟。在基于内容的图像检索中,希望提取出来的特征具有尺度不变性、旋转不变性、平移不变性等优良特性,以使图像在发生了缩放、移动或旋转等变化后,不影响检索的效果,或影响很小。图像中的颜色具有鲜明的特点,颜色特征提取的方法很多,相对形状特征和纹理特征而言,颜色特征提取方法较为有效和成熟,在基于内容图像检索中颜色特征得到了广泛的应用。第10章 多媒体信息检索颜色特征的提取可以选择不同的颜色模型进行,其提取的效果也会截然不同,直接影响检索的效果。下面分别介绍几种常用的颜色模型6,针对不同的应
15、用,可选择合适的颜色模型。根据颜色模型的用途,常用的颜色模型可分为两类:一类是面向诸如彩色显示器或打印机之类的硬设备的颜色模型,如RGB模型、CMY模型等;另一类是面向视觉感知的颜色模型,这类模型更接近人的视觉感知,适合用来分析图像特征,如HSI模型、HSV模型、Lab模型等,本节重点介绍RGB模型和HSI模型。第10章 多媒体信息检索1)RGB模型RGB模型是面向硬设备的最常用的颜色模型,如图10-3所示。根据人眼结构,所有颜色都可看做是三个基本颜色红、绿、蓝的不同组合,用(R,G,B)表示,例如:(255,0,0)表示红色,(0,0,0)表示黑色。每种颜色分量的值在0,255区间变化。将R
16、GB模型建立在笛卡儿坐标系统里,其中3个轴分别为R、G、B,如图10-3所示。RGB模型的空间是个正方形,从黑到白的灰度值分布在从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色,可用从原点到该点的向量表示。有时为了计算方便,将立方体归一化为单位立方体,让所有的R、G、B的值都在区间0,1之中。第10章 多媒体信息检索图10-3 RGB色彩立方体第10章 多媒体信息检索面向硬设备的颜色模型与人类的视觉感知有一定距离,很难将一个颜色和一个(R,G,B)向量画上等号,换句话说,看到一种颜色,不太可能知道它对应的RGB分量值,或者反过来,看到一个RGB向量,不可能很快直觉到它的颜色。
17、所以,为了分析图像的颜色特征,一般不直接采用RGB模型,而是将它转换成其他与人的视觉感知接近的颜色模型。第10章 多媒体信息检索2)HSI模型HSI模型如图10-4所示,它是面向颜色处理的最常见的模型,其中H表示色调,S表示饱和度,I表示亮度,人区分颜色就常用这三种基本特征量。亮度与物体的反射率成正比,一般来说,如果一个图像无色彩,那么就只有亮度这一个分量。对彩色来说,颜色中渗入白色越多就越明亮,渗入黑色越多亮度就越小。色调是与混合光谱中主要光波长相联系的。饱和度与一定色调的纯度有关,纯光谱色是完全饱和的,随着白光的加入饱和度逐渐减少。色调和饱和度合起来又称为色度,所以颜色可用亮度和色度共同表
18、示。第10章 多媒体信息检索图10-4 HSI模型的坐标系统6第10章 多媒体信息检索从图10-4可见HSI模型的坐标系统接近圆柱坐标系统。对其中的任意一个色点P,其H值对应指向该点的向量与R轴的夹角。这个点的S值与指向该点的向量长度成正比,越长越饱和。在这个模型中,I的值与该点所在平面与最下对应黑色点的距离成正比。如果色点在I轴上,则其S值为零而H没有定义,这些点也称奇异点。奇异点的存在是HSI模型的一个缺点,而且在奇异点附近,R、G、B值的微小变化会引起H、S、I值的明显变化。RGB空间的彩色图像可以方便地转换到HSI空间。如果一帧图像的R、G、B分量都已经归一化到了0,1区间,则其对应的
19、HSI模型中的H、S、I分量可由下面的公式计算求得:第10章 多媒体信息检索(10-1)3 BGRI),min(),max(BGRBGRS(10-2)BGBGBRGRBRGRBGBGBRGRBRGRH,)()(2)()(arccos2,)()(2)()(arccos2121(10-3)由公式直接算出的H值在0,360之间,为使H落在0,1之间,可令H=H/360进行转换。当S=0时,H没有意义,此时可定义H为0;另外,当I=0或I=1时,讨论S也没有意义。第10章 多媒体信息检索2 颜色特征提取颜色特征提取颜色特征的表达方法有很多,常用的有直方图法、累加直方图法、局部累加直方图法等。本节重点介
20、绍这3种方法,并作简要的比较。1)颜色直方图颜色直方图是表示图像颜色统计特征的最直观的方法,就是在选定颜色模型的基础上,统计出每种分量在各个颜色级别的像素数占图像像素总数的比例,得到图像各种颜色分量的比例分布,即直方图。直方图可以用数学公式表示为(10-4)1,2,1,0,)(LkNnkHk第10章 多媒体信息检索式中:k代表颜色特征值的级别;L是颜色特征级别的总数;nk是图像中具有K级别颜色特征值的像素的个数;N是图像像素总数。图10-5(a)用三个级别构造了一帧图像,假设这三个级别的颜色的I分量分别为I1、I2和I3,例图中I分量为I1和I2的像素数均占总像素数的25%,I分量为I3的像素
21、数占总像素数的50%,所以得出的I分量直方图如图10-5(b)所示。上述的颜色直方图也称为统计直方图。图10-6是原图及它的缩放图、旋转图和位移图。图10-7是原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图,其各分量的直方图是一样的,这是一个非常优美的特性。第10章 多媒体信息检索图10-5 直方图统计方法示例第10章 多媒体信息检索图10-6 原图及其缩放、旋转和位移图第10章 多媒体信息检索图10-7 原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图第10章 多媒体信息检索一般来说,统计直方图具有如下一些优点:(1)缩放不变性。图像进行缩放,不引起颜色直方图变化。(2)旋转不
22、变性。图像进行旋转,不引起颜色直方图的变化。(3)位移不变性。图像进行移动,不引起颜色直方图的变化。(4)双峰特性。如果图像中的前景和背景分明,直方图出现明显的双峰特性。但是,颜色直方图也有一些缺点,不利于表征图像的内容本质,如:颜色直方图只是对颜色分量级别的像素点进行了统计,完全丢失了空间信息,由此造成两幅不同内容的图像,颜色直方图却可能相同,如图10-8所示。第10章 多媒体信息检索图10-8 两幅不同的图像具有相同的颜色直方图第10章 多媒体信息检索对图10-8所示的这种情况,如果单凭颜色直方图来辨识图像,就会跟实际情况发生很大的偏差。这时可采用分块计算直方图的方法,稍后介绍分块直方图。
23、另外,当图像中的颜色级别不能取遍所有级别时,统计直方图中会出现一些零值。这些零值的出现会对计算直方图的相交带来很大影响,从而使得算出的匹配值并不能正确地反映两图间的颜色差别。这个问题在一定程度上可通过加大图像特征取值的间隔(即量化间隔),减少特征取值数量来克服。但这种简单量化存在一个问题。以色调特征为例,对两个相近颜色,量化既可能将它们量化到同一个色调上,也可能将其量化到不同的两个色调上,即量化可能拉近它们的距离也可能拉大它们的距离。这种问题多出现在量化间隔的边界附近,由量化本身造成。另外一种解决方法是采用累积直方图(或累加直方图),累积直方图能大大减少原统计直方图中出现的零值数量,使两种颜色
24、在特征轴上的距离保持与它们之间的相似度成正比。第10章 多媒体信息检索2)累加直方图在选定颜色模型的基础上,统计每种颜色分量的像素数占图像像素总数的比例,并把前面i级颜色分量的比例累加起来,得到一个逐渐递增的直方图,这就是累加直方图,如图10-9所示。累加直方图用数学公式表示为(10-5)1,.,2,1,0,)(0LkNnkHkik式中:k表示特征的取值;L是特征可取值的个数;nk是图像中具有特征值为K的像素的个数;N是图像像素总数。第10章 多媒体信息检索图10-9 累加直方图的计算示例第10章 多媒体信息检索图10-9(b)是图10-9(a)的累加直方图,图中横轴表示按照从低到高的颜色分量
25、级别,不难理解,最后那个级别的值为100%。累加直方图比起一般直方图有它的优越性,基本解决了前面提到的“零值”问题。第10章 多媒体信息检索3)分块直方图为了克服统计直方图丢失空间信息带来的问题,将图像划分为不同的块,对每个块再计算直方图,这种方法叫做分块直方图。正如图10-8所示,因为统计直方图丢失了空间信号,两幅完全不同的图像,它们的统计直方图表示可能完全相同。为了克服这个问题,有人提出分块直方图的方法7-8。利用分块直方图进行检索时,首先把整幅图像进行划分,这样图像就由划分出的小块组成;然后对每小块图像计算统计直方图;最后,计算并累加不同图像对应小块的直方图距离,并据此进行图像的相似匹配
26、,完成图像的检索。这种方法找回了部分的空间信息,所以,可以部分解决上面提到的问题。该算法由于在图像各小块的基础上探讨颜色的比例关系,因而掺入了图像的部分空间信息。读者可以想象,假如分块足够小,小到只有一个像素,这时会出现什么情况呢?第10章 多媒体信息检索使用分块直方图方法,最重要的是如何分块。块分得越大,计算量的增加虽然不会太大,但掺入的空间信息会越粗;块分得越小,计算量越大,但掺入的空间信息越多。如何分块,需要针对实际应用问题进行权衡。Stricker认为图像中最有意义的区域位于图像的中心部分,因而将图像固定分为5块,如图10-10(a)所示。MARS检索系统则将图像分为55块。还有很多分
27、块的方法,图10-10(b)是一种规则的分块方法,所分块的大小可变。第10章 多媒体信息检索图10-10 分块方法图例第10章 多媒体信息检索分块直方图的计算方法很简单,下面介绍两种计算方法。(1)首先,将一幅图像P分成MM个小块(M不宜太大),每一块用Pi表示,其中i=1,2,MM。然后,分别对每一小块Pi,用前面介绍的一般直方图的方法计算各小块的一般直方图,得到:(10-6)1,.,2,1,0,)(LkNnkHiiki式中:Hi(k)为Pi的颜色统计直方图;k表示颜色级别;L是颜色级别总数;nik是分块Pi中颜色级别为K的像素的个数,Ni是分块Pi的像素总数。第10章 多媒体信息检索然后,
28、把每个块的颜色统计直方图结合起来,得到一个L(MM)维向量,它可作为图像P的颜色特征。这种方法能够很好地表达图像的空间分布信息,但它的缺点是增大了颜色特征的维数,增大了要储存的信息量,也增大了计算量。(2)首先,将一幅图P分成MM个小块(M可取较大值),每一块用Pi表示,其中i=1,2,MM。然后,分别计算每一小块Pi的颜色分量平均值,可得:(10-7)MMiNyxfiHiDyxi,.,2,1,),()(),(其中,Di为分块Pi的区域,f(x,y)为像素点(x,y)的颜色值,Ni是分块Pi的像素总数。计算所得的MM维向量H(i)便可作为图像P的特征向量。第10章 多媒体信息检索10.2.2
29、形状特征提取形状特征提取形状是刻画物体的本质特征之一,利用形状来检索图像无疑可提高检索的准确率。利用形状进行匹配有3个问题值得注意6:首先,要获得有关目标的形状参数,常要先对图像进行分割、增强,从而得到图像中物体的边界点;其次,目标形状的描述是一个非常复杂的问题,要受到人的主观感受的影响;最后,从不同视角角度获取的图像中目标形状可能会有很大差别,为准确进行匹配,需要解决平移、尺度、旋转不变性的问题。通常形状表达可分成两类:基于边界的和基于区域的,前者利用的是形状的外边界,而后者则利用整个形状区域。第10章 多媒体信息检索基于边界的描述主要有:多边形描述、样条曲线拟合和傅里叶描述子等。基于区域的
30、特征描述法有区域的面积、圆形度、形状的纵横比(Aspect Ration)、不变矩(Invariant Moment)等。不变矩在形状特征表达中具有重要的作用,本节重点介绍Hu9的不变矩。Hu在1962年首先基于代数不变量引入矩不变量,通过对几何矩的非线性组合,导出了一组对于图像平移、旋转、尺度变化的不变矩,可用于图像的检索。下面主要介绍Hu不变矩的计算9:定义定义10-1 大小为MN的二维图像,f(i,j),i=0,1,2,M;j=0,1,2,N,其p+q阶矩定义如下式所示:(10-8),.2,1,0,),(11qpjifjimNjqpMipq第10章 多媒体信息检索其中,p和q可取所有的非
31、负整数值。特殊地,当p=0,q=0时,其零阶矩为(10-9)NjMijifm1100),(对于二值图像,令其背景值为0,形状区域内值为1,则零阶矩表示该形状区域的面积。定义定义10-2 图像的p+q阶中心矩:为了保证形状特征的位置不变性,还必须计算中心矩,即以物体的质心为原点计算图像的不变矩值,p+q阶中心矩定义如下:(10-10)MiNjqppqjifjiii11),()()(式中,(,)是图像的质心,其定义如下:ij第10章 多媒体信息检索(10-11),(),(00010010MMMMji再利用下式对中心矩进行归一化处理,得到归一化的中心矩pq:(10-12)2100qppqpqHu将中
32、心矩进行不同的组合,得到7个具有平移、旋转和尺度不变性的矩:第10章 多媒体信息检索)()(3)(3()()(3)(3()(3)()(3()(4)()()(3)()(3()()()3()3(4)(203212123003210321203212123003211230203212123012300321703211230112032121230022062032121230123012305203212123042031221230321120220202201(10-12)第10章 多媒体信息检索为了加深读者对Hu矩的理解,特构造了如图10-11的原图、缩放图、平移图及旋转图,分别计算它们的
33、7个Hu矩。利用本节的定义,计算上述各图的7个不变矩,得到结果如表10-1所示。第10章 多媒体信息检索图10-11 原图及其平移图、缩小图、放大图和旋转图第10章 多媒体信息检索第10章 多媒体信息检索从表中数据清晰地看到,这7个矩具有平移、尺度和旋转不变的优美特性。利用这些不变矩可以检索到即使经过了平移、旋转、缩放的相似图像。第10章 多媒体信息检索10.2.3 纹理特征提取纹理特征提取目前,图像的纹理尚无统一明确的定义,不同的学者对纹理有不同的理解,但涵义基本相同。Hawkins 10认为纹理标志具有三个要素:局部的空间变化次序在更大的区域内不断重复;次序是由基本元素非随机排列而组成;纹
34、理区域内任何地方都有大致相同的结构尺寸。Duda11认为纹理可以看成是表示灰度空间分布的属性。Haralick12则认为纹理是由大量或多或少相似的纹理元(texton)或模式组成的一种结构,即组成纹理的基元及它们之间的相互关系,这二者构成了纹理的两个基本特征。徐建华13则把纹理理解为图像灰度在空间上的变化和重复,或图像中反复出现的局部模式(纹理单元)和它们的排列规则。图10-12是选自Brodatz纹理图像库中的具有典型纹理特征的一些纹理图像。第10章 多媒体信息检索图10-12 Brodatz纹理图像第10章 多媒体信息检索如何识别出图像中的纹理,方法有很多,可分为两大类:结构方法和统计方法
35、。结构方法主要描述纹理单元及其周期性排列的空间几何特征和排列规则,如形态学、图论、拓扑等方法;将复杂的纹理图像通过特征提取和分割,得到局部基元和它们的属性及其相互关系,对纹理基元及其排列规则进行描述、分析和解释。统计方法是以人的直观感觉为基础的,它根据像素灰度的统计特征确定纹理特征,如直方图统计特征法、自相关函数法等。相比之下,纹理的统计分析方法占主导地位,纹理的统计分析方法可进一步分为传统的统计方法、基于模型的统计方法、基于频谱分析的方法。纹理识别的关键是纹理特征的表示方法。下面就介绍两种常用的纹理特征描述方法。第10章 多媒体信息检索1 Tamura纹理特征纹理特征从图10-12这些典型的
36、纹理图像中可以发现,图像中的纹理是像素值在空间分布上呈现一定的规律,使感官上的纹理呈现出一定的方向性、粗细、线像性、对比性等。Tamura在人类视觉心理学的基础上,提出了一种数学方法来描述纹理的这些特征14,包括:粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(line likeness)、规整度(regularity)和粗略度(roughness)。其中,前三个分量对于图像检索来说尤其重要,下面简要介绍这些纹理特征参数的定义。粗糙度:一幅大小为MN的二维图像,f(i,j),i=0,1,2,M;j=0,1,2,N,粗糙度定义为如下计算
37、公式:第10章 多媒体信息检索式中,Sbest(i,j)=2k,而每个像素点k值的计算可以通过使式(10-14)中的E值最大获得:(10-13)minjjiSnmF11bestcrs),(1(10-14)|)2,()2,(|),(|),2(),2(|),(11,11,kkkkvkkkkkhkjiAjiAjiEjiAjiAjiE而平均像素强度Ak(i,j)由式(10-15)求得:(10-15)kiixjjykkkkkyxfjiA21221222),(),(1111第10章 多媒体信息检索上述的粗糙度计算结果是一个数,对于一幅大而复杂的图像,这种定义未免粗糙,所以,有人也使用直方图方式来描述Sbe
38、st的分布,这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。对比度:对比度定义为公式(10-16):(10-16)4/144con)/(F其中,A是图像灰度的四阶中心矩,是图像的标准方差。对比度值从某个角度反映了整幅图像的全局灰度分布状况。方向度:方向度的计算需要首先计算每个像素处的梯度向量。该向量的模和方向分别定义为(10-17)2|GVH第10章 多媒体信息检索其中H和V分别是通过图像卷积图10-13所示的两个33操作符所得的水平和垂直方向上的变化量。图10-13 梯度计算的卷积算子(10-18)2arctanHV第10章 多媒体信息检索在图像阵列上
39、移动卷积算子,即可得到每个像素点的梯度向量。在此基础上,定义方向直方图HD(k)如下:(10-19)110 )()()(10,.,n,kiNkNkHniD式中:N(k)表示满足的像素点个数,t是梯度阈值。tGnknk|2)12(2)12(且如果一幅图像的纹理具有明显的方向性,在方向直方图上就会表现出局部峰值;反之,如果是没有明显方向性的图像,其方向直方图则无明显的峰值表现。为了更定量地表达图像总体的方向性,Tamura还通过采用统计每个峰值二阶矩的方法来定义,具体如下所示:第10章 多媒体信息检索式中:p代表方向直方图中的某个峰值;np为方向直方图中所有的峰值个数;p代表该峰值p所对应的谷范围
40、;而p是峰值p对应的位置;r是影响离散化水平的一个规范化因子。线像度:如果一幅图像的纹理是由一些线条组成的,那么该图像的线像度很高,为此首先构造一个大小为MM的方向共生矩阵PDd。矩阵的元素PDd(i,j)是两个距离相隔为d的像素之间的相关性,其中一个像素的方向值为i,另外一个像素的方向值为j,这里的方向值可以用上述的梯度方向来表示。则纹理的线像度定义为(10-20)ppnpDppHnrF)()(12dir第10章 多媒体信息检索规整度:纹理的规整度定义为Fcrs、Fcon、Fdir、Fltn的标准方差和,计算公式如下:(10-21)MiMjDdMiMjDdjiPjiMjiPF1111ltn)
41、,()(2cos),(10-22)(1ltndirconcrsregF粗略度:根据心理学实验,该参数计算方法如下:(10-23)concrsrghFFF上述公式给出了Tamura纹理特征的计算方法。该方法的优点是从视觉的心理学角度出发提出了纹理表示方法,各个性质都具有直观的视觉意义,所以,在QBIC和MARS系统中都包含了这一特征。第10章 多媒体信息检索2 基于灰度共生矩阵的纹理特征基于灰度共生矩阵的纹理特征20世纪70年代,Haralick等提出了著名的灰度共生矩阵纹理特征表示方法,主要的依据是他们认为纹理是通过灰度的空间相关性展现出来的,所以,该方法首先根据图像像素之间的关系,构造一个灰
42、度共生矩阵(gray tone cooccurrence matrix),再从中提出有意义的统计数据作为纹理特征的表示。灰度共生矩阵以统计成对灰度值出现的概率为基础。设M是某幅图像的灰度共生矩阵,则每个矩阵元素表示方向上相隔d像素远的一对像素分别具有灰度级i和j的出现概率,可用式(10-24)计算:(10-24),(),|,(),|,(dNdjiNdjiP第10章 多媒体信息检索式中,N(d,)表示处于位置关系(d,)的像素对的个数,N(i,j|d,)表示处于位置关系(d,)的像素对中,一对像素分别具有的灰度级i和j的像素对个数。相应的矩阵可记为M(d,)。请注意,方向可以有0、45、90、1
43、35等,如图10-14所示。图10-14 灰度级分别为i和j,相距d=1的一对像素点的示意第10章 多媒体信息检索一般来说,图像的灰度有256级,灰度共生矩阵的构建需要消耗很大的计算量和存储量,为了减少计算和存储开销,往往采取降低灰度级数的方法。下面举例说明如何构造灰度共生矩阵。【例【例10-1】设有一帧44大小的图像,灰度级别是0、1、2和3共4个级别,图像点阵的灰度分布如下所示,试构建灰度共生矩阵M(1,0)。第10章 多媒体信息检索解解:根据题意,d=1,=0,灰度级别的组合(i,j)可以有(0,0)、(0,1)、(0,2)、(0,3)、(1,0)、(1,1)、(1,2)、(1,3)、(
44、2,0)、(2,1)、(2,2)、(2,3)、(3,0)、(3,1)(3,2)(3,3)等几种情况,则有:N(0,0|1,0)=#(1,1),(1,2),(1,2),(1,1),(2,1),(2,2),(2,2),(2,1)=4N(0,1|1,0)=#(1,2),(1,3),(2,2),(2,3)=2N(0,2|1,0)=#(3,1),(3,2)=1N(0,3|1,0)=#=0N(1,0|1,0)=#(1,2),(1,3),(2,2),(2,3)=2N(1,1|1,0)=#(1,3),(1,4),(1,4),(1,3),(2,3),(2,4),(2,4),(2,3)=4N(1,2|1,0)=#
45、=0N(1,3|1,0)=#=0第10章 多媒体信息检索N(2,0|1,0)=#(3,2),(3,1)=1N(2,1|1,0)=#=0N(2,2|1,0)=#(3,2),(3,3),(3,3),(3,2),(3,3),(3,4),(3,4),(3,3),(4,1),(4,2),(4,2),(4,1)=6N(2,3|1,0)=#(4,2),(4,3)=1N(3,0|1,0)=#=0N(3,1|1,0)=#=0N(3,2|1,0)=#(4,3),(4,2)=1N(3,3|1,0)=#(4,3),(4,4),(4,4),(4,3)=1而N(d,)=24,用N(d,)去除上述各项,得到共生矩阵的各个元
46、素P,比如:P(0,0|1,0)=4/24,其他各项略,最后得到灰度共生矩阵M(1,0)如下:第10章 多媒体信息检索从上面的求解过程可以清晰地看到,=0的灰度共生矩阵反映了水平方向的成对灰度分布状况,一定程度上表征了图像的纹理特征。读者可以试着计算M(1,45)、M(1,90)等。由于灰度共生矩阵体现了图像的纹理特征,从该矩阵得到的一些统计参数可以定量地描述这些纹理特征,常用的参数有灰度共生矩阵熵、惯性矩、能量、对比度、均匀性等,它们可分别使用下面的公式来计算。24/2 24/1 0 0 0 24/6 0 24/10 0 24/4 24/20 1/24 24/2 24/4)0,1(oM第10
47、章 多媒体信息检索熵:(10-25)NiNjdjiPdjiPdH11),|,(log),|,(),(能量(二阶矩):(10-26)NiNjdjiPdE112),|,(),(对比度(惯性矩):(10-27)NiNjdjiPjid112),|,()(),con(均匀度(局部平稳):(10-28)255025502),|,()(11),(ijdjiPjidL第10章 多媒体信息检索熵表示图像中纹理的非均匀程度或复杂程度,纹理越均匀,熵越大;纹理越复杂,熵越小。能量是对图像灰度均匀性的测量。第10章 多媒体信息检索10.3 图像相似量度图像相似量度 上一节介绍的颜色、形状和纹理等低级视觉特征的提取,是
48、基于内容的图像检索的基础和关键,它可以将图像的内容用数学的方法进行定量的表示,接下来就是如何比较待检索的图像和数据库中的图像,看它们是否相似,是否可以作为检索结果输出给用户。相似性度量方法的好坏影响到图像检索的性能;而相似性度量的计算复杂性影响到图像检索的用户响应时间。所以,选择一种恰当的相似量度计算方法,可以提高图像检索的性能。相似度量实际上可以使用两个向量间的距离来量度,两个向量间的距离越大,相似度越小。反之,两个向量间的距离越小,相似度越大。第10章 多媒体信息检索下面介绍几种常见的距离量度15。首先定义D(e,d)为示例图像e和图像数据库中图像d之间的距离量度,Hd(k)和He(k)分
49、别为图像d、e的特征量(一般是向量)。第10章 多媒体信息检索1 Minkowski量度量度Minkowski距离可以定义为(10-29)ppkkHdkHedeD/1)|)()(|(),(如果图像特征的每维元素都同等重要,那么可以使用Minkowski距离来表示两幅图像之间的距离,距离越大,相似度越小。可以使用距离的倒数来表征相似度。上面的定义中,p=1,2,3,对应的D(e,d)分别被称为L1,L2,L3距离。当p=2时,此时的Minkowski距离称为欧式距离。当p=1时,Minkowski距离变成如下的形式(L1距离):(10-30)kkHdkHedeD|)()(|),(第10章 多媒体
50、信息检索直方图相交法可以认为是L1距离的一种特殊形式,图像e和图像d的直方图之间的相交距离(也叫city-block距离)定义为(10-31)1010)()(),(min),(LkLkkHdkHekHdEDS第10章 多媒体信息检索2 Quadratic量度量度 Minkowski量度对所有的特征向量平均对待,而没有考虑特征向量之间的关系。然而在实际情况下,各个特征向量之间是有关联的,为了解决这个问题,可以采用以下Quadratic量度:(10-32)()(),(THdHeAHdHedeD这里A=Aij为一个对称矩阵,表示特征向量之间的相关性,元素Aij表示特征i和特征j之间的相似程度。相对于