1、第14章视频识别第第14章视章视 频频 识识 别别14.1视频结构分析视频结构分析14.2主持人识别主持人识别14.3标题条识别标题条识别习题习题第14章视频识别14.1视频结构分析视频结构分析14.1.1视频结构模型视频结构模型视频包括电影、电视节目、录像等,它是存储动态信息和进行信息通信的媒体。视频数据可用幕(Act)、场景(Scene)、镜头(Shot)、帧(Frame)等描述。视频结构化分析就是将连续视频流分割成包括场景、镜头、帧等视频单元。帧是一幅静态的图像,是组成视频的最小视觉单位。视频数据流是由连续的帧构成的。每一帧都可以看成独立的图像。帧是视频流的基本单元,它蕴含了少许的语义内
2、容。第14章视频识别镜头由一系列的帧组成,它描绘摄像机拍下的一组连续帧序列,是视频数据流进一步结构化的基础结构层。一般来讲,同一个镜头中,视频帧的图像特征保持稳定。比如,在拍摄“日落”这个镜头时,画面的色彩和纹理等图像特征将基本保持不变。镜头是对视频流进行处理的最小物理单元。由于在同一个镜头内的视频帧之间的特征保持稳定,如果相邻视频帧之间的特征发生了明显变化,则认为发生了镜头切换,就可以对视频流进行切分。对视频流进行结构化时,首先要找出每个独立的镜头单元。一个个独立的镜头单元就构成了视频流。第14章视频识别代表帧是可以用来表示镜头内容的图像。在切分出镜头后,代表帧被用来表示各镜头的特征,从而进
3、行进一步的结构化。一般地,在一组视频镜头中,代表帧数目远远小于镜头所包含的视频帧数量。第14章视频识别语义上相关和时间上相邻的若干个镜头组成了一个场景。场景是视频所蕴含的高层抽象概念和语义的表达。比如,“网球比赛”这个场景可以由“运动员特写”、“记分牌”、“观众助威”和“运动员比赛”等若干个镜头组成。虽然每个镜头所代表的语义不多,但是若干个镜头所组合成的场景就表达了一个符合人们思维的比较丰富的语义。由于不同人对同一场景的文字标注可能是不一样的,因此,一般使用代表帧(本质上是视觉信息)来表示镜头和场景,而不使用文字信息来标注场景。镜头由代表帧表示,所以场景可以使用属于这个场景的若干个镜头所对应的
4、代表帧来表示。第14章视频识别视频结构化模型如图14-1所示。视频数据流进行结构化的过程如下:(1)一组连续的视频帧通过镜头边界检测被分割成长短不一的镜头单元。(2)对每个镜头单元提取代表帧,得到可以表征这些镜头单元的代表帧。由于每个镜头长短不一,代表帧选取方法不同,因此提取的代表帧数目也不一样。(3)分析镜头代表帧,提取视觉特征,建立视频索引结构。第14章视频识别图 14-1视频结构化模型 第14章视频识别需要注意的是,虽然视频数据流中存在“镜头”或者“场景”等结构,但是对于不同的人而言,所划分的视频结构却很不同,这样就给视频结构化算法的评价带来困难。比如,对于新闻类视频,它存在着明显的视频
5、结构;对于体育比赛类的视频,如足球比赛、篮球比赛等,它的视频结构也比较明显,而对于电影、艺术类节目等视频,它们的结构就比较复杂,往往难以确切地进行结构划分。第14章视频识别14.1.2非压缩域镜头边界检测方法非压缩域镜头边界检测方法任何视频都是由一个个镜头衔接起来的,镜头是视频检索的基本单元。镜头之间的衔接方式是多种多样的。两个镜头之间的衔接称之为镜头切换,它表示从一个镜头到另一个镜头的衔接和转换,是通过镜头编辑做出来的。为了让镜头的衔接更加紧密、美观,视频中往往采用了许多镜头编辑方法,经过对镜头边界的编辑处理,将镜头和镜头完美地连接起来。镜头切换主要分为突变和渐变两种方式。第14章视频识别突
6、变(Cut)是指镜头与镜头之间没有过渡,由一个镜头的结束瞬间直接转换到另一个镜头的开始瞬间的方法。一个镜头猛然切换到另一个镜头,也叫直接切换。直接切换可使画面的情节和动作发生直接的跳跃,不存在时间上的差异,给人以轻快、利索的感觉。第14章视频识别渐变是指一个镜头到另一个镜头的逐渐过渡,没有明显的镜头跳跃。渐变包括淡入(Fade in)、淡出(Fade out)、溶化(Dissolve)、擦出(Wipe)等。将后面镜头的画面逐渐加强的方式称为淡入;将前面镜头的画面逐渐关闭直至消失的方式称为淡出;将前面镜头画面消失的同时后面镜头画面逐渐出现的方式称为溶化;将前面镜头从画面的某一部分开始逐渐地被后面
7、镜头画面取而代之的方式称为擦出。在视频编辑的过程中,镜头的渐变过程都是由特技发生器产生出来的。图14-2是镜头边界编辑和产生的示意图。第14章视频识别图 14-2镜头边界编辑和产生的示意图第14章视频识别镜头边界检测是对视频流进行后续分析和识别的基础。目前,镜头边界检测的方法有很多种,主要有像素差值法、颜色直方图法、边缘差值法、运动矢量法、压缩域方法等,这些方法的名字来源于每种方法所提取的视觉特征。本节介绍几种经典的镜头边界检测方法,这几种方法的基本思想是,比较相邻视频帧之间的视觉特征是否发生了较大变化,如果发生了较大变化,则意味着视频发生了镜头突变,发生较大特征变化的地方就是镜头边缘。对于渐
8、变切换,特征变化虽然存在,但却不明显。另外,由于镜头是渐变的,相邻两帧的特征值也是逐渐地改变,因此,需要采用一定的方法突现这种变化。第14章视频识别1.单一阈值比较法单一阈值比较法单一阈值比较法是最早的突变镜头检测方法。它主要考虑视频中相邻两帧的直方图间的差异,当前后两帧的直方图差异超过某一阈值时,就认为此处是镜头突变点。用于比较直方图差异的算法很多,主要有欧几里德距离法、直方图交集检测法和矢量间的夹角余弦等。假设对于视频中的相邻两帧图像fi、fj,其归一化直方图分别为Hi、Hj,直方图共包含 n 种颜色。两帧图像的直方图距离为 第14章视频识别nkijijikHkHkHHHD12)()()(
9、),(14-1)直方图交集表示为 nkjijikHkHHHsim1)(),(min(),(14-2),(1),(jijiHHsimHHD(14-3)第14章视频识别其中,Hi(k)、Hj(k)分别为归一化直方图Hi、Hj在第k个颜色上的取值。如果前后两帧的颜色分布基本相同,那么式(14-1)的距离值几乎等于0,而式(14-2)的相似性测度为1,式(14-3)的不相似性测度为0。如果前后两帧的颜色分布完全不同,则结果正好相反。第14章视频识别在进行镜头边界检测时,顺序计算视频流相邻两帧的直方图差异,当D(Hi,Hj)大于某个预先设定的阈值时,说明两帧间发生了较大的变化,即认为它们之间存在一个镜头
10、突变切换。通常,可以把这个全局的阈值设定为视频流中所有相邻帧直方图差值平均值的5至6倍,当某相邻两帧的直方图差值大于这个阈值时,就可判断视频在这两帧之间发生了突变,这两帧之间是一个镜头切换点。第14章视频识别图14-3中的虚线是计算得出的某段视频直方图差值的平均值,点画线是5倍的差值平均值。可见,a、b两点的直方图差值均大于这个阈值。显然,a点和b点分别是两个镜头分割点,整个视频片段可以分为A、B、C三个镜头,视频片段的镜头分割便完成了。第14章视频识别图 14-3某视频片段相邻帧间直方图差值图第14章视频识别单一阈值比较法能较好地检测出视频中明显的镜头突变。然而对于渐变过程和色彩差别较小的突
11、变镜头,直方图差值虽然有变化,但并不明显。如果仍采用单一阈值比较方法,就识别不出镜头的切换点,或者使识别出的镜头切换点有误。第14章视频识别2.双重比较法(双重比较法(twin comparison)为了找到渐变切换在直方图差值图中的规律,考察图14-4所示的渐变切换的例子。观察图14-4,可以看出帧图像变化的规律:从第0帧起,画面中有一白色几何体自左向右逐渐消退,而新画面(椰树)则随之逐渐完整显现。当此组图片作为视频播放时,就表现出翻页切换的效果。第14章视频识别图 14-4镜头渐变切换镜头扫换连续帧图像 第14章视频识别图14-5(a)是此组图像的直方图差值图。直接从帧间直方图差值图中无法
12、找出如突变镜头般确定的镜头切换点。在渐变过程中,由于渐变起始帧的画面不断地被其随后镜头的画面所替代,因而随后出现的帧图像与渐变起始帧图像的差值会越来越大。因此,如果确定了渐变起始帧的位置,就可以计算出相对于起始帧的直方图累积差值图。第14章视频识别图 14-5根据图14-4计算出的直方图差值图(a)帧间直方图差值图;(b)直方图累积差值图第14章视频识别假设s为选定的渐变起始帧号,则对于其随后的帧i=s+1,s+2,计算相对于s帧的直方图累积差值Di:njsiijHjHsiDD1,(i=s+1,s+2,)(14-4)其中,n为直方图的颜色数目。图14-5(b)是根据式(14-4)计算得出的相对
13、于第0帧的直方图累积差值图。累积差值曲线呈单调递增,到翻页切换结束位置(大约在第35帧)处递增结束。此后各帧由于属于同一个镜头,因此相对第0帧的差值不再有太大波动。第14章视频识别所谓双重比较法,是在选定一个较高阈值的基础上,再引入一个较低的阈值作为对可能存在的渐变切换作双重比较的算法。首先用较低的阈值来确定出渐变切换过程可能的起始帧。一旦确定了这个起始帧,就用它与后续的帧进行比较,用累积的差值来取代相邻帧间的差值。这个累积是单调的,应该不断地加大,直到这个单调过程中止。这时,将累积差值与较高阈值相比较,如果超过了这个阈值,就可以认为这个累积值单调递增的序列对应的就是一个渐变切换过程。双重比较
14、法示意图如图14-6所示。第14章视频识别图14-6 双重比较法示意图第14章视频识别双重比较法存在的问题是,它不能较好地判定出渐变序列的终点。因为在差值累积的过程中,即使渐变切换过程已经结束,积累的差值可能还会增大,只是此时图像已处于下一个镜头之内,增大的幅度将不会如切换过程中那么大。如此导致的结果,就是错过实际的渐变切换终点而造成误判。第14章视频识别3.滑动窗口检测算法滑动窗口检测算法单一阈值算法选取某一全局性的参数作为判定阈值,这对于整个画面变化平缓的视频来说具有较好的检测效果。但是对那些画面变化较为剧烈的视频片段而言,此算法存在明显的不足。因此,应对直方图差值的局部变化进行分析。第1
15、4章视频识别图14-7是滑动窗口检测算法示意图。此算法定义一个合适大小的窗口,此窗口沿着帧间差值图的横坐标方向移动,在窗口内部对直方图差值进行计算,找出区域性的极大值点,然后将其与窗口内第二大差值相比较,当极大值与第二大差值差别达到某一系数时,即判定此极大值点为镜头切换点。第14章视频识别图 14-7滑动窗口检测算法示意图第14章视频识别该算法可以用以下语言来描述:(1)定义一个大小为2m1的窗口,使待检测的帧位于窗口的正中位置。(2)根据下式计算第i帧与第i+1帧的差异:njiiijHjHiiDD111,(14-5)其中:Hi是第i帧直方图;n为直方图的颜色数目。第14章视频识别(3)如果同
16、时满足以下条件,则认为第l帧是镜头切换位置:DlDj,j=lm+1,l1,l+1,l+m1;DlbDk,Dk为窗口中第二大的差值,b为给定的系数。滑动窗口检测算法充分利用了镜头切换位置附近的局部信息,计算简便。它认为在镜头切换位置附近的一个局部区域内,镜头切换点处的帧间差值要远远大于镜头内部的帧间差值,这也是镜头边界检测的基本思想。从实验效果看,滑动窗口检测算法的检测效果比单一阈值方法有相当大的提高。图14-8是采用滑动窗口检测方法对一段广告视频进行镜头检测的结果。第14章视频识别图14-8滑动窗口检测方法分析结果第14章视频识别4.闪光检测闪光检测视频中常有突然的闪光出现,闪光持续时间很短,
17、亮度很大,但是场景却由于时间短暂而变化很小。在帧间差值图中闪光表现为两个相邻很近、高度相当的突起,而在两峰之间和两峰的旁边,差异很小。按照一般的检测算法,闪光出现时和结束时都会被认为是镜头突变。但是无论是从突变的定义来看,还是从视频内容上来看,把闪光位置认为是突变是不合理的。因此,有必要检测闪光的位置,把它从镜头切换中除去。第14章视频识别图14-9是视频电影的故事中的一段帧间差值图。A和B是两个典型的闪光位置。由图可见,A与B的形状非常类似,两处均是相邻很近的双峰值,而且双峰值均比5倍的差值平均线大很多。第14章视频识别图 14-9视频片段电影的故事中的两个闪光位置第14章视频识别图14-1
18、0所示为闪光位置B处相邻帧图像及其直方图。这组镜头描述的是男女主人公在街道上照相的情景。为了表现出较强的艺术效果,镜头在第251帧处加入了极高亮度的一帧,目的是为了表现照相机闪光灯点亮的瞬间。观察第251帧前后邻近的帧可以看出,虽然此组图像被第251帧的闪光打断,但是仍然属于同一个镜头。如果按照全局单一阈值算法进行判断,由于帧间差值均高于5倍的差值平均线,因此它们将全部被判定为镜头突变点。显然,这是不符合实际的。应用其他检测算法也会出现类似的情况。第14章视频识别图 14-10闪光位置B处相邻帧图像及其直方图第14章视频识别闪光因为有上述明显的特征,所以可以得出以下检测依据:局部最大值同局部第
19、二大值很接近,并且两者都比其他的值大许多。图14-11是闪光检测算法示意图。闪光检测是镜头检测算法中必须考虑的,它对镜头检测的准确率影响较。第14章视频识别图 14-11 闪光检测算法示意图第14章视频识别14.1.3镜头的表示镜头的表示将视频分割为镜头以后,就需要采用某种方法来表示这些镜头的内容。传统的方法是采用文字索引来代表镜头。显然这种方法需要人工的干预,这不但增加了建立视频数据库的工作量,而且由于用来描述一个镜头的文字因人而异,因此用文字来代表镜头内容存在一定的片面性。基于内容的镜头表示方法采用从镜头本身提取的视频特征(如图像、声音等)作为镜头的属性。一旦确定了合适的算法,这种表示方法
20、可以由计算机自动完成,而且由于特征取自镜头本身,因此具有较强的代表性。第14章视频识别基于内容的镜头表示方法可分为两类:静止的和运动的。静止的表示方法是用与镜头内容相关的某几幅图像来代表镜头内容,这些图像被称作代表帧。运动的表示方法利用了视频中的运动特性,主要包括摄像机操作和目标运动等。第14章视频识别代表帧,又称作关键帧,是用于描述一个镜头的关键图像,它反映了镜头的主要内容。用代表帧来代表镜头有几个原因。首先,在视频数据库生成时,需要对代表帧按照静态图像的方法进行处理,并提取代表帧的特征作为镜头的索引。其次,在查询过程中,代表帧是视频查询返回的基本单元。第14章视频识别例如,当查询“主色调为
21、红色的镜头”时,可能会得到一组镜头,并由一组代表帧来表示。如果要看视频镜头本身,则只要在查询系统中点击相应的代表帧图像即可。另外,从镜头中提取代表帧的算法一般较为简单,且用代表帧表示镜头内容较为直观,符合人们的逻辑思维过程。因此代表帧成为镜头最主要的表示形式。第14章视频识别在拍摄视频时,根据剧情需要,一个镜头可以采用多种摄像机运动方式进行处理,这样就得到具有不同运动状态的镜头。摄像机的操作主要有摇镜头、推拉摄影、跟踪摄影等。摇镜头(panning),指摄像机的位置不变,在拍摄过程中仅靠镜头移动,它是转动“眼球”或“脖子”观看对象方式的再现;推拉(zooming),指从远处开始,逐渐推近到拍摄
22、对象(称为“推”),或从近处开始,逐渐地拍成全景(称为“拉”);跟踪(tracking),指镜头跟踪着被拍摄对象移动,形成追踪的效果。第14章视频识别在进行视频检索时,可以通过查询镜头的摄像机运动方式来检索出所需要的视频片断,如查询“包含摄像机跟踪对象的镜头”。第14章视频识别镜头内主体目标的运动是非常重要的信息。目标运动可以用运动方向和运动幅度来描述。事实上,许多目标的运动也与摄像机操作有关。通过对视频的研究发现,当目标运动时,在视频上表现为背景在迅速地变化,运动目标实际上相对镜头没有太大的运动,而是摄像机在操作,这样就可以利用摄像机操作的特征进行检索。除此之外,也存在一些镜头,摄像机本身不
23、动,而目标物体在镜头内部运动。第14章视频识别14.1.4代表帧的选取方法代表帧的选取方法代表帧是从原始的视频中提取的一些静止图像,它们可以概括地表示各个镜头的内容。一方面,代表帧集合可以支持对整个视频内容的快速浏览;另一方面,通过提取每个代表帧的视觉特征并建立索引,可以实现对视频内容的检索。代表帧的选取方法有多种。提取代表帧不仅要注意能够接近全面地反映镜头的内容,同时还要考虑到计算过程的复杂性。选取的代表帧应该能够提供给用户一个镜头内的场景运动以及表示出镜头内容的含义。第14章视频识别通常在一个镜头中,各帧对镜头内容的表达力并不是相同的。在进行代表帧选取时总希望选择那些最具内容表达概括力的帧
24、。最简单的方式就是选用镜头的任何一帧作为代表帧,如镜头的起始帧、时间中点帧或者镜头的结束帧作为该镜头的代表帧。这种方法运算量最小,可以获得最少数目的代表帧,非常适合于内容活动性小或基本不变的镜头。第14章视频识别1.平均法平均法平均法是指通过对整个镜头的计算,将具有一定平均意义的视频帧作为镜头代表帧。通常,平均法分为帧平均值法和直方图平均法。(1)帧平均值法:即取一个镜头中所有帧的某个目标位置上的像素值的平均值,将镜头中该位置的像素值最接近平均值的帧作为代表帧。该方法的难点在于对目标位置的选定。由于镜头中任意两相邻帧之间的差异体现的位置并不是固定的,这样就降低了帧平均法选取代表帧的正确性。第1
25、4章视频识别(2)直方图平均法:即将镜头中所有帧的统计直方图取平均,选择与该平均直方图最接近的帧作为代表帧。由于视频中的帧已经由三维的视频流退化成了二维的图像,因此可以选择图像处理中常用的低级视觉特征,例如颜色、纹理、形状等,作为帧图像的特征进行统计平均。而在诸多的可视特征中,选择颜色特征是较直接而有效的。第14章视频识别这是因为,一方面,并非所有的镜头都有显著的纹理、形状等其他可视特征;另一方面,虽然几何线索是识别对象最可靠的依据,但是在视频信息中有意义的对象或场景常常反复交错出现。颜色特征实际上是最为有效的手段,两个包含不同对象或背景的镜头一般来说颜色不会非常相似。各种颜色特征中最常用的是
26、颜色直方图,它反映了图像帧颜色的统计分布和基本色调。帧平均值法和直方图平均法从计算量来说都不大,并且具有一定的平均意义。但对于有大运动变化的镜头,整个镜头的任何一帧都无法反映出其全部内容。第14章视频识别2.时间自适应算法时间自适应算法对于那些存在摄像机频繁运动或多个对象进出的高活动性镜头,以上的方法可能会丢掉许多原镜头中所包含的信息。所以,一种较合理的代表帧提取策略是根据镜头内容随时间的变化适应性地选取代表帧。对于一个一维的连续信号g(x),若想选择一组离散点x1,x2,xn,使得g(x1),g(x2),g(xn)形成对信号g(x)变化特点的良好简要表示,显然希望g(xi)与g(xi+1)(
27、i=1,2,n1)间存在足够的差异。第14章视频识别根据上述思想,可以得到时间自适应的代表帧提取算法。设镜头S由如下帧序列f1,f2,fn构成,算法如下:(1)选择f1为代表帧输出;(2)i=1,l=2;(3)计算 11),(lijjjffdsd第14章视频识别(4)若sd,则选择fl为代表帧输出,并令i=l;(5)l=l+1;(6)若ln,则结束退出,否则转(3)。其中:是一个阈值,用来控制选取代表帧的数量;d()用于度量基于某个特征的两帧之间的相似程度,值越小则两帧越相似,一般可以采用颜色直方图来度量。第14章视频识别3.大运动变化镜头的代表帧提取方法大运动变化镜头的代表帧提取方法对于包含
28、有场景或目标变化的大运动镜头,如一个球在草地上来回滚动,有时候球可能占据了整个画面,有时候又可能向后滚得很远以至于只剩下草地占据大部分画面,或者两者都有的情况,使得整个镜头的变化很大。如果取这三种情况的任何一种作为代表帧都不太合适,如果取这三帧作为整个镜头的表示,则能较好地反映整个镜头的情况。大运动变化镜头的代表帧提取方法是基于视频帧颜色数据和直方图分布来选取镜头代表帧的。第14章视频识别在检测到一个镜头以后,首先可以确定该镜头是平稳镜头还是大运动变化的镜头或是摄像机引起的变化镜头。如果是平稳镜头,则帧间差值维持较小的数值,且取值比较稳定。如果是大运动变化的镜头(包括摄像机运动引起的变化),则
29、帧间差值一直维持较大的数值,且起伏很大。对于平稳镜头,选取一个代表帧就足够了;对于大运动变化的镜头,可用如下方法来提取代表帧。第14章视频识别设一个镜头的第i个图像帧为fi,其直方图表示为H(fi),帧间差值为Di,1和2分别为较低的阈值和较高的阈值,则代表帧RF提取过程如下:(1)对于所有i,如果有1Di2,则取RF1=fj1,RF2=fj2,其中j1为小于i0的某个数,j2为大于i0的某个数。第14章视频识别(3)如果差值Di不满足(1)中的条件,且有多个差值满足(2)中的条件,其中最大的差值为Dj0,则取RF1=fj01;对于其他满足(2)中条件的对应帧,计算)()(110jjjfHfH
30、Dii如果Dji2,取RF2=fji1(jij0),然后再将其余满足(2)中条件的对应帧与RF1和RF2比较,计算Dj(jji,jj0),如果与上述两帧的差都满足(2)中的条件,则RF3=fj1。以此类推,可得到所有与前面所选的代表帧不相似的帧作为代表帧。第14章视频识别上述算法表明:(1)对于变化不太强烈的大运动变化镜头,可取镜头中任何一帧作为代表帧。(2)对于有强烈变化的镜头,取变化前和变化后的两帧作为代表帧。(3)如果镜头内变化很多,且它还是一个镜头,则并不需要选取所有变化前后的帧作为代表帧。而先取运动变化最明显的前一帧作为初始代表帧,其他代表帧的选取通过与此代表帧比较,如果与此代表帧相
31、似,则不再作为代表帧,只有与初始代表帧不相似的帧才可作为后面选定的代表帧。第14章视频识别4.基于镜头运动的拼接图法基于镜头运动的拼接图法对于平稳的镜头,选取一个代表帧即可。但对于有些特殊的镜头,如时间较长的、缓慢转动的、摄取全景的镜头或长距离摇动的镜头,一个代表帧往往不能完全表示整个镜头的内容,这时候就需要提取多个代表帧。但直接提取的多个代表帧在表现上具有很多相似之处,如果直接将多个代表帧表现出来,不仅会造成空间的浪费,而且用户浏览时也无法区别这多个代表帧是一个镜头还是多个镜头。因此,需要将整个镜头用一幅能反映全部镜头内容的图像来表示,这幅图像需要通过拼接来实现。第14章视频识别所谓拼接图,
32、又叫全景图,即通过计算主要背景的运动转换,将运动变化的视频帧图像无缝地拼接成一个合成的图像作为整个镜头捕获的所有运动情况的真正描述,这个合成的图像即为拼接图。拼接图将视频镜头的多个视频帧拼接成一个全景图,这个全景图作为代表帧可以将整个镜头的运动状态反映出来。全景图的拼接方法简单地说就是将相邻的两帧图像中的相同地方保留,再加上不同的地方,以此类推,得到包括全景的图像。第14章视频识别拼接图像的生成包括以下3个步骤:(1)图像对准。此步骤根据图像运动模型,计算相邻帧运动参数,使得各帧图像都在一个统一的坐标系下对准,以进行拼接。(2)图像整合。在经过图像对准后,对于统一坐标下的同一点,往往有多个帧中
33、的像素与其对应。图像整合即从这些像素求出拼接中像素的过程。第14章视频识别(3)残差估计。在得到图像拼接以后,预测图像和实际的帧之间存在着误差,称为残差,这需要根据具体的情况进行估计和相应的处理。显然,采用图像拼接算法提取镜头代表帧是最为有效、可靠的。但此算法的复杂程度较高,其本身亦是值得深入研究的课题,因此,在基于内容的视频检索中,一般不采用这种拼接算法选取代表帧。第14章视频识别14.2主主 持持 人人 识识 别别在新闻视频分析和新闻视频数据库的研究中,主持人镜头检测具有重要的意义。主持人镜头是新闻视频所特有的,是新闻视频与其他视频类型的最明显的区别之一。主持人镜头是新闻场景的重要结构特征
34、,它的出现往往表示一个新闻故事的结束和新的故事的开始,故可以作为新闻场景分割的边界。因而对主持人镜头的检测已成为新闻节目内容分析的重要手段。第14章视频识别在新闻节目中,当主持人报道新闻主要内容时,视频帧有明显固定的模式。例如,当有一个主持人进行新闻报道时,画面可以分为三个部分:主持人人脸、节目图标和背景画面。目前,新闻视频主持人镜头检测方法大致分为模板匹配方法和聚类方法两类。第14章视频识别模板匹配方法的核心思想是利用主持人镜头在时间和空间结构的先验知识建立播音员镜头模板,然后把候选播音员镜头和模板进行匹配,根据某种相似度度量决定其是否为播音员镜头。在此基础上出现了众多改进算法,比如,基于主
35、色特征模板方法、基于背景不变性的模板匹配方法、二阶段模板匹配方法、基于人脸肤色特征的模板匹配方法。这类方法依赖于模板中内容的稳健性,当主持人出现的方式、演播室背景、主持人的位置和大小、光照条件等发生变化时,性能受到很大影响,通用性不强。第14章视频识别聚类方法抓住一段新闻节目中主持人镜头重复出现、内容变化不大的特点,对镜头的关键帧提取特征后进行聚类,根据类的大小确定主持人镜头。当非主持人镜头也重复出现,并且内容相似的时候,聚类方法往往产生误判,并且主持人镜头的背景也会动态变化,聚类方法会产生漏判。第14章视频识别通过对各种类型的新闻节目进行大量的分析、统计,可以发现主持人镜头中相对稳定的就是主
36、持人本身。因此提取主持人自身的特征是充分刻画主持人镜头和非主持人镜头差异的有效途径。一种简单、有效的改进是首先在线提取主持人镜头,从镜头关键帧中获得扩展人脸区域模板(一般为自动选取,有时也需要人工协助),将其作为主持人镜头模板,然后利用该模板对检测出的扩展人脸区域进行匹配,根据匹配结果确定主持人镜头。在匹配中,为了克服人脸检测算法带来的虚警问题,引入了多重查询的思想,并对结果进行融合得到最终匹配结果。该方法称为扩展人脸区域(Extended Face Region)方法,简称EFR方法。第14章视频识别EFR方法具有计算简单、检测精度高的特点,同时它集成到镜头分割的算法中,在一次扫描视频序列的
37、过程中不仅可以完成镜头分割,而且能够准确定位主持人镜头。下面介绍EFR算法的具体步骤,如图14-12所示。第14章视频识别图 14-12EFR方法原理框图第14章视频识别1.扩展人脸区域提取和特征表示扩展人脸区域提取和特征表示主持人的扩展人脸区域(EFR)的提取是建立在镜头检测的基础上,对镜头的关键帧进行处理。由于一个主持人镜头内部运动变化相对于非主持人镜头来说较小,因此直接选取镜头的时间中点帧作为关键帧,然后利用OpenCV里的人脸检测函数对关键帧进行扫描,对检测到的人脸区域按比例向下延伸得到人的上半身区域,从而得到代表这个镜头的EFR。主持人镜头的EFR包含了主持人人脸信息、主持人衣服的颜
38、色和风格信息。第14章视频识别它与演播室背景、主持人的位置、标题字幕无关,也可与现场报道中类似于主持人镜头的EFR区别开来,这为检测新闻视频中主持人镜头提供了有力的依据和保证。图14-13(a)、(b)、(c)给出了一段英国BBC新闻中不同时刻的主持人镜头,可以看出,主持人的位置、演播室背景、字幕位置都出现了明显改变,但是,不同镜头中的EFR,即白色矩形边框中区域,与图14-13(d)相比非常相似。图14-13(e)和(f)是两个容易与主持人镜头混淆的例子,但是从EFR来比较,会发现与图14-13(d)差别明显。第14章视频识别图 14-13一段BBC新闻中不同时刻镜头与主持人EFR模板第14
39、章视频识别2.建立建立EFR模板模板对于大多数的新闻节目,在新闻的主题音乐结束之后的一个相对固定的时间间隔内通常会有主持人镜头出现,如果该新闻节目是由多主持人联合播报,那么在这个主持人镜头中会包含所有主持人,例如CCTV1新闻联播节目、英国BBC等,这样就可以利用检测到的主题音乐的结束点和固定的时间间隔来定位第一个主持人镜头。第14章视频识别提取EFR,建立主持人的EFR模板,采用分块HSV颜色直方图作为模板参数。对于一些特殊情况,可以在播放新闻时,与系统交互地选取典型主持人画面,提取画面中的主持人EFR作为模板。模板的数目与主持人的数目相同。第14章视频识别3.EFR匹配匹配在EFR匹配时,
40、计算对应区间直方图之间的差异,并对不同的区间设置不同的加权系数,以加权后的平均距离作为二者之间的相似度。在对EFR进行分块时,综合考虑计算的复杂度和检测结果的精度,分割成33个区域。第14章视频识别在得到了每个区域的HSV直方图矢量后,需选择合适的距离度量来表示对应区域直方图的差异,可以简单用绝对值距离来表示,这样计算简单,满足计算速度的需要:710,jkjklS HHHlHl(14-6)通过实验,EFR的各个区域的相对加权系数如式(14-7)所示,式中加权值的位置和图像分割区域相对应。分割区域的加权体现了各分割区域的重要程度。第14章视频识别1234567891.02.01.01.02.01
41、.02.04.02.0wwwWwwwwww(14-7)计算出候选主持人EFR与EFR模板各对应区间域直方图距离,分别记为d1,d2,d9,则二者之间的相似度由加权系数和区域直方图差值计算得到 第14章视频识别9911iiiiiSimwdw(14-8)这个值在0和1之间,越是接近0,则表明候选主持人EFR与EFR模板越相似。虽然这种匹配方法能取得不错的性能,但是由于人脸检测算法存在误检或者将候选关键帧中的非主持人人脸检出,会导致主持人镜头的关键帧中存在多个候选EFR,这些EFR中,有的的确是主持人EFR,有的却不是,因此还需要采用合适的匹配策略来判定候选镜头是否是主持人镜头。第14章视频识别这里
42、引入多重查询的思想,对于候选镜头中的每个EFR都与EFR模板进行匹配得到相似度Simi(i=1,m),m为候选EFR个数。如果EFR模板数不只一个,则取该候选EFR与模板进行匹配时的最小值作为相似度。当计算完所有候选区域的相似度后,取相似度中的最小值Min(Simi)作为候选镜头是否是主持人镜头的得分,如果小于指定的阈值,则判定为主持人镜头。这里,以东森新闻中一主持人镜头为例,给出EFR模板匹配流程图,如图14-14所示,可见,只要候选EFR中有一个是主持人EFR,那么该镜头就判别为主持人镜头。第14章视频识别图 14-14EFR模板匹配流程图第14章视频识别从新闻视频数据库中选取比较有代表性
43、的几类新闻节目作为实验对象。其中包括:1个小时CCTV1的新闻联播,它的主持人镜头画面变化比较小,没有太多的动态背景和标题条,属于标准的双主持人交替播报形式;1个小时CCTV2的全球咨询榜,它的主持人镜头内有较大的动态窗口(约占2/3),主持人表情和姿态变化丰富,属于单主持人连续播报的形式;1个小时的东森新闻,它的主持人镜头画面变化非常大,有动态变化的背景和标题;1个小时的英国BBC新闻,它的主持人镜头画面变化也非常大,类似主持人镜头出现较多。以上测试数据约为4个小时,共计有2811个镜头,其中实际的主持人镜头为106个。在测试前手工标注出样本的所有主持人镜头,作为方法检测结果的标准参照。第1
44、4章视频识别对以上实验数据分别采用模板匹配法、人脸检测法、动态聚类法和EFR方法进行主持人镜头检测。采用常用的查准率(准确率)和查全率(召回率)两个指标来评估主持人镜头检测算法的性能。查全率和查准率的定义如下:正确检测主持人镜头数目查全率所有主持人镜头数目正确检测主持人镜头数目查准率检测到主持人镜头数目第14章视频识别四种方法的平均查全率和查准率如图14-15所示,各类新闻视频的检测结果如表14-1 所示。从图14-15可以看出,EFR方法具有很好的适应性,在平均查全率上达到了94.1%,与模板匹配法、人脸检测法和动态聚类法相比分别提高了9.1%、7.3%和5.2%,在平均查准率上达到了96.
45、4%,与模板匹配法、人脸检测法和动态聚类法相比分别提高了6.9%、6.4%和8.0%,效果明显。第14章视频识别图 14-15四种方法的平均查全率和查准率第14章视频识别第14章视频识别14.3标标 题题 条条 识识 别别标题条作为新闻视频的一个重要特征,在新闻视频的研究中占有非常重要的地位。标题条的出现往往表示一个新闻故事的结束和另一个新闻故事的开始,故可以作为新闻场景分割的标志。标题条的文字信息是对当前新闻场景内容的最简练且准确的概述,它能很好地代表新闻故事的内容,因而对标题条的检测已成为新闻节目内容分析的重要手段。这里所说的标题条识别包括两方面内容:一方面,检测在时间维上有哪些视频帧中存
46、在标题条;另一方面,对于一个特定视频帧在空间维上识别标题条文字所在的具体子区域。第14章视频识别14.3.1含有标题条的图像帧检测含有标题条的图像帧检测在对大量新闻样本进行观察后发现以下几条规律:(1)标题条出现的位置相对固定,一般都在屏幕下方1/3范围内。(2)标题条的背景都为不透明或半透明,通常选取白、蓝、黄色的醒目的颜色,文字选取与背景相差明显的颜色,以达到醒目、易于阅读的效果。第14章视频识别(3)标题条都为矩形。对一幅典型的带有标题条的新闻视频帧(如图14-16所示),可从上而下将其分为:区域1:新闻故事视频内容;区域2:新闻故事内容文字描述;区域3:报道记者及电视台(有时不存在);
47、区域4:滚动纯文字新闻(有时不存在)。第14章视频识别图 14-16典型的标题条视频帧第14章视频识别在这四个区域的交界处对应着三条边缘直线,把它们分别指定为边缘直线L1、L2、L3。在通过大量实验后注意到,几乎所有存在标题条的新闻视频帧至少可以检测到一条边缘直线,因此可以将水平边缘直线作为标题条识别的依据。第14章视频识别进一步观察后发现:为了便于区别,新闻节目中的区域2和区域3所采用的颜色相差较大,因而边缘L2如果存在的话,一般不会漏检。边缘L1、L3有可能受到干扰而没有被全部检测出来,这时可以根据已检测到的边缘直线的具体位置初步判定其类型,然后通过文字区域检测部分确定未检测到的水平边缘直
48、线的位置。第14章视频识别下面详细介绍具体步骤:首先把新闻视频帧转化为灰度图像。在一些文献中常采用RGB颜色空间的R通道进行变换。这样做的依据是视频中出现的文字大多为白、黄和黑色,选择R通道进行变换会得到清晰的文字边缘。但考虑到视频中文字颜色的不确定性,为增加算法的适应性,在此选择如下公式:第14章视频识别(,)0.299*(,)0.587*(,)0.114*(,)Y x yR x yG x yB x y(14-11)其中:Y(x,y)为像素点(x,y)的灰度值;R(x,y)、G(x,y)、B(x,y)分别为(x,y)点像素RGB颜色的红、绿、蓝分量。得到灰度图后,采用Roberts边缘检测算
49、子对图像进行边缘检测。Roberts算子是22 算子,是一种利用局部差分寻找边缘的算子,由下式给出:第14章视频识别22 1/2(,)(,)(1,1)(,)(1,1)g x yf x yf xyf x yf xy(14-12)由于Roberts算子对边缘陡峭的低噪声图像响应效果比较好,因此经它处理后的水平边缘直线可以比较容易地被检测到。第14章视频识别在具体检测过程中,由于背景噪声的干扰可能会造成水平边缘直线不连续,因此采用一种方法,即检测某一水平位置连通像素个数大于a的线段个数x,如果x大于某个值,则说明该水平位置有多条线段,进而认为这几条是被分割开的水平直线的组成部分,即该水平位置存在一条
50、直线。第14章视频识别14.3.2文字区域识别文字区域识别 在14.3.1节中所进行的边缘直线检测尚无法确定标题条是否存在,还需要进一步检测标题条文字区域来加以确定,同时提取标题条中新闻文字(这里所指的是新闻场景主题文字,不包括记者及新闻来源的文字信息)的具体区域。进一步观察各种新闻中的标题条边缘直线L1、L2、L3的位置YL1、YL2、YL3的特点,以及它们与文字区域T的关系后,可发现如下几个规律:第14章视频识别(1)一般来说,在同一个新闻节目中,标题条内的文字大小是相同的。因此,可以先检测到某一个存在两条或三条边缘直线的视频帧,取相邻两条边缘直线的垂直距离作为窗口的大小W(当两条边缘直线