1、图像识别图像识别PPTPPT幻灯片幻灯片PPTPPT 本本PPTPPT课件仅供大家学习使用课件仅供大家学习使用 请学习完及时删除处理请学习完及时删除处理 谢谢!谢谢!一、基本概念一、基本概念 让计算机具有认识或者识别图像的能力,即图像识别(模式识别)。模式识别应用无所不在,是当今最活跃的研究领域之一。医学:病灶 交通:车流量 遥感:区分农作物、道路、湖泊 文字识别 模式识别技术起源于人类自身对事物的认知分析过程,是依据一定的量度或观测基础把待识别模式划分到各自的模式类中去的过程。图像识别(模式识别、目标识别)图像识别(模式识别、目标识别):对物体的特征进行比较、分析、判断,从而将它们分类或识别
2、。模式:对物体描绘(如特征)的组合。模式:对物体描绘(如特征)的组合。存在于时间和空间中,可以区别它们是否相同或相似的可观察的事物。模式类:一个拥有某些共同性质的模式组。模式类:一个拥有某些共同性质的模式组。w1、w2、w3 指模式所属的类别或同一类中模式的总体。模式识别所得到的结果是一幅由明确意义的数值或符号构成的图像或图形文件。属于图像分析的范畴。1.1.模式的概念模式的概念信息获取数据预处理特征提取和选择分类器设计分类决策训练过程输出结果 利用图像进行模式识别的系统 图像信息获取 信息加工处理图像分割,特征抽取与选择 判断、分类(与抽取特征方式密切相关,特征向量)模式识别实际上包含了以下
3、两个步骤:(1)特征提取和选择(2)决策分类图11.1 模式识别系统的基本构成2.2.常用的三种模式组合常用的三种模式组合(1)(1)模式矢量模式矢量 1936年,Fisher论文提出判别式分析技术,通过测量花瓣的宽度和长度识别三种不同类型的鸢(yuan)尾属植物的花。Iris Setosa(多刺的)Iris Virginaca(单性的)Iris Versicolor(杂色的)x=(x1,x2)T,x1和 x2分别代表花瓣长度和宽度。模式矢量 x x=(x1,x2,xn)T 中元素性质取决于描述物理模式自身所采用的方法。图11.2 用两个度量描述三种鸢尾属植物的花花瓣长度(cm)花瓣宽度(cm
4、)模式类模式类 w1、w2、w3分别表示Setosa(多刺的)、Virginaca(单性的)和 Versicolor(杂色的)三种花。3.3.模式识别的主要方法模式识别的主要方法 统计模式识别统计模式识别 基于匹配的识别技术基于匹配的识别技术 统计学方法/决策论 抽取图像特征 矢量描述(定量描述):x x=(x1,x2,xn)T 结构(句法)模式识别 分析图像结构关系 串和数(结构描述,定性)模糊模式识别方法 人工神经网络识别法人工神经网络识别法 统计学习理论和支持向量机识别方法二、统计模式识别二、统计模式识别(基于决策理论方法)(基于决策理论方法)统计模式识别方法最终都要归结为分类的问题。统
5、计模式识别的过程1.1.分类器分类器 基于使用决策(判别)函数分类器 对W个模式类w1,w2,wW依照属性寻找W个判别函数d1(x x),d2(x x),dW(x x),若模式x x属于类wi,则 di(x x)dj(x x),j=1,2,W;ji。关键点:n维模式矢量x x=(x1,x2,xn)T的建立,即选择适当的特征产生描述参数。(1)(1)分类器的设计分类器的设计 设计目标:建立分类器的逻辑结构 建立分类规则的数学基础 分类器计算出表示一个对象与某类典型之间的相似程度该对象特征的一个函数,用来确定该对象属于哪一类。多数分类器的分类规则都转换成阈值规则,将测量空间划分成互不重叠的区域,每
6、个类对应一个(或多个)区域。如果特征值落在某一个区域中,则将该对象归于相对应的类中。(某些区域可能在某种情况下“无法确定”)(2)(2)分类器的训练分类器的训练 目的:确定划分类别的阈值。一般做法:用一组已知的对象训练分类器。训练集由每个类别中已被正确识别的一部分对象组成。训练分类器的规则:简单的:将分类错误的总量降至最低(最小值)使用损失函数,对不同的错误分类采用适当的加权。(3)(3)分类性能测量分类性能测量 直接对一组已知类别的对象的测试集进行分类,从而估计分类器的准确率。(测试集具有代表性,且没有错误)(测试集最好是独立的)使用一组已知对象的测试集,估算每一类别中对象特征的PDF(概率
7、密度分布函数)预先分类代价高时,可以使用循环方法估计分类器的整体性能。以一个对象为测试对象,其他为训练样本。2.2.特征选择特征选择 良好的特征应具有的特点:可区别性:不同类被的特征值具有明显差异。可靠性:同类对象特征值比较接近。独立性:各特征之间彼此不相关。数量少:系统复杂度随特征个数(特征参量维数)迅速增长。从许多可能的特征中选择一些付诸于度量并呈现给分类器的特征。不断删去无用特征,组合有关联特征。可以通过计算每类的特征值,进行分析选择。3.3.匹配匹配 原理:基于匹配的识别技术通过原型模式矢量表示每一个类。未知模式被按照预先定义的度量赋予与其最相近的类。方法:最小距离分类器(最简单)基于
8、相关的方法(1)(1)最小距离分类器最小距离分类器 在欧氏空间计算未知量和每一个原型矢量间的距离在欧氏空间计算未知量和每一个原型矢量间的距离。例如,假设每个模式类的原型定义为该类模式的平均矢量:则欧氏空间距离判据计算距离测度为:Di(x x)的值是最小距离时,把x x划归给类wi。等同于评估函数:并在di(x x)得出最大数值时将x x划归给类wi。类wi 和wj决策边界:应用条件:各类均值间距比各类半径大许多时效果很好。WjNjwxjjj,2,1,1xmWjDjj,2,1,)(mxxWjdjTjjTj,2,1,21)(mmmxx0)()(21)()()()(jiTjijiTjiijdddmm
9、mmmmxxxx图11.4 Iris Versicolor(杂色的)和Iris Setosa(多刺的)类的最小距离分类器的决策边界。黑点和方块是平均值。边界方程:d12(x x)=d1(x x)-d2(x x)=2.8x1+1.0 x2-8.9=0花瓣长度(cm)花瓣宽度(cm)图11.5 美国Banker协会的E-13B字体的字符集和对应波形。字符设计在97个字中以便读取。每个字符用含有精细磁性材料的墨水印刷。(设计者保证大的均值分离和小的类分布的一个示例)(2)(2)相关匹配相关匹配MN大小的图像f(x,y)和大小为JK的子图w(x,y)之间的相关:式中,x=0,1,2,M-1;y=0,1
10、,2,N-1;和式代表图像w和 f 相互重叠的地方。缺点:对图像w和 f 的幅度 变化过于敏感。sttysxwtsfyxc),(),(),(图11.6 相关的排列2122),(),(),(),(),(),(),(stststwtysxwtsftsfwtysxwtsftsfyx 改进:在匹配过程中使用相关系数。式中,x=0,1,2,M-1;y=0,1,2,N-1;是图像 w的像素平均值(只计算一次);是 f 中与当前所在位置重合区域的像素平均值。wf图11.7 通过相关系数进行对象匹配(a)图像,(b)子图,(c)(a)和(b)的相关系数(匹配时出现最高值)5.5.最佳统计分类器最佳统计分类器
11、基于统计概率方法基于统计概率方法 多数测量和判断物理事件的场合,统常会产生随机的模式分类,因此对概率考虑十分重要。最佳:平均的,产生分类错误的概率很低。(1)(1)概率论基础概率论基础 先验概率先验概率:表示在一个对象尚未被测量之前,对于对象所掌握的情况。(如P樱桃=1/3,P苹果=2/3)条件概率条件概率:当给定对象属于类1时,对象直径为 x 的概率。记为p(x|w1)。(2)Bayes(2)Bayes理论理论 Bayes理论将类隶属度先验概率、条件PDF和所进行的度量结合起来,计算出该对象属于每一类的概率,并据此赋予该对象最可能的类别。对象测量后,该对象属于第i类的概率(后验概率)可以根据
12、Bayes定理计算:其中 是一个使后验概率的和为1 的归一化因子。)()()|()|(xpwPwxpxwPiii21)()|()(iiiwPwxpxp 一般情况:设每个对象有n个度量。特征向量x x=(x1,x2,xn)T。每个被测量对象对应于n维特征空间中的一个点。假设对象的类别m个。第i类隶属度的后验概率为:miiiniinniwPwxxxpwPwxxxpxxxwP1212121)()|,()()|,(),|(3)Bayes(3)Bayes风险风险 用任一特征向量将一对象归入任一类总有一定风险。将一个对象归入某一类别的错分风险可以用代价(损失)函数(失效率)来定量分析。设lij是第i类的对
13、象归入第j类引起的损失。分类正确(i=j)时lij为0。损害小的错分类值lij也较小。危害严重的则lij较大。假设,将一个对象分入第i类,由该分类导致的期望损失值为条件风险(条件平均风险或条件平均失效),等于该对象所有可能判属的m类所引入代价的平均。mjnjijnixxxwplxxxwR12121),|(),|(4)Bayes(4)Bayes决策规则决策规则 每个对象应该归入产生条件风险最小的类别中。用Rm(x1,x2,xn)表示相应于特征向量(x1,x2,xn)T的最小风险。使用Bayes决策的分类器长期风险称为Bayes风险:Bayes决策的总风险也是最小的。Bayes分类器的决策函数:哪
14、个类的决策函数值最大,模式x x就归属于哪一个类。nnnmdxdxdxxxxpxxxRR212121),(),(WjwPwpdjjj,2,1)()|()(xx(5)(5)高斯模式类的贝叶斯分类器高斯模式类的贝叶斯分类器 先考虑包含两个模式类(W=2)的一维问题(n=1),且两个模式类具有高斯密度,均值和标准差分别为m1、1和 m2、2。则贝叶斯判别函数形式为:)(21)()|()(222)(jmxjjjjwPewPwxpxdjj图11.8 两个一维模式类的概率密度函数(PDF)若两各类出现几率相等,点 x0就是决策边界。图11.9 三维空间中的两个模式类和它们的贝叶斯判别边界(阴影处)决策面:
15、d1(x x)-d2(x x)=8 x1-8x2 8x3+4=0示例示例使用使用BayesBayes分类器对多频谱数据的分类分类器对多频谱数据的分类图11.10 (a)多频谱图像,(b)使用Bayes分类器的机器分类结果图11.11 由多频谱扫描器生成的4幅数据图像经过配准后的模式矢量格式四、神经网络识别法四、神经网络识别法 一些具体情况:模式类的统计特性未知或无法估计最好是直接通过训练过程生成所需判别函数。受生物神经系统启发产生,大量使用非线性元素的计算单元(神经元),类似大脑神经元的互联方式组织起来。具有对一些特定问题的适应能力和并行处理能力。20世纪40年代早期McCulloch和Pit
16、ts提出。80年代Rumelhart、Hinton和Williams发展出“反向传播”方式学习的德尔塔(delta)规则,为多层机器提供了一种有效的训练方法。结构:由许多互联的相同的节点(处理单元,PE)构成。每个PE从“上游”的几个PE接受输入信号,产生一个标量输出,传给“下游”的一组PE。1.1.处理单元处理单元 基本处理单元的动作:将输入向量同权向量相乘,再经过一次S形变换,即得到输出值。此输出再通过网络的相互连接传递下去,成为许多PE的输入。可用点积函数表示:X X是输入向量,WW是处理单元的权重向量(weight vector),O为输出。1SgxggONiiiTWX g为激励函数,
17、非线性,形状为S形,单调增加,可微分。其变量趋向正负无穷大时,函数值分别为1和0。2.2.工作过程工作过程(监督)学习训练 已知类别的特征向量随机呈现给神经网络。每次输入都使PE之间的连接权中根据一种副定的规则得到细微调整,使得网络输出朝正确方向转变。直到每个PE都收敛到合适的权重集为止。应用接受特征向量作为输入,产生一个输出向量标志该未知对象属于不同类别的可能性。输入未知对象的特征向量到第一层的所有PE。通常特征向量会增加一维,其值恒为1。这提供一个附加权重,在函数g中起到偏移量的作用。输入信息经过不同层传播,使输出层上产生相应的输出向量,并根据输出的结果将该对象划分到某一类中。绝大多数神经
18、网络采用数字化仿真实现。用软件或数字信号处理芯片模拟并行计算。先模拟配置,然后训练。3.3.多层前馈神经网络多层前馈神经网络(BP(BP,Multilayer Multilayer feedforward neural network)feedforward neural network)图11.12 多层前馈神经网络模型放大部分为神经元基本结构,偏移量 j当作不同的权值处理(1)(1)分类器训练分类器训练 一个训练模式:某一特定的输入向量与其对应的目标输出向量。例如,对两层网络进行训练。训练开始时,所有连接权设为-0.5,0.5区间的随机值。所有输入向量经过适当的比例调整后,使得各个分量的最
19、小值和最大值分别为0.1和0.9。随机挑选训练模式,输入特征向量,得到输出向量后,同目标向量做比较。根据两向量之间的差别对隐含层和输出层之间连接的权重系数做调整,使得输出向量略微趋近于目标向量。之后,再对与输出层相连的隐含层的连接权重做相似的调整。(2)(2)多层网络的训练多层网络的训练 训练过程自顶向下,先从输出层的PE开始。输出层(k=N)的第j个结点的第i个权重系数的调整量为:(1)广义的(德儿塔,delta)学习规则,基于梯度下降法。其中误差 为目标向量与实际输出向量的第j个分量(期望的输出值)之间的差别。接着,每一隐含层结点的权重系数用下式进行调整:(2)其中的jk表示所有输出结点上
20、的误差总和:1iNjNjNijNOSgwjNjjNOt 1ikjkjkijNOSgw1111kNijkijkjkw多层网络的训练多层网络的训练 从输出层向输入层反复使用式(1)和(2)调整。训练过程中误差传播是反向的。训练期间,在输出层对每一输入向量统计RMS误差值。一般降至0.01以下可以停止训练。这时称该网络已收敛。各连接的权值固定下来。(3)(3)神经网络应用示例神经网络应用示例图形分类图形分类图11.13 第一行:参考图形 第二行:用于训练图10.10所示神经网络的典型噪声图像图11.14 用于识别图11.12中图形的三层神经网络 类一致:Oi0.95 类不同:Oq 0.05V:无噪声
21、图形中,每个轮廓线上的像素原始坐标概率 测试噪声水平测试噪声水平R R:=1-V。随机赋予某轮廓线像素的8邻域之一的坐标的概率。噪声的等级随着V的减小而增加。检测模式检测模式:R=0.10.6生成100个噪声模式,共400个。Rt:代表用于生成训练数据的R值。从无噪声(Rt=0)训练开始,经过一系列有序的学习过程。度量神经网络性能的指标:错误分类的概率度量神经网络性能的指标:错误分类的概率检测过的模式总数错误分类的模式数错误分类的概率 图11.15 作为噪声水平函数的神经网络性能Rt 折线代表以此值训练的神经网络,检测具有R值的数据的结果错误分类概率测试噪声水平(R)图11.16 通过增加训练模式数目改进Rt=0.4时的效果(Rt=0.3的曲线作为参考)错误分类概率测试噪声水平(R)