统计学习理论与支持向量机概要1课件.ppt

上传人(卖家):晟晟文业 文档编号:4928465 上传时间:2023-01-26 格式:PPT 页数:76 大小:901.51KB
下载 相关 举报
统计学习理论与支持向量机概要1课件.ppt_第1页
第1页 / 共76页
统计学习理论与支持向量机概要1课件.ppt_第2页
第2页 / 共76页
统计学习理论与支持向量机概要1课件.ppt_第3页
第3页 / 共76页
统计学习理论与支持向量机概要1课件.ppt_第4页
第4页 / 共76页
统计学习理论与支持向量机概要1课件.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、2023-1-261统计学习理论统计学习理论 和支持向量机和支持向量机 13720915 刁志蕙刁志蕙2023-1-262内容提要内容提要n统计学习理论的基本概念与原理统计学习理论的基本概念与原理n支持向量机支持向量机n支持向量机在性别分类中的应用支持向量机在性别分类中的应用n总结与展望总结与展望2023-1-263统计学习方法概述统计学习方法概述 统计方法是统计方法是主要研究如何从一些观测(样本)出主要研究如何从一些观测(样本)出发得出目前尚不能规律,利用这些规律去分析客发得出目前尚不能规律,利用这些规律去分析客观现象,对未来数据或无法观测的数据进行预测。观现象,对未来数据或无法观测的数据进

2、行预测。就是说,观测一些自然现象或专门安排的实验所就是说,观测一些自然现象或专门安排的实验所得资料,是否与理论相符、在多大的程度上相符、得资料,是否与理论相符、在多大的程度上相符、偏离可能是朝哪个方向等等问题,都需要用统计偏离可能是朝哪个方向等等问题,都需要用统计分析的方法处理。分析的方法处理。2023-1-264统计学习方法概述统计学习方法概述 统计学习方法统计学习方法:n传统方法传统方法:统计学在解决机器学习问题中起着基础性的作用。统计学在解决机器学习问题中起着基础性的作用。传统的统计学所研究的主要是渐近理论,即当样本趋向于无传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多时的统计

3、性质。统计学中关于估计的一致性,无偏性和穷多时的统计性质。统计学中关于估计的一致性,无偏性和估计方差的界等以及关于分类错误率都属于渐进特性。统计估计方差的界等以及关于分类错误率都属于渐进特性。统计方法主要考虑测试预想的假设和数据模型拟合。它依赖于显方法主要考虑测试预想的假设和数据模型拟合。它依赖于显式的基本概率模型。式的基本概率模型。n模糊集模糊集n粗糙集粗糙集n支持向量机支持向量机2023-1-265统计学习方法概述统计学习方法概述 统计方法处理过程可以分为三个阶段:统计方法处理过程可以分为三个阶段:n(1)搜集数据:采样、实验设计)搜集数据:采样、实验设计n(2)分析数据:建模、知识发现、

4、可视化)分析数据:建模、知识发现、可视化n(3)进行推理:预测、分类)进行推理:预测、分类 常见的统计方法有常见的统计方法有:回归分析(多元回归、自回归等)回归分析(多元回归、自回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)聚类分析(系统聚类、动态聚类等)2023-1-266统计学习理论的发展nVladimir N.Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,由于当时这些研究尚不十分完善,在解决模式识别问题上趋于保守,且数学上比较艰涩,而直到90世纪以前并没有能够将其理论付

5、诸实现的较好方法,直到90年代中,有限样本情况下的机器学习理论逐渐成熟起来,形成了一个完善的理论体系-统计学习理论(Statistical Learning Theory简称SLT)2023-1-267统计学习理论统计学习理论n统计学习理论是小样本统计估计和预测学习的最佳理论。n统计识别模式问题可以看作一个更广义问题的特例,就是基于数据的机器学习问题。n假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布F(X,Y),F(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布(independently drawn and identically distribute

6、d)的观测样本train set,(x1,y1),(x2,y2),(xn,yn)2023-1-268函数估计模型函数估计模型n学习样本的函数学习样本的函数:GSLMxyyy-输出系统学习机预测输出假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布F(X,Y),学习问题可以概括为:根据n个独立同分布(的观测样本训练集,(x1,y1),(x2,y2),(xn,yn)机器学习就是根据上面的n个独立同分布的观测样本,在一组函数f(x,w)求一个最优的函数f(x,w0),使期望风险最小。2023-1-269期望风险 学习到一个假设H=f(x,w)作为预测函数,其中w是广义参数.它对F

7、(X,Y)的期望风险R(w)是(即统计学习的实际风险):其中,f(x,w)称作预测函数集,w为函数的广义参数,故f(x,w)可以表示任何函数集。L(y,f(x,w)为由于用f(x,w)对y进行预测而造成的损失。不同类型的学习问题有不同形式的损失函数。()(,(,)(,)R wL y f x wdF x y2023-1-2610有三类基本的机器学习问题,它们是模式识别,函数逼近和概率密度估计。对于模式识别问题(这里仅讨论监督模式识别问题),系统输出就是类别符号。在这两类情况下,y=0,1or-1,1是二值函数,这时预测函数称作指示函数,基本定义是:在这个预测函数中期望风险就是平均错误率,使它最小

8、的模式识别方法就是贝叶斯决策在函数拟合问题中,y是连续变量(设为单值)是x的函数损失函数定义为2023-1-2611预测函数实际上,只要把函数的输出通过一个域值转化为二值函数,函数拟合问题就变成模式识别问题了。对概率密度估计问题,学习的目的是根据训练样本确定x的概率分布。记估计的密度函数为p(x,w),则损失函数定义为2023-1-2612 而对训练集上产生的风险Remp(w)被称为经验风险(学习的训练误差)也就是用算术平均的方法来逼近期望风险:,11()(,)lempiiiRwL y fxwl 经验风险由于Remp(w)是用已知的训练样本(即经验数据)定义的,因此称为经验风险,用对参数w求经

9、验风险Remp(w)的最小值代替求期望风险R(w)的最小值,就是所谓的经验风险最小化(ERM)原则.2023-1-2613经验风险最小化 首先Remp(w)和R(w)都是w的函数,传统概率论中大数定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点w*与使R(w)最小的w*是同一个点(同步最小),更不能保证Remp(w*)能够趋于Remp(w*)。其次,即使我们有办法找到这些条件在样本数无穷大时得到保证,我们也无法认定这些前提下得到的经验风险最小化方法在样本数有限时仍能得到最好的结果。2023-1-2614 根据统计学习理

10、论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集f(x,w)的所有函数(当然也包括使经验风险最小的函数),经验风险Remp(w)和实际风险R(w)之间至少以不下于1-(01)的概率存在这样的关系:)/()()(lhwRwRemp经验风险2023-1-2615过学习n在早期的神经网络研究中,人们总是把注意力集中到如何使Remp(w)最小,但很快发现,一味的训练误差小并不是总是能达到很好的预测效果,人们将学习机器对未来输出进行正确预测能力称为推广性,某些情况下,当训练误差过小反而会导致推广能力的降低,这几乎是所有神经网络遇到的所谓的过学习问题(overfitting)。从理论上看模

11、式识别也存在同样的问题,但因为所用的分类器模型是相对比较简单的,所以学习问题不像神经网络出。n之所以出现过学习现象,一是因为学习样本不充分,二是学习机器设计不合理,这两个问题是相互关联的2023-1-2616 一般的学习方法(如神经网络)是基于 Remp(w)最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法(如神经网络)的规模使得Remp(w)不断降低以至为0。但是,这样使得算法(神经网络)的复杂度增加,VC维h增加,从而(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过拟合(Overfitting).过学习过学习2023-1-2617过学习过学习Overfitting

12、and underfittingProblem:用几阶分类是合适的underfittingoverfittinggood fitProblem of generalization:一个小的经验风险并不意味着小的期望风险2023-1-2618统计学习理论的核心内容n统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较为系统的研究了经验风险最小化原则成立的条件,有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题,其主要包括下面四个方面n(1)经验风险最小化原则统计学习一致性的条件;n(2)在这些条件下关于统计学习方法推广性的界的结论;n(3)在

13、这些界的基础上建立小样本归纳推理准则n(4)实现这些新的原则的实际方法(算法)2023-1-2619学习过程的一致性问题学习过程一致性训练样本数n时,有 Remp(w)R(w),经验风险的最优值可以收敛到真实风险最优值。称该学习过程是一致的,又称该学习过程满足一致性。一个学习过程,只有满足学习过程一致性满足学习过程一致性的条件,才可以保证在经验经验风险最小化原则风险最小化原则下得到的最优方法,在训练样本数n时,得到期望期望风险最小的最优结果。风险最小的最优结果。2023-1-2620学习过程的一致性问题),(),(,()(yxdFxfyLR)()()()(0*0*RnRRnRnempn期望风险

14、期望风险R(w*|n),在L(y,f(x,w*|n)下的,由式 得到的真实风险值。如果满足其中)(inf)(0RR为实际真实风险的下确界。则称为经验风险最小化学习过程是一致的。2023-1-2621经验风险和真实风险的关系示意图 n R Remp()经验风险 R()期望风险 R(0)2023-1-2622统计学习理论的关键定理如果损失函数有界,则经验风险最小化学习一致的充分必要条件是0,0)()(suplimempnRRP即经验风险一致收敛于真实风险其中:P表示概率Remp(w)经验风险R(w)同一w的真实风险2023-1-2623函数集的学习性能与VC维n为了研究函数集在经验风险最小化原则下

15、的学习一致性问题和一致性收敛速度,统计学习理论定义了一系列有关函数集学习性能的指标。1 指示函数集的熵和生长函数指示函数集的熵和生长函数设指示函数集和训练样本集为,2,1),(),(niyxzZxfiiin函数集中的函数能够对样本集实现不同的分类方法数目,记为N(Zn)定义定义1:随机熵:随机熵将上述不同的分类方法数目的对数定义为随机熵H(Zn)=lnN(Zn)说明:随机熵与分类函数集合有关,且与样本集有关。2023-1-2624函数集的学习性能定义定义2:指示函数的熵:指示函数的熵将随机熵取期望,称为指示函数的熵H(n)=ElnN(Zn)定义定义3生长函数生长函数函数集的生长函数定义为,在所

16、有可能的样本集上的最大随机熵)(maxln)(nZZNnGn说明:1 生长函数描述了函数集把n个样本分成两类的最大可能的分法数目2 最大值:3 由于是在所有可能的样本集中取最大,因此与样本分布无关。2ln)(nnG2023-1-2625lhlhlh)4/ln()1/2(ln()/(h是函数H=f(x,w)的VC维,l是样本数.VCVC维维(Vapnik-ChervonenkisVapnik-Chervonenkis Dimension)Dimension)。模式识别方法。模式识别方法中中VCVC维的直观定义是:对一个指示函数集,如果存在维的直观定义是:对一个指示函数集,如果存在h h个个样本能

17、够被函数集里的函数按照所有可能的样本能够被函数集里的函数按照所有可能的2h2h种形式分开,种形式分开,则称函数集能够把则称函数集能够把h h个样本打散。函数集的个样本打散。函数集的VCVC维就是它能维就是它能打散的最大样本数目打散的最大样本数目h h。VCVC维维2023-1-2626VCVC维维如果存在有h个样本的样本集能够被函数集中的函数“打散”,而不存在有h+1个样本的样本集能够被函数集中的函数“打散”,则函数集的VC维就是h。如果对于任意的样本数,总能找到一个样本集能够被这个函数集“打散”,则该函数集的VC维就是无穷大。由此:如果对于一个指示函数集,其生长函数是线性的,则其VC维即为无

18、穷大。如果生长函数以参数h的对数函数为上界,则函数集的VC维是有限的且其VC维等于h。由此:由前面的定理,经验风险最小化学习过程一致的充分必要条件是函数集的VC是有限的,且收敛速度是快的。2023-1-2627VC维1 可以证明,损失函数集),(,(),(wxfyLwzQ与预测函数集),(wxf2 d维空间中的阈值分类器)sgn()(01wfiidixwwx,的VC维是d+1有相同的VC维2023-1-2628结构风险最小化归纳原则结构风险最小化归纳原则(SRM)n结构风险最小化原则n首先把函数 S=f(x,w),w.分解为一个函数子集序列 S1S2SnS:n每个子集的VC维都是有限的且满足

19、h1h2hnhkn每个子集中的函数对应的损失函数或者是 有界的非负整数或者是一定的参数对(p,k)满足supkQpz,dF z 1pR k,p 22023-1-2629n在结构风险最小化原则下,一个分类器设计要包括两方面任务:n(1)选择一个适当的函数子集(使之对问题有最优的分类能力)n(2)从这个子集中选择一个判别函数(使经验风险最小)结构风险最小化归纳原则结构风险最小化归纳原则(SRM)2023-1-2630结构风险最小化归纳原则结构风险最小化归纳原则(SRMn结构风险最小化原则给我们提供了一种不同于经验风险最小化的更科学的学习机器设计原则,但是由于其最终目的是在上式中两个求和项之间进行折

20、衷,因此实际上原则并不容易如果能够找到一种子集划分的方法,使得不必足以计算就可以知道每个子集中所取得的最小经验风险(比如所有子集都能把训练样本完全正确分类,即最小经验分线都为0)则上面两步就可以分开进行,即先选择使置信范围最小的子集。然后再其中选择最优函数。n可见关键是如何构造函数子集结构,下面我们介绍的支持向量机是一种较好的实现了有序风险最小化思想的方法2023-1-2631支持向量机支持向量机 SVMn基于统计学习理论的支持向量机(Support vecto r machines,SVM)以其优秀的学习能力受到广泛的关注。但传统支持向量机在处理大规模二次规划问题时会出现训练时间长、效率低下

21、等问题。n支持向量机是Vapnik 等人于1995 年首先提出的它是基于VC 维理论和结构风险最小化原则的学习机器。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在一定程度上克服了维数灾难和过学习等传统困难,再加上它具有坚实的理论基础,简单明了的数学模型,使得支持向量机从提出以来受到广泛的关注,并取得了长足的发展。2023-1-2632最优分类面与支持向量设线性可分样本集为)1,1(,2,1),(yRnnydiixxd维向量,2类样本,y为类别标签,则线性判别函数为 bgxwx)(分类面方程为0bxw2023-1-2633最优分类面与支持向量作判别函数归一化,即满足|g(x

22、)|1,即距离分类面最近的样本距离为|g(x)|=1,则两类的分类间隔为2/|w|。如图所示 2/|w|H1 H H2 分类间隔就是H1和H2之间的距离2023-1-2634最优分类面与支持向量n最优分类面最优分类面令分类间隔2/|w|最大,等价于|w|或者|w|2最小,使得分类面对于所有的样本能正确分类,nibyi,2,1,01)(xw支持向量支持向量过两类样本中离分类面最近的点,且平行于最优分类面的超平面H1,H2上的训练样本则称为支持向量支持向量,显见,最优分类面是由支持向量来“支撑”的2023-1-2635最优分类面与支持向量n最优分类面的求取最优分类面的求取由最优分类面的条件建立目标

23、函数,为二次型wwwwT2121)(2由满足条件作为约束条件(样本条件)nibyi,2,1,01)(xw则有约束优化问题 nibywwi,2,1,1)(sub.21)(.min2xw2023-1-2636最优分类面与支持向量由拉格朗日乘子法求解最优分类面的条件。定义拉格朗日函数为1)(21),(12bywbwLiiniixw式中i0,为拉格朗日乘子。L对w,b求极小值。0),(0),(bwLwbwLb由 得到最优化条件 niyxyiniiiiinii,2,1,0,011w2023-1-2637最优分类面与支持向量求原约束优化问题的对偶问题,可以得到单一变量的优化函数为(Q的求极大值))(21)

24、(11maxjijijniiniiyyQxx 如果i*为最优解,则有iiniixy1*w最优分类面的权系数向量为训练样本向量的线性组合。该最优解满足nibyii,2,1,0 1)(xw2023-1-2638最优分类面与支持向量因此有:对于多数样本xi来说,i*为零,而不为零的i*对应于使等号成立的样本xi即支持向量。通常支持向量的个数很少。对应于最优权系数向量,则最优分类函数为*)(*sgn*)*sgn()(1bybfiiinixxxwx上式中,只对支持向量进行作求和运算。分类阈值b*则由任意一个支持向量满足等式解出。如何处理高维特征空间中维数灾难?研究发现在特征空间Z 中构造最优超平面,并不

25、需要以显式形式来考虑特征空间,而只需要能够计算支持向量与特征空间中向量的内积,但是如何计算特征空间中的内积?SVM 不直接进行计算该内积,而是用满足M ercer 定理的核函数来代替,如下:2023-1-2639n(x)(x j)=K(x x j)式中,()是输入向量到特征空间的一个非线性映射。因此,只要将原空间中对偶问题表达式的内积形式用核函数K(x x j)代替,即是特征空间中对偶问题的表达形式。2023-1-2640广义最优分类面前面的最优分类面式在线性可分条件下推导出来的。不能应用于线性不可分情况。改造。约束条件1:对于线性不可分情况,许多样本不能满足正确分类条件式nibyi,2,1,

26、01)(xw因此,增加松弛项 ,分类条件式为01)(iibyxw0i约束条件2:线性可分条件下的分类间隔最大,线性不可分时引入约束 kc2w在两个约束条件下对错分样本最小函数求极小值 2023-1-2641支持向量机支持向量机 SVM支持向量机的数学表达支持向量机的数学表达最优分类的优化函数)(21)(11jijijniiniiyyQxx 与最优分类函数*)(*sgn*)*sgn()(1bybfiiinixxxwx表达式中都含有内积运算)(xx i如果将表达式中的内积运算由内积函数来代替,将原来的特征空间作非线性变换,算法的其他条件不变,这就是SVM.2023-1-2642支持向量机支持向量机

27、 SVM使用非线性的内积函数,将输入空间作非线性变换,变换到一个高维空间,然后在高维空间中确定最优分类面。非线性变换是通过定义适当的内积函数实现的,)(xx iKn支持向量机的基本思想支持向量机的基本思想Mercer条件,对于任意的对称函数K(X,X),它是某个特征空间的内积运算的充分必要条件是,对于任意的(x)不等于0,且K(xi,xj)=(xi)(xj),2023-1-2643n支持向量机的拓扑结构支持向量机的拓扑结构支持向量机的拓扑结构类似一个RBF神经网络。2023-1-2644常用的内积函数常用的内积函数常用的内积函数常用的内积函数不同的内积函数表现为不同的支持向量机算法,常用的内积

28、函数有以下几类(1)多项式内积函数qiiK 1)()(xxxx此时得到的支持向量机是一个q阶多项式分类器(2)采用核函数内积得到的支持向量机是一种径向基函数分类器,它与传统的的径向基函数(RBF)方法的基本区别是,这里每一个基函数的中心对应一个支持量,它们以及输出权重都是由算法自动确定的(3)S型内积函数)(tanh)(cKiixxxx则支持向量机实现的就是一个两层的多层感知器的神经网络,只是在这里不但网络的权值,而且网络的隐层节点数目也是由算法自动确定的2023-1-2645SVM举例这是一个二维合成的数据实验,图中的小圆圈和点分别表示两类的训练样本,虚线画出了q=2的多项式内积函数求得的支

29、持向量机分类线,而画圆圈的样本点是求得的支持向量,而画叉的样本点为错分的样本。2023-1-2646SVM训练算法n支持向量机的训练算法归结为求解一个受约束的二次规划问题(QP)问题。对于小规模的QP 问题,它体现出了十分优秀的学习能力,但当将其应用到大规模的QP 问题时,就会表现出训练速度慢、算法复杂、效率低下等问题。现在主要的训练算法都是将原有大规模的QP 问题分解成一系列小的QP 问题。但是如何进行分解以及选择合适的工作集是这些算法面临的主要问题,并且这也是各个算法优劣的表现所在。另外一些算法主要是增加函数项、变量或系数等方法使公式变形,使其具有某一方面的优势,或者有一定应用范围。n经过

30、上面的讨论,我们知道QP 问题的解仅依赖于与支持向量对应的那些训练样本点,但是当训练样本增大时,就会过多占用内存,从而导致训练时间过长和效果不佳,因此设计适合于大量样本的算法成为SVM 研究中的重要内容。2023-1-2647 SVM 算法研究进展nchunking 算法n分解算法nSMO 算法n增量学习方法n粒度支持向量机n模糊支持向量机2023-1-2648粒度支持向量机n粒度支持向量机是近年来兴起的一种新的训练算法,它是由Y.C.Tang 首先提出来的。它是以粒度计算(GrC)理论和统计学习理论为基础的一种新型学习模型。n基本思想是:通过常用的粒划分方法构建粒空间获得一系列信息粒,然后在

31、每个信息粒上进行学习,最后通过聚合信息粒上的信息(如数据、规则、知识、属性等)获得最终的SVM 决策函数。这一学习机制通过数据粒化可以将一个线性不可分问题转化为一系列线性可分问题,也就是说将一个大规模的QP 问题,通过粒度划分,分解为一系列小的QP 问题;同时,也使得数据的泛化性能增强,即可在SVM 训练中得到间隔更宽的超平面。2023-1-2649粒度支持向量机n粒度支持向量机进行粒度划分n基于关联规则的粒度支持向量机:其基本思想是通过将径向基核函数进行麦克劳林展开,从展开式中学习关联关系,通过这些关联关系进行粒度划分,进而在各个粒上进行SV 训练。n基于聚类的粒度支持向量机的基本思想是通过

32、常用的聚类方法对训练样本集进行粒度划分,然后选择包含支持向量较多的粒参与分类或回归。n基于熵空间的粒度支持向量机的基本思想是首先对训练样本集进行粗粒度的选择SV,去除一部分对构造最优分类超平面无用的样本点,然后再对粗选后的样本进行细粒度的SV 训练2023-1-2650模糊支持向量机n模糊SVM(FSVM)是将模糊数学和支持向量机相结合的学习方法,主要用来处理训练样本中的噪声数据。n基本思想是:计算每个样本属于各类的隶属度,噪声数据属于该类的隶属度较低,由此来降低噪声对最优超平面的影响。模糊支持向量机中,训练数据中多了一项si,它表示样本x i 属于y i 的隶属度。其目标函数变为n对偶形式中

33、只是 i的范围变成0 i Csi.。FSVM 主要存在的问题是如何确定隶属度值,即如何确定各个样本的权重。n虽然不少研究者在这方面做了很多的工作,但还没有一个可遵循的一般性准则,这其中主要有两类方法:一类是基于时间序列的度量方法,这类方法以训练样本的采集时间顺序来确定模糊隶属度,然而该类方法缺乏坚实的理论依据,并且仅仅使用于序列学习的情况。另一类是基于样本空间的度量方法,其中比较有代表性的是基于KNN 的模糊隶属度度量方法,该方法具有较少的计算量及较强的鲁棒性。2023-1-2651SVM应用nSVM 主要运用在模式分类,回归问题两方面。其中在分类问题中,主要有线性分类和非线性分类,线性分类中

34、又分为线性可分和线性不可分两种情况。线性不可分相对于线性可分来说,就是引入了一个松弛变量。线性分类是在原空间中进行样本分类,而非线性分类是将向量从原空间映射到特征空间,并用核函数代替内积运算,在特征空间中进行样本分类。回归问题是通过把样本集因变量进行上下平移,将回归问题转化为分类问题。回归问题有线性回归和非线性回归,非线性回归是在线性回归的基础上引入两个松弛变量*,来控制误差大小。2023-1-2652SVM在性别分类介绍n这篇文献主要只有主面部缩略图(不含头发)的性别分类问题的研究。使用这样图片的动机有两个:一,发型很容易改变外观;二,我们希望通过调查最小的面部信息并通过不同分类器来学习男性

35、和女性面部。n在以前的性别分类研究实验中使用高分辨率头发的信息和相对较小的数据集的图像。在这篇文献中我们证明SVM分类器能够学习和分类一大组的无头发的低分辨率的图像仍然具有很高的精度。n近年来,支持向量机已经成功地应用于在计算面部处理各种任务。这些包括人脸检测,人脸姿态识别和人脸识别。在本文中,我们采用支持向量机为图像的性别缩略图脸分类,与传统的分类比较它们的性能(例如,线性,二次,Fisher线性判别,以及最近邻居),也包括更现代的技术RBF网络和大集合-RBF分类器。我们也比较支持向量机分类器的性能到人类测试受试者的高和低分辨率图像。尽管人类能相当不错从普通的照片分辨性别,我们的测试性别表

36、明他们在识别没有头发的高分辨率图像上有困难。然而,人类的性能在高分辨率(6.5 误差)认为是适当的,但下降与低分辨率图像(31 误差)。SVM分类平均误差率的变化可以忽略不计。在我们的研究中,很少或根本没有头发信息在人类使用和机器实验同时使用。这不同于以前的文献,在性别分类中都包括头发信息。2023-1-2653背景介绍n性别观念和歧视从心理和计算的角度已被研究。尽管性别分类心理学文献已经引起很大关注,但是很少的基于视觉学习方法被提出。nGollomb等训练了完全连接两层神经网SEXNET,来从900张人脸图像中鉴定性别。其上的一组90张照片实验(45 男,女45例),得到8.1的平均错误率

37、相比平均错误率11.6的研究在五种人类受试者中。Cottrell and Metcalfe也将 神经网络应用人脸情感和性别分类。一组160张64乘64的人脸图像的维数在自动编码器(10男10女)从4096减少到40。这些载体则表现为输入到另一个层网络进行训练。2023-1-2654nBrunelli and Poggio发明HyperBF网络进行性别分类,其中两个竞争的RBF网络,一个用于男性,另一个用于女性,使用16种几何特征作为输入进行了训练(例如,瞳孔分离眉,眉厚度,鼻子的宽度)。对168图像数据集的结果(男21例,女21例)显示的平均错误率21。使用类似的技术如Golomb et al

38、.and Cottrell and Metcalfe Tamura et al.用于多层神经网络,在多种分辨率(从32 32到8 8像素)对人脸图像进行性别分类。他们对30张测试图像实验表明,其网络能够从8 8的图像确定性别平均错误率是7。2023-1-2655背景介绍nWiskott等人。用于二维视图来描述的面孔标号图,而不是采用了矢量的的灰度级来表示的面。该节点是通过基于小波变换的局部“喷气机”为代表并且边缘被标记相似的距离矢量在几何特征。他们用一小部分男性和女性对编码的遥控模型图为了生成的图表“一般的脸知识”新的面孔由弹性图匹配。对于每一个新的脸,使用中的节点生成复合重建模型图。大多数使

39、用节点的性别在用于分类的复合图像。错误他们的实验对112人脸图像画廊率为9.8 。最近,杜仲等。提出了一种混合动力分类基于神经网络(的RBFs)和电感决策树与昆兰的C4.5算法。实验在3000 FERET人进行了面大小64乘72像素。最好平均出错率为4。2023-1-2656性别分类器性别分类器如图1所示输入一个x,输出一个f(x),它的极性或者说符号决定了类的成员,它的幅度可以解释为在做决定时的确定性。几乎所有的 二元分类器可以在这些方面加以观察;基于密度分类器(线性,二次和Fisher)的输出 函数f(x)是一个对数似然比,而对于基于内核分类器(近邻,RBF和支持向量机的)输出是一个“势场

40、”从相关的距离到分界点。2023-1-2657n支持向量机是一种学习算法模式分类和回归。支持向量机基本训练原则是寻求最优线性超平面,使得预期对于看不见的测试样品分类误差最小化-即良好泛化性能。根据该结构风险最小化归纳原则,一个函数,训练数据准确,属于分类一组具有最低VC维函数将产生最好效果不管输入空间的维度。基于这个原理,线性支持向量机的使用系统的方法来找到最低的线性函数VC维。对于线性不可分的数据,可支持向量机(非线性)映射输入到一个可以找到线性超平面高维特征空间,虽然没有保证线性解决方案将一直存在在高维空间中,但是在实践中构建一个工作方案是相当可行的。2023-1-2658n对于线性支持向

41、量机,核函数只是一个简单的积在输入空间,同时在一个核函数 非线性支持向量机通过映射函数(可能是无限的)有效的映射到高维特征空间。然后构造一个超平面在F中。这种映射后面动机是它更有可能找到一个线性 超平面在高维特征空间。运用 Mercer的定理在预测样品的昂贵的计算 就可以通过高维特征空间中的一个非常简单的核函数代替 满足条件这里是一个非线性投影功能函数,几个内核函数诸如多项式和径向基函数已经显示出满足Mercers原理,并且已经成功地应用到非线性支持向量机。事实上,采用不同的核函数,支持向量机可以实现各种学习机,其中一些与经典建筑重合。然而,自动选择“正确”的核函数及其相关参数的 仍然是个问题

42、,一般的在模型选择上要进行反反复复的训练2023-1-2659RBF(Radial Basis Function)n径向基函数(RBF)网络也基于一个内核技术改进的综合,但它是基于 而不是在正则化理论。一个典型的RBF 网络具有K个高斯基函数由下式给出Ci是高斯基函数的中心,i2是方差,i是权值函数,b是偏移项(1)参加训练的高斯RBF网络 给定学习任务包括确定的总人数,高斯基函数,定位自己的中心,计算 其相应的方差,并解出重量 系数和偏差。合适的选择K,Ci,i能够产生一个在分类和线性回归都很强大的RBF神经网络。(2)在传统的RBF神经网络中径向基函数是预定的,而在大集合RBF网络中数量迭

43、代增加,直到错误降到设定的阈值一下。在这两类情况下,RBF中心可以由k-均值聚类决定。2023-1-2660RBFn与此相反,一个SVM 与同RBF核会自动判断该中心的数目和位置,以及权重和阈值,最大限度地减少一个上界预期风险。最近,Evgeniou等人表明支持向量机与RBF网络可以在一个统一的制定框架中的统计Vapnik统计学习理论。因此,支持向量机提供了较为系统 的分类方法相比较于传统的RBF和各种其他的神经网络。2023-1-2661FLDnFisher线性判别(FLD)在特定的子空间中发现最佳线性投影的一种方法的一个例子,不同于寻找投影能够最大限度地提高预测的方差作为主成分分析,FLD

44、确定投影,Y=WT F X,即最大化类间之间的比例 散射和类内散布。因此,分类被简化到投影空间。n考虑一个c类的问题,由类间散布矩阵求出和类内散布矩阵在这里是所有平均,i是第i类的平均,Ni是第i类的样本数目2023-1-2662FLDn最优投影WF是一个投影矩阵能够最大化类内散射和类间散射的比率,公式如下其中wi|i=1,2m是一组广义 SB和SW的特征向量,对应于m个最大 广义特征值i|i=1,2.m。但是,SB的秩为c-1或更少,因为它是C矩阵的总和 为一级或更小的矩阵。因此,该上界 为c-1。为了避免奇点,我们可以先用PCA 以降低特征空间到N-C的维数,并且 然后用荧光检测器进行降维

45、到c-1。这两步 程序是用在计算“的Fisherfaces,比如在我们的实验中,我们使用一个单一的高斯来 模拟男性和女性类的分布得到的一维空间。这个样品的类成员能够通过测定用最大 后验概率,或等效地通过似然比测试决定。2023-1-2663Linear and Quadratic Classiersn二次分类器的决策边界是由二次型x中决定的,通过贝叶斯错误而得最小化。假设每个类的分布是高斯,分类器的输出由下式给出 其中i和(i=1,2)是相对应的高斯分布的平均值和方差线性分类器是二次分类的一种特殊形式,假设这样就简化了判别式对于这两种分类器,f(x)的符号决定类成员,也相当于一个似然比检验20

46、23-1-2664Experiments2023-1-2665Experimentsn在我们的研究中,256384像素通过使用自动面部处理系统进行来补偿平移,缩放以及轻微的旋转进行预处理。如上图所示,并使用最大似然估计人脸检测,仿射变形用于几何形状对齐和用于环境照明亮度归一化的变化。输出结果如图“面印痕”被标准化到80 40(满)的分辨率。这些“面印痕”进一步分采样21 12像素“缩略图”为了我们的低分辨率实验。2023-1-2666Experiments上图示出了已经加工好的面输出(注意的几个例子这些面孔含有很少或根本没有发信息)。在我们的试验中总共有1755幅缩略图(1044名男性和711

47、女性)。对于每个分类器的平均错误率估计与5-fold交叉验证(CV)-也就是说,5路数据集剖分,4/5用于训练和五分之一用于测试,然后后面四组依次旋转。该训练集的平均大小为1496(793名男性和713只雌性)和测试集的平均大小为259(133雄性和雌性126)2023-1-2667Machine Classicationn支持向量机分类器最初是随不同的内核进行测试 为了探索可能性,表现性的空间。高斯RBF核被发现执行 最好的(在错误率计算),随后是三次多项式 内核为第二个最好的。在大集合-RBF实验,径向基数目增加至错误跌破设定的阈值。在大集合-RBF中径向基的平均数目被认为是 1289对应

48、于训练集数目的的86。该 对经典RBF网络的径向基数目为 启发式前实际训练和测试之前被置为20。二次型,线性和Fisher分类器实现了采用高斯分布和在各种情况下的似然比检验进行分类。全部分类器均采用2112像素的缩略图的平均错误率列于表1,并总结于如下图中。2023-1-2668Machine Classication表一表二2023-1-2669Machine Classicationn我们可以知道支持向量机明显优于其他分类器,尽管大集合-RBF神经网络的性能接近 为支持向量机。然而,近90的训练集是 由集合-RBF保留为径向基。相比之下,由双方发现支持向量的数量,支持向量机只有约20的训练

49、集。我们还支持向量机应用分类在高清晰度图像上。高斯和立方内核支持向量机同样在低和高的分辨率,只有轻微的1 的误差率的差异。2023-1-2670Human Classicationn为了校准SVM分类器的性能,还要求人类受试者对低和高清晰度的图像进行性别分类。总共30个科目的(男22例,女8例),年龄从20到 40多岁参加了一个实验高分辨率 图像和10例(男6例,女4例),低 高分辨率图像。所有受试者被要求尽好的对254面进行性别分(排名不分先后提交),他们可能没有时间限制。虽然这些测试 不是那样全面的机器实验,与人类中使用的测试集是相同的5倍的一个在4.1节中使用的CV分区2023-1-26

50、71SVM vs.Human performance2023-1-2672SVM vs.Human performance表三2023-1-2673SVM vs.Human performancen比较表1和2,很显然,支持向量机性能 不管是低和高分辨率比人类要好,在表三中这些结果表明,支持向量机比其他任何分类具有更好的特性。同时也不难理解人类受试者在高分辨率图片上表现的比低分辨率更好。但是SVM性能不大受分辨率的影响。下面来看排名前五的人类容易错判的图像。2023-1-2674n真正的性别从左到右依次是F-M-M-F-Mn同时我们也得到了那些由SVMs和人类判别得到的错误之间有一定的度,SV

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(统计学习理论与支持向量机概要1课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|