1、0模式识别模式识别第六讲第六讲 统计模式识别(三)统计模式识别(三)贝叶斯分类器的设计和分析贝叶斯分类器的设计和分析贝叶斯分类器的设计正态分布条件下的贝叶斯分类贝叶斯分类的错误率1回顾:数理统计基础贝叶斯分类的基本原理最小错误率贝叶斯分类最小风险贝叶斯分类最大似然比贝叶斯分类2一、贝叶斯分类器设计一、贝叶斯分类器设计1、贝叶斯分类器设计的原理、贝叶斯分类器设计的原理niiijjjjjxpPxpPxPxpPxP1)()()()()()()()(贝叶斯分类器中只要知道先验概率,类条件概率密度 P(j),P(x/j)就可以设计分类器。而P(j),P(x/j)需要利用训练样本集的信息去进行估计。32、
2、参数估计与非参数估计、参数估计与非参数估计参数估计:参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计:非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。一、贝叶斯分类器设计一、贝叶斯分类器设计4(1)最大似然估计)最大似然估计假定:待估参数是确定的未知量 按类别把样本分成M类X1,X2,X3,XM 其中第i类的样本共N个 Xi =(X1,X2,XN)T 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息,所以可以对每一 类样本独立进行处理。第i类的待估参数),.,(21nTij3、类概率密
3、度函数的估计、类概率密度函数的估计一、贝叶斯分类器设计一、贝叶斯分类器设计5 根据以上四条假定,我们只分别利用各类学习样本来估计各类的概率密度函数。w一般方法一般方法第i类样本的类条件概率密度:P(Xi/i)=P(Xi/ii)=P(Xi/i)原属于i类的学习样本为Xi=(X1,X2,XN,)T i=1,2,M求i的最大似然估计就是把P(Xi/i)看成i的函数,求出使它最大时的i值。一、贝叶斯分类器设计一、贝叶斯分类器设计6学习样本独立从总体样本集中抽取的 即 N个学习样本出现概率的乘积取对数:NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(lo
4、g对i求导,并令它为0:0)|(log.11NkikpXP一、贝叶斯分类器设计一、贝叶斯分类器设计7有时上式是多解的,上图有5个解,只有一个解最大即 0)|(log.0)|(log111ikNkpikNkXPXPP(Xi/i),即为的估值利用上式求出ii一、贝叶斯分类器设计一、贝叶斯分类器设计8多维正态分布情况多维正态分布情况 已知,未知,估计 服从正态分布则有最优值满足)|(iiXP0)|(log1XPkNk121|2log21)|(logXXXPkkTnk NkkX110NkkX1101i待估参数为得一、贝叶斯分类器设计一、贝叶斯分类器设计9所以 未知均值的最大似然估计是训练样本的算术平均
5、值。110)(NkkNXNkkXN11 ,均未知 A.一维情况:n=1 对于每个学习样本只有一个特征的简单情况:21211,一、贝叶斯分类器设计一、贝叶斯分类器设计101222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk根据最大似然要求,得02)(21)|(log12212212NkkikNkXXPNkkXN1111NkXkN122121一、贝叶斯分类器设计一、贝叶斯分类器设计11B多维情况:n维特征估计值:结论:的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术平均(nn阵列,nn个值)NkkXN111XTXNkNkk121XXkTk一
6、、贝叶斯分类器设计一、贝叶斯分类器设计12(2)贝叶斯估计 最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,使概率密度分布P(Xi/)转化为后验概率P(/Xi),再求贝叶斯估计。估计步骤:确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|),它是的函数。利用贝叶斯公式,求的后验概率 dPXPPXPXPiii)()|()().|()|(dXPi)|(求贝叶斯估计一、贝叶斯分类器设计一、贝叶斯分类器设计13ciPpxPx,.,2,1),()x
7、()|()(giiiicixRxi,.,2,1),(1)(giijcixlxijij,.,2,1,)()(gi二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类1、贝叶斯分类的判别函数和决策面w判别函数w 假定有c类问题,用1 1,2 2,.,c c表示c个类型,则w对最小错误率判决规则,判别函数可定义为:对于最小风险判别规则,判别函数可定义为:对于最大似然比判别规则,判别函数可定义为:14假定c个类型区域均相邻,统一判决规则为若 则上式等效于决策面方程 如果类型i和j的区域是相邻的,他们之间的决策面方程为 ijcixgxj,.,2,1),()(giixicjxxx则若,)(gmax
8、)(gj,.,2,1i)()(gixgxj二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类 一般地,x为一维时,决策面为一分界点;x为二维时,决策面为一曲线;x为三维时,决策面为曲面;x为d维时,决策面为一超曲面。152、正态分布概率密度函数正态分布概率密度函数v为什么采用正态分布:a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(,)只有均值和方差 两个参数。(1)单变量正态分布)单变量正态分布:)()()(,)()(:),(21exp21)(22222方差,均值或数学期望其中dxxpxxEdxxxpxENxxp二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝
9、叶斯分类161)()(,0)(dxxpxxp列关系:概率密度函数应满足下)(xPX2295.01(2)多维正态分布函数形式的行列式为的逆阵,为维协方差矩阵,为维均值向量,维特征向量其中121211212),.,(,.,:21exp|21)(nnnnxxxxpTnTnTnxxx二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类17iiiiidxxpxxE)()(nnnnnnnnnnnnTxxxxxxxxExxxxEE,.,.,.,.,.111111111111xx是协方差,非对角线是方差对角线jijixxExxExxExxEijijnnnnnnnnnnnnn22222212121221
10、111111111,.二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类18w性质与对分布起决定作用,由n个分量组成,由n(n+1)/2元素组成,所以多维正态分布由n+n(n+1)/2个参数组成。等密度点的轨迹是一个超椭球面。区域中心由决定,区域形状由决定。不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。线性变换的正态性。Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。线性组合的正态性。211X2X二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类19(1)判别函数和决策面 假设类条件概率密度符合多维正态分布,则由最小错误率判别规则得到的判别
11、函数为:121221exp2)()()()(iiTiiniiiixxPPxpxgiiiTiiiiTiiniinxxPxxPxgln212ln221)(ln21exp21ln)(ln)(112123、多维正态分布条件下的贝叶斯分类其对数形式为:二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类20(2)第一种情况:Ii2决策面方程为:0)()(ln21lnln2111jiiiiiiijiPPxxxx0)()(xgxgji即 每类的协方差矩阵都相等,类内各特征间相互独立,且方差相同的情况。二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类21 iTiiiiiiiTiixxxPx
12、Pxxxg2221),(ln2)(ln21)(其中零。,只有方差,协方差为即222.0.0.:Ii判别函数为:)(lnln212ln221)(1iiiiTiiPnxxxg 都与类别无关,对分类无影响所以,判别函数也可写为:2ln2,2122nIIniii二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类2222212)()(.)()(iimxxgPPP则即称为 最小距离分类器将待分类样本x分类到中心距离(欧式距离)最近的类中。w m个类的先验概率相等个类的先验概率相等二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类23 ijTjiTiiiiTiiiiiTiiTiTiiTi
13、TixwxwwxwxgPwwwxwxgixxxxxxx0mj102020max)()(ln21,1)(,)(,2判别规则为:其中:线性判别函数判别函数可写为:无关与二次项w m个类先验概率不相等个类先验概率不相等)()(ln)(210)(2200TjijijijijiPPxWxxW其中决策面方程为:二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类24的联线。垂直于决策面同方向同相与,所以又因为垂直与,因此分界面点积为与因率面是一个圆形。协方差为零。所以等概因为HWWWHxxWbIajii)(0)()(,)(212102界面。均值联线的垂直线作为对多类情况,用各类的。离开先验概率大的
14、一类的中点。否则就是联线通过率相等二类情况,如果先验概)(),()(),()()(2121dHPPHPPc12WH时决策面)()(21PP124334H23H14H12H1121x2xHW20 x二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类25)(ln)()(21)(.121iiTiiMPxxxgi无关与因为决策规则为:为了对x进行分类,只要计算出x到每类的均值点ui的马氏距离平方2,最后把x归于最小2的类别。(3)第二种情况:)第二种情况:i 相等,即各类协方差相等。w m个类的先验概率相等个类的先验概率相等)()()(21)()(.)()()(21321马氏距离平方,iTi
15、imxxxgPPPP二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类26)(ln21,)()()(101011iiTiiiiiTiiTiTiPwWwxWxgixxxx其中(线性函数)无关。与展开;把w m个类先验概率不相等个类先验概率不相等ijTjcjiTiixwxWwxWxg010max)(决策规则为:)()()()()(ln)(21),(,0)(1010jiTjijijijijiTPPxWxxW其中决策面方程为:二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类27。离开先验概率大的一类否则中点通过均值联线则则若各类先验概率相等,值联线。于不垂直不同相与所以因为点。通
16、过正交,与所以点积为与因为值决定本征长轴由所以等概率面是椭圆,因为HHxdHWWcxHxxWxxWbIajijijiii;),(21:)(;)();(:)()(,0)(:)(;,:)(0100021121x2xHW20 x二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类28(4)第三种情况)第三种情况(一般情况):为任意,各类协方差矩阵不等,二次项xT x与i有关。所以判别函数为二次型函数。)(lnln2121)()(,21)(lnln2121)(:101101iiiiTiiiiiiiiTiiTiiiiTiiPwnWnnWwxWxWxPxxxg维列向量矩阵其中判别函数二、正态分布条
17、件下的贝叶斯分类二、正态分布条件下的贝叶斯分类29ijTjjTcjiTiiTixwxWxWxwxWxWxxg010max)(决策规则:0)()(,xgxgjiji则相邻与决策界面:若0)()(00jiTjijiTwwxWWxWWx上式所决定的决策面为超二次曲面,随着 的不同而呈现为某种超二次曲面,即超球面、超抛物面、超双曲面或超平面等。)(,iiiPu二、正态分布条件下的贝叶斯分类二、正态分布条件下的贝叶斯分类30三、贝叶斯分类的错误率三、贝叶斯分类的错误率1、错误率的概念、错误率的概念错误率就是根据判别规则进行分类,分类结果与真实情况不符的概率。例如:按最小错误率分类规则,)(,211xPx
18、Rx错误率为判定时,根据决策规则,当)(,122xPxRx错误率为判定时,根据决策规则,当)()(22PxP)()(11PxP1R2RxpTx312、错误率的计算、错误率的计算时满足当判决门限可以证明,的加权平均:总错误率为两种错误率时,错误率之和为当时,错误率之和为当)()()()()()()()()()()()()()()()()(2211221122112221111212xPPxPPxdxxPPdxxPPePPePPxePdxxPePxdxxPePxTRRRR总错误率最小总错误率最小)()(22PxP)()(11PxP1R2RxpTx三、贝叶斯分类的错误率三、贝叶斯分类的错误率32计算
19、量很大)总错误率对于多类问题:)()()()(.)()(.)()(.)()()()(.)()()(11121222321111312iMiMjjjMMMMMMMPRxPPRxPRxPRxPPRxPRxPRxPPRxPRxPRxPePijMiiRiMiiiidxPxPPRxPMPi11)()()()()(用平均正确分类概率:,计算相对简单。错误率:)(1)(MPeP三、贝叶斯分类的错误率三、贝叶斯分类的错误率3321)()(21PP设:3 3、正态分布条件下的最小错误率、正态分布条件下的最小错误率)(21exp21)()(21exp21)(2211BxxPAxxP三、贝叶斯分类的错误率三、贝叶斯分类的错误率34率。因此可计算出最小错误可以计算若已知错误率最小对多维问题:可计算可以计算若已知,其中:。可得代入把值值就是,可解出条件:把上式代入最小错误率.,)(21,21exp21)(,)(,)()(,2121exp21)()()()()()()(.)()()()(21211212min222111min212221122211minmin2211kkduuePNxPNxPePkkxuduudxxPPdxxPPePePePYYxxPPxPPTkkYYTTTT三、贝叶斯分类的错误率三、贝叶斯分类的错误率