1、基于贝叶斯决策理论的分类基于贝叶斯决策理论的分类器器(1)1 引言2 Bayes决策理论 最小错误率的贝叶斯决策 最小风险的贝叶斯决策3 Bayes分类器和判别函数4 正态分布的Bayes决策 1 引言 模式识别是根据对象特征值将其分类。d个特征组成特征向量x=x1,xdT,生成d 维特征空间,在特征空间一个 x 称为一个模式样本。Bayes决策理论是用概率统计方法研究决策问题。为什么可用Bayes决策理论分类?样本的不确定性:样本从总体中抽取,特征值都是随机变量,在相同条件下重复观测取值不同,故x为随机向量。特征选择的不完善引起的不确定性;测量中有随机噪声存在。另一方面从样本的可分性来看:当
2、各类模式特征之间有明显的可分性时,可用直线或曲线(面)设计分类器,有较好的效果。当各类别之间出现混淆现象时,则分类困难。这时需要采用统计方法,对模式样本的统计特性进行观测,分析属于哪一类的概率最大。此时要按照某种判据分类,如,分类错误发生的概率最小,或在最小风险下进行分类决策等。三个重要的概率和概率密度 先验概率、类条件概率密度函数、后验概率。先验概率 P(wi)由样本的先验知识得到先验概率,可从训练集样本中估算出来。例如,两类10个训练样本,属于w1为2个,属于w2为8个,则先验概率P(w1)=0.2,P(w2)=0.8。类条件概率密度函数 p(x|wi)模式样本x在wi类条件下,出现的 概
3、率密度分布函数。也称 p(x|wi)为wi 关于x 的似然函数。在本章中均假设已知上述概率和概率密度函数。后验概率P(wi|x)定义为某个样本 x,属于wi 类的概率,i=1,c。如果用先验概率P(wi)来确定待分样本x的类别,依据显然是非常不充分的,须用类条件概率密度p(x|wi)来修正。根据样本 x 的先验概率和类条件概率密度函数p(x|wi)用Bayes公式重新修正 模式样本所属类的概率,称 后验概率P(wi|x)。3.用Bayes决策理论分类时要求:各类总体的概率分布是已知的。要决策的类别数c是一定的。2 Bayes 决策理论1.Bayes公式,也称Bayes法则 2.Bayes分类规
4、则:用后验概率分类类条件概率密度后验概率上图上图3.最小错误率的 Bayes 决策为什么这样分类的结果平均错误率最小?在一维特征空间中,t 为两类的分界面分成两个区域R1和R2,R1为(,t);R2为(t,)。R1区域所有x值:分类器判定属于w1类;R2区域所有x值:分类器判定属于w2类。判断错误的区域为阴影包围的面积。x0 判定错误区域及错误率 真实状态w2,而把模式x判定属于w1类 真实状态w1,而把模式x判定属于w2类 平均错误率P(e)决策规则实际上对每个x都使 p(e|x)取小者,移动决策面 t 都会使错误区域增大,因此 平均错误率最小。错误率计算:多类时,特征空间分割成 R1,Rc
5、,P(e)由c(c-1)项组成,计算量大。用平均正确分类率P(c)计算只有c 项:例1:细胞识别 已知:正常类P(w1)0.9;异常类P(w2)0.1 待识别细胞 x,从类条件概率密度曲线上查得 p(x|w1)0.2;p(x|w2)0.4 这种规则先验概率起决定作用。这里没有考虑错误分类带来的损失。4.最小风险的Bayes决策 把分类错误引起的“损失”加入到决策中去。决策论中:采取的决策称为动作,用ai表示;每个动作带来的损失,用l表示。归纳数学符号:一般用决策表或损失矩阵表示上述三者关系。决策表表示各种状态下的决策损失,如下表:由于引入了“损失”的概念(即在错判时造成的损失),不能只根据后验
6、概率来决策,必须考虑所采取的决策是否使损失最小。对于给定的x,决策ai,l可在c个l(ai,wj)中选一个,其相应的后验概率为P(wj|x)。此时的条件期望损失,即后验概率加权和 在决策论中条件期望损失称为条件风险,即x被判为i类时损失的均值。由于x是随机向量的观察值,不同的x采取不同决策ai,其条件风险的大小是不同的。决策a可看成随机向量x的函数,记为a(x),它本身也是一个随机变量。定义期望风险R dx是d维特征空间的体积元,积分在整个特征空间。期望风险R反映对整个特征空间上所有x的取值都采取相应的决策a(x)所带来的平均风险;而条件风险R(ai|x)只反映观察到某一x的条件下采取决策ai
7、 所带来的风险。如果采取每个决策行动ai使条件风险R(ai|x)最小,则对所有的x作出决策时,其期望风险R也必然最小。这就是最小风险Bayes决策。最小风险的Bayes决策规则:如果只有两类的情况下 这时最小风险的Bayes决策法则为:如果R(a1|x)R(a2|x),则x的真实状态w1,否则w2。两类时最小风险Bayes决策规则的另两种形式:例2:条件同例1,利用决策表,按最小风险Bayes决策分类。这里决策与例1结论相反为异常细胞。因损失起了主导作用。l不易确定,要与有关专家商定。例3:现有两类问题,比较两种Bayes决策。已知:单个特征变量x为正态分布 两类方差都为s 2=1/2,均值分
8、别为m=0,1 即 求:若先验概率 P(w1)=P(w2)=1/2,计算最小错误率情况下的阈值 x0。如果损失矩阵为 计算最小风险情况下的阈值 x0。最小错误概率情况下阈值x0(取对数运算)最小风险情况下阈值x0 如果这两类不是等概率,P(w1)P(w2),阈值左移 也就是说扩大最大可能 类的区域。可能性大的 类可产生更小的误差。阈值左移拒绝决策 在某些情况下拒绝决策比错误判别风险要小。样本x在各种判别条件下的平均风险 当i=c+1时,如果R(ac+1|x)R(ai|x),i=1,2,c则对x作出拒绝判别。若此时各类拒绝判别风险相同,即都为lz,则 则拒绝判别的条件为 lz gj(x)所有ij
9、 则xwi 两类情况下,设 最小错误率的Bayes决策规则的四种等价形式后验概率类条件概率密度函数与先验概率似然比似然比取对数 多类情况下,设 最小错误率的Bayes决策规则的四种等价形式2.决策面方程 各决策域R被决策面所分割,这些决策面是特征空间中的点、直线、超曲面,相邻的两个决策域在决策面上其判别函数相等。决策面方程应满足 gi(x)=gj(x)gij(x)=gi(x)gj(x)=0 ij 且i与j为相邻的两类。一维、三类二维、二类 只有两类的分界面:x为一维,决策面为一分界点;如图(a)x为二维,决策面为一曲线;如图(b)x为三维,决策面为一曲面;x为d维,决策面为一超曲面(b)3.分
10、类器设计 在d维特征空间内,划分为c个决策区域。多类:根据各类训练集样本x计算得到c个判别函数gi,将待分样本计算gi,从中选择最大值作为类决策。分类器可看成由硬件或软件组成的一个“机器”。两类:两类分类器可看作只是对x计算判别函数的一个“机器”,根据计算结果的符号将x分类。例4 对例1和例2分别列出判别函数和决策面方程 例1.判别函数 决策面方程 例2.判别函数 决策面方程:4 正态分布的Bayes决策 大量随机变量服从正态分布,而且数学上容易处理,因此以正态分布为例来说明。1.正态分布函数和性质单变量的正态分布概率密度函数 性质:p(x)由m,s 2确定。随机变量 x 集中在均值m附近,其
11、分散度正比于标准差s,95%样本落入|x-m|2s范围内。多元(维)正态分布的概率密度函数 多元正态分布的性质:参数 m m 和 S 决定分布形状 概率密度函数由d+d(d+1)/2个数目的参数唯一确定,其中d为均值数,d(d+1)/2为协方差数。通常记为 。等概率密度点的轨迹为一超椭球面 x大部分落在以均值向量m m为中心,大小由协方差矩阵S确定的区域。指数项为常数的x点即为 等概率密度。因此超椭 球的方程应是 超椭球主轴方向由S的本征向量确定,其长度与协方差矩阵的本征值l平方根成正比。证明:中心移到坐标原点m=0,可用这约束条件构造Lagrange函数,求极值得到。在数理统计中,定义 称x
12、到m 的Mahalanobis(马氏)距离平方。所以等概率密度点的轨迹是x到的马氏 距离为常数的超椭球面。在正态分布中不相关性等价于独立性。若两个随机变量xi和xj间 对多元正态的任意两个分量xi和xj来说两者等价。如果xi和xj是统计独立,中xi 的方差sii2,xi和xj 的协方差sij2,则sij20,为对角矩阵。则 x=(x1,xd)T各分量是相互独立的正态分布随机变量。多元正态分布的边缘分布和条件分布具有正态性线性变换的正态性:x为多元正态分布的随机向量,其均值向量为 m m,协方差矩阵为S。对x作线性变换,即 y=Ax A为线性变换矩阵,且非奇异,变换后服从均值向量为Am,协方差矩
13、阵为AAT的多元正态分布。p(y)N(Am,AAT)线性组合的正态性 x为多元分布的正态随机向量,则线性组合y=aTx 是一维的正态随机变量,a是与x同维向量 p(y)N(aTm,aTA)2.正态分布的最小错误率的Bayes分类 条件概密函数 判别函数 决策面方程 根据相邻的决策域在决策面上的判别函数相等,下面讨论几种不同的情况:Si=s 2I,i=1,2,c SiS SiSj,i,j=1,2,c Si=s2I 各类模式分布的协方差矩阵相等,各xi统计独立且方差相同,协方差均为0。几何上相当于各类样本落在以mi为中心同样大小的一些超球体中。判别函数中第二和第三项与类别i无关 若c类先验概率相等
14、,则gi(x)可忽略最后一项。欧氏距离平方:Bayes 决策:P(wi)=P(wj)先验概率相等 测量从待分类向量x到每一类均值向量的欧氏距离,把x分到距离最近的类,mi是从训练样本集中得到的。也称最小距离分类器。若把每个均值向量m mi看作一个典型的样本(模板),则这种分类方法也称为模板匹配技术。P(wi)P(wj)欧氏距离的平方必须用方差s2规范化后减去lnP(wi)再用于分类。因此,如果待分类的向量x 同两类均值向量的欧氏距离相等,则最小错误概率Bayes决策把这模式归入先验概率大的那类。实际使用中不必计算欧氏距离,把gi(x)展开可得 这是x的二次函数,其中xT x与分类无关 这是与均
15、值有关的线性判别函数,组成线性分类器。对待分类的样本x,分别计算 gi(x),i=1,2,c gk(x)max gi(x)则决策 xwki 决策面方程 相邻决策面方程是由上述线性方程所确定的一个超平面,且讨论的是方差相等,协方差为0这样一种特殊情况,即 。这个方程确定了决策面是通过x0并正交于向量W的一个超平面。由于W=m mim mj 所以超平面正交于均值向量m mi与m mj之间的联线。若先验概率相等 超平面通过mi与mj联线的中点,且与联线正交。若先验概率不相等,则 x0 不在中点,超平面向先验概率小的方向移动。若s2|mi-mj|2,则先验概率对决策面的影响就比较小。d 维特征空间,交
16、界面呈球状分布,其判别边界为d-1维的平面,垂直于中心线。一维 二维 三维 SiS S与i无关。各类的协方差矩阵相等S1S2Sc=S。几何上相当于各类样本集中于以该类均值mi点为中心的同样大小和形状的超椭球体中。判别函数:若c类先验概率相等,则 Bayes决策:计算x到每类均值点m mi的马氏距离平方r2,将x分到距离最近的类中去,或归于r2最小的类。展开后,忽略与i无关项xTS-1x,则判别函数 线性判别函数,因此决策面仍是一个超平面。相邻决策面方程 W不在(mi-mj)方向上,超平面通过x0点但不与均值向量连线正交。若先验概率相等,则交点在均值向量联线的中点;若先验概率不相等则向小先验概率
17、方向移动(左图)。若先验概率相差较大,判别边界不会落入球状高斯分布的中心点之间(右图)。P(1)0.7 P(2)0.3P(1)0.9 P(2)0.1例5 两类二维正态分布的分类问题已知:协方差相同,均值向量不同。要求:根据Bayes决策,对样本x=1.0,2.2T分类。分别计算对两个均值向量的马氏距离,得 应属于距离近的类,x1.0,2.2T属于第一类。SiSj 这是多维正态分布的一般情况。判别函数 这是x的一个非线性二次形式。若决策域Rj和Rj毗邻 则决策面方程 。其决策面是二次曲线(椭圆、双曲线、抛物线、一对直线),Bayes分类器是二次曲线分类器。ij二维一维三维若两类二维正态分布的决策面问题,由协方差S和均值向量m 可根据判别函数和决策面方程计算决策面。根据决策面方程得到的二次曲线分别是椭圆和双曲线。计算得到的决策面作业: