1、第3章 贝叶斯分类3.1 基本概念3.2 基于最小错误率的贝叶斯准则3.3 基于最小风险的贝叶斯准则3.4 最大最小决策规则3.5 纽曼皮尔逊(NeymanPearson)决策规则3.6 贝叶斯学习案例u概率密度函数概率密度函数对于连续随机变量X的分布函数F(x),存在非负函数f(x),使对于任意实数x有:则称x为连续型随机变量,函数f(x)为x的概率密度函数。概率密度函数性质:()()xF xf t dt()()F xf x()1f x dx211221()()()()xxP xxxF xF xf x dx3.1基本概念基本概念u先验概率P(i):先验知识确定的类别总体分布。例:汉字字频 新
2、华社统计资料 鲈鱼和鲑鱼的比例 渔业统计资料u后验概率P(i|x):在得到“结果”的信息后重新修正的概率。u类条件概率密度p(x|i):连续随机变量x,其分布取决于类别状态 用已知类别的训练样本来估计类条件概率密度 分析样本形成条件,假定分布函数贝叶斯公式:贝叶斯公式:p(x):混合概率密度函数贝叶斯公式贝叶斯公式的实质是通过观察x把状态的先验概率P(wi)转化为后验概率P(wi|x))()()()()()()()(1xpPxpPxpPxpxPiiciiiiii3.2 3.2 基于最小错误率的贝叶斯准则基于最小错误率的贝叶斯准则贝叶斯判别准则:贝叶斯判别准则:若:若:则:则:)()(max,.
3、,2,1xPxPjcjiix错误率是分类性能好坏的一种度量,它是平均错误率,用P(e)表示,其定义为:dxxPxePeP)()|()(对二分类的问题,其判决规则为:若P(w1|x)P(w2|x),则把x归类类别w1,反之,则把x归类为类别w2。则已知特征x的贝叶斯决策判决后的条件错误概率为:一维时,x轴上的正确与错误错判的临界点为x0,则有错误概率 由贝叶斯公式 ,错误概率可写为)|()|(),|()|()|(),|()|(212121xwPxwPxwPxwPxwPxwPxePxdxxPxwPxdxxPxwPeP00)()|()()|()(1221)()|()()|()|(iiiiiiwPwx
4、PwPwxPxPwxdxwPwxPxdxwPwxPeP00)()|()()|()(1122使用联合概率密度可表示为 其几何说明下图所示。图3-1中的阴影部分为平均错误概率P(e)。由于贝叶斯决策式为 ,对于所有的x取大,而条件错误率P(e|x)对于所有的x取小,因此,平均错误率公式P(e)的积分最小。)()()()()|()()|()()()|()()|(),(),()(11221122112221122121ePwPePwPRdxwxPwPRdxwxPwPwPwRxPwPwRxPwRxPwRxPeP)|(max)|(2,1xwPxwPiiiOX)()|(22wPwxP)()|(11wPwxP
5、)()(1ePwP)()(2ePwPx0最小错误率贝叶斯有以下几种等价描述:u联合概率描述u 似然比描述 u 对数似然比描述 wxwPwPwPwPiiiiiixx),()(max)()(|2,1wxwPwPwxPwxPxl11221,)()()|()|()(wxwPwPwxPwxPxlxh11221,)()(ln)|()|(ln)(ln)(例题3.1 对一批人进行癌症普查,患癌症者定为属w1类,正常者定为属w2类。统计资料表明人们患癌的概率P(w1)=0.005,从而P(w2)=0.995。设有一种诊断此病的化验,其结果有阳性反应和阴性反应之分,依其作诊断。化验结果是一维离散模式特征。资料表明
6、:癌症者有阳性反应的概率为0.95,即P(x=阳|w1)=0.95,从而可知P(x=阴|w1)=0.05,正常人阳性反应概率为0.01,即P(x=阳|w2)=0.01,则可知P(x=阴|w2)=0.99,问有阳性反应的人患癌症的概率有多大?解:说明有阳性反应的人的患癌率为32.3%。323.0995.001.0005.095.0005.095.0)()|()()|()()|()()()|()|(221111111wPwxPwPwxPwPwxPxPwPwxPxwP阳阳阳阳阳阳 当要求医生必须判决其属于哪类时,因为)|(667.0323.01)|(12阳阳xwPxwP故“x=阳”w2,即有阳性反应
7、的人判属正常人。写成似然比形式:199005.0955.0)()(9501.095.0)|()|()(1221wPwPwxPwxPxl阳阳wx23.3 基于最小风险的贝叶斯准则基于最小风险的贝叶斯准则 u在实际工作当中,有时仅考虑错误率最小是不够的。u当考虑到某一类的错误判决要比对于另一类的更为关键时,要引入比错误率更广泛的概念-风险、损失,就需要把最小错误概率的贝叶斯判别作一些修正。x 观察或测量到的 d 维模式特征向量12,c状态空间12,a决策空间 损失函数,表示真实状态为 而所采取的决策为 时所带来的某种损失(,)(1,2,1,2,)ijia jc jwi决策表x是特征空间 中取任意值
8、的随机变量,条件风险的期望 R表示采取决策 总的期望损失。R 称为Bayes风险,使 R最小的决策 称为最小风险Bayes决策。给定 x,我们采取决策 情况下的条件期望损失:i1()(,)()1,2,ciijjjRPic xxcjjjiidxxpxwpwdxxpxRR1)()|(),()()|(ii 为了简化下面的讨论,记 ,为当真正状态 为而把误作真正状态 时所受到的损失。按两类问题展开就可得到:这时最小风险的Bayes决策法则就是:如果 ,则就判定 为真正的状态。或者:如果 ,则决策 ,否则决策 。如果 ,则决策 ,否则决策 。)(jiijwji)()()(2121111xwPxwPxR)
9、()()(2221212xwPxwPxR)()(21xRxR)()()()()()(111212221221wPwPwxpwxp1w1w2w)()()()()()(222212111121wPxwPwPxwP1w2w 下面我们观察两个特殊情况,来探讨最小风险Bayes决策和最小概率的Bayes决策的关系:(1)在二类问题中,若有 ,即所谓对称损失函数的情况,这时最小风险的Bayes决策和最小概率的Bayes决策方法显然是一致的。(2)在一般的多类问题中,当0-1损失函数的情况时,即 它说明,当正确决策时,没有任何损失,而当作出错位决策时,不管对于哪一类模式,损失都为1,即所有错误的代价是相同的
10、。这也就是一种对称损失函数的情况。这时条件风险为式中 动作 是正确时的条件概率。就是说,为了使条件风险达到极小,必须有:如果 对一切 ,则决策 。这正是最小错误概率的Bayes决策法则。)()(11212212cjijijiwji,,2,1,1,0)()(1)()()()(1XwPxwPxwPwxRiijjjCjjii)(xwPii)()(xwPxwPjiij iw3.4 3.4 最大最小决策规则最大最小决策规则u考虑如何在 变换的情况下,使最大可能的风险最小,也就是在最差的条件下争取最好的结果。)(iwP 总风险为dxxpxxaRR)()(在二分类的情况下有:)()()(2121111xwP
11、xwPxR)()()(2221212xwPxwPxR所以,dxxPxwPdxxPxwPdxxPxwPdxxPxwPdxxPxxRdxxPxxRR221121)()|()()|()()|()()|()()|)()()|)(22212121211111由于1)()(21wPwP以及dxwxPdxwxPii12)|(1)|()()()|()()|()()()|()(11222211111222112222122121wbPawPdxwxPdxwxPdxwxPR所以由此可知,当分类器确定以后,总风险R就是先验概率的线性函数。R OA)(1*wPRARA)(1wP R O A)(10wP)(1wPRAR
12、A(a)(b)风险R与 的关系)(1wP3.5 3.5 纽曼纽曼皮尔逊(皮尔逊(NeymanPearsonNeymanPearson)决策规则)决策规则对二类决策问题,可能犯两类错误。第一类错误实际为w1而错判为w2。以 记这种错误的错误率。第二类错误实际为w2而错判为w1。以 记这种错误的错误率。最小错误率贝叶斯决策规则是要使平均错误率 为最小。而纽曼皮尔逊决策规则为:在 等于某常数(例如 )的条件下,使 最小。这是一个在这个等式约束条件下,求为极小的极值问题,可用拉格朗日乘子法化为无约束的极值问题。先定义一个准则函数:式中:为拉格朗日乘子121122)()()(wPwPeP210)(021
13、-一个二分类问题可以看成是将模式空间 划分成两个互不相交的子空间 和 。现在问题成为怎样划分模式空间 ,使 为最小。12dxwxP2)|(11由于dxwxP1)|(22所以dxwxPdxwxP12)|(-1)|(111故有dxwxPwxPdxwxPdxwxP)|(-)|(-1-)|()|(-1-120021021111)()(现在问题归结于选择 使 最小。1通过把使得 为负的所有x都归于 ,把使它为正的都归于 ,可以做到使 最小。)|(-)|(12wxPwxP12纽曼皮尔逊的判决规则为:若 ,则 ,反之,则 。)|()|(21wxpwxpwx1wx2 的大小对两种错误率 和 都有影响,应选择使
14、 的 值。事实上,随着 变大,要使似然比 变得更困难。即 变大,使作出判决 的机会减小,因而使犯第二类错误的可能较小,故 是 的单调递减函数。12020)|()|()(2112wxPwxPxlwx12ldwlP122122)|(即实际来自w2的似然比l12大于的概率。但是,为了求解使 的 值较困难,难以得到解析解,一般可用数值解,即尝试几个值,得到曲线(如下图所示),然后用内插发估计。O200随 增大而单调下降2120例 设两类问题中,二维模式均为正态分布,其均值矢量和协方差矩阵分别为 ,取定 ,试求出纽曼皮尔逊判决的阈值。011012I2104.02解:由公式和给定的条件可算得两类的概率密度
15、分别为:2)1(exp21)|(22121xxwxP2)1(exp21)|(22122xxwxP由上面两式可以算得2exp)|()|(121xwxpwxp其为判决界面,上面两边去对数,于是可得判别规则wwxx211,ln21由于界面只是x1的函数,需求P(x|w2)的边缘密度P(x1|w2),2)1(exp212)1(exp21)|()|(12222122221xxdxxxdwxPwxP由上面的判决规则,有dyyxdx2exp212)1(exp2121ln21-112ln21-2上面的函数关系有数学用表可以查。经查表,可算得 与 的关系下表所示。24210.50.250.0460.0890.1
16、590.2580.3782 与 的关系2由设定的 ,查表可得 =4,对应的 ,从而得此问题的判决规则为04.02693.02ln若 ,则判693.01xwwx21类的分布及判决界面如下图所示。x2w121w2x1421纽曼皮尔逊决策边界3.6 贝叶斯学习案例贝叶斯学习案例对每个手写的数字样品,按NxN方式划分,共有25份,如下图所示。手写的数字样品1.理论基础对每一份内的象素个数进行累加统计,除以每一份内的象素总数,设定阈值T=0.05,若每一份内的象素占有率大于T则对应的特征值为1,否则为0.2.实现步骤(1)先计算先验概率)(wPiNNwpii)(类别为数字i的先验概率,Ni数字i的样品数,N为样品总数。(2)计算 ,再计算类条件概率)(wpij)|X(wPi)2/()1()(0iNXkkjijNxPii24,1,09,1,0ji 表示样品X属于wi类条件下,X的第j个分量为1的概率估计值。)(wpij)()|1(ijijPXxP)(1)|0(ijijPXxP|),()|(24210iiXxxxxXPXP240)|(jijXxP9,1,0i其中a=0或1(3)利用贝叶斯公式求后验概率)|()()|()()|()()|()()|(991100XPPXPPXPPXPPXPiii9,1,0 i后验概率的最大值的类别(0-9)就是手写数字的所属类别。谢 谢!