1、第二章第二章 贝叶斯决策理论贝叶斯决策理论2.1 最小错误率准则最小错误率准则各种概率及其关系各种概率及其关系 先验概率:先验概率:后验概率:后验概率:类条件概率:类条件概率:贝叶斯公式:贝叶斯公式:iPiPxiPx iiiPPPPxxx两个类别,一维特征两个类别,一维特征两类问题的错误率两类问题的错误率 观察到特征观察到特征x时作出判别的时作出判别的错误率错误率:1221,PP errorPxxx判定判定 两类问题最小错误率两类问题最小错误率判别准则判别准则:121122,PPPPxxxxxx如果如果多类问题最小错误率多类问题最小错误率 判别判别x属于属于i i的的错误率错误率:1jij i
2、P errorPP xxx 判别准则判别准则:1argmax,jj ciP xix则:则:贝叶斯最小错误率准则贝叶斯最小错误率准则 jjjpPPpxxx jjjgpPxx 1argmaxjj cig xixBayes判别准则判别准则:,则贝叶斯分类器的错误率估计贝叶斯分类器的错误率估计11iciiRP errorpdxx1px2px例例2.1 对一大批人进行癌症普查,设对一大批人进行癌症普查,设1 1类代表患癌类代表患癌症,症,2 2类代表正常人。已知先验概率:类代表正常人。已知先验概率:120.005,0.995PP以一个化验结果作为特征以一个化验结果作为特征x:阳性,阴性阳性,阴性,患癌症
3、,患癌症的人和正常人化验结果为阳性的概率分别为:的人和正常人化验结果为阳性的概率分别为:现有一人化验结果为阳性,问此人是否患癌症?现有一人化验结果为阳性,问此人是否患癌症?120.95,0.01P xP x阳性阳性2.2 最小平均风险准则贝叶斯分最小平均风险准则贝叶斯分 类器类器问题的提出问题的提出:有有c个类别个类别1,2,.,c,将将i i类的样本类的样本判别为判别为j j类的代价为类的代价为ij。将未知模式将未知模式x判别为判别为j j类类的的平均风险平均风险:1cjijiiPxx最小平均风险判别准则最小平均风险判别准则 利用利用Bayes公式,构造公式,构造判别函数判别函数:jjg x
4、x 1cjijiiiPPxx贝叶斯分类器贝叶斯分类器例例2.2 对一大批人进行癌症普查,设对一大批人进行癌症普查,设1类代表患癌症,类代表患癌症,2类代表正常人。已知先验概率:类代表正常人。已知先验概率:120.005,0.995PP以一个化验结果作为特征以一个化验结果作为特征x:阳性,阴性阳性,阴性,患癌症,患癌症的人和正常人化验结果为阳性的概率分别为:的人和正常人化验结果为阳性的概率分别为:判别代价:判别代价:11=0,22=0,12=100,21=25现有一人化验结果为阳性,问此人是否患癌症?现有一人化验结果为阳性,问此人是否患癌症?120.95,0.01PxPx阳 性阳 性2.3 贝叶
5、斯分类器的其它版本贝叶斯分类器的其它版本 先验概率先验概率P(i i)未知:极小化极大准则;未知:极小化极大准则;约束一定错误率(风险):约束一定错误率(风险):Neyman-Pearson准则;准则;某些特征缺失的决策:某些特征缺失的决策:连续出现的模式之间统计相关的决策:连续出现的模式之间统计相关的决策:2.4 正态分布的贝叶斯分类器正态分布的贝叶斯分类器 单变量正态分布密度函数(单变量正态分布密度函数(高斯分布高斯分布):):211e x p22xpx 11 2211exp22tiiiidipxxx多元正态分布函数多元正态分布函数正态分布的判别函数正态分布的判别函数 贝叶斯判别函数可以写
6、成对数形式:贝叶斯判别函数可以写成对数形式:lnlniiigpPxx 类条件概率密度函数为正态分布时:类条件概率密度函数为正态分布时:111ln2lnln222tiiiiiidgP xxx情况一情况一:21,iiPcI 2tiiiigxx x x 判别函数可以写成:判别函数可以写成:此分类器称为此分类器称为距离分类器距离分类器,判别函数可以用,判别函数可以用待识模式待识模式x与类别均值与类别均值i i之间的距离表示:之间的距离表示:,iigdxx 情况二情况二:i 11ln2tiiiigP xxx 1101ln2tttiiiiiiigPwx x w x 判别函数可以写成:判别函数可以写成:可以
7、简化为:可以简化为:称为称为线性分类器线性分类器线性分类器线性分类器 两类问题,两类问题,1维特征,先验概率相同时:维特征,先验概率相同时:线性分类器线性分类器 两类问题,高维特征,先验概率相同时:两类问题,高维特征,先验概率相同时:线性分类器线性分类器 两类问题,两类问题,1维特征,先验概率不同时:维特征,先验概率不同时:线性分类器线性分类器 两类问题,高维特征,先验概率不同时:两类问题,高维特征,先验概率不同时:情况三情况三:任意任意i 判别函数可以写成:判别函数可以写成:判别函数为判别函数为二次判别函数二次判别函数,分类界面为,分类界面为2次次曲线(面)。曲线(面)。111111lnln222tttiiiiiiiiigP xx x x 二次分类曲线二次分类曲线二次分类曲面二次分类曲面