1、第六部分第六部分贝叶斯学习贝叶斯学习参考书目参考书目1.Tom M.Mitchell 机器学习机器学习 机械工业出版社机械工业出版社1.1.李连文李连文 郭海鹏郭海鹏 贝叶斯网络引论贝叶斯网络引论科学出版社科学出版社0 两个示例两个示例树后有几只箱子?树后有几只箱子?可能的情况可能的情况自然语言的二义性自然语言的二义性 lThe girl saw the boy with a telescope.lThe girl saw-with-a-telescope the boy.lThe girl saw the-boy-with-a-telescope.1 贝叶斯公式贝叶斯公式)()()|()|(
2、DPhPhDPDhP 先验概率和后验概率先验概率和后验概率lP(h):h的的先验概率先验概率。表示在没有训练数据前表示在没有训练数据前假设假设h拥有的拥有的初始概率初始概率;l先验概率反映了关于先验概率反映了关于h是一正确假设的机会的是一正确假设的机会的背景知识。如果没有这一先验知识,可以简单背景知识。如果没有这一先验知识,可以简单地将地将每一候选假设赋予相同的先验概率每一候选假设赋予相同的先验概率;lP(D):训练数据:训练数据D的先验概率,的先验概率,P(D|h)表示假表示假设设h成立时成立时D的概率;的概率;lP(h|D):h的的后验概率后验概率。表示给定。表示给定D时时h的成的成立的概
3、率。立的概率。贝叶斯公式贝叶斯公式l提供了从先验概率提供了从先验概率P(h)、P(D)和和P(D|h)计算后计算后验概率验概率P(h|D)的方法,的方法,lP(h|D)随着随着P(h)和和P(D|h)的增长而增长,随着的增长而增长,随着P(D)的增长而减少的增长而减少。l即如果即如果D独立于独立于h时被观察到的可能性越大,时被观察到的可能性越大,那么那么D对对h的支持度越小。的支持度越小。极大后验假设(极大后验假设(MAP)l在候选假设集合在候选假设集合H中寻找给定数据中寻找给定数据D时,可时,可能性最大的假设能性最大的假设h;l确定确定MAP的方法是用贝叶斯公式计算每个的方法是用贝叶斯公式计
4、算每个候选假设的后验概率。候选假设的后验概率。)()|(maxarg)()()|(maxarg)|(maxarghPhDPDPhPhDPDhPhHhHhHhMAP 极大似然假设(极大似然假设(ML)l在某些情况下,可在某些情况下,可假定假定H中每个假设有相同中每个假设有相同的先验概率的先验概率。lP(D|h)常被称为给定常被称为给定h时数据时数据D的的似然度似然度,而使而使P(D|h)最大的假设被称为极大似然假最大的假设被称为极大似然假设;设;l假设空间假设空间H可扩展为任意的互斥命题集合,可扩展为任意的互斥命题集合,只要这些命题的概率之和为只要这些命题的概率之和为1。)|(maxarghDP
5、hHhML 示例示例-医疗诊断医疗诊断l有两个可选的假设:病人有癌症、病人无癌症l可用数据来自化验结果:正+和负-l先验知识:l在所有人口中,患病率是0.008l对确实有病的患者的化验准确率为98%,l对确实无病的患者的化验准确率为97%先验知识的概率表示先验知识的概率表示P(cancer)=0.008,P(cancer)=0.992P(+|cancer)=0.98,P(-|cancer)=0.02P(+|cancer)=0.03,P(-|cancer)=0.97示例示例l假定有一个病人,化验结果为正,是否应将病人断定为有癌症?l求后验概率P(cancer|+)和P(cancer|+)l极大后
6、验假设lP(+|cancer)P(cancer)=0.0078lP(+|cancer)P(cancer)=0.0298lhMAP=cancerl确切的后验概率:上面结果的归一化P(canner|+)=0.0078/(0.0078+0.0298)=0.21lP(cancer|-)=0.79贝叶斯推理贝叶斯推理贝叶斯推理的结果很大程度上依赖于先验概率贝叶斯推理的结果很大程度上依赖于先验概率,同时不是完全接受或拒绝假设,只是在观察,同时不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。到较多的数据后增大或减小了假设的可能性。基本概率公式表基本概率公式表乘法规则:乘法规则:(A
7、 B)=P(A|B)P(B)=P(B|A)P(A)加法规则:加法规则:P(A B)=P(A)+P(B)-P(A B)贝叶斯法则:贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D)全概率法则:如果事件全概率法则:如果事件A1.An互斥,且满足互斥,且满足 则则 niiiAPABPBP1)()|()(11 niiAP)(贝叶斯法则贝叶斯法则l贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。2 极大似然与最小误差平方假设极大似然与最小误差平方假设某些学习算法即使没有显式地使用贝叶斯规则,某些学习
8、算法即使没有显式地使用贝叶斯规则,或以某种形式计算概率,但它们或以某种形式计算概率,但它们输出的结果符合输出的结果符合贝叶斯原理贝叶斯原理,是一个,是一个MAP假设;假设;在特定前提下,任一学习算法如果使输出的假设在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设输出一极大似然假设;对于许多神经网络和曲线拟合的方法,如果它们对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论试图在训练数据上使误差平方和最小化,此结论提供了提供了基于贝叶斯的理论依据基于贝叶斯的理论依据。
9、最小误差平方假设最小误差平方假设学习器学习器L工作在工作在实例空间实例空间X和和假设空间假设空间H上上,H中的假设为中的假设为X上定义的某种实数值函上定义的某种实数值函数;数;L面临的问题是学习一个从面临的问题是学习一个从H中抽取出的中抽取出的未知目标函数未知目标函数f,给定,给定m个训练样例的集个训练样例的集合,每个样例的目标值被某随机噪声干扰合,每个样例的目标值被某随机噪声干扰,此随机噪声服从正态分布;,此随机噪声服从正态分布;最小误差平方假设最小误差平方假设每个训练样例是序偶每个训练样例是序偶 ,di=f(xi)+ei,ei是代表噪声的随机变量,假定是代表噪声的随机变量,假定ei的值是的
10、值是独立抽取的,并且它们的分布服从独立抽取的,并且它们的分布服从0均值均值的正态分布;的正态分布;学习器的任务是在所有假设有相等的先验学习器的任务是在所有假设有相等的先验概率前提下,输出极大似然假设(即概率前提下,输出极大似然假设(即MAP假设)。假设)。最小误差平方假设最小误差平方假设最小误差平方假设最小误差平方假设l假定有一固定的训练实例集合,因此只考假定有一固定的训练实例集合,因此只考虑相应的目标值序列虑相应的目标值序列D=,且,且di=f(xi)+ei。l假定训练样例是相互独立的,给定假定训练样例是相互独立的,给定h时,时,可将可将P(D|h)写成各写成各p(di|h)的积:的积:mi
11、iHhMLhdph1)|(maxarg最小误差平方假设最小误差平方假设l如果误差如果误差ei服从服从0均值和未知方差均值和未知方差 2的正态的正态分布,那么每个分布,那么每个di服从均值为服从均值为f(xi),方差不,方差不变的正态分布。因此,变的正态分布。因此,p(di|h)可写为方差可写为方差 2、均值、均值f(xi)的正态分布的正态分布;l概率概率di的表达式是在的表达式是在h为目标函数为目标函数f的正确描的正确描述条件下的,所以述条件下的,所以替换替换=f(xi)=h(xi)。最小误差平方假设最小误差平方假设miiiHhmiiiHhmiiiHh)x(hd(miHhmi)d(HhML)x
12、(hd(minarg)x(hd(maxarg)x(hd(lnmaxargemaxargemaxarghiii1212212222112121221212121212222 最小误差平方假设最小误差平方假设上式说明了极大似然假设等价于使训练值上式说明了极大似然假设等价于使训练值和假设预测值之间误差的平方和最小的那和假设预测值之间误差的平方和最小的那个假设。个假设。这个结论的前提是:训练值等于真实目标这个结论的前提是:训练值等于真实目标值加上随机噪声,其中随机噪声从一个均值加上随机噪声,其中随机噪声从一个均值为值为0的正态分布中独立抽取。的正态分布中独立抽取。采用正态分布的合理性采用正态分布的合理
13、性p数学计算的简洁性;数学计算的简洁性;p对许多物理系统的噪声都有良好的近似;对许多物理系统的噪声都有良好的近似;p中心极限定力显示,足够多的独立同分布随机中心极限定力显示,足够多的独立同分布随机变量的和服从正态分布;变量的和服从正态分布;p由许多独立同分布的因素的和所生成的噪声将由许多独立同分布的因素的和所生成的噪声将成为正态分布。成为正态分布。3 贝叶斯最优分类器贝叶斯最优分类器l给定训练数据,最可能的假设是什么?给定训练数据,最可能的假设是什么?l给定训练数据,对新实例的最可能的分类是什给定训练数据,对新实例的最可能的分类是什么?么?l第二个问题的解决可以将第一个问题的结果(第二个问题的
14、解决可以将第一个问题的结果(MAP)应用到新实例上得到;)应用到新实例上得到;l还存在更好的算法还存在更好的算法.一个例子一个例子l一个包含三个假设一个包含三个假设h1,h2,h3的假设空间;的假设空间;l假定已知训练数据时三个假设的后验概率分别是假定已知训练数据时三个假设的后验概率分别是0.4,0.3,0.3,因此,因此h1为为MAP假设。假设。l若一新实例若一新实例x被被h1分类为正,被分类为正,被h2和和h3分类为反;分类为反;l计算所有假设,计算所有假设,x为正例的概率为为正例的概率为0.4,为反例的,为反例的概率为概率为0.6;l这时最可能的分类与这时最可能的分类与MAP假设生成的分
15、类不同假设生成的分类不同。贝叶斯最优分类器贝叶斯最优分类器l一般而言,一般而言,新实例的最可能分类可通过合新实例的最可能分类可通过合并所有假设的预测得到,权重为其后验概并所有假设的预测得到,权重为其后验概率。率。l如果新实例的可能分类可取某集合如果新实例的可能分类可取某集合V中的中的任一值任一值vj,那么概率,那么概率P(vj|D)为新实例分类为新实例分类为为vj的概率的概率 HhiijjiDhPhvPDvP)|()|()|(贝叶斯最优分类器贝叶斯最优分类器u新实例的最优分类为使P(vj|D)最大的vj值 HhiijVvijDhPhvP)|()|(maxarg贝叶斯最优分类器贝叶斯最优分类器-
16、示例示例u新实例的可能分类集合为新实例的可能分类集合为V=+,-uP(h1|D)=0.4,P(-|h1)=0,P(+|h1)=1uP(h2|D)=0.3,P(-|h2)=1,P(+|h2)=0uP(h3|D)=0.3,P(-|h3)=1,P(+|h2)=0 40.)|()|(HhiiiDhPhP HhiijHhviijDhPhvP)|()|(maxarg,60.)|()|(HhiiiDhPhP贝叶斯最优分类器贝叶斯最优分类器使用相同的假设空间和相同的先验概率,使用相同的假设空间和相同的先验概率,没有其他方法能比其平均性能更好。贝叶没有其他方法能比其平均性能更好。贝叶斯最优分类器在给定可用数据、
17、假设空间斯最优分类器在给定可用数据、假设空间及这些假设的先验概率下使新实例被正确及这些假设的先验概率下使新实例被正确分类的可能性达到最大分类的可能性达到最大Gibbs算法算法贝叶斯最优分类器能从给定训练数据中获贝叶斯最优分类器能从给定训练数据中获得最好的性能,但算法的开销很大。得最好的性能,但算法的开销很大。一个替代的、非最优的方法是一个替代的、非最优的方法是Gibbs算法:算法:p按照按照H上的后验概率分布,从上的后验概率分布,从H中随机选择中随机选择假设假设h;p使用使用h来预言下一个实例来预言下一个实例x的分类。的分类。Gibbs算法算法l在一定条件下,在一定条件下,Gibbs算法的误分
18、类率的期算法的误分类率的期望值最多为贝叶斯最优分类器的望值最多为贝叶斯最优分类器的两倍两倍。确。确切地讲,期望值是在随机抽取的目标概念切地讲,期望值是在随机抽取的目标概念上作出的,抽取过程按照学习器假定的先上作出的,抽取过程按照学习器假定的先验概率。验概率。朴素贝叶斯分类器朴素贝叶斯分类器(Naive Bayes Classifier)l学习任务:学习任务:每个实例每个实例x可由可由属性值的合取属性值的合取描述描述,而目标函数,而目标函数f(x)从某有限集合从某有限集合V中取值。中取值。l贝叶斯方法的新实例分类目标是在给定描述贝叶斯方法的新实例分类目标是在给定描述实例的属性值实例的属性值下,得
19、到最可能的目下,得到最可能的目标值标值vMAP:),.,|(maxargnjvMAPaavPvj1 朴素贝叶斯分类器朴素贝叶斯分类器)()|,.,(maxarg),.,()()|,.,(maxargjjnVvnjjnVvMAPvPvaaPaaPvPvaaPvjj111 朴素贝叶斯分类器朴素贝叶斯分类器l基于训练数据估计两个数据项的值基于训练数据估计两个数据项的值估计估计P(vj)很容易:计算每个目标值很容易:计算每个目标值vj出现在训出现在训练数据中的频率。练数据中的频率。u估计估计P(a1,.an|vj)遇到数据稀疏问题,除非有一遇到数据稀疏问题,除非有一个非常大的训练数据集,否则无法获得可
20、靠的个非常大的训练数据集,否则无法获得可靠的估计。估计。朴素贝叶斯分类器朴素贝叶斯分类器u朴素贝叶斯分类器引入一个简单的假定避免朴素贝叶斯分类器引入一个简单的假定避免数据稀疏问题,数据稀疏问题,在给定目标值时,属性值之在给定目标值时,属性值之间相互条件独立间相互条件独立u朴素贝叶斯分类器的定义:朴素贝叶斯分类器的定义:ijijVvNBvaPvPvj)|()(maxarg ijijnvaPvaaP)|()|,.,(1朴素贝叶斯分类器朴素贝叶斯分类器l从训练数据中估计不同从训练数据中估计不同P(ai|vj)项的数量比要估项的数量比要估计计P(a1,.,an|vj)项所需的量小得多;项所需的量小得多
21、;l只要条件独立性得到满足,朴素贝叶斯分类只要条件独立性得到满足,朴素贝叶斯分类vNB等于等于MAP分类,否则是近似;分类,否则是近似;l朴素贝叶斯分类器与其他已介绍的学习方法的朴素贝叶斯分类器与其他已介绍的学习方法的一个区别:没有明确地搜索可能假设空间的过一个区别:没有明确地搜索可能假设空间的过程(假设的形成不需要搜索,只是简单地计算程(假设的形成不需要搜索,只是简单地计算训练样例中不同数据组合的出现频率)。训练样例中不同数据组合的出现频率)。示例示例DayOutlookTemperatureHumidityWindPlay TennisD1SunnyHotHighWeakNoD2Sunny
22、HotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakNoD6RainCoolNormalStrongYesD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHi
23、ghStrongNo示例示例)|()|()|()|()(maxarg)|()(maxarg,jjjjjnoyesvijijnoyesvNBvstrongPvhighPvcoolPvsunnyPvPvaPvPvjj u表中提供了目标概念表中提供了目标概念Play Tennis的的14个训练样例,给新个训练样例,给新实例实例分类分类u计算出上式需要的概率值计算出上式需要的概率值P(yes)=9/14=0.64P(no)=5/14=0.36P(strong|yes)=3/9=0.33P(strong|no)=3/5=0.60.)|()|()|()|()(maxarg)|()(maxarg,jjjjj
24、noyesvijijnoyesvNBvstrongPvhighPvcoolPvsunnyPvPvaPvPvjj 示例示例uvNBP(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes)=0.0053P(no)P(sunny|no)P(cool|no)P(high|no)P(strong|no)=0.0206vNB=nou归一化归一化0.0206/(0.0206+0.0053)=0.7954 EM算法算法在许多实际的学习问题框架中,相关实例特征在许多实际的学习问题框架中,相关实例特征中只有一部分可观察到中只有一部分可观察到已有许多方法被提出来处理
25、存在未观察到变量已有许多方法被提出来处理存在未观察到变量的问题的问题l如果某些变量有时能观察到,有时不能,那么可以如果某些变量有时能观察到,有时不能,那么可以用观察到该变量的实例去预测未观察到的实例中的用观察到该变量的实例去预测未观察到的实例中的变量的值变量的值EM算法算法uEM算法是存在隐含变量时广泛使用的一种学算法是存在隐含变量时广泛使用的一种学习方法,可用于变量的值从来没有被直接观察习方法,可用于变量的值从来没有被直接观察到的情形,只要这些变量所遵循的概率分布的到的情形,只要这些变量所遵循的概率分布的一般形式已知一般形式已知用于贝叶斯网的训练用于贝叶斯网的训练用于马尔可夫模型的训练用于马
26、尔可夫模型的训练示例:估计示例:估计k k个高斯分布的均值个高斯分布的均值n考虑考虑D是一个实例集合,它由是一个实例集合,它由k个不同正态个不同正态分布的混合所得分布生成分布的混合所得分布生成n每个实例使用一个两步骤的过程形成:每个实例使用一个两步骤的过程形成:首先,随机选择首先,随机选择k个正态分布中的一个个正态分布中的一个其次,随机变量其次,随机变量xi按照此选择的分布生成按照此选择的分布生成示例示例u考虑一个简单情形:考虑一个简单情形:单个正态分布的选择基于均匀的概率进行,且单个正态分布的选择基于均匀的概率进行,且k个正态分布有相同的方差;个正态分布有相同的方差;学习任务:输出一个假设学
27、习任务:输出一个假设h=,描述,描述k个分布中每个分布的均值,找到极大似然假设个分布中每个分布的均值,找到极大似然假设,即使得,即使得p(D|h)最大化的假设。最大化的假设。隐藏变量隐藏变量u当给定从一个正态分布中抽取的数据实例当给定从一个正态分布中抽取的数据实例x1,.,xm时,很容易计算该分布的均值的时,很容易计算该分布的均值的极大似然假设:极大似然假设:u涉及涉及k个不同正态分布,而且不知道哪个实个不同正态分布,而且不知道哪个实例是哪个分布产生的例是哪个分布产生的。这是一个涉及。这是一个涉及隐藏隐藏变量变量的典型例子。的典型例子。miimiiMLxmx1121)(minarg 两个正态分
28、布的混合两个正态分布的混合示例示例u每个实例的完整描述是三元组每个实例的完整描述是三元组,其中其中xi是第是第i个实例的观测值,个实例的观测值,zi1和和zi2表示表示哪个正态分布被用来产生哪个正态分布被用来产生xi,是隐藏变量。,是隐藏变量。uEM算法根据当前假设算法根据当前假设,不断地再,不断地再估计隐藏变量估计隐藏变量zij的期望值,然后用这些隐藏的期望值,然后用这些隐藏变量的期望值重新计算极大似然假设。变量的期望值重新计算极大似然假设。示例示例n先将假设初始化为先将假设初始化为h=n计算每个隐藏变量计算每个隐藏变量zij的期望值的期望值Ezij,假定当前,假定当前假设假设h=成立;成立
29、;n计算一个新的极大似然假设计算一个新的极大似然假设h=,假,假定每个隐藏变量定每个隐藏变量zij所取值是第一步得到的期望所取值是第一步得到的期望值值E zij。将假设替换为。将假设替换为h=,然后循,然后循环。环。示例:示例:步骤步骤1Ezij正是实例正是实例xi由第由第j个正态分布生成的概个正态分布生成的概率率 212121212222nxxnnijiijnijieexxpxxpzE)()()|()|(示例:示例:步骤步骤2使用第一步得到的使用第一步得到的Ezij来导出一新的极大来导出一新的极大似然假设似然假设 miijmiiijjzExzE11 示例示例n第二步中的表达式类似于单一正态分
30、布均第二步中的表达式类似于单一正态分布均值的计算,只是变成了加权样本均值。值的计算,只是变成了加权样本均值。nEM算法的要点:算法的要点:当前的假设用于估计未知当前的假设用于估计未知变量,而这些变量的期望值再被用于改进变量,而这些变量的期望值再被用于改进假设。假设。n可以证明:算法的每一次循环中,可以证明:算法的每一次循环中,EM算法算法能使似然能使似然P(D|h)增加,除非增加,除非P(D|h)达到局部达到局部最大。因此算法收敛到一个局部最大似然最大。因此算法收敛到一个局部最大似然假设。假设。EM算法的一般表述算法的一般表述l一般地,令待估计参数是一般地,令待估计参数是,全部数据,全部数据Y
31、=X Z,其中,其中X是可观察数据,是可观察数据,Z是未观察是未观察数据。数据。lZ可看作一个随机变量,它的概率分布依赖可看作一个随机变量,它的概率分布依赖于参数于参数 和已知数据和已知数据X。lY也是一个随机变量,因为它由随机变量也是一个随机变量,因为它由随机变量Z定义。定义。EM算法的一般表述算法的一般表述nEM算法通过搜寻使算法通过搜寻使ElnP(Y|h)最大的最大的h来寻找来寻找极大似然假设极大似然假设h,其合理性是:,其合理性是:P(Y|h)是给定假设是给定假设h下全部数据下全部数据Y的似然度,因此找到的似然度,因此找到使得这个值最大的使得这个值最大的h是合理的;是合理的;对数对数l
32、nP(Y|h)最大化也使最大化也使P(Y|h)最大化;最大化;由于由于Y是一个随机变量,因此是一个随机变量,因此P(Y|h)无法计算,转而计无法计算,转而计算它的期望值算它的期望值ElnP(Y|h);nY的概率分布由待估计的参数决定,的概率分布由待估计的参数决定,EM算法使用算法使用当前假设当前假设h代替实际参数,来估计代替实际参数,来估计Y的概率分布。的概率分布。EM算法的一般形式算法的一般形式u定义函数定义函数 Q(h|h)=ElnP(Y|h)|h,XEM算法的一般形式算法的一般形式u重复下面的步骤,直至收敛重复下面的步骤,直至收敛l估计估计(Expectation)步骤:使用当前假设步骤
33、:使用当前假设h和观和观察到的数据察到的数据X来估计来估计Y上的概率分布以计算上的概率分布以计算Q(h|h):Q(h|h)ElnP(Y|h)|h,Xl最大化最大化(Maximization)步骤:将假设步骤:将假设h替换为使替换为使Q函数最大化的假设函数最大化的假设h:hargmaxhQ(h|h)n当函数当函数Q连续时,连续时,EM算法收敛到似然函数算法收敛到似然函数P(Y|h)的一个不动点,它保证收敛到一个局的一个不动点,它保证收敛到一个局部最大值。部最大值。K均值算法推导均值算法推导u问题框架问题框架要估计要估计k个正态分布的均值个正态分布的均值=观察到的数据是观察到的数据是X=隐藏变量隐
34、藏变量Z=表示表示k个正态分布中哪个正态分布中哪一个生成一个生成xiK均值算法推导均值算法推导u单个实例的概率单个实例的概率 kjjiijxzikiiiehzzxphyp122212121)()|,.,()|(K均值算法推导均值算法推导u所有实例的概率的对数所有实例的概率的对数 mikjjiijmiimiixzhyphyphYP11222112121)(ln)|(ln)|(ln)|(ln K均值算法推导均值算法推导u计算期望值计算期望值 mikjjiijmikjjiijxzExzEhYPE112221122221212121)(ln)(ln)|(ln K均值算法推导均值算法推导u求使求使Q函数
35、最大的假设函数最大的假设 mikjjiij hmikjjiij h hxzEminargxzElnmaxarg)h|h(Qmaxarg112112222121 K均值算法推导均值算法推导u解上式得到解上式得到u其中其中 miijmiiijjzExzE11 kn)x()x(ijjijieezE121221222 5 Bayes网与网与Markov链链n条件独立性条件独立性令令X,Y和和Z为为3个离散值随机变量,当给定个离散值随机变量,当给定Z值时值时X服从的概率分布独立于服从的概率分布独立于Y的值,称的值,称X在在给定给定Z时条件独立于时条件独立于Y,即,即简写:简写:P(X|Y,Z)=P(X|
36、Z)|(),|(,kikjikjizZxXPzZyYxXPzyx 条件独立性条件独立性u变量集合的条件独立性变量集合的条件独立性下面等式成立时,称变量集合下面等式成立时,称变量集合X1.Xl在给定变量集在给定变量集合合Z1.Zn时条件独立于变量集合时条件独立于变量集合Y1.Ym).|.().,.|.(nlnmlZZXXPZZYYXXP11111 条件独立性条件独立性u与朴素贝叶斯分类器的之间的关系与朴素贝叶斯分类器的之间的关系)|()|()|(),|()|,(VAPVAPVAPVAAPVAAP2122121 贝叶斯信念网贝叶斯信念网n贝叶斯信念网(简称贝叶斯网)表示一组贝叶斯信念网(简称贝叶斯
37、网)表示一组变量的联合概率分布。变量的联合概率分布。n一般地说,贝叶斯网表示联合概率分布的一般地说,贝叶斯网表示联合概率分布的方法是指定一组条件独立性假定(有向无方法是指定一组条件独立性假定(有向无环图)以及一组局部条件概率集合。环图)以及一组局部条件概率集合。贝叶斯信念网贝叶斯信念网n联合空间中每个联合空间中每个变量变量在贝叶斯网中表示为在贝叶斯网中表示为一个一个节点节点,每个变量需要两种类型的信息,每个变量需要两种类型的信息网络弧表示断言网络弧表示断言“此变量在给定其直接前驱此变量在给定其直接前驱时条件独立于其非后继时条件独立于其非后继”;每个变量有一个条件概率表,描述了该变量每个变量有一
38、个条件概率表,描述了该变量在给定其立即前驱时的概率分布。在给定其立即前驱时的概率分布。示例示例S.BS.BS.BS.BC C0.40.40.10.10.80.80.20.2C C0.60.60.90.90.20.20.80.8心血管疾病与其成因之间的关系心血管疾病与其成因之间的关系 贝叶斯信念网的表示贝叶斯信念网的表示u对网络变量的元组对网络变量的元组赋以所希望的值赋以所希望的值(y1.yn)的联合概率计算公式如下:的联合概率计算公式如下:uParents(Yi)表示网络中表示网络中Yi立即前驱的集合立即前驱的集合u所有变量的局部条件概率表以及由网络所描述所有变量的局部条件概率表以及由网络所描
39、述的一组条件独立假定,描述了该网络的整个联的一组条件独立假定,描述了该网络的整个联合概率分布合概率分布 niiinYParentsyPyyP11)(|(),.,(示例示例n断言断言40.),|(TrueupBusTourGroTrueStormTrueCampfirePMarkov Chain nObservable states:1,2,NnObserved sequence:q1,q2,qt,qTnFirst order Markov assumption:P(qt=j|qt-1=i,qt-2=k,)=P(qt=j|qt-1=i)nStationarity:P(qt=j|qt-1=i)=P(qt+l=j|qt+l-1=i)Markov模型模型u状态迁移矩阵状态迁移矩阵 NNNjNNiNijiiNjNjaaaaaaaaaaaaaaaaA1121122221111211 iqjqPattij 1|Markov模型模型u先验概率先验概率 iqPi 1 Alice and Bob Viterbi algorithm