1、第第06章章-贝叶斯网络贝叶斯网络(wnglu)第一页,共一百一十七页。内容提要内容提要(ni rn t yo)6.1 6.1 概述概述 6.2 6.2 贝叶斯概率贝叶斯概率基础基础6.3 6.3 贝叶斯贝叶斯问题的求解问题的求解6.4 6.4 简单贝叶斯简单贝叶斯学习模型学习模型6.5 6.5 贝叶斯贝叶斯网络的建造网络的建造6.6 6.6 贝叶斯贝叶斯潜在语义模型潜在语义模型6.7 6.7 半监督半监督文本文本(wnbn)(wnbn)挖掘挖掘算法算法2023-2-152第二页,共一百一十七页。6.1 概概 述述l贝叶斯网络是用来表示贝叶斯网络是用来表示变量间连接概率变量间连接概率的的图形图
2、形模式模式,它提供了一种自然,它提供了一种自然(zrn)(zrn)的表示的表示因果信息因果信息的方法,用来发现数据间的潜在关系。在这个的方法,用来发现数据间的潜在关系。在这个网络中,用网络中,用节点节点表示表示变量变量,有向边有向边表示表示变量间变量间的依赖的依赖关系关系。l贝叶斯方法以其独特的贝叶斯方法以其独特的不确定性不确定性知识表达形式、知识表达形式、丰富的丰富的概率表达概率表达能力、综合先验知识的能力、综合先验知识的增量学增量学习习特性等成为当前数据挖掘众多方法中最为引特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。人注目的焦点之一。2023-2-153第三页,共一百一十七页。
3、2023-2-1546.1 概概 述述6.1.1 贝叶斯网络的发展历史贝叶斯网络的发展历史l贝叶斯贝叶斯(Reverend Thomas Bayes,1702-1761)学派学派(xupi)奠基奠基性的工作是贝叶斯的论文性的工作是贝叶斯的论文“关于几率性问题求解的评论关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这一论文在或许是他自己感觉到它的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯的数学家拉普拉斯(Laplace P.S.)用贝叶斯的方法导出了重要用贝
4、叶斯的方法导出了重要的的“相继律相继律”,贝叶斯的方法和理论逐渐被人理解和重视,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。很多不完善的地方,因而在十九世纪并未被普遍接受。第四页,共一百一十七页。2023-2-1556.1 概概 述述6.1.1 贝叶斯网络的发展历史贝叶斯网络的发展历史l二十世纪初,意大利的菲纳特(二十世纪初,意大利的菲纳特(B.de Finetti)以及英国的杰以及英国的杰弗莱(弗莱(Jeffreys H.)都对贝叶斯学派的理论作出重要的
5、贡都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(献。第二次世界大战后,瓦尔德(Wald A.)提出了提出了统计的决统计的决策策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统年英国最悠久的统计杂志计杂志Biometrika全文重新刊登了贝叶斯的论文,全文重新刊登了贝叶斯的论文,20世纪世纪50年代,以罗宾斯(年代,以罗宾斯(Robbins H.)为代表,提出了经验贝叶为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意
6、斯方法和经典方法相结合,引起统计界的广泛注意(zh y),这一方,这一方法很快就显示出它的优点,成为很活跃的一个方向。法很快就显示出它的优点,成为很活跃的一个方向。第五页,共一百一十七页。2023-2-1566.1 概概 述述6.1.1 贝叶斯网络的发展历史贝叶斯网络的发展历史l随着人工智能的发展,尤其是机器学习、数据挖掘等随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更为广阔的兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。空间。贝叶斯理论的内涵也比以前有了很大的变化。8080年代年代贝叶斯网络贝叶斯网络用于专家
7、系统的知识表示,用于专家系统的知识表示,9090年代进一年代进一步研究步研究可学习的贝叶斯网络可学习的贝叶斯网络,用于数据采掘和机器学习。,用于数据采掘和机器学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、内容涵盖了人工智能的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出不确定性知识表达、模式识别和聚类分析等。并且出现现(chxin)(chxin)了专门研究贝叶斯理论的组织和学术刊物了专门研究贝叶斯理论的组织和学术刊物International Society Bayesi
8、an Analysis。第六页,共一百一十七页。2023-2-1576.1 概概 述述6.1.2 贝叶斯方法的基本观点贝叶斯方法的基本观点l贝叶斯分析方法的贝叶斯分析方法的特点特点是是用概率去表示所有形式的不确用概率去表示所有形式的不确定性,学习或其它形式的推理都用概率规则来实现定性,学习或其它形式的推理都用概率规则来实现。l贝叶斯贝叶斯学习的结果学习的结果表示为随机变量的概率分布,它可以表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。解释为我们对不同可能性的信任程度。l贝叶斯学派的起点贝叶斯学派的起点(qdin)(qdin)是贝叶斯的两项工作:是贝叶斯的两项工作:贝叶贝叶斯
9、定理斯定理和和贝叶斯假设贝叶斯假设。l贝叶斯定理将事件的贝叶斯定理将事件的先验概率先验概率与与后验概率后验概率联系起来联系起来。第七页,共一百一十七页。2023-2-1586.1 概概 述述6.1.2 贝叶斯方法的基本观点贝叶斯方法的基本观点 假定假定随机向量随机向量x,的的联合分布密度联合分布密度是是p(x,),它们的它们的边边际密度际密度分别为分别为p(x)、p()。一般情况下设一般情况下设x是是观测向量观测向量,是是未知参数未知参数(cnsh)(cnsh)向量向量,通过观测向量获得未知参数向量的估计,通过观测向量获得未知参数向量的估计,贝贝叶斯定理叶斯定理记作:记作:dxpxpxpxpx
10、p)|()()|()()()|()()|()是是的先验的先验(xin yn)分布分布 (6.1)第八页,共一百一十七页。2023-2-1596.1 概概 述述6.1.2 贝叶斯方法的基本观点贝叶斯方法的基本观点 贝贝叶斯方法叶斯方法对未知参数向量估计的一般过程对未知参数向量估计的一般过程为:为:将将未知参数看成未知参数看成随机向量,这是随机向量,这是贝贝叶斯方法与传统的参数估计叶斯方法与传统的参数估计方法的最大区别。方法的最大区别。根据以往对参数根据以往对参数的知识,确定先验分布的知识,确定先验分布(),它是它是贝贝叶斯方法叶斯方法容易引起争议的一步,因此而受到经典统计界的攻击。容易引起争议的
11、一步,因此而受到经典统计界的攻击。计算后验分布密度,做出对计算后验分布密度,做出对未知参数的推断。未知参数的推断。在第在第步,步,如果没有任何以往的知识来帮助确定如果没有任何以往的知识来帮助确定(),贝贝叶叶斯提出可以斯提出可以(ky)采用均匀分布作为其分布,即参数在它的变化采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的,范围内,取到各个值的机会是相同的,称这个称这个假定假定为为贝贝叶斯假设叶斯假设。第九页,共一百一十七页。2023-2-15106.1 概概 述述6.1.3 贝叶斯网络贝叶斯网络(wnglu)的应用领域的应用领域l 辅助智能决策(juc)l 数据融合l
12、 模式识别l 医疗诊断l 文本理解l 数据挖掘1.贝叶斯方法用于分类及回归分析贝叶斯方法用于分类及回归分析2.用于因果推理和不确定知识表达用于因果推理和不确定知识表达(biod)3.用于聚类模式发现用于聚类模式发现第十页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 6.2.1 概率论基础概率论基础 概率论概率论是研究是研究随机现象规律性随机现象规律性的数学的数学。随机现象随机现象是指在相同是指在相同的条件下,其出现的结果是不确定的现象。随机现象的条件下,其出现的结果是不确定的现象。随机现象又可分为又可分为个别个别随机现象随机现象和和大量的随机现象。对大量的
13、随机现象进行观察所得到的规大量的随机现象。对大量的随机现象进行观察所得到的规律性,被人们称为律性,被人们称为统计规律性统计规律性。在统计上,我们习惯在统计上,我们习惯把一次对现象的观察、登记或实验叫做把一次对现象的观察、登记或实验叫做一次一次试验试验。随机性实验随机性实验是指对随机现象的观察。是指对随机现象的观察。随机试验在完全随机试验在完全相同相同的条件的条件下,可能出现下,可能出现不同的结果不同的结果,但所有可能结果的范围是,但所有可能结果的范围是可以估可以估计计的,即随机试验的结果具有的,即随机试验的结果具有不确定性不确定性和和可预计可预计(yj)性性。在统计上,。在统计上,一般把一般把
14、随机实验的结果随机实验的结果,即,即随机现象的具体表现随机现象的具体表现称为称为随机事件随机事件,简,简称称事件事件。随机事件是指试验中随机事件是指试验中可能出现可能出现,也也可能不出现可能不出现的结果。的结果。2023-2-1511史忠植 高级(goj)人工智能第十一页,共一百一十七页。2023-2-15126.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 6.2.1 概率论基础概率论基础 定义定义6.1 统计概率统计概率 若在大量重复试验中,事件若在大量重复试验中,事件A发生的频率发生的频率(pnl)稳定地接近于一个固定的常数稳定地接近于一个固定的常数p,它表明它表明事件事
15、件A出现的可能性大小,则称此常数出现的可能性大小,则称此常数p为事件为事件A发生的发生的概率,记为概率,记为P(A),即即 pP(A)(6.2)可见概率就是频率的稳定中心。任何事件可见概率就是频率的稳定中心。任何事件A的概率为的概率为不大于不大于1的非负实数,即的非负实数,即0P(A)1 第十二页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能136.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 定义定义6.2 古典概率古典概率 我们设一种次试验有且仅有有限的我们设一种次试验有且仅有有限的N个可能个可能(knng)结果,即结果,即N个基本事件,而个基本事件,而
16、A事件包含着事件包含着K个个可能结果,则称可能结果,则称K/N为事件为事件A的概率,记为的概率,记为P(A)。即即P(A)K/N 定义定义6.3 几何概率几何概率 假设假设是几何型随机试验的基是几何型随机试验的基本事件空间,本事件空间,F是是中一切可测集的集合,则对于中一切可测集的集合,则对于F中的中的任意事件任意事件A的的概率概率P(A)为为A与与的体积之比,即的体积之比,即 P(A)V(A)/V()(6.3)第十三页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 定义定义6.4 条件概率条件概率 我们把事件我们把事件B已经出现的已经出现的条件下,事件条件
17、下,事件A发生发生(fshng)的概率记做为的概率记做为P(A|B)。并并称为在称为在B出现的条件下出现的条件下A出现的出现的条件概率条件概率,而称,而称P(A)为为无条件概率无条件概率。若事件若事件A与与B中的任一个出现,并不影响另中的任一个出现,并不影响另一事件出现的概率,即当一事件出现的概率,即当P(A)P(AB)或或P(B)P(BA)时,时,则称则称A与与B是相互独立的事件是相互独立的事件。2023-2-1514史忠植 高级(goj)人工智能第十四页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 定理定理6.1 加法定理加法定理 两个不相容两个不相容
18、(互斥互斥)事件之和事件之和的概率,等于的概率,等于(dngy)两个事件概率之和,即两个事件概率之和,即P(A+B)P(A)P(B)两个互逆事件两个互逆事件A和和A-1的概率之和为的概率之和为1。即当。即当A+A-1,且且A与与A-1互斥,则互斥,则P(A)P(A-1)1,或常有或常有P(A)1P(A-1)。若若A、B为两任意事件,则为两任意事件,则P(A+B)P(A)P(B)P(AB)2023-2-1515史忠植 高级(goj)人工智能第十五页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 定理定理6.2 乘法定理乘法定理 设设A、B为两个为两个不相容不相
19、容(互斥互斥)非零事件,则其乘积的概率等于非零事件,则其乘积的概率等于A和和B概率的乘概率的乘积,即积,即P(AB)P(A)P(B)或或 P(AB)P(B)P(A)设设A、B为两个任意为两个任意(rny)的非零事件,则其乘的非零事件,则其乘积的概率等于积的概率等于A(或或B)的概率与在的概率与在A(或或B)出现的条出现的条件下件下B(或或A)出现的条件概率的乘积。出现的条件概率的乘积。P(AB)P(A)P(B|A)或或 P(AB)P(B)P(A|B)2023-2-1516史忠植 高级(goj)人工智能第十六页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础6.
20、2.2 贝叶斯概率贝叶斯概率 (1)先验概率。先验概率。先验概率是指根据历史的资料先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,该类概率或主观判断所确定的各事件发生的概率,该类概率没能经过实验证实没能经过实验证实,属于检验前的概率,所以,属于检验前的概率,所以称之为称之为先验概率先验概率。先验概率一般。先验概率一般(ybn)分为两类,分为两类,一是一是客观先验概率客观先验概率,是指利用过去的历史资料计算,是指利用过去的历史资料计算得到的概率得到的概率;二是;二是主观先验概率主观先验概率,是指在无历史资是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经料或历史资料不全的时
21、候,只能凭借人们的主观经验来判断取得的概率验来判断取得的概率。2023-2-1517史忠植 高级(goj)人工智能第十七页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 (2)后验概率。后验概率。后验概率一般后验概率一般(ybn)是指是指利用贝利用贝叶斯公式叶斯公式,结合调查等方式结合调查等方式获取了新的附加信获取了新的附加信息,对先验概率进行修正后得到的更符合实际息,对先验概率进行修正后得到的更符合实际的概率。的概率。(3)联合概率。联合概率。联合概率也叫联合概率也叫乘法公式乘法公式,是是指两个任意指两个任意(rny)事件的乘积的概率事件的乘积的概率,或称
22、之为,或称之为交交事件的概率事件的概率。2023-2-1518史忠植 高级人工智能第十八页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 (4)全概率公式全概率公式(gngsh)。设设B1,B2,Bn是两两互斥的事是两两互斥的事件,且件,且P(Bi)0,i=1,2,n,B1+B2+,+Bn=。另有一事件另有一事件(shjin)A=AB1+AB2+,+ABnniiiBAPBPAP1)()()(称满足上述条件的称满足上述条件的B1,B2,Bn为为完备事件组完备事件组。B1B2B3BnA2023-2-1519史忠植 高级人工智能第十九页,共一百一十七页。6.2 6
23、.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础 由此可以形象地把由此可以形象地把全概率公式看成为全概率公式看成为“由由原因原因(yunyn)推结果推结果”,每个原因对结果的发生每个原因对结果的发生有一定的有一定的“作用作用”,即,即结果发生的可能性与各结果发生的可能性与各种原因的种原因的“作用作用”大小大小有关。全概率公式表达有关。全概率公式表达了它们之间的关系。了它们之间的关系。诸诸Bi是是原因原因(yunyn)A是是结果结果B1B2B3B4B5B6B7B8A第二十页,共一百一十七页。6.2 6.2 贝叶斯贝叶斯概率概率(gil)(gil)基础基础mkikiijijiBAPBPBAP
24、BPABP1)()()()()|(该公式于该公式于1763年由贝叶斯年由贝叶斯(Bayes)给出。它是在给出。它是在观察观察(gunch)到事件到事件A已发生的条件下,寻找导致已发生的条件下,寻找导致A发发生的每个原因的概率。生的每个原因的概率。(5)贝叶斯公式。贝叶斯公式。贝叶斯公式也叫贝叶斯公式也叫后验概率公式后验概率公式,亦亦叫叫逆概率公式逆概率公式,其用途很广。设先验概率为,其用途很广。设先验概率为P(Bi),调调查所获的新附加信息查所获的新附加信息(xnx)为为P(Aj|Bi)(i=1,2,n;j=1,2,m),则贝叶斯公式计算的后验概率为则贝叶斯公式计算的后验概率为(6.5)第二十
25、一页,共一百一十七页。贝叶斯规则贝叶斯规则(guz)l基于条件(tiojin)概率的定义lp(Ai|E)是在给定证据下的后验概率lp(Ai)是先验概率lP(E|Ai)是在给定Ai下的证据似然lp(E)是证据的预定义后验概率iiiiiiii)p(AA|p(E)p(AA|p(Ep(E)p(AA|p(EE)|p(Ap(B)A)p(A)|p(Bp(B)B)p(A,B)|p(AA1A2A3A4A5A6E2023-2-1522史忠植 高级(goj)人工智能第二十二页,共一百一十七页。贝叶斯网络贝叶斯网络(wnglu)的概率解释的概率解释l任何完整(wnzhng)的概率模型必须具有表示(直接或间接)该领域变
26、量联合分布的能力。完全的枚举需要指数级的规模(相对于领域变量个数)l贝叶斯网络提供了这种联合概率分布的紧凑表示:分解联合分布为几个局部分布的乘积:l从公式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长。l网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。iiinpaxPxxxP)|(),(212023-2-1523史忠植 高级(goj)人工智能第二十三页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能246.46.4 简单简单(jindn)贝叶斯学习模型贝叶斯学习模型 简单贝叶斯简单贝叶斯(nav
27、e Bayes或或simple Bayes)学习模型将训学习模型将训练实例练实例I分解成特征向量分解成特征向量X和决策类别变量和决策类别变量C。简单贝叶斯模型假简单贝叶斯模型假定特征向量的各分量间相对定特征向量的各分量间相对(xingdu)于决策变量是相对于决策变量是相对(xingdu)独立独立的,也就是说的,也就是说各分量独立地作用于决策变量各分量独立地作用于决策变量。尽管这一假定。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以应用中,不仅以指数级指数级降低了贝叶斯网络构建的复杂性,降低了贝叶斯网络构建的复杂
28、性,而而且在许多领域,在违背这种假定的条件下且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现,简单贝叶斯也表现出相当的健壮性和高效性出相当的健壮性和高效性111,它已经成功地应用到分类、聚类,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于改善特征变量间独立性的限制于改善特征变量间独立性的限制54,以使它适用于更大的范,以使它适用于更大的范围。围。第二十四页,共一百一十七页。简单简单(jindn)(jindn)贝叶斯贝叶斯 Nave Bayesian结构简单只有两层结构推理(tul)复杂性与网络节点
29、个数呈线性关系2023-2-1525史忠植 高级(goj)人工智能第二十五页,共一百一十七页。设样本A表示(biosh)成属性向量,如果属性对于给定的类别独立,那么P(A|Ci)可以分解成几个分量的积:)|(*)|(*)|(21imiiCaPCaPCaP ai是样本(yngbn)A的第i个属性 6.46.4 简单贝叶斯学习简单贝叶斯学习(xux)模型模型2023-2-1526史忠植 高级人工智能第二十六页,共一百一十七页。简单(jindn)贝叶斯分类模型)|()()()|(1mjijiiCaPAPCPACP)|(ijCaP)(iCP这个过程称之为这个过程称之为简单贝叶斯分类简单贝叶斯分类(fn
30、 li)(fn li)(SBC:Simple Bayesian SBC:Simple Bayesian Classifier)Classifier)。一般认为,只有在独立性假定成立的时候,一般认为,只有在独立性假定成立的时候,SBCSBC才才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果。能获得近似最优的分类效果。6.4 6.4 简单贝叶斯学习简单贝叶斯学习(xux)(xux)模型模型6.4.1 简单贝叶斯学习模型的介绍简单贝叶斯学习模型的介绍2023-2-1527史忠植 高级人工智能第二十七页,共一百一
31、十七页。6.4.2 简单贝叶斯模型的提升简单贝叶斯模型的提升 提升方法提升方法(fngf)(Boosting)总的思想是学习总的思想是学习一系列分类器,在这个序列中每一个分类器对它一系列分类器,在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重前一个分类器导致的错误分类例子给与更大的重视。尤其是在学习完分类器视。尤其是在学习完分类器Hk之后,增加了由之后,增加了由Hk导致分类错误的训练例子的权值,并且通过重新对导致分类错误的训练例子的权值,并且通过重新对训练例子计算权值,再学习下一个分类器训练例子计算权值,再学习下一个分类器Hk+1。这这个过程重复个过程重复T次。最终的分类
32、器从这一系列的分类器次。最终的分类器从这一系列的分类器中综合得出。中综合得出。6.4 6.4 简单贝叶斯学习简单贝叶斯学习(xux)(xux)模型模型2023-2-1528史忠植 高级(goj)人工智能第二十八页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能296.56.5 贝叶斯网络贝叶斯网络(wnglu)的建造的建造6.5.1 贝叶斯网络的建构及建立方法贝叶斯网络的建构及建立方法 贝叶斯网络是表示变量间概率依赖关系贝叶斯网络是表示变量间概率依赖关系的有向无环图,这里每个节点表示领域变量,的有向无环图,这里每个节点表示领域变量,每条边表示变量间的概率依赖关系,同时每条边表
33、示变量间的概率依赖关系,同时(tngsh)对每个节点都对应着一个条件概率分布对每个节点都对应着一个条件概率分布表表(CPT),指明了该变量与父节点之间概率指明了该变量与父节点之间概率依赖的数量关系。依赖的数量关系。第二十九页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能30贝叶斯网的表示贝叶斯网的表示(biosh)(biosh)方法方法=P(A)P(S)P(T|A)P(L|S)P(B|S)P(C|T,L)P(D|T,L,B)P(A,S,T,L,B,C,D)条件独立性假设有效的表示CPT:T L B D=0 D=10 0 0 0.1 0.90 0 1 0.7 0.30 1 0
34、 0.8 0.20 1 1 0.9 0.1 .Lung CancerSmokingChest X-rayBronchitisDyspnoeaTuberculosisVisit to AsiaP(D|T,L,B)P(B|S)P(S)P(C|T,L)P(L|S)P(A)P(T|A)贝叶斯网络(wnglu)是表示变量间概率依赖关系的有向无环图第三十页,共一百一十七页。BoostingBoosting背景背景(bijng)(bijng)l来源于:PAC-Learning Model Valiant 1984-11l提出问题:l强学习(xux)算法:准确率很高的学习算法l弱学习算法:准确率不高,仅比随机
35、猜测略好l是否可以将弱学习算法提升为强学习算法2023-2-1531史忠植 高级(goj)人工智能第三十一页,共一百一十七页。BoostingBoosting背景背景(bijng)(bijng)l最初(zuch)的boosting算法 Schapire 1989lAdaBoost算法 Freund and Schapire 19952023-2-1532史忠植 高级(goj)人工智能第三十二页,共一百一十七页。Boostingconcepts(3)Boostingl弱学习机(weak learner):对一定分布的训练样本给出假设(仅仅(jnjn)强于随机猜测)根据有云猜测可能会下雨l强学习机
36、(strong learner):根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert)根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测l弱学习机 强学习机2023-2-1533史忠植 高级(goj)人工智能第三十三页,共一百一十七页。BoostingBoosting流程流程(lichng)(lichng)(loop1)(loop1)强学习机弱学习机原始(yunsh)训练集加权后的训练(xnlin)集加权后的假设X1?1:-1 弱假设2023-2-1534史忠植 高级人工智能第三十四页,共一百一十七页。Boost
37、ingBoosting流程流程(lichng)(lichng)(loop2)(loop2)强学习机弱学习机原始(yunsh)训练集加权后的训练(xnlin)集加权后的假设Y3?1:-1 弱假设2023-2-1535史忠植 高级人工智能第三十五页,共一百一十七页。BoostingBoosting流程流程(lichng)(lichng)(loop3)(loop3)强学习机弱学习机原始(yunsh)训练集加权后的训练(xnlin)集加权后的假设Z7?1:-1弱假设2023-2-1536史忠植 高级人工智能第三十六页,共一百一十七页。BoostingBoostingl过程:l在一定的权重条件(tioj
38、in)下训练数据,得出分类法Ctl根据Ct的错误率调整权重Set of weightedinstances Classifier Ct train classifier adjust weights2023-2-1537史忠植 高级(goj)人工智能第三十七页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能38流程流程(lichng)描述描述lStep1:原始训练集输入,带有原始分布lStep2:给出训练集中各样本的权重lStep3:将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设(jish)lStep4:对此次的弱学习机给出权重lStep5:转到Step2
39、,直到循环到达一定次数或者某度量标准符合要求lStep6:将弱学习机按其相应的权重加权组合形成强学习机第三十八页,共一百一十七页。2023-2-15史忠植 高级(goj)人工智能39核心思想核心思想l样本的权重l没有先验知识的情况(qngkung)下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/Nl每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。l弱学习机的权重l准确率越高的弱学习机权重越高l循环控制:损失函数达到最小l在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数
40、值减小。第三十九页,共一百一十七页。简单问题演示简单问题演示(ynsh)(ynsh)(BoostingBoosting训练过程)训练过程)+-+-+-+-+-+-loop1Weak learner1(y=0.5)loop2Weak learner2(x=0.7)loop3Weak learner3(y=0.4)loop4Weak learner4(x=0.6)training set等概分布strong learnerw1*(y0.5?1:-1)+w2*(x0.7?1:-1)+w3*(y0.6?1:-1)2023-2-1540史忠植 高级(goj)人工智能第四十页,共一百一十七页。算法算法(s
41、un f)问题描述问题描述l训练集 (x1,y1),(x2,y2),(xN,yN)lxi Rm,yi -1,+1lDt 为第t次循环时的训练样本分布(每个样本在训练集中所占的概率,Dt总和应该为1)lht:X-1,+1 为第t次循环时的Weak learner,对每个样本给出相应(xingyng)的假设,应该满足强于随机猜测:lwt为ht的权重l 为t次循环得到的Strong learner21),()(xhyPtDyxttiitiithwsignH1)()(2023-2-1541史忠植 高级(goj)人工智能第四十一页,共一百一十七页。算法算法样本样本(yngbn)权重权重l思想:提高分错样
42、本的权重(qun zhn)l 反映了strong learner对样本的假设是否正确l采用什么样的函数形式?)(itiHywrongrightHyiti00)()(expitiHy2023-2-1542史忠植 高级(goj)人工智能第四十二页,共一百一十七页。算法算法(sun f)弱学习机权重弱学习机权重l思想:错误率越低,该学习机的权重应该越大l 为学习机的错误(cuw)概率l采用什么样的函数形式?和指数函数遥相呼应:)(),(xhyPtDyxtt tttw1ln212023-2-1543史忠植 高级(goj)人工智能第四十三页,共一百一十七页。算法算法(sun f)(sun f)-Adab
43、oost-AdaboostTtttttittitttttiiNNxhwsignxHZZxhwyiDiDwRhDTtNiDyxyxyx11111)()(:learner)(strongclassifier final Output thefactorion normalizat a is )(exp()()(Update Compute:learner Get weak usinglearner Train weak:,1For 1)(Initialize1,1,where),(,),(:Given2023-2-1544史忠植 高级(goj)人工智能第四十四页,共一百一十七页。AdaBoost.
44、M1AdaBoost.M1l初始赋予每个样本相等的权重1/N;lFor t=1,2,T Do l学习得到分类法Ct;l计算该分类法的错误率Et Et=所有被错误分类(fn li)的样本的权重和;lt=Et/(1-Et)l根据错误率更新样本的权重;正确分类的样本:Wnew=Wold*t 错误分类的样本:Wnew=Woldl调整使得权重和为1;l每个分类法Ct的投票价值为log 1/t 2023-2-1545史忠植 高级(goj)人工智能第四十五页,共一百一十七页。AdaBoost Training ErrorAdaBoost Training Error24112ttttt22expl将t=1/
45、2-Et;lFreund and Schapire 证明:最大错误率为:l即训练错误率随t的增大(zn d)呈指数级的减小.2023-2-1546史忠植 高级(goj)人工智能第四十六页,共一百一十七页。AdaBoost Generalization Error(1)AdaBoost Generalization Error(1)l最大总误差:lm:样本个数ld:VC维lT:训练轮数lPr:对训练集的经验概率l如果T值太大,Boosting会导致(dozh)过适应(overfit))()(mTdOyxHpr2023-2-1547史忠植 高级(goj)人工智能第四十七页,共一百一十七页。AdaB
46、oost Generalization Error(2)AdaBoost Generalization Error(2)l许多(xdu)的试验表明:Boosting不会导致overfit2023-2-1548史忠植 高级(goj)人工智能第四十八页,共一百一十七页。AdaBoost Generalization Error(3)AdaBoost Generalization Error(3)l解释以上(yshng)试验现象;l样本(X,Y)的margin:margin(x,y)=lt=1/2 ln(1-t)/t)l较大的正边界表示可信度高的正确的预测l较大的负边界表示可信度高的错误的预测 xh
47、yttt2023-2-1549史忠植 高级(goj)人工智能第四十九页,共一百一十七页。AdaBoost Generalization Error(4)AdaBoost Generalization Error(4)l解释:当训练误差降低后,Boosting继续提高边界,从而(cng r)增大了最小边界,使分类的可靠性增加,降低总误差.l总误差的上界:l该公式与T无关)(),(arg(2mdOyxinmPr2023-2-1550史忠植 高级(goj)人工智能第五十页,共一百一十七页。BoostingBoosting其它其它(qt)(qt)应用应用lBoosting易受到噪音的影响;lAdaBo
48、ost 可以用来鉴别异常;具有(jyu)最高权重的样本即为异常.2023-2-1551史忠植 高级(goj)人工智能第五十一页,共一百一十七页。,ANB是表示变量(binling)间连结关系的有向无环图贝叶斯网络(wnglu)的学习结构(jigu)学习参数学习基于评分函数的结构学习基于条件独立性检验的结构学习构建贝叶斯网络构建贝叶斯网络2023-2-1552史忠植 高级人工智能第五十二页,共一百一十七页。构建构建(u jin)贝叶斯网络贝叶斯网络BayesianNetworkBayesianNetworkBayesianNetworkProblemDomainProblemDomainProb
49、lemDomainExpertKnowledgeExpertKnowledgeTrainingDataTrainingDataProbabilityElicitorLearningAlgorithmLearningAlgorithm2023-2-1553史忠植 高级(goj)人工智能第五十三页,共一百一十七页。6.3 贝叶斯问题贝叶斯问题(wnt)的求解的求解 贝叶斯学习理论利用先验信息贝叶斯学习理论利用先验信息(xnx)和样本数据来获得和样本数据来获得对未知样本的估计,而概率(联合概率和条件概率)是对未知样本的估计,而概率(联合概率和条件概率)是先验信息先验信息(xnx)和样本数据信息和样本
50、数据信息(xnx)在贝叶斯学习理论中的在贝叶斯学习理论中的表现形式。如何获得这些概率(也称之为表现形式。如何获得这些概率(也称之为密度估计密度估计)是)是贝叶斯学习理论争议较多的地方。贝叶斯学习理论争议较多的地方。研究如何根据样本的数据信息和人类专家的先验知识获研究如何根据样本的数据信息和人类专家的先验知识获得对未知变量(向量)的分布及其参数的估计。它有得对未知变量(向量)的分布及其参数的估计。它有两个两个过程过程:一是一是确定未知变量的先验分布;确定未知变量的先验分布;二是二是获得相应分布获得相应分布的参数估计。的参数估计。如果以前对所有信息一无所知,称这种分布如果以前对所有信息一无所知,称