1、从数据中从数据中学习贝叶斯学习贝叶斯网络网络Anders L.MadsenHUGIN EXPERT A/SMarch 2012大纲大纲 贝叶斯网络的构建 参数学习 序列学习 结构学习2从数据中学习贝叶斯网络从数据中学习贝叶斯网络 贝叶斯网络包含了一个图形结构(DAG)和一组条件概率表(CPTs-参数)贝叶斯网络的构建是作为一个劳动密集型知识获取工具 这种够构造可以是自动或半自动的(根据数据库中的案例和专家知识)学习结构框架 学习一批概率事件 学习连续概率 3学习一个贝叶斯网络学习一个贝叶斯网络 诱导结构的图形表示 数据和专家知识的融合 估算参量 数据和专家知识的融合4胸部诊所胸部诊所呼吸短促(
2、D)可能是由于肺结核(T)、肺癌(L)、支气管炎(B)引起,或者都不相关,也可能跟它们不止一个相关近期去亚洲出差(A)增加了得肺结核的可能,而抽烟(S)对于肺癌和支气管炎是一种已知的危险因素单一的胸部X光片(X)的结果并没有区分肺癌和肺结核,也不能够知道有没有呼吸困难A5参数估计参数估计 参数的学习是通过识别的CPTsP的贝叶斯网络N=(G,P)理论思考,数据库案例,主观评估 CPTs建立在数据库的案例基础之上 数据库案例:D=c1,cN 一些案例中可能会有遗漏一些值 CPTs通过最大似然估计进行评估 n是Y=y在案例中的期望值6参数估计参数估计 近期去过亚洲患有肺结核的概率是多少?n(最近去
3、过亚洲)=n(A=y)=92,n(最近去过亚洲并且已患有肺结核)=n(A=y,T=y)=5:7参数估计参数估计优先的(领域专家)知识可以被利用 经验是已经观察到 pa(Xi)=j 时间上的量级:经验计算作为正数j 0 也用于打开或者关闭这种学习模式 利用先验知识同时加速和引导学习搜索全局的最优值 当丢失一个标准值时就会利用期望值计算 包括参数不出现在数据中8期望最大化算法期望最大化算法EM算法是一种利用目前的估计值作为真值的迭代过程 重复 预计期望的计算 :n(W)=En(W)|D 计算新的估计值:直到满足迭代标准停止计算 算法的控制参数是:根据经验计算初始化参数值 停止准则:满足公差标准及迭
4、代的最大次数9质量模型质量模型我们可以利用模型可能给出的数据进行质量检测数据:这个质量检测不需要对复杂的模型进行解释,由于过度捏合也不用来进行模型的选择 EM算法停止计算标准:10AIC和和BIC分数分数AIC和BIC是将模型的复杂性考虑进去的质量评估 Akaike信息准则(AIC)d为模型中若干的自由参数 d的存在制约了模型的复杂性 贝叶斯信息准则的标准(BIC)d 为模型中若干的自由参数 d/2 log(N)限制了模型的复杂性 除非log(N)BIC 11序列的学习序列的学习 某些特定的结构,但是要有适应特别环境的可能性 循序渐进更新贝叶斯网络的任务 应用于不同的设置、模型不确定性、随着时
5、间的推移等 CPTs更新基于插入和观察的传播 通常有许多遗漏值12渐消渐消因子因子/经验经验值值已经观察到经验随时间pa(Xi)=j变化的次数(样本大小)经验值为正数j 0 也用于开始/结束学习衰落的影响因素在一定程度上降低了过去的一些经验 衰弱因素是接近1的正数 Hugin渐消是根据13序列的学习序列的学习 这样的分布假设可以进行独立改进:整体独立性:二阶不确定度的变量是独立的 局部独立性:二阶不确定度不同来源配置也是独立的 样本量越大,二阶的不确定性就越小14结构结构的的学习学习这项任务是识别问题域实体之间的依赖关系目的是为了构建一个简单的模型,但一个困难的任务是:可能的空间结构不仅巨大而
6、且只能近似:许多不同的结构编码运用一组独立或者是相关的声明(等价类)可能有隐藏的变量15结构的学习结构的学习贝叶斯网络的图表引发了一系列相关或者独立的说明16等价模型等价模型M1和M2两个模型在统计上是等价的,当且仅当它们包含了同一套变量及共同样本时,并且通过它们提供连续不断的非统计组合任何两个通过相同的一组变量的M1和M2模型,它们的图表对具有相同的骨架图和相同的v型结构来说是等价的 ABC 和 ABC 和 ABC 所有完整的模型因此,我们无法区别 ABC和ABC和 ABC仅仅是基于数据可以从A B C区分17等价等价分分类类 一个等价分类类是具有相同的一组独立性质的一个最大系列集合 I,I
7、I,和 III 代表了在独立与相关关系条件下的类似的序列 如果结构从数据中获得鉴定,来自相同等价类的Gi与 Gj 不能够被区分18结构的学习结构的学习结构学习算法:1 独立执行测试 2 确定图表结构 3 识别对撞机 4 识别派生的方向 5 完成定位该算法是众所周知的SGS/PC/IC算法19基本假设基本假设下面所列的条件下,结构学习算法认为将会发现一个定向非循环图结构等效为结构P0的定向非循环图 这种独立的关系作为定向非循环图的完美表现 这就是DAG的信实假设 这些数据库包括一套独立的等同分布式的案例 这种案例的数据库是为无限大的 没有隐藏的(潜在)变量。不存在统计试验的错误20独立性测试独立
8、性测试 这种假设的测试为:对可能的G2统计量使用 如果满足Q2s 足够小,H0不会被驳回 执行测试 如果 适用于一些(可能是空的)集合,X和Y之间的联系不会包含在框架中21显著显著性性等级等级 如果这次试验统计量针对于一个给予的独立性假设,这个假设将会被驳回;否则,就不会被驳回 这个假设H0被驳回,当满足:驳回一个真实的独立假设的概率依据的是显著性水平f(x)22必要路径条件必要路径条件 设XY|S的处于一个独立条件关系,并且不被统计试验驳回 必要的路径条件 为了使这种独立有效的关系成为可能,应该满足Z S存在一个渠道在X和Z之间并且不与Y相交,反之亦然 在(X,Y)删除以前,需要一些边存在于
9、图表中 这意味着一个边(X,Y)的消失肯能依靠于边(X、Z)的出现,反之亦然一个模棱两可的区域是一个由图形组成的强连通段23胸部诊所胸部诊所 确定独立性关系 使用计算机算法在X,L 和 T之间没有 被包含,所有独立的关系没有被驳回24识别方向识别方向对没有独立声明的一对点XY,在这种情况下边被引入G X Y|S,S 暗含边缘独立,这种独立用在G中的边(X,Y)代表图标的结构构建中用一系列简单的规则来鉴别边缘的方向:如果Y不在X与Z的分离集中,这种碰撞关系就会出现25识别方向识别方向26 一旦对撞机图表确认之后,确定如下的派生用法是可能的:其结果将是用部分的定向图表示等价类,任何剩余的杂乱的边会
10、进行随机排列识别方向识别方向 当详尽说明领域专家的知识时,需要附加一个规则27练习练习 尝试从angina.dat 数据集中建立一个模型 尝试从 asia.dat 数据集中建立一个模型.28分类算法分类算法分类模型用一级节点X和一系列索引I:贝氏模型(NBM)在索引之间不存在结构 树形扩增贝氏模型(TAN)-索引之间存在树形结构29Chow-Liu算法算法CL算法发现了最好的树形近似值,正是数据的联合分布近似所致:计算交互信息(衡量边界的依赖性)为获取完整加权图建立一个最大权值生成树 直接边缘通过选择一个根并且根据选择缓缓向它移动30总结总结 贝叶斯网络的构建 参数学习 序列学习 结构学习31 更多信息请关注http:/