1、霍轩p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法p贝叶斯决策论(Bayesian decision theory)是在概率框架下实施决策的基本方法。l 在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记。p贝叶斯决策论(Bayesian deci
2、sion theory)是在概率框架下实施决策的基本方法。l 在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记。p假设有 种可能的类别标记,即 ,是将一个真实标记为 的样本误分类为 所产生的损失。基于后验概率 可获得将样本 分类为 所产生的期望损失(expected loss)或者称条件风险(conditional risk)p我们的任务是寻找一个判定准则 以最小化总体风险11212,|7.1mmNiijjjR YcXP YcXx xxx xxp显然,对每个样本 ,若 能最小化条件风险 ,则总体风险 也将被最小化。p显然,对每个样
3、本 ,若 能最小化条件风险 ,则总体风险 也将被最小化。p这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险 最小的类别标记,即l 此时,被称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险 称为贝叶斯风险(Bayes risk)l 反映了分类起所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。p具体来说,若目标是最小化分类错误率,则误判损失 可写为p具体来说,若目标是最小化分类错误率,则误判损失 可写为p此时条件风险1(|)(|)(|)1(|)7.5Nijjijjj
4、iiR cXxP cXxP cXxP cXx(|)(min)m|axiiiiR cXxP cXx后验概率p具体来说,若目标是最小化分类错误率,则误判损失 可写为p此时条件风险p于是,最小化分类错误率的贝叶斯最优分类器为l 即对每个样本 ,选择能使后验概率 最大的类别标记。p不难看出,使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 。p然而,在现实中通常难以直接获得。机器学习所要实现的是基于有限的训练样本尽可能准确地估计出后验概率 。p主要有两种策略:l 判别式模型(discriminative models)l给定 ,通过直接建模 ,来预测l决策树,BP神经网络,支持向量机l 生成式模
5、型(generative models)l先对联合概率分布 建模,再由此获得l生成式模型考虑121212,(,Y=)(Y=,|)7 7,.()iimmmx xxx xxx xP XcPcXP Xxp生成式模型p生成式模型p 基于贝叶斯定理,可写成121212,(,Y=)(Y=,|)7 7,.()iimmmx xxx xxx xP XcPcXP Xx121212,P Y=|Y=(Y=|)7.,(),7miiimmcP XcPcXPx xxx xxx xxXp生成式模型p 基于贝叶斯定理,可写成先验概率样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定理)p生成式模型p 基于贝叶斯
6、定理,可写成先验概率样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定理)“证据”(evidence)因子,与类标记无关p生成式模型p 基于贝叶斯定理,可写成先验概率样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定理)“证据”(evidence)因子,与类标记无关类标记 相对于样本 的“类条件概率”(class-conditional probability),或称“似然”。p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法p估计类条件概率的常
7、用策略:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布参数估计。p记关于类别 的类条件概率为 ,l 假设 具有确定的形式被参数 唯一确定,我们的任务就是利用训练集 估计参数 p估计类条件概率的常用策略:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布参数估计。p记关于类别 的类条件概率为 ,l 假设 具有确定的形式被参数 唯一确定,我们的任务就是利用训练集 估计参数 p概率模型的训练过程就是参数估计过程,统计学界的两个学派提供了不同的方案:l 频率学派(frequentist)认为参数虽然未知,但却存在客观值,因此可通过优化似然函数等准则来确定参数值l 贝叶斯学派(B
8、ayesian)认为参数是未观察到的随机变量、其本身也可由分布,因此可假定参数服从一个先验分布,然后基于观测到的数据计算参数的后验分布。p令 表示训练集中第 类样本的组合的集合,假设这些样本是独立的,则参数 对于数据集 的似然是l 对 进行极大似然估计,寻找能最大化似然 的参数值 。直观上看,极大似然估计是试图在 所有可能的取值中,找到一个使数据出现的“可能性”最大值。p令 表示训练集中第 类样本的组合的集合,假设这些样本是独立的,则参数 对于数据集 的似然是l 对 进行极大似然估计,寻找能最大化似然 的参数值 。直观上看,极大似然估计是试图在 所有可能的取值中,找到一个使数据出现的“可能性”
9、最大值。p式(7.9)的连乘操作易造成下溢,通常使用对数似然(log-likelihood)p此时参数 的极大似然估计 为 p例如,在连续属性情形下,假设概率密度函数 ,则参数 和 的极大似然估计为p也就是说,通过极大似然法得到的正态分布均值就是样本均值,方差就是 的均值,这显然是一个符合直觉的结果。p需注意的是,这种参数化的方法虽能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p E
10、M算法算法p估计后验概率 主要困难:类条件概率 是所有属性上的联合概率难以从有限的训练样本估计获得。121212,P Y=|Y=(Y=|)7.,(),7miiimmcP XcPcXPx xxx xxx xxX1212,maxY,=|max|Y,=,iiimimx xxPcXP Xx xxc12121A A=AA APPP 123121321A A A=AA AA A APPPP 123121321121A A AA=AA AA A AAAA AmmmPPPPP 12121312132211211121|Y=|Y=|Y=|Y=|,=,Ymmmiiiimmix xxP XxxxxxxxxxxcP
11、Xc P XXc P XXXcP XXXXcp估计后验概率 主要困难:类条件概率 是所有属性上的联合概率难以从有限的训练样本估计获得。p朴素贝叶斯分类器(Nave Bayes Classifier)采用了“属性条件独立性假设”(attribute conditional independence assumption):每个属性独立地对分类结果发生影响。12121312132211211121|Y=|Y=|Y=|Y=|,=,Ymmmiiiimmix xxP XxxxxxxxxxxcP Xc P XXc P XXXcP XXXXc 12121233|Y=|Y=|Y=|Y=|Y=,iiimimmi
12、P XcP Xc P Xc P Xcx xxxxxxP Xcp估计后验概率 主要困难:类条件概率 是所有属性上的联合概率难以从有限的训练样本估计获得。p朴素贝叶斯分类器(Nave Bayes Classifier)采用了“属性条件独立性假设”(attribute conditional independence assumption):每个属性独立地对分类结果发生影响。p基于属性条件独立性假设,(7.8)可重写为l 其中 为属性数目,为 在第 个属性上的取值。由于对所有类别来说 相同,因此基于式(7.6)的贝叶斯判定准则有l 这就是朴素贝叶斯分类器的表达式p 朴素贝叶斯分类器的训练器的训练过程
13、就是基于训练集 估计类先验概率 并为每个属性估计条件概率 。l 令 表示训练集 中第 类样本组合的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率l 对离散属性而言,令 表示 中在第 个属性上取值为 的样本组成的集合,则条件概率 可估计为l 对连续属性而言可考虑概率密度函数,假定 ,其中 和 分别是第 类样本在第 个属性上取值的均值和方差,则有p例子:用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试例“测1”进行分类(p151,西瓜数据集 p84 表4.3)p若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,.比如“敲声=清脆”测试例,训练集中没有该样例,因此连乘
14、式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是“好瓜=否”,这显然不合理。p若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,.比如“敲声=清脆”测试例,训练集中没有该样例,因此连乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是“好瓜=否”,这显然不合理。p为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“拉普拉斯修正”(Laplacian correction)l 令 表示训练集 中可能的类别数,表示第 个属性可能的取值数,则式(7.16)和(7.17)分别修正为p现实任务中,朴素贝叶斯分类器的使用情形:速度要求高
15、,“查表”;任务数据更替频繁,“懒惰学习”(lazy learning);数据不断增加,增量学习等等。p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法p为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用的属性条件独立性假设;对属性条件独立假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”(semi-nave Bayes classifiers)p为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用的属性条件独立性假设;对属性条件独立假设记性一定
16、程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”(semi-nave Bayes classifiers)p半朴素贝叶斯分类器最常用的一种策略:“独依赖估计”(One-Dependent Estimator,简称ODE),假设每个属性在类别之外最多仅依赖一个其他属性,即l 其中 为属性 所依赖的属性,称为 的父属性p对每个属性 ,若其父属性 已知,则可估计概值 ,于是问题的关键转化为如何确定每个属性的父属性p最直接的做法是假设所有属性都依赖于同一属性,称为“超父”(super-parenet),然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE(Super-Parent O
17、DE)方法。图7.1 朴素贝叶斯分类器与两种半朴素分类器所考虑的属性依赖关系p在图7.1(b)中,是超父属性。pTAN(Tree augmented Nave Bayes)Friedman et al.,1997 则在最大带权生成树(Maximum weighted spanning tree)算法 Chow and Liu,1968 的基础上,通过以下步骤将属性间依赖关系简约为图7.1(c)。l 计算任意两个属性之间的条件互信息(CMI:conditional mutual information)l 以属性为结点构建完全图,任意两个结点之间边的权重设为l 构建此完全图的最大带权生成树 以每
18、个属性为节点(nodenode),CMI为边(edgeedge)形成一张图。找到这张图的最最大带权生成树大带权生成树。即找到一个节点之间的连接规则,这个规则满足三个条件:1.能够连接所有节点;2.使用最少数目的边;3.边长(CMI)总和最大最大带权生成树 再把节点连接关系设置为有向,即从父节点指向子节点。在这里把最先出现的属性设置为根节点,再由根节点出发来确定边的方向pTAN(Tree augmented Nave Bayes)Friedman et al.,1997 则在最大带权生成树(Maximum weighted spanning tree)算法 Chow and Liu,1968 的
19、基础上,通过以下步骤将属性间依赖关系简约为图7.1(c)。l 计算任意两个属性之间的条件互信息(conditional mutual information)l 以属性为结点构建完全图,任意两个结点之间边的权重设为l 构建此完全图的最大带权生成树,挑选根变量,将边设为有向;l 加入类别节点y,增加从y到每个属性的有向边。pAODE(Averaged One-Dependent Estimator)Webb et al.2005 是一种基于集成学习机制、且更为强大的分类器。l 尝试将每个属性作为超父构建 SPODE-共d个l 将具有足够训练数据支撑的SPODE集群起来作为最终结果其中,是在第 个
20、属性上取值 的样本的集合,为阈值常数 其中,是在第 个属性上取值数,是类别为 且在第 个属性上取值为 的样本集合,是类别为 且在第 i 个属性上取 值,第 j 个属性上取 值为的样本集合,ijc x xDjxp 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法p贝叶斯网(Bayesian network)亦称“信念网”(brief network),它借助有向无环图(Directed Acyclic Graph,DAG)来刻画属性间的依赖关系,并使用条件概率表(Condition
21、al Probability Table,CPT)来表述属性的联合概率分布。p贝叶斯网(Bayesian network)亦称“信念网”(brief network),它借助有向无环图(Directed Acyclic Graph,DAG)来刻画属性间的依赖关系,并使用条件概率表(Conditional Probability Table,CPT)来表述属性的联合概率分布。p贝叶斯网有效地表达了属性间的条件独立性。给定父结点集,贝叶斯网假设每个属性与他的非后裔属性独立。p 将属性 的联合概率分布定义为 图7.2的联合概率分布定义为:显然,和 在给定 的取值时独立,和 在给定 的取值时独立,记为
22、 和 。p贝叶斯网有效地表达了属性间的条件独立性。给定父结点集,贝叶斯网假设每个属性与他的非后裔属性独立。p 将属性 的联合概率分布定义为 图7.2的联合概率分布定义为:显然,和 在给定 的取值时独立,和 在给定 的取值时独立,记为 和 。p贝叶斯网中三个变量之间的典型依赖关系:V型结构顺序结构同父结构2xp贝叶斯网中三个变量之间的典型依赖关系:12323xxxxx和 条件独立。记为 同父结构2x 123123121312131123213111P,=PPPPPP,PPPPx x xxx xx xx xx xx x xx x xxxx从网络结构得知随机变量X,X,X 联合分布 2312131P
23、,PPx x xx xx xp贝叶斯网中三个变量之间的典型依赖关系:顺序结构 P,=PPPPPPPPP,PPPP,P,PPPY Zx y zx zy xzzx zy xx zy xz xy xx y zyxzxxxxx从网络结构得知随机变量X,联合分布 P,PPy z xy xz xp贝叶斯网中三个变量之间的典型依赖关系:顺序结构 P,=PPPPPPP,PPPP,P,PPPPPY Zx y zzx zy xzx zy xx zy xz xy xx y zy z xxxxxx从网络结构得知随机变量X,联合分布 P,PPy z xy xz xp贝叶斯网中三个变量之间的典型依赖关系:V型结构 123
24、12312312P,=PPP,x x xxxx x x从网络结构得知随机变量X,X,X 联合分布p贝叶斯网中三个变量之间的典型依赖关系:V型结构 3331231231231212121231212312231P,=PPP,P,P,PPP,PPP,PPxxxx x xxxx x xx xx xxxx x xxxx x xxxx从网络结构得知随机变量X,X,X 联合分布 121212P,PP,x xxxxx记作:称为边际独立。p贝叶斯网中三个变量之间的典型依赖关系:p分析有向图中变量间的条件独立性,可使用“有向分离”(Directed-separation),将一个有向图转化为无向图l V型结构父
25、结点相连l 有向边变成无向边由此产生的图称为道德图(moral graph)同父结构V型结构顺序结构(好瓜)(敲声)(甜度)(色泽)(根蒂)x1x2x3x4x5分析有向图中变量间的条件独立性,可使用“有向分离”(Directed-separation),将一个有向图转化为无向图l V型结构父结点相连l 有向边变成无向边由此产生的图称为道德图(moral graph)(好瓜)(敲声)(甜度)(色泽)(根蒂)x1x2x3x4x5-将父结点相连的过程称为“道德化”过程“道德化”就是孩子的父母应建立牢靠的关系,否者不道德p贝叶斯网络首要任务:根据训练集找出结构最“恰当”的贝叶斯网。p我们用评分函数评估
26、贝叶斯网与训练数据的契合程度。p贝叶斯网络首要任务:根据训练集找出结构最“恰当”的贝叶斯网。p我们用评分函数评估贝叶斯网与训练数据的契合程度。l“最小描述长度”(Minimal Description Length,MDL)综合编码长度(包括描述网路和编码数据)最短p给定训练集 ,贝叶斯网 在 上的评价函数可以写为l 其中,是贝叶斯网的参数个数;表示描述每个参数 所需的字节数,而l 是贝叶斯网的对数似然。p通过已知变量观测值来推测其他变量的取值过程称为“推断”(inference),已知变量观测值称为“证据”(evidence)。p最理想的是根据贝叶斯网络定义的联合概率分布来精确计算后验概率,
27、在现实应用中,贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)来完成。p通过已知变量观测值来推测待推测查询变量的过程称为“推断”(inference),已知变量观测值称为“证据”(evidence)。p最理想的是根据贝叶斯网络定义的联合概率分布来精确计算后验概率,在现实应用中,贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)来完成。p吉布斯采样就是随机产生一个与证据 一致的样本 作为初始点,然后每步从当前样本出发产生下一个样本。采样概率由贝叶斯网B决定。假定经过 次采样的得到与 一致的样本共有 个,则可近似估算出后验概率p吉布斯采样可以看做,每一步仅依赖于前
28、一步的状态贝叶斯网:推断贝叶斯网:推断图7.5 吉布斯采样算法p 贝叶斯决策论贝叶斯决策论p 极大似然估计极大似然估计p 朴素贝叶斯分类器朴素贝叶斯分类器p 半朴素贝叶斯分类器半朴素贝叶斯分类器p 贝叶斯网贝叶斯网p EM算法算法“不完整”的样本:西瓜已经脱落的根蒂,无法看出是“蜷缩”还是“坚挺”,则训练样本的“根蒂”属性变量值未知,如何计算?p“不完整”的样本:西瓜已经脱落的根蒂,无法看出是“蜷缩”还是“坚挺”,则训练样本的“根蒂”属性变量值未知,如何计算?p未观测的变量称为“隐变量”(latent variable)。令 表示已观测变量集,表示隐变量集,若预对模型参数 做极大似然估计,则应
29、最大化对数似然函数p“不完整”的样本:西瓜已经脱落的根蒂,无法看出是“蜷缩”还是“坚挺”,则训练样本的“根蒂”属性变量值未知,如何计算?p未观测的变量称为“隐变量”(latent variable)。令 表示已观测变量集,表示隐变量集,若预对模型参数 做极大似然估计,则应最大化对数似然函数p由于 是隐变量,上式无法直接求解。此时我们可以通过对 计算期望,来最大化已观测数据的对数“边际似然”(marginal likelihood)EM(Expectation-Maximization)算法 Dempster et al.,1977 是常用的估计参数隐变量的利器。p当参数 已知 根据训练数据推断
30、出最优隐变量 的值(E步)p当 已知 对 做极大似然估计(M步)EM(Expectation-Maximization)算法 Dempster et al.,1977 是常用的估计参数隐变量的利器。p当参数 已知 根据训练数据推断出最优隐变量 的值(E步)p当 已知 对 做极大似然估计(M步)于是,以初始值 为起点,对式子(7.35),可迭代执行以下步骤直至收敛:p基于 推断隐变量 的期望,记为 ;p基于已观测到变量 和 对参数 做极大似然估计,记为 ;p这就是EM算法的原型。进一步,若我们不是取Z的期望,而是基于 计算隐变量 的概率分布 ,则EM算法的两个步骤是:pE步(Expectation):以当前参数 推断隐变量分布 ,并计算对数似然 关于 的期望:pM步(Maximization):寻找参数最大化期望似然,即pEM算法使用两个步骤交替计算:第一步计算期望(E步),利用当前估计的参数值计算对数似然的参数值;第二步最大化(M步),寻找能使E步产生的似然期望最大化的参数值直至收敛到全局最优解。p贝叶斯决策论贝叶斯决策论p极大似然估计极大似然估计p朴素贝叶斯分类器朴素贝叶斯分类器p半朴素贝叶斯分类器半朴素贝叶斯分类器p贝叶斯网贝叶斯网pEM算法算法