1、第十九章 马尔可夫链蒙特卡罗法 马尔可夫链蒙特卡罗法 蒙特卡罗法(Monte Carlo method),也称为统计模拟方法 (statistical simulation method),是通过从概率模型的随机 抽样进行近似数值计算的方法。 马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC), 则是以马尔可夫链(Markov chain)为概率模型的蒙特卡罗法。 马尔可夫链蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是 要进行抽样的分布,首先基于该马尔可夫链进行随机游走,产生 样本的序列,之后使用该平稳分布的样本进行近似数值计算 马尔可夫链蒙特卡罗法 Met
2、ropolis-Hastings算法是最基本的马尔可夫链蒙特卡罗法 吉布斯抽样(Gibbs sampling)是更简单、使用更广泛的马尔可 夫链蒙特卡罗法, 马尔可夫链蒙特卡罗法被应用于概率分布的估计、定积分的近似 计算、最优化问题的近似求解等问题,特别是被应用于统计学习 中概率模型的学习与推理,是重要的统计学习计算方法。 蒙特卡罗法 随机抽样 蒙特卡罗法要解决的问题是,假设概率分布的定义己知,通过抽 样获得概率分布的随机样本,并通过得到的随机样本对概率分布 的特征进行分析。 比如,从样本得到经验分布,从而估计总体分布 或者从样本计算出样本均值,从而估计总体期望 所以蒙特卡罗法的核心是随机抽样
3、(random sampling)。 随机抽样 蒙特卡罗法 直接抽样法 接受-拒绝抽样法 重要性抽样法 接受-拒绝抽样法、重要性抽样法适合于概率密度函数复杂(如密 度函数含有多个变量,各变量相互不独立,密度函数形式复杂), 不能直接抽样的情况。 随机抽样 接受-拒绝抽样法(accept-reject sampling method) 假设有随机变量 x,取值 x X ,其概率密度函数为 p(x) 目标是得到该概率分布的随机样本,以对这个概率分布进行分析 随机抽样 假设 p(x) 不可以直接抽样。找一个可以直接抽样的分布,称为 建议分布(proposal distribution) 假设 q(x
4、) 是建议分布的概率密度函 数,并且有 q(x) 的 c 倍 一定大于等于 p(x),其中 c 0,如图中所示 接受-拒绝法 接受-拒绝法 接受-拒绝法的优点是容易实现,缺点是效率可能不高 如果p(x)的涵盖体积占cq(x)的涵盖体积的比例很低,就会导致 拒绝的比例很高,抽样效率很低。 注意,一般是在高维空间进行抽样,即使p(x)与cq(x)很接近, 两者涵盖体积的差异也可能很大 数学期望佑计 一般的蒙特卡罗法也可以用于数学期望估计(estimation of mathematical expectation)。 假设有随机变量x,取值 ,其概率密度函数为p(x), f(x)为 定义在X上的函
5、数 目标是求函数f(x) 关于密度函数p(x)的数学期望 数学期望佑计 针对这个问题,蒙特卡罗法按照概率分布p(x)独立地抽取n个样 本 ,比如用以上的抽样方法,之后计算函数f(x)的样本 均值 作为数学期望 的近似值 根据大数定律可知,当样本容量增大时,样本均值以概率1收敛 于数学期望: 这样就得到了数学期望的近似计算方法: 积分计算 一般的蒙特卡罗法也可以用于定积分的近似计算,称为蒙特卡罗积分 (Monte Carlo integration) 假设有一个函数h(x),目标是计算该函数的积分 如果能够将函数h(x)分解成一个函数f(x)和一个概率密度函数p(x)的 乘积的形式,那么就有 于
6、是函数h(x)的积分可以表示为函数f(x)关于概率密度函数p(x)的数 学期望。 积分计算 给定一个概率密度函数p(x),只要取 就可得 就是说, 任何一个函数的积分都可以表示为某一个函数的数学 期望的形式,而函数的数学期望 又可以通过函数的样本均值估 计 于是,就可以利用样本均值来近似计算积分 例 用蒙特卡罗积分法求 令 也就是说,假设随机变量x在(0,1)区间遵循均匀分布 例 使用蒙特卡罗积分法,如图所示,在(0,1)区间按照均匀分布抽 取10个随机样本 。计算样本的函数均值 也就是积分的近似 随机样本数越大,计算就越精确 例 用蒙特卡罗积分法求 令 p(x) 是标准正态分布的密度函数 使
7、用蒙特卡罗积分法,按照标准正态分布在区间 抽样 , 取其平均值,就得到要求的积分值。当样本 增大时,积分值趋于0 马尔可夫链 基本定义 基本定义 马尔可夫性的直观解释是“未来只依赖于现在(假设现在已知), 而与过去无关” 若转移概率分布 与t无关,即 则称该马尔可夫链为时间齐次的马尔可夫链((time homogenous Markov chain)。 以上定义的是一阶马尔可夫链,可以扩展到n阶马尔可夫链,满 足n阶马尔可夫性 离散状态马尔可夫链 转移概率矩阵和状态分布 离散状态马尔可夫链 ,随机变量 定义在离散空间S,转移概率分布可以由矩阵表示 若马尔可夫链在时刻(t-1)处于状态j,在时刻
8、t移动到状态i,将 转移概率记作 满足 转移概率矩阵和状态分布 马尔可夫链的转移概率 pij 可以由矩阵表示,即 称为马尔可夫链的转移概率矩阵,转移概率矩阵P满足条件 这两个条件的矩阵称为随机矩阵(stochastic matrix) 矩阵列元素之和为1 转移概率矩阵和状态分布 考虑马尔可夫链 ,在时刻 的概率 分布,称为时刻t的状态分布,记作 其中 其中时刻t状态为i的概率 转移概率矩阵和状态分布 特别地,马尔可夫链的初始状态分布可以表示为 其中 表示时刻0状态为i的概率 ,通常初始分布 的向量只有一个分量是1,其余分量都是0,表示马尔 可夫链从一个具体状态开始。 转移概率矩阵和状态分布 有
9、限离散状态的马尔可夫链可以由有向图表示 结点表示状态,边表示状态之间的转移,边上的数值表示转移概率 从一个初始状态出发,根据有向边上定义的概率在状态之间随机跳转 (或随机转移),就可以产生状态的序列 马尔可夫链实际上是刻 画随时间在状态之间转移的模型,假设未来的 转移状态只依赖于现在的状态,而与过去的状态无关。 例 自然语言处理、语音处理中经常用到语言模型(language model), 是建立在词表上的n阶马尔可夫链 比如,在英语语音识别 中,语音模型产生出两个候选:“How to recognize speech”与“How to wreck a nice beach” 要 判断哪个可能
10、性更大 显然从语义的角度前者的可能性更大,语言模型可以帮助做出这 个判断 例 假设每个单词只依赖于其前面出现的单词,也就是说单词序列具有马 尔可夫性, 那么可以定义一阶马尔可夫链,即语言模型,如下计算语 句的概率 这里第三个等式基于马尔可夫链假设。这个马尔可夫链中,状态空间 为词表,一个位置上单词的产生只依赖于前一个位置的单词,而不依 赖于更前面的单词。 以上是一阶 马尔可夫链,一般可以扩展到 n 阶马尔可夫链。 例 语言模型的学习等价于确定马尔可夫链中的转移概率值,如果有 充分的语料,转移概率可以直接从语料中估计 直观上,“wreck a nice”出现之后,下面出现 “beach” 的 概
11、率极低,所以第二个语句的概率应该更小,从语言模型的角度 看第一个语句的可能性更大 转移概率矩阵和状态分布 马尔可夫链 X 在时刻 t 的状态分布,可以由在时刻 (t 1) 的状态分布以及转移概率分布决定 这是因为 转移概率矩阵和状态分布 马尔可夫链在时刻t的状态分布,可以通过递推得到。由 递推得到 这里的Pt称为t步转移概率矩阵, 表示时刻0从状态j出发,时刻t达到状态i的t步转移概率 Pt也是随机矩阵。马尔可夫链的状态分布由初始分布和转移概率 分布决定。 例 假设观察某地的天气,按日依次是“晴,雨,晴,晴,晴,雨, 晴”,具有一定的规律。 假设天气的变化具有马尔可夫性,即明天的天气只依赖于今
12、天的 天气,而与昨天及以前的天气无关。 例 转移矩阵为 如果第一天是晴天的话,其天气概率分布(初始状态分布)如 下: 例 根据这个马尔可夫链模型,可以计算第二天、第三天及之后的天 气概率分布(状态 分布) 平稳分布 直观上,如果马尔可夫链的平稳分布存在,那么以该平稳分布作为初始分布,面 向未来进行随机状态转移,之后任何一个时刻的状态分布都是该平稳分布 平稳分布 平稳分布 证明 - 必要性 假设 是平稳分布,显然满足式(19.17)和式 (19.18)。又 即 满足式(19.16) 平稳分布 证明 充分性 由式(19.17)和式(19.18)知 是一概率分布 假设 为Xt的分布,则 也为Xt-1
13、的分布,这对任意t成立 所以 是马尔可夫链的平稳分布 例 设有图上所示马尔可夫链,其转移概率矩阵为 求其平稳分布 例 设平稳分布为 ,则由式 (19.16)式 (19.18) 有 解方程组,得到唯一的平稳分布 例 设有图上所示马尔可夫链,其转移概率分布如下,求其平稳分布。 例 这个马尔可夫链的平稳分布并不唯一 等皆为其平稳分布。 马尔可夫链可能存在唯一平稳分布,无穷多个平稳分布,或不存 在平稳分布 连续状态马尔可夫链 连续状态马尔可夫链 ,随机变量 定义在连续状态空间S 转移概率分布由概率转移核或转移核(transition kernel)表示。 设S是连续状态空间,对任意的 定义为 其中 是
14、概率密度函数,满足 连续状态马尔可夫链 转移核 表示从 x A的转移概率 有时也将概率密度函数 称为转移核 若马尔可夫链的状态空间S上的概率分布 满足条件 则称分部 为该马尔可夫链的平稳分布。等价地, 或写为 马尔可夫链的性质 直观上,一个不可约的马尔可夫链,从任意状态出发,当经过充 分长时间后,可以到达任意状态 例 图上所示马尔可夫链是可约的 转移概率矩阵 平稳分布 此马尔可夫链,转移到状态 3 后,就在该状态上循环跳转, 不 能到达状态 1 和状态 2,最终停留在状态 3 马尔可夫链的性质 直观上,一个非周期性的马尔可夫链,不存在一个状态,从这一 个状态出发,再返回到这个状态时所经历的时间
15、长呈一定的周期 性 例 图上所示的马尔可夫链是周期的 例 转移概率矩阵 其平稳分布是 。此马尔可夫链从每个状态出发, 返回该状态的 时刻都是3的倍数,3,6,9,具有周期性,最终 停留在每个状态的概率都为1/3. 马尔可夫链的性质 直观上,一个正常返的马尔可夫链,其中任意一个状态,从其他 任意一个状态出发,当时间趋于无穷时,首次转移到这个状态的 概率不为0。 例 图上所示无限状态马尔可夫链,当pq时是正常返的,当pq不 是正常返的。 例 转移概率矩阵 当 p q 时,平稳分布是 当时间趋于无穷时,转移到任何一个状态的概率不为 0,马尔可夫链是正常 返的 当 pq 时,不存在平稳分布,马尔可夫链
16、不是正常返的。 马尔可夫链的性质 马尔可夫链的性质 遍历定理的直观解释: 满足相应条件的马尔可夫链,当时间趋于无穷时,马尔可夫链的 状态分布趋近于平稳分布,随机变量的函数的样本均值以概率1 收敛于该函数的数学期望。 样本均值可以认为是时间均值,而数学期望是空间均值。遍历定 理实际表述了遍历性的含义:当时间趋于无穷时,时间均值等于 空间均值。 遍历定理的三个 条件:不可约、非周期、正常返,保证了当时 间趋于无穷时达到任意一个状态的概率不为0 马尔可夫链的性质 理论上并不知道经过多少次迭代,马尔可夫链的状态分布才能接 近于平稳分布 在实际应用遍历定理时,取一个足够大的整数m,经过m次迭代之 后认为
17、状态分布就是平稳分布 这时计算从第 m1次迭代到第n次迭代的均值,即 马尔可夫链的性质 直观上,如果有可逆的马尔可夫链,那么以该马尔可夫链的平稳 分布作为初始分布,进行随机状态转移,无论是面向未来还是面 向过去,任何一个时刻的状态分布都是该平稳分布。 例 图上所示马尔可夫链是不可逆的 转移概率矩阵 平稳分布 不满足细致平稳方程 马尔可夫链的性质 可逆马尔可夫链一定有唯一平稳分布,给出了一个马尔可夫链有 平稳分布的充分条件(不是必要条件)。 也就是说,可逆马尔可夫链满足遍历定理 19.4 的条件。 马尔可夫链蒙特卡罗法 基本想法 马尔可夫链蒙特卡罗法更适合于随机变量是多元的、密度函数是 非标准形
18、式的、随机变量各分量不独立等情况 假设多元随机变量x,满足 ,其概率密度函数为p(x), f(x)为定义在 上的函数 目标是获得概率分布p(x)的样本集合,以及求函数f(x)的数学期 望 基本想法 马尔可夫链蒙特卡罗法的基本想法: 在随机变量x的状态空间S上定义一个满足遍历定理的马尔可夫链 ,使其平稳分布就是抽样的目标分布p(x) 然后在这个马尔可夫链上进行随机游走,每个时刻得到一个样本 根据遍历定理,当时间趋于无穷时,样本的分布趋近平稳分布, 样本的函数均值趋近函数的数学期望 基本想法 所以,当时间足够长时(时刻大于某个正整数m),在之后的时间 (时刻小于等于某个正整数n,nm)里随机游走得
19、到的样本集 合 就是目标概率分布的抽样结果 得到的函数均值(遍历均值) 就是要计算的数学期望值: 到时刻m为止的时间段称为燃烧期 基本想法 构建具体的马尔可夫链: 连续变量的时候,需要定义转移核函数 离散变量的时候,需要定义转移矩阵 一个方法是定义特殊的转移核函数或者转移矩阵,构建可逆马尔可夫链,这样可以 保证遍历定理成立。 常用的马尔可夫链蒙特卡罗法有Metropolis-Hastings算法、吉布斯抽样。 由于这个马尔可夫链满足遍历定理,随机游走的起始点并不影响得到的结果,即从 不同的起始点出发,都会收敛到同一平稳分布。 基本想法 马尔可夫链蒙特卡罗法的收敛性的判断通常是经验性的 比如,在
20、马尔可夫链上进行随机游走,检验遍历均值是否收敛 具体地,每隔一段时间取一次样本,得到多个样本以后,计算遍 历均值 当计算的均值稳定后,认为马尔可夫链已经收敛 再比如,在马尔可夫链上并行进行多个随机游走,比较各个随机 游走的遍历均值是否接近 一致。 基本想法 马尔可夫链蒙特卡罗法中得到的样本序列,相邻的样本点是相关的,而不是 独立的 因此,在需要独立样本时,可以在该样本序列中再次进行随机抽样 比如每隔一段时间取一次样本,将这样得到的子样本集合作为独立样本集合。 马尔可夫链蒙特卡罗法比接受-拒绝法更容易实现,因为只需要定义马尔可 夫链, 而不需要定义建议分布 一般来说马尔可夫链蒙特卡罗法比接受-拒
21、绝法效率更高,没有大量被拒绝 的样本,虽然燃烧期的样本也要抛弃 基本步骤 可以将马尔可夫链蒙特卡罗法概括为以下三步: (1)首先,在随机变量x的状态空间S上构造一个满足遍历定理的马尔可夫链, 使 其平稳分布为目标分布p(x) (2)从状态空间的某一点x0出发,用构造的马尔可夫链进行随机游走,产生样本 序列 。 (3)应用马尔可夫链的遍历定理,确定正整数m和n,(mn),得到样本集合 ,求得函数f(x)的均值(遍历均值) 马尔可夫链蒙特卡罗法与统计学习 假设观测数据由随机变量 表示,模型由随机变量 表示, 贝叶斯学习通过贝叶斯定理计算给定数据条件下模型的后验概率,并 选择后验概率最大的模型 后验
22、概率 贝叶斯学习中经常需要进行三种积分运算: 归范化(normalization) 边缘 化(marginalization) 数学期望(expectation) 马尔可夫链蒙特卡罗法与统计学习 后验概率计算中需要归范化计算: 如果有隐变量 ,后验概率的计算需要边缘化计算: 如果有一个函数f(x),可以计算该函数的关于后验概率分布的数学期 望: 马尔可夫链蒙特卡罗法为这些计算提供了一个通用的有效解决方案 Metropolis-Hastings算法 基本原理 1. 马尔科夫链 假设要抽样的概率分布为p(x)。Metropolis-Hastings算法采用 转移核为p(x, x) 的马尔可夫链 其
23、中q(x, x)和(x, x)分别称为建议分布(proposal distribution)和接受分布 (acceptance distribution) 基本原理 建议分布q(x, x)是另一个马尔可夫链的转移核,并且q(x, x) 是不可约的,即其概率值恒不为0,同时是一个容易抽样的分布。 接受分布(x, x) 是 这时,转移核p(x, x)可以写成 基本原理 转移核为p(x, x)的马尔可夫链上的随机游走以以下方式进行 如果在时刻(t-1)处于状态x,即xt-1=x,则先按建议分布q(x, x) 抽样产生一个候选状态x,然后按照接受分布(x, x)抽样决定 是否接受状态x 以概率(x,
24、x)接受了x,决定时刻t转移到状态x,而以概率1- (x, x)拒绝x,决定时刻t仍停留在状态x 基本原理 具体地,从区间(0,1)上的均匀分布中抽取一个随机数u,决定时 刻t的状态。 可以证明,转移核为p(x, x)的马尔可夫链是可逆马尔可夫链 (满足遍历定理), 其平稳分布就是p(x),即要抽样的目标分布。 也就是说这是马尔可夫链蒙特卡罗法的一个具体实现。 基本原理 基本原理 证明: 若x = x,则式(19.41)显然成立。 若x x,则 式(19.41) 基本原理 由式(19.41)知, 根据平稳分布的定义,p(x)是马尔可夫链的平稳分布。 基本原理 2. 建议分部 建议分部q(x,
25、x) 有多种可能的形式,这里介绍两种常用形式 第一种形式,假设建议分布是对称的,即对任意的x和x有 这样的建议分布称为Metropolis选择。这时,接受分部(x, x) 简化为 基本原理 Metropolis选择的一个特例是q(x, x) 取条件概率分布p(x|x), 定义为多元正态 分布,其均值是x,其协方差矩阵是常数矩阵。 Metropolis选择的另一个特例是令q(x, x) = q( |x - x| ) , 这时算法称为随机游走 Metropolis算法。例如, Metropolis选择的特点是当x与x接近时, q(x, x) 的概率值高, 否则q(x, x) 的概率值低。状态转移在
26、附近点的可能性更大。 基本原理 第二种形式称为独立抽样。假设q(x, x) 与当前状态x 无关,即q(x, x) = q(x) 建议分布的计算按照q(x) 独立抽样进行。此时,接受分布(x, x) 可以写成 其中 独立抽样实现简单,但可能收敛速度慢,通常选择接近目标分布p(x) 的分布作为建议分布q(x) 基本原理 3. 满条件分部 马尔可夫链蒙特卡罗法的目标分布通常是多元联合概率分布 ,其中 为k维随机变量 如果条件概率分布 中所有 k个变量全部出现,其中 那么称这种条件概 率分布为满条件分布(full conditional distribution)。 基本原理 满条件分布有以下性质:对
27、任意的 和任意的 , 有 而且,对任意的 和任意的 ,有 基本原理 Metropolis-Hastings算法中,可以利用上述性质,简化计算, 提高计算效率。具体地,通过满条件分布概率的比 计算联合概率的比 而前者更容易计算 例 设x1和x2的联合概率分布的密度函数为 求其满条件分部 例 由满条件分布的定义有 这里 是均值为1,方差为 的正态分布,这时 x1是变量,x2是参数。同样可得 Metropolis-Hastings算法 Metropolis-Hastings算法 单分量Metropolis- Hastings算法 在Metropolis-Hastings算法中,通常需要对多元变量分布
28、进行 抽样,有时对多元变量分布的抽样是困难的 可以对多元变量的每一变量的条件分布依次分别进行抽样,从而 实现对整个多元变量的一次抽样,这就是单分量Metropolis- Hastings (single-component Metropolis-Hastings)算法。 单分量Metropolis- Hastings算法 假设马尔可夫链的状态由k维随机变量表示 其中xj表示随机变量x的第j个分量, ,而x(i)表示马尔 可夫链在时刻i的 其中 是随机变量 x(i) 的第j个分量, 单分量Metropolis- Hastings算法 为了生成容量为的样本集合 ,单分量 Metropolis-Ha
29、stings 算法由下面的k步迭代实现Metropolis- Hastings算法的一次迭代 设在第(i-1)次迭代结束时分量 xj 的取值为 ,在 第i次迭代的第j步,对分量 xj 根据Metropolis-Hastings算法更 新,得到其新的取值 单分量Metropolis- Hastings算法 首先,由建议分布 抽样产生分量 xj 的候选值 ,这里 表示在第i次迭代的第 (j-1)步后的x(i)除 去 的所有值,即 其中分量1,2,j一1已经更新。然后,按照接受概率 抽样决定是否接受候选值 。如果 被接受,则令 否则令 。其余分量在第j步不改变 单分量Metropolis- Hast
30、ings算法 马尔可夫链的转移概率为 右图示意单分量Metropolis-Hastings 算法的迭代过程。目标是对含有两个变量 的随机变量x进行抽样 如果变量x1或x2更新,那么在水平或垂直 方向产生一 个移动,连续水平和垂直移动产生 一个新的样本点。 注意由于建议分布可能不被接受, Metropolis-Hastings算法可能在一些相邻的时刻不产生移动。 吉布斯抽样 吉布斯抽样 吉布斯抽样是马尔可夫链蒙特卡罗法的常用算法吉布斯抽样 可以认为是Metropolis-Hastings算法的特殊情况,但是更容易 实现,因而被广泛使用。 基本原理 吉布斯抽样(Gibbs sampling)用于多
31、元变量联合分布的抽样和估计 其基本做法是,从联合概率分布定义满条件概率分布,依次对满条件 概率分布进行抽样,得到样本的序列 可以证明这样的抽样过程是在一个马尔可夫链上的随机游走,每一个 样本对应着马尔可夫链的状态,平稳分布就是目标的联合分布。 整体成为一个马尔可夫 链蒙特卡罗法,燃烧期之后的样本就是联合分 布的随机样本 基本原理 假设多元变量的联合概率分布为 吉布斯抽样从一个初始样本 出发,不断进行迭 代,每一次迭代得到联合分布的一个样本 最终得到样本序列 基本原理 在每次迭代中,依次对k个随机变量中的一个变量进行随机抽样。 如果在第i次迭代中,对第j个变量进行随机抽样,那么抽样的分 布是满条
32、件概率分布 , 这里 表示第i次迭代中, 变量j以外的其他变量 基本原理 设在第(i-1)步得到样本 ,在第i步,首先 对第一个变量按照以下满条件概率分布随机抽样 得到 ,之后依次对第j个变量按照以下满条件概率分布随 机抽样 得到 ,最后对第k个变量按照以下满条件概率分布随机抽 样 得到 ,于是得到整体样本 基本原理 吉布斯抽样是单分量Metropolis-Hastings算法的特殊情况 定义建议分布是当前变量xj,j = 1,2,,k的满条件概率分布 这时,接受概率 这里用到 和 基本原理 转移核就是满条件概率分布 也就是说依次按照单变量的满条件概率分布 进行随机抽 样,就能实现单分量Met
33、ropolis-Hastings算法 吉布斯抽样对每次抽样的结果都接受,没有拒绝,这一点和一般 的Metropolis-Hastings算法不同 这里,假设满条件概率分布 不为0,即马尔可夫链是不 可约的 吉布斯抽样算法 吉布斯抽样算法 例 用吉布斯抽样从以下二元正态分布中抽取随机样本 例 条件概率分布为一元正态分布 假设初始样本为 ,通过吉布斯抽样,可以得到以下样 本序列: 例 得到的样本集合 就是二元正态分布的随机 抽 样。 右图示意吉布斯抽样的过程 吉布斯抽样算法 单分量Metropolis-Hastings 算法 抽样会在样本点之间移动,但其间可能在某一些样本点上停留(由于抽 样被拒绝
34、) 适合于满条件概率分布不容易抽样的情况,使用容易抽样的条件分 作建 议分布 吉布斯抽样算法 抽样会在样本点之间持续移动 适合于满条件概率分布容易抽样的情况 抽样计算 吉布斯抽样中需要对满条件概率分布进行重复多次抽样 可以利用概率分布的性质提高抽样的效率 下面以贝叶斯学习为例介绍这个技巧 抽样计算 设y表示观测数据, 分别表示超参数、模型参数、未观测数据, 贝叶斯学习的目的是估计后验概率分布 ,求后验概率最大的模 型 式中 是超参数分布, 是先验分布, 是完全数据的分布 抽样计算 现在用吉布斯抽样估计 ,其中y已知, 未知。吉布斯抽样 中各个变量 的满条件分布有以下关系 其中 表示变量 以外的所有变量, 和 类似 依满条件概率分布的抽样可以通过依这些条件概率分布的乘积的抽样进行。 这样可以大幅减少抽样的计算复杂度,因为计算只涉及部分变量。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。