第19章马尔科夫链蒙特卡洛法.pptx_163文库

资源描述

1、第十九章马尔可夫链蒙特卡罗法马尔可夫链蒙特卡罗法蒙特卡罗法（Monte Carlo method)，也称为统计模拟方法（statistical simulation method)，是通过从概率模型的随机抽样进行近似数值计算的方法。马尔可夫链蒙特卡罗法（Markov Chain Monte Carlo, MCMC)，则是以马尔可夫链（Markov chain)为概率模型的蒙特卡罗法。马尔可夫链蒙特卡罗法构建一个马尔可夫链，使其平稳分布就是要进行抽样的分布，首先基于该马尔可夫链进行随机游走，产生样本的序列，之后使用该平稳分布的样本进行近似数值计算马尔可夫链蒙特卡罗法 Met

2、ropolis-Hastings算法是最基本的马尔可夫链蒙特卡罗法吉布斯抽样（Gibbs sampling）是更简单、使用更广泛的马尔可夫链蒙特卡罗法，马尔可夫链蒙特卡罗法被应用于概率分布的估计、定积分的近似计算、最优化问题的近似求解等问题，特别是被应用于统计学习中概率模型的学习与推理，是重要的统计学习计算方法。蒙特卡罗法随机抽样蒙特卡罗法要解决的问题是，假设概率分布的定义己知，通过抽样获得概率分布的随机样本，并通过得到的随机样本对概率分布的特征进行分析。比如，从样本得到经验分布，从而估计总体分布或者从样本计算出样本均值，从而估计总体期望所以蒙特卡罗法的核心是随机抽样

3、(random sampling)。随机抽样蒙特卡罗法直接抽样法接受-拒绝抽样法重要性抽样法接受-拒绝抽样法、重要性抽样法适合于概率密度函数复杂(如密度函数含有多个变量，各变量相互不独立，密度函数形式复杂)，不能直接抽样的情况。随机抽样接受-拒绝抽样法(accept-reject sampling method) 假设有随机变量 x，取值 x X ，其概率密度函数为 p(x) 目标是得到该概率分布的随机样本，以对这个概率分布进行分析随机抽样假设 p(x) 不可以直接抽样。找一个可以直接抽样的分布，称为建议分布(proposal distribution) 假设 q(x

4、) 是建议分布的概率密度函数，并且有 q(x) 的 c 倍一定大于等于 p(x)，其中 c 0，如图中所示接受-拒绝法接受-拒绝法接受-拒绝法的优点是容易实现，缺点是效率可能不高如果p(x)的涵盖体积占cq(x)的涵盖体积的比例很低，就会导致拒绝的比例很高，抽样效率很低。注意，一般是在高维空间进行抽样，即使p(x)与cq(x)很接近，两者涵盖体积的差异也可能很大数学期望佑计一般的蒙特卡罗法也可以用于数学期望估计（estimation of mathematical expectation)。假设有随机变量x，取值，其概率密度函数为p(x), f(x)为定义在X上的函

5、数目标是求函数f(x) 关于密度函数p(x)的数学期望数学期望佑计针对这个问题，蒙特卡罗法按照概率分布p(x)独立地抽取n个样本，比如用以上的抽样方法，之后计算函数f(x)的样本均值作为数学期望的近似值根据大数定律可知，当样本容量增大时，样本均值以概率1收敛于数学期望：这样就得到了数学期望的近似计算方法：积分计算一般的蒙特卡罗法也可以用于定积分的近似计算，称为蒙特卡罗积分（Monte Carlo integration) 假设有一个函数h(x)，目标是计算该函数的积分如果能够将函数h(x)分解成一个函数f(x)和一个概率密度函数p(x)的乘积的形式，那么就有于

6、是函数h(x)的积分可以表示为函数f(x)关于概率密度函数p(x)的数学期望。积分计算给定一个概率密度函数p(x)，只要取就可得就是说，任何一个函数的积分都可以表示为某一个函数的数学期望的形式，而函数的数学期望又可以通过函数的样本均值估计于是，就可以利用样本均值来近似计算积分例用蒙特卡罗积分法求令也就是说，假设随机变量x在(0,1)区间遵循均匀分布例使用蒙特卡罗积分法，如图所示，在(0,1)区间按照均匀分布抽取10个随机样本。计算样本的函数均值也就是积分的近似随机样本数越大，计算就越精确例用蒙特卡罗积分法求令 p(x) 是标准正态分布的密度函数使

7、用蒙特卡罗积分法，按照标准正态分布在区间抽样 , 取其平均值，就得到要求的积分值。当样本增大时，积分值趋于0 马尔可夫链基本定义基本定义马尔可夫性的直观解释是“未来只依赖于现在（假设现在已知），而与过去无关” 若转移概率分布与t无关，即则称该马尔可夫链为时间齐次的马尔可夫链（(time homogenous Markov chain)。以上定义的是一阶马尔可夫链，可以扩展到n阶马尔可夫链，满足n阶马尔可夫性离散状态马尔可夫链转移概率矩阵和状态分布离散状态马尔可夫链，随机变量定义在离散空间S，转移概率分布可以由矩阵表示若马尔可夫链在时刻(t-1)处于状态j，在时刻

8、t移动到状态i，将转移概率记作满足转移概率矩阵和状态分布马尔可夫链的转移概率 pij 可以由矩阵表示，即称为马尔可夫链的转移概率矩阵，转移概率矩阵P满足条件这两个条件的矩阵称为随机矩阵（stochastic matrix) 矩阵列元素之和为1 转移概率矩阵和状态分布考虑马尔可夫链，在时刻的概率分布，称为时刻t的状态分布，记作其中其中时刻t状态为i的概率转移概率矩阵和状态分布特别地，马尔可夫链的初始状态分布可以表示为其中表示时刻0状态为i的概率，通常初始分布的向量只有一个分量是1，其余分量都是0，表示马尔可夫链从一个具体状态开始。转移概率矩阵和状态分布有

9、限离散状态的马尔可夫链可以由有向图表示结点表示状态，边表示状态之间的转移，边上的数值表示转移概率从一个初始状态出发，根据有向边上定义的概率在状态之间随机跳转（或随机转移），就可以产生状态的序列马尔可夫链实际上是刻画随时间在状态之间转移的模型，假设未来的转移状态只依赖于现在的状态，而与过去的状态无关。例自然语言处理、语音处理中经常用到语言模型(language model)，是建立在词表上的n阶马尔可夫链比如，在英语语音识别中，语音模型产生出两个候选：“How to recognize speech”与“How to wreck a nice beach” 要判断哪个可能

10、性更大显然从语义的角度前者的可能性更大，语言模型可以帮助做出这个判断例假设每个单词只依赖于其前面出现的单词，也就是说单词序列具有马尔可夫性，那么可以定义一阶马尔可夫链，即语言模型，如下计算语句的概率这里第三个等式基于马尔可夫链假设。这个马尔可夫链中，状态空间为词表，一个位置上单词的产生只依赖于前一个位置的单词，而不依赖于更前面的单词。以上是一阶马尔可夫链，一般可以扩展到 n 阶马尔可夫链。例语言模型的学习等价于确定马尔可夫链中的转移概率值，如果有充分的语料，转移概率可以直接从语料中估计直观上，“wreck a nice”出现之后，下面出现 “beach” 的概

11、率极低，所以第二个语句的概率应该更小，从语言模型的角度看第一个语句的可能性更大转移概率矩阵和状态分布马尔可夫链 X 在时刻 t 的状态分布，可以由在时刻 (t 1) 的状态分布以及转移概率分布决定这是因为转移概率矩阵和状态分布马尔可夫链在时刻t的状态分布，可以通过递推得到。由递推得到这里的Pt称为t步转移概率矩阵，表示时刻0从状态j出发，时刻t达到状态i的t步转移概率 Pt也是随机矩阵。马尔可夫链的状态分布由初始分布和转移概率分布决定。例假设观察某地的天气，按日依次是“晴，雨，晴，晴，晴，雨，晴”，具有一定的规律。假设天气的变化具有马尔可夫性，即明天的天气只依赖于今

12、天的天气，而与昨天及以前的天气无关。例转移矩阵为如果第一天是晴天的话，其天气概率分布（初始状态分布）如下：例根据这个马尔可夫链模型，可以计算第二天、第三天及之后的天气概率分布（状态分布）平稳分布直观上，如果马尔可夫链的平稳分布存在，那么以该平稳分布作为初始分布，面向未来进行随机状态转移，之后任何一个时刻的状态分布都是该平稳分布平稳分布平稳分布证明 - 必要性假设是平稳分布，显然满足式(19.17)和式 (19.18)。又即满足式(19.16) 平稳分布证明充分性由式（19.17）和式（19.18）知是一概率分布假设为Xt的分布，则也为Xt-1

13、的分布，这对任意t成立所以是马尔可夫链的平稳分布例设有图上所示马尔可夫链，其转移概率矩阵为求其平稳分布例设平稳分布为，则由式 (19.16)式 (19.18) 有解方程组，得到唯一的平稳分布例设有图上所示马尔可夫链，其转移概率分布如下，求其平稳分布。例这个马尔可夫链的平稳分布并不唯一等皆为其平稳分布。马尔可夫链可能存在唯一平稳分布，无穷多个平稳分布，或不存在平稳分布连续状态马尔可夫链连续状态马尔可夫链，随机变量定义在连续状态空间S 转移概率分布由概率转移核或转移核(transition kernel）表示。设S是连续状态空间，对任意的定义为其中是

14、概率密度函数，满足连续状态马尔可夫链转移核表示从 x A的转移概率有时也将概率密度函数称为转移核若马尔可夫链的状态空间S上的概率分布满足条件则称分部为该马尔可夫链的平稳分布。等价地，或写为马尔可夫链的性质直观上，一个不可约的马尔可夫链，从任意状态出发，当经过充分长时间后，可以到达任意状态例图上所示马尔可夫链是可约的转移概率矩阵平稳分布此马尔可夫链，转移到状态 3 后，就在该状态上循环跳转，不能到达状态 1 和状态 2，最终停留在状态 3 马尔可夫链的性质直观上，一个非周期性的马尔可夫链，不存在一个状态，从这一个状态出发，再返回到这个状态时所经历的时间

15、长呈一定的周期性例图上所示的马尔可夫链是周期的例转移概率矩阵其平稳分布是。此马尔可夫链从每个状态出发，返回该状态的时刻都是3的倍数，3,6,9，具有周期性，最终停留在每个状态的概率都为1/3. 马尔可夫链的性质直观上，一个正常返的马尔可夫链，其中任意一个状态，从其他任意一个状态出发，当时间趋于无穷时，首次转移到这个状态的概率不为0。例图上所示无限状态马尔可夫链，当pq时是正常返的，当pq不是正常返的。例转移概率矩阵当 p q 时，平稳分布是当时间趋于无穷时，转移到任何一个状态的概率不为 0，马尔可夫链是正常返的当 pq 时，不存在平稳分布，马尔可夫链

16、不是正常返的。马尔可夫链的性质马尔可夫链的性质遍历定理的直观解释：满足相应条件的马尔可夫链，当时间趋于无穷时，马尔可夫链的状态分布趋近于平稳分布，随机变量的函数的样本均值以概率1 收敛于该函数的数学期望。样本均值可以认为是时间均值，而数学期望是空间均值。遍历定理实际表述了遍历性的含义：当时间趋于无穷时，时间均值等于空间均值。遍历定理的三个条件：不可约、非周期、正常返，保证了当时间趋于无穷时达到任意一个状态的概率不为0 马尔可夫链的性质理论上并不知道经过多少次迭代，马尔可夫链的状态分布才能接近于平稳分布在实际应用遍历定理时，取一个足够大的整数m，经过m次迭代之后认为

17、状态分布就是平稳分布这时计算从第 m1次迭代到第n次迭代的均值，即马尔可夫链的性质直观上，如果有可逆的马尔可夫链，那么以该马尔可夫链的平稳分布作为初始分布，进行随机状态转移，无论是面向未来还是面向过去，任何一个时刻的状态分布都是该平稳分布。例图上所示马尔可夫链是不可逆的转移概率矩阵平稳分布不满足细致平稳方程马尔可夫链的性质可逆马尔可夫链一定有唯一平稳分布，给出了一个马尔可夫链有平稳分布的充分条件(不是必要条件)。也就是说，可逆马尔可夫链满足遍历定理 19.4 的条件。马尔可夫链蒙特卡罗法基本想法马尔可夫链蒙特卡罗法更适合于随机变量是多元的、密度函数是非标准形

18、式的、随机变量各分量不独立等情况假设多元随机变量x，满足，其概率密度函数为p(x), f(x)为定义在上的函数目标是获得概率分布p(x)的样本集合，以及求函数f(x)的数学期望基本想法马尔可夫链蒙特卡罗法的基本想法：在随机变量x的状态空间S上定义一个满足遍历定理的马尔可夫链，使其平稳分布就是抽样的目标分布p(x) 然后在这个马尔可夫链上进行随机游走，每个时刻得到一个样本根据遍历定理，当时间趋于无穷时，样本的分布趋近平稳分布，样本的函数均值趋近函数的数学期望基本想法所以，当时间足够长时（时刻大于某个正整数m)，在之后的时间（时刻小于等于某个正整数n，nm）里随机游走得

19、到的样本集合就是目标概率分布的抽样结果得到的函数均值（遍历均值）就是要计算的数学期望值：到时刻m为止的时间段称为燃烧期基本想法构建具体的马尔可夫链：连续变量的时候，需要定义转移核函数离散变量的时候，需要定义转移矩阵一个方法是定义特殊的转移核函数或者转移矩阵，构建可逆马尔可夫链，这样可以保证遍历定理成立。常用的马尔可夫链蒙特卡罗法有Metropolis-Hastings算法、吉布斯抽样。由于这个马尔可夫链满足遍历定理，随机游走的起始点并不影响得到的结果，即从不同的起始点出发，都会收敛到同一平稳分布。基本想法马尔可夫链蒙特卡罗法的收敛性的判断通常是经验性的比如，在

20、马尔可夫链上进行随机游走，检验遍历均值是否收敛具体地，每隔一段时间取一次样本，得到多个样本以后，计算遍历均值当计算的均值稳定后，认为马尔可夫链已经收敛再比如，在马尔可夫链上并行进行多个随机游走，比较各个随机游走的遍历均值是否接近一致。基本想法马尔可夫链蒙特卡罗法中得到的样本序列，相邻的样本点是相关的，而不是独立的因此，在需要独立样本时，可以在该样本序列中再次进行随机抽样比如每隔一段时间取一次样本，将这样得到的子样本集合作为独立样本集合。马尔可夫链蒙特卡罗法比接受-拒绝法更容易实现，因为只需要定义马尔可夫链，而不需要定义建议分布一般来说马尔可夫链蒙特卡罗法比接受-拒

21、绝法效率更高，没有大量被拒绝的样本，虽然燃烧期的样本也要抛弃基本步骤可以将马尔可夫链蒙特卡罗法概括为以下三步：（1）首先，在随机变量x的状态空间S上构造一个满足遍历定理的马尔可夫链，使其平稳分布为目标分布p(x) （2）从状态空间的某一点x0出发，用构造的马尔可夫链进行随机游走，产生样本序列。（3）应用马尔可夫链的遍历定理，确定正整数m和n,（mn)，得到样本集合，求得函数f(x)的均值（遍历均值）马尔可夫链蒙特卡罗法与统计学习假设观测数据由随机变量表示，模型由随机变量表示，贝叶斯学习通过贝叶斯定理计算给定数据条件下模型的后验概率，并选择后验概率最大的模型后验

22、概率贝叶斯学习中经常需要进行三种积分运算：归范化（normalization) 边缘化（marginalization) 数学期望（expectation) 马尔可夫链蒙特卡罗法与统计学习后验概率计算中需要归范化计算：如果有隐变量，后验概率的计算需要边缘化计算：如果有一个函数f(x)，可以计算该函数的关于后验概率分布的数学期望：马尔可夫链蒙特卡罗法为这些计算提供了一个通用的有效解决方案 Metropolis-Hastings算法基本原理 1. 马尔科夫链假设要抽样的概率分布为p(x)。Metropolis-Hastings算法采用转移核为p(x, x) 的马尔可夫链其

23、中q(x, x)和(x, x)分别称为建议分布（proposal distribution）和接受分布 (acceptance distribution) 基本原理建议分布q(x, x)是另一个马尔可夫链的转移核，并且q(x, x) 是不可约的，即其概率值恒不为0，同时是一个容易抽样的分布。接受分布(x, x) 是这时，转移核p(x, x)可以写成基本原理转移核为p(x, x)的马尔可夫链上的随机游走以以下方式进行如果在时刻(t-1)处于状态x，即xt-1=x，则先按建议分布q(x, x) 抽样产生一个候选状态x，然后按照接受分布(x, x)抽样决定是否接受状态x 以概率(x,

24、x)接受了x，决定时刻t转移到状态x，而以概率1- (x, x)拒绝x，决定时刻t仍停留在状态x 基本原理具体地，从区间(0,1)上的均匀分布中抽取一个随机数u，决定时刻t的状态。可以证明，转移核为p(x, x)的马尔可夫链是可逆马尔可夫链（满足遍历定理）, 其平稳分布就是p(x)，即要抽样的目标分布。也就是说这是马尔可夫链蒙特卡罗法的一个具体实现。基本原理基本原理证明：若x = x，则式（19.41)显然成立。若x x，则式（19.41) 基本原理由式（19.41)知，根据平稳分布的定义，p(x)是马尔可夫链的平稳分布。基本原理 2. 建议分部建议分部q(x,

25、x) 有多种可能的形式，这里介绍两种常用形式第一种形式，假设建议分布是对称的，即对任意的x和x有这样的建议分布称为Metropolis选择。这时，接受分部(x, x) 简化为基本原理 Metropolis选择的一个特例是q(x, x) 取条件概率分布p(x|x)，定义为多元正态分布，其均值是x，其协方差矩阵是常数矩阵。 Metropolis选择的另一个特例是令q(x, x) = q( |x - x| ) ，这时算法称为随机游走 Metropolis算法。例如， Metropolis选择的特点是当x与x接近时， q(x, x) 的概率值高，否则q(x, x) 的概率值低。状态转移在

26、附近点的可能性更大。基本原理第二种形式称为独立抽样。假设q(x, x) 与当前状态x 无关，即q(x, x) = q(x) 建议分布的计算按照q(x) 独立抽样进行。此时，接受分布(x, x) 可以写成其中独立抽样实现简单，但可能收敛速度慢，通常选择接近目标分布p(x) 的分布作为建议分布q(x) 基本原理 3. 满条件分部马尔可夫链蒙特卡罗法的目标分布通常是多元联合概率分布，其中为k维随机变量如果条件概率分布中所有 k个变量全部出现，其中那么称这种条件概率分布为满条件分布（full conditional distribution)。基本原理满条件分布有以下性质：对

27、任意的和任意的，有而且，对任意的和任意的，有基本原理 Metropolis-Hastings算法中，可以利用上述性质，简化计算，提高计算效率。具体地，通过满条件分布概率的比计算联合概率的比而前者更容易计算例设x1和x2的联合概率分布的密度函数为求其满条件分部例由满条件分布的定义有这里是均值为1，方差为的正态分布，这时 x1是变量，x2是参数。同样可得 Metropolis-Hastings算法 Metropolis-Hastings算法单分量Metropolis- Hastings算法在Metropolis-Hastings算法中，通常需要对多元变量分布

28、进行抽样，有时对多元变量分布的抽样是困难的可以对多元变量的每一变量的条件分布依次分别进行抽样，从而实现对整个多元变量的一次抽样，这就是单分量Metropolis- Hastings (single-component Metropolis-Hastings）算法。单分量Metropolis- Hastings算法假设马尔可夫链的状态由k维随机变量表示其中xj表示随机变量x的第j个分量，，而x(i)表示马尔可夫链在时刻i的其中是随机变量 x(i) 的第j个分量，单分量Metropolis- Hastings算法为了生成容量为的样本集合，单分量 Metropolis-Ha

29、stings 算法由下面的k步迭代实现Metropolis- Hastings算法的一次迭代设在第（i-1）次迭代结束时分量 xj 的取值为，在第i次迭代的第j步，对分量 xj 根据Metropolis-Hastings算法更新，得到其新的取值单分量Metropolis- Hastings算法首先，由建议分布抽样产生分量 xj 的候选值，这里表示在第i次迭代的第 (j-1）步后的x(i)除去的所有值，即其中分量1,2,j一1已经更新。然后，按照接受概率抽样决定是否接受候选值。如果被接受，则令否则令。其余分量在第j步不改变单分量Metropolis- Hast

30、ings算法马尔可夫链的转移概率为右图示意单分量Metropolis-Hastings 算法的迭代过程。目标是对含有两个变量的随机变量x进行抽样如果变量x1或x2更新，那么在水平或垂直方向产生一个移动，连续水平和垂直移动产生一个新的样本点。注意由于建议分布可能不被接受， Metropolis-Hastings算法可能在一些相邻的时刻不产生移动。吉布斯抽样吉布斯抽样吉布斯抽样是马尔可夫链蒙特卡罗法的常用算法吉布斯抽样可以认为是Metropolis-Hastings算法的特殊情况，但是更容易实现，因而被广泛使用。基本原理吉布斯抽样（Gibbs sampling）用于多

31、元变量联合分布的抽样和估计其基本做法是，从联合概率分布定义满条件概率分布，依次对满条件概率分布进行抽样，得到样本的序列可以证明这样的抽样过程是在一个马尔可夫链上的随机游走，每一个样本对应着马尔可夫链的状态，平稳分布就是目标的联合分布。整体成为一个马尔可夫链蒙特卡罗法，燃烧期之后的样本就是联合分布的随机样本基本原理假设多元变量的联合概率分布为吉布斯抽样从一个初始样本出发，不断进行迭代，每一次迭代得到联合分布的一个样本最终得到样本序列基本原理在每次迭代中，依次对k个随机变量中的一个变量进行随机抽样。如果在第i次迭代中，对第j个变量进行随机抽样，那么抽样的分布是满条

32、件概率分布 , 这里表示第i次迭代中，变量j以外的其他变量基本原理设在第（i-1）步得到样本，在第i步，首先对第一个变量按照以下满条件概率分布随机抽样得到，之后依次对第j个变量按照以下满条件概率分布随机抽样得到，最后对第k个变量按照以下满条件概率分布随机抽样得到，于是得到整体样本基本原理吉布斯抽样是单分量Metropolis-Hastings算法的特殊情况定义建议分布是当前变量xj，j = 1,2,，k的满条件概率分布这时，接受概率这里用到和基本原理转移核就是满条件概率分布也就是说依次按照单变量的满条件概率分布进行随机抽样，就能实现单分量Met

33、ropolis-Hastings算法吉布斯抽样对每次抽样的结果都接受，没有拒绝，这一点和一般的Metropolis-Hastings算法不同这里，假设满条件概率分布不为0，即马尔可夫链是不可约的吉布斯抽样算法吉布斯抽样算法例用吉布斯抽样从以下二元正态分布中抽取随机样本例条件概率分布为一元正态分布假设初始样本为，通过吉布斯抽样，可以得到以下样本序列：例得到的样本集合就是二元正态分布的随机抽样。右图示意吉布斯抽样的过程吉布斯抽样算法单分量Metropolis-Hastings 算法抽样会在样本点之间移动，但其间可能在某一些样本点上停留（由于抽样被拒绝

34、）适合于满条件概率分布不容易抽样的情况，使用容易抽样的条件分作建议分布吉布斯抽样算法抽样会在样本点之间持续移动适合于满条件概率分布容易抽样的情况抽样计算吉布斯抽样中需要对满条件概率分布进行重复多次抽样可以利用概率分布的性质提高抽样的效率下面以贝叶斯学习为例介绍这个技巧抽样计算设y表示观测数据，分别表示超参数、模型参数、未观测数据，贝叶斯学习的目的是估计后验概率分布，求后验概率最大的模型式中是超参数分布，是先验分布，是完全数据的分布抽样计算现在用吉布斯抽样估计，其中y已知，未知。吉布斯抽样中各个变量的满条件分布有以下关系其中表示变量以外的所有变量，和类似依满条件概率分布的抽样可以通过依这些条件概率分布的乘积的抽样进行。这样可以大幅减少抽样的计算复杂度，因为计算只涉及部分变量。

展开阅读全文