第20章潜在狄利克雷分布.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第20章潜在狄利克雷分布.pptx

1、第二十章潜在狄利克雷分配潜在狄利克雷分配潜在狄利克雷分配(latent Dirichlet allocation, LDA)，作为基于贝叶斯学习的话题模型，是潜在语义分析、概率潜在语义分析的扩展， LDA 在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用潜在狄利克雷分配 LDA模型是文本集合的生成概率模型假设每个文本由话题的一个多项分布表示，每个话题由单词的一个多项分布表示特别假设文本的话题分布的先验分布是狄利克雷分布，话题的单词分布的先验分布也是狄利克雷分布先验分布的导入使LDA 能够更好地应对话题模型学习中的过拟合现象潜在狄利克雷分配 LDA的文本集合的生

2、成过程如下：首先随机生成一个文本的话题分布之后在该文本的每个位置，依据该文本的话题分布随机生成一个话题然后在该位置依据该话题的单词分布随机生成一个单词，直至文本的最后一个位置，生成整个文本。重复以上过程生成所有文本。潜在狄利克雷分配 LDA模型是含有隐变量的概率图模型模型中，每个话题的单词分布，每个文本的话题分布，文本的每个位置的话题是隐变量文本的每个位置的单词是观测变量 LDA模型的学习与推理无法直接求解，通常使用吉布斯抽样（Gibbs sampling）和变分EM算法（variational EM algorithm)，前者是蒙特卡罗法，而后者是近似算法。狄利克雷

3、分布分布定义 1. 多项分布多项分布（multinomial distribution)是一种多元离散随机变量的概率分布，是二项分布（binomial distribution）的扩展。假设重复进行n次独立随机试验，每次试验可能出现的结果有k种，第i种结果出现的概率为pi，第i种结果出现的次数为ni 如果用随机变量表示试验所有可能结果的次数，其中Xi表示第i种结果出现的次数，那么随机变量x服从多项分布分布定义当试验的次数n为1时，多项分布变成类别分布（categorical distribution) 类别分布表示试验可能出现的k种结果的概率分布定义 2. 狄利克雷分布狄

4、利克雷分布（Dirichlet distribution)是一种多元连续随机变量的概率分布，是贝塔分布（(beta distribution)的扩展在贝叶斯学习中，狄利克雷分布常作为多项分布的先验分布使用分布定义分布定义式中是伽马函数，定义为具有性质当s是自然数时，有分布定义由于满足条件所以狄利克雷分布存在于（k1)维单纯形上右图为二维单纯形上的狄利克雷分布狄利克雷分布的参数为分布定义令则狄利克雷分布的密度函数可以写成是规范化因子，称为多元贝塔函数（或扩展的贝塔函数）分布定义由密度函数的性质得即多元贝塔函数的积分表示分布定义 3. 二项分布和贝塔

5、分布二项分布是多项分布的特殊情况，贝塔分布是狄利克雷分布的特殊情况二项分布是指如下概率分布。X为离散随机变量，取值为m，其概率质量函数为其中n和p (0p1) 是参数分布定义贝塔分布是指如下概率分布，X为连续随机变量，取值范围为 0,1，其概率密度函数为其中s0和t0是参数，是贝塔函数，定义为当然s, t是自然数时，分布定义当n为1时，二项分布变成伯努利分布（Bernoulli distribution ）或0-1分布伯努利分布表示试验可能出现的2种结果的概率下图给出几种概率分布的关系。共扼先验狄利克雷分布有一些重要性质： (1)狄利克雷分布属于指数分布族 (2

6、)狄利克雷分布是多项分布的共扼先验（conjugate prior）共扼先验贝叶斯学习中常使用共扼分布如果后验分布与先验分布属于同类，则先验分布与后验分布称为共扼分布（conjugate distributions)，先验分布称为共扼先验（conjugate prior) 如果多项分布的先验分布是狄利克雷分布，则其后验分布也为狄利克雷分布，两者构成共扼分布作为先验分布的狄利克雷分布的参数又称为超参数使用共扼分布的好处是便于从先验分布计算后验分布共扼先验设是由k个元素组成的集合。随机变量X服从W 上的多项分布，，其中和是参数参数n为从W中重复独立抽取样本的次数，n

7、i为样本中wi出现的次数（i = 1,2,k）参数为 wi 出现的概率（i = 1,2,k）共扼先验将样本数据表示为D，目标是计算在样本数据D给定条件下参数的后验概率。对于给定的样本数据D，似然函数是假设随机变量服从狄利克雷分布，其中为参数。则的先验分布为共扼先验根据贝叶斯规则，在给定样本数据D和参数条件下，的后验概率分布是共扼先验可以看出先验分布和后验分布都是狄利克雷分布两者有不同的参数，所以狄利克雷分布是多项分布的共扼先验狄利克雷后验分布的参数等于狄利克雷先验分布参数加上多项分布的观测，好像试验之前就已经观察到计数，因此也把叫做先验伪计数（

8、prior pseudo-counts)。潜在狄利克雷分配模型基本想法潜在狄利克雷分配（LDA）是文本集合的生成概率模型模型假设话题由单词的多项分布表示，文本由话题的多项分布表示，单词分布和话题分布的先验分布都是狄利克雷分布文本内容的不同是由于它们的话题分布不同基本想法 LDA模型表示文本集合的自动生成过程：首先，基于单词分布的先验分布（狄利克雷分布）生成多个单词分布，即决定多个话题内容之后，基于话题分布的先验分布（狄利克雷分布）生成多个话题分布，即决定多个文本内容然后，基于每一个话题分布生成话题序列，针对每一个话题，基于话题的单词分布生成单词，整体构成一个单词序列，

9、即生成文本重复这个过程生成所有文本基本想法文本的单词序列是观测变量，文本的话题序列是隐变量，文本的话题分布和话题的单词分布也是隐变量。基本想法 LDA模型是概率图模型，其特点是以狄利克雷分布为多项分布的先验分布学习就是给定文本集合，通过后验概率分布的估计，推断模型的所有参数利用LDA进行话题分析，就是对给定文本集合，学习到每个文本的话题分布，以及每个话题的单词分布。基本想法可以认为LDA是PLSA（概率潜在语义分析）的扩展相同点是两者都假设话题是单词的多项分布，文本是话题的多项分布不同点是LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布（或者说假设

10、先验分布是均匀分布）学习过程LDA基于贝叶斯学习，而PLSA基于极大似然估计 LDA的优点是，使用先验概率分布，可以防止学习过程中产生的过拟合（over-fitting) 模型定义 1. 模型要素潜在狄利克雷分配（LDA）使用三个集合：单词集合文本集合，其中 wm 是一个单词序列话题集合基本想法每一个话题 zk 由一个单词的条件概率分布 p(w|zk) 决定分布 p(w|zk) 服从多项分布（严格意义上类别分布），其参数为参数服从狄利克雷分布（先验分布），其超参数为。参数是一个V维向量，其中表示话题 zk 生成单词 wv 的概率所有话题的参数向量构成一个 K

11、 x V 矩阵。超参数也是一个V维向量基本想法每一个文本 wm 由一个话题的条件概率分布 p(z|wm) 决定分布 p(z|wm) 服从多项分布（严格意义上类别分布），其参数为参数服从狄利克雷分布（先验分布），其超参数为参数是一个K维向量，其中表示文本 wm 生成话题 zk 的概率所有文本的参数向量构成一个 M x K 矩阵超参数也是一个K维向量每一个文本 wm 中的每一个单词 wmn 由该文本的话题分布 p(z|wm) 以及所有话题的单词分布 p(w|zk) 决定基本想法 2. 生成过程 LDA文本集合的生成过程如下：给定单词集合W，文本集合D，话题集合Z

12、，狄利克雷分布的超参数和基本想法（1）生成话题的单词分布随机生成K个话题的单词分布按照狄利克雷分布Dir() 随机生成一个参数向量，作为话题 zk 的单词分布 p(wlzk) （2）生成文本的话题分布随机生成M个文本的话题分布按照狄利克雷分布Dir() 随机生成一个参数向量，作为文本 wm 的话题分布 p(z|wm) 基本想法（3）生成文本的单词序列随机生成M个文本的Nm个单词首先按照多项分布随机生成一个话题 zmn, zmn 然后按照多项分布随机生成一个单词 wmn， wmn 文本 wm 本身是单词序列，对应着隐式的话题序列 LDA的文本生成算法 LDA

13、的文本生成算法 LDA的文本生成过程中，假定话题个数K给定，实际通常通过实验选定狄利克雷分布的超参数和通常也是事先给定的在没有其他先验知识的情况下，可以假设向量和的所有分量均为1，这时的文本的话题分布是对称的，话题的单词分布也是对称的。概率图模型 LDA模型本质是一种概率图模型(probabilistic graphical model) 下图为 LDA作为概率图模型的板块表示（plate notation) 图中结点表示随机变量实心结点是观测变量空心结点是隐变量有向边表示概率依存关系矩形（板块）表示重复，板块内数字表示重复的次数。概率图模型图中LDA板

14、块表示，结点和是模型的超参数结点表示话题的单词分布的参数结点表示文本的话题分布的参数结点 zmn 表示话题，结点 vmn 表示单词结点指向结点，重复K次，表示根据超参数生成K个话题的单词分布的参数结点指向结点，重复M次，表示根据超参数生成M个文本的话题分布的参数结点指向结点 zmn ，重复Nm次，表示根据文本的话题分布生成 Nm 个话题 zmn 结点 zmn 指向结点wmn，同时K个结点也指向结点 wmn，表示根据话题 zmn 以及K个话题的单词分布生成单词 wmn 。概率图模型板块表示的优点是简洁，板块表示展开之后，成为普通的有向图表示

15、有向图中结点表示随机变量，有向边表示概率依存关系。可以看出LDA是相同随机变量被重复多次使用的概率图模型。随机变量序列的可交换性一个有限的随机变量序列是可交换的（exchangeable)，是指随机变量的联合概率分布对随机变量的排列不变这里代表自然数1,2,. ,N的任意一个排列。一个无限的随机变量序列是无限可交换（(infinitely exchangeable）的，是指它的任意一个有限子序列都是可交换的如果一个随机变量序列是独立同分布的，那么它们是无限可交换的。反之不然。随机变量序列的可交换性随机变量序列可交换的假设在贝叶斯学习中经常使用根据De Finet

16、ti定理，任意一个无限可交换的随机变量序列对一个随机参数是条件独立同分布的即任意一个无限可交换的随机变量序列的基于一个随机参数Y的条件概率，等于基于这个随机参数Y的各个随机变量的条件概率的乘积。随机变量序列的可交换性 LDA假设文本由无限可交换的话题序列组成由De Finetti定理知，实际是假设文本中的话题对一个随机参数是条件独立同分布的所以在参数给定的条件下，文本中的话题的顺序可以忽略作为对比，概率潜在语义模型假设文本中的话题是独立同分布的，文本中的话题的顺序也可以忽略概率公式 LDA模型整体是由观测变量和隐变量组成的联合概率分布，可以表为观测变量 w 表

17、示所有文本中的单词序列隐变量 z 表示所有文本中的话题序列隐变量表示所有文本的话题分布的参数隐变量表示所有话题的单词分布的参数和是超参数概率公式表示超参数给定条件下第k个话题的单词分布的参数的生成概率表示超参数给定条件下第m个文本的话题分布的参数的生成概率，表示第m个文本的话题分布给定条件下文本的第n个位置的话题 zmn 的生成概率表示在第m个文本的第n个位置的话题 zmn 及所有话题的单词分布的参数给定条件下第m个文本的第n个位置的单词 wmn 的生成概率概率公式第m个文本的联合概率分布可以表为其中 wm 表示该文本中的单词序列，zm 表示该

18、文本的话题序列，表示该文本的话题分布参数。 LDA模型的联合分布含有隐变量，对隐变量进行积分得到边缘分布概率公式参数和给定条件下第m个文本的生成概率是超参数和给定条件下第m个文本的生成概率是超参数和给定条件下所有文本的生成概率是 LDA的吉布斯抽样算法 LDA的吉布斯抽样算法潜在狄利克雷分配（LDA）的学习（参数估计）是一个复杂的最优化问题，很难精确求解，只能近似求解常用的近似求解方法有吉布斯抽样（Gibbs sampling）和变分推理（variational inference) 基本想法 LDA模型的学习，给定文本（单词序列）的集合，目标是要推断：

19、(1）话题序列的集合的后验概率分布 (2）参数，是文本 wm 的话题分布的参数 (3）参数，是话题 zk 的单词分布的参数也就是说，要对联合概率分布进行估计其中 w 是观测变量，而z, , 是隐变量。基本想法为了估计多元随机变量x的联合分布p(x)，吉布斯抽样法选择x的一个分量，固定其他分量，按照其条件概率分布进行随机抽样，依次循环对每一个分量执行这个操作，得到联合分布p(x)的一个随机样本，重复这个过程，在燃烧期之后，得到联合概率分布p(x)的样本集合 LDA模型的学习通常采用收缩的吉布斯抽样（collapsed Gibbs sampling）方法基本想法基

20、本想法是，通过对隐变量和积分，得到边缘概率分布（也是联合分布）其中变量w是可观测的，变量z是不可观测的对后验概率分布进行吉布斯抽样，得到分布的样本集合再利用这个样本集合对参数和进行估计，最终得到LDA模型的所有参数估计算法的主要部分根据上面的分析，问题转化为对后验概率分布的吉布斯抽样该分布表示在所有文本的单词序列给定条件下所有可能话题序列的条件概率。抽样分布的表达式首先有关系这里变量 w, 和已知，分母相同，可以不予考虑联合分布域的表达式可以进一步分解为两个因子可以分别处理抽样分布的表达式推导第一个因子的表达式。首先其中是第k个话题

21、生成单词集合第v个单词的概率，nkv 是数据中第k话题生成第v个单词的次数抽样分布的表达式于是其中抽样分布的表达式第二个因子的表达式可以类似推导。首先其中是第m个文本生成第k个话题的概率，是数据中第m个文本生成第k 个话题的次数。抽样分布的表达式于是其中，可得抽样分布的表达式于是可得收缩的吉布斯抽样分布的公式满条件分布的表达式分布的满条件分布可以写成即在所有文本单词序列、其他位置话题序列给定条件下第i个位置的话题的条件概率分布。 wi 表示所有文本的单词序列的第i个位置的单词 zi 表示单词 wi 对应的话题表示分布对变量 zi 的边缘化因子。

22、满条件分布的表达式结合收缩的吉布斯抽样分布的公式，可以推出第m个文本的第n个位置的单词 wi 是单词集合的第v个单词其话题 zi 是话题合集的第k个话题 nkv 表示第k个话题中第n个单词的计数，但减去当前单词的计数 nmk 表示第m个文本中第k个话题的计数，但减去当前单词的话题的计数。算法的后处理通过吉布斯抽样得到的分布的样本，可以得到变量z 的分配值，也可以估计变量和 1. 参数的估计根据LDA模型的定义，后验概率满足这里是第m个文本的话题的计数表示分布对变量的边缘化因子算法的后处理于是得到参数的估计式算法的后处理 2. 参数的估计后验概率满足

23、是第k个话题的单词的计数表示分布对变量的边缘化因子 I是文本集合单词序列w的单词总数算法的后处理于是得到参数的估计式算法对给定的所有文本的单词序列w，每个位置上随机指派一个话题，整体构成所有文本的话题序列z。然后循环执行以下操作。在每一个位置上计算在该位置上的话题的满条件概率分布，然后进行随机抽样，得到该位置的新的话题，分派给这个位置。算法这个条件概率分布由两个因子组成，第一个因子表示话题生成该位置的单词的概率，第二个因子表示该位置的文本生成话题的概率。整体准备两个计数矩阵：话题-单词矩阵和文本一话题矩阵在每一个位置，对两个矩阵中该位置的己有话题的计数减

24、1，计算满条件概率分布，然后进行抽样，得到该位置的新话题，之后对两个矩阵中该位置的新话题的计数加1。计算移到下一个位置在燃烧期之后得到的所有文本的话题序列就是条件概率分布样本 LDA吉布斯抽样算法 LDA吉布斯抽样算法 LDA吉布斯抽样算法 LDA的变分EM算法变分推理变分推理（variational inference)是贝叶斯学习中常用的、含有隐变量模型的学习和推理方法变分推理和马尔可夫链蒙特卡罗法（MCMC）属于不同的技巧 MCMC 通过随机抽样的方法近似地计算模型的后验概率，变分推理则通过解析的方法计算模型的后验概率的近似值变分推理变分推理的基本想法如下

25、假设模型是联合概率分布 p(x,z)，其中x是观测变量（数据）， z是隐变量，包括参数目标是学习模型的后验概率分布p(z|x)，用模型进行概率推但这是一个复杂的分布，直接估计分布的参数很困难变分推理考虑用概率分布q(z)近似条件概率分布p(zlx)，用KL散度 D(q(z) | p(zlx)）计算两者的相似度 q(z）称为变分分布（variational distribution) 如果能找到与p(zlx）在KL散度意义下最近的分布q*(z)，则可以用这个分布近似p(zlx) 变分推理下图给出了q*(z)与p(z|x)的关系变分推理 KL散度可以写成以下形式注意到KL散度大

26、于等于零，当且仅当两个分布一致时为零，由此可知右端第一项与第二项满足关系不等式右端是左端的下界，左端称为证据（(evidence)，右端称为证据下界（(evidence lower bound, ELBO)，证据下界记作变分推理 KL散度的最小化可以通过证据下界的最大化实现，因为目标是求 q(z)使KL散度最小化，这时log p(x)是常量因此，变分推理变成求解证据下界最大化的问题变分推理变分推理目标是通过证据log p(x)的最大化，估计联合概率分布 p(x,z) 因为含有隐变量z，直接对证据进行最大化困难，转而根据对证据下界进行最大化。变分推理对变分分布q(z)要求是具

27、有容易处理的形式，通常假设q(z)对z 的所有分量都是互相独立的（实际是条件独立于参数），即满足这时的变分分布称为平均场（mean filed) KL散度的最小化或证据下界最大化实际是在平均场的集合，即满足独立假设的分布集合进行的变分推理总结起来，变分推理有以下几个步骤：定义变分分布q(z) 推导其证据下界表达式用最优化方法对证据下界进行优化，如坐标上升，得到最优分布 q*(z)，作为后验分布p(z|x)的近似。变分EM算法变分推理中，可以通过迭代的方法最大化证据下界，这时算法是 EM算法的推广，称为变分EM算法假设模型是联合概率分布， x是观测变量 z是隐变量是参数

28、目标是通过观测数据的概率（证据）的最大化，估计模型的参数变分EM算法使用变分推理，导入平均场定义证据下界通过迭代，分别以q和0为变量对证据下界进行最大化，就得到变分EM算法变分EM算法变分EM算法变分EM算法的迭代过程中，以下关系成立：左边的等式基于E步计算和变分推理原理中间的不等式基于M步计算右边的不等式基于变分推理原理说明每次迭代都保证观测数据的概率不递减。因此，变分EM算法一定收敛，但可能收敛到局部最优变分EM算法 EM算法实际也是对证据下界进行最大化 EM算法的推广是求F函数的极大-极大算法，其中的F函数就是证据下界 EM算法假设q(z) = p(z

29、lx)且p(zx)容易计算，而变分EM算法则考虑一般情况使用容易计算的平均场当模型复杂时，EM算法未必可用，但变分EM算法仍然可以使用。算法推导 1. 证据下界的定义为简单起见，一次只考虑一个文本，记作w 文本的单词序列，对应的话题序列，以及话题分布，随机变量w, z和的联合分布是 w是可观测变量，和z是隐变量，和是参数算法推导定义基于平均场的变分分布其中是狄利克雷分布参数，是多项分布参数，变量和z的各个分量都是条件独立的目标是求KL散度意义下最相近的变分分布，以近似 LDA模型的后验分布。算法推导下图是变分分布的板块表示。LDA模型中隐变量和

30、z之间存在依存关系，变分分布中这些依存关系被去掉，变量和z条件独立。算法推导由此得到一个文本的证据下界其中数学期望是对分布定义的，为了方便写作和是变分分布的参数，和是LDA模型的参数所有文本的证据下界为算法推导为求解证据下界的最大化，首先写出证据下界的表达式。为此展开证据下界算法推导根据变分参数和，模型参数和继续展开，并将展开式的每一项写成一行算法推导算法推导算法推导算法推导算法推导算法推导 2. 变分参数和的估计首先通过证据下界最优化估计参数。表示第n个位置的单词是由第k个话题生成的概率。考虑式（20.47）关于的最大化，满足约束条件算法推导包含的约束最优化问题拉格朗日函数为这里是（在第n个位置）由第k个话题生成第v个单词的概率对求偏导数得算法推导令偏导数为零，得到参数的估计值接着通过证据下界最优化估计参数。是第k个话题的狄利克雷分布参数。考虑式（20.47）关于的最大化算法推导简化为对求偏导数得据此，得到由坐标上升算法估计变分参数的方法 LDA的变分参数估计算法算法推导 3. 模型参数和的估计给定一个文本合集，模型参数估计对所有文本同时进行算法推导算法推导算法推导 LDA的变分EM算法

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？