1、2022-12-211基于统计的自然语言处理基于统计的自然语言处理的数学基础的数学基础初等概率理论 2022-12-212 动机 统计计算语言处理的目的在于以自然语言为处理对象进行统计推导统计推导包括两方面内容:收集自然语言词汇(或者其他语言单位)的分布情况根据这些分布情况进行统计推导2022-12-213动机这类统计推理的例子之一就是语言的模型化(也就是说如何根据前面出现的词预测下一个词的出现)为此我们需要构造语言的模型概率理论能够帮助我们找到这样的模型2022-12-214概率理论某事件发生的可能性有多少?样本空间 是一个随机试验所有可能的结果的集合事件 A 是的子集概率函数(或者概率分布
2、)0,1:P2022-12-215先验概率与后验概率先验概率(prior probability):在没有任何附加条件下的概率值后验概率(posterior probability):在某种先决条件下的概率值P(A|B)(AP2022-12-216条件概率我们对于随机试验的结果有部分知识(或者约束条件)条件概率(或者后验概率)假设我们已知B为真那么在我们已知B为真的条件下A 为真的概率可以表示为:)|(BAP2022-12-217联合概率)()|()()|(),(APABPBPBAPBAPA与B的联合概率argmaxBP(A|B)P(B)/P(A)=argmaxBP(A|B)P(B)2022-
3、12-218链规则 P(A,B)=P(A|B)P(B)=P(B|A)P(A)P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C.)2022-12-219(条件)独立两个事件 A 与 B 相互独立如果 P(A)=P(A|B)P(A,B)=P(A)*P(B)两个事件 A 与 B 是在条件C下相互条件独立如果:P(A|C)=P(A|B,C)2022-12-2110贝叶斯定理Bayes Theorem是我们能够交换事件之间的条件依赖的顺序 由于 贝叶斯定理(Bayes Theorem):P(B)B)P(A,B)|P(AP(B)A)P(A)|P(BB)|P(A2022-12-2
4、111举例 S:脖子僵硬,M:脑膜炎P(S|M)=0.5,P(M)=1/50,000 P(S)=1/20我的脖子僵硬,得了脑膜炎的概率有多大?0002.020/1000,50/15.0)()()|()|(SPMPMSPSMP2022-12-2112随机变量对于不同的问题,样本空间的内容各不相同随机变量(Random variables)(RV)是我们能够讨论与样本空间相关的数值的概率值离散型随机变量连续型随机变量2022-12-2113数学期望(Expectation)xXAApxXpxpxx)(:)()()(数学期望是一个随机变量的均值xxxpxE)()(xxp1)(1)(0 xp2022-
5、12-2114方差(Variance)一个随机变量的方差是该随机变量取值是否比较一致或者有很大差异的一个量度 是标准差(standard deviation),简称SD2222)()()()(XEXEXEXEXVar2022-12-2115语言模型对于语言这一事件来说P未知我们需要估算P,(换句话说,构造语言的概率模型 M)为估算P,我们必须看看在大规模真实文本中词的分布状况2022-12-2116对P的估算基于频度的统计贝叶斯统计2022-12-2117基于频度的方法 相关频度(频率):事件 u 发生的次数与所有事件总次数的比率C(u)在N次实验中u 发生的次数当 相关频度逐渐稳定在某一个值
6、上:即该事件的概率估计NC(u)fuN2022-12-2118基于频度的方法两种不同的方法有参数的方法(Parametric)无参数的方法(Non-parametric)(与分布无关)2022-12-2119有参数的方法假设某种语言现象服从我们业已熟知的某种分布,如二元分布,正态分布,泊松分布等等我们已有明确的概率模型,现在需要确定该概率分布的一些参数。2022-12-2120无参数的方法对数据的分布没有预先的分布假设例如:仅仅通过最大相似度估计来估算P先验知识比较少,但需要大规模的训练数据2022-12-2121二元分布(有参数)离散型随机试验的结果只有两个输出,各次随机试验相互独立 n 次
7、随机试验,成功的次数为 r,每次试验成功的概率为 p:rnrpprnpnrb)1(),;(2022-12-2122泊松分布(有参数)离散型泊松分布:一个参数在某一固定大小的范围(或者时间段)内,某种特定类型事件的分布,例如:在一个篇幅内出现的打字错误,在一页内的某个词的分布等等!),(kekPk2022-12-2123连续型 两个参数:均值 与标准差 汉字的笔画数与该笔画对应的汉字的个数符合正态分布正态分布(高斯分布)(有参数)222)(21),;(xexn2022-12-2124基于频度的统计D:数据M:模型(distribution P):参数(如,)最大可能性估计:选择 使得)M|P(D
8、argmax*,*2022-12-2125基于频度的统计通过比较最大相关度来选择模型*M(M)M,|DPargmax M*M*)M|P(Dargmax*,2022-12-2126小结基于频度的统计有参数的方法几种常用的分布:二元分布(离散)泊松分布(离散)正态分布(高斯分布)(连续)无参数的方法贝叶斯统计2022-12-2127贝叶斯统计贝叶斯统计的实质是可信度数量化 可信度是这样计算出来的:有先验的知识根据数据应用贝叶斯定理更新知识2022-12-2128贝叶斯统计MAP!posteriori a maximum is MAPM)P(M)|P(DargmaxP(D)M)P(M)|P(Darg
9、maxD)|MPargmaxMMMM*(2022-12-2129贝叶斯统计(bypass)M 是一个概率分布;为了充分描述这一模型,我们需要分布 M 和参数 M)|)P(M,|P(DM|D,PM|DPM)P(M)|P(DargmaxMM*dd)()(likelihood marginal the is M)|P(D2022-12-2130Frequentist vs.Bayesian(bypass)BayesianFrequentistM)|)P(M,|P(DP(M)argmaxMM*d)M|P(Dargmax*,prior model the is P(M)prior parameter t
10、he is M)|P(likelihood the is)M,|P(D(M)M,|DPargmax M*M*2022-12-2131贝叶斯更新起点:先验的概率分布P(M),当新的数据到来后,根据贝叶斯公式计算P(M|D).P(M|D)成为新的概率模型如此反复2022-12-2132贝叶斯决策假设我们有两个模型 和 ;我们需要决定哪一个更好(更加符合实际的数据)较 更优 1M2M)()()221121MPM|P(DMPM|P(DD|P(MD|P(M)1)D|P(MD|P(M i.e D|P(MD|P(M if21211M2M2022-12-2133信息论概述信息论由香农与20世纪40年代提出X:
11、是一个离散型随机变量,p(X)熵的定义熵是信息量的量度(不确定性的程度,复杂程度)p(x)p(x)logH(X)Xx22022-12-2134熵(entropy)p(x)1log Ep(x)1p(x)logp(x)p(x)logH(X)2Xx2Xx21p(X)0H(X)0H(X)也就是说,如果结果是确定性的,那么信息源没有提供任何信息2022-12-2135联合熵 两个随机变量 X,Y的联合熵:确定随机变量X与Y的值所需的平均信息量XxyY)y)logp(X,p(x,Y)H(X,Y2022-12-2136条件熵给定另一个随机变量X,随机变量Y的条件熵描述了X)|logp(YE x)|y)log
12、p(yp(x,x)|x)logp(y|p(yp(x)x)X|p(x)H(YX)|H(YXxYyXxYyXx 2022-12-2137Chain Rule X)|H(YH(X)Y)H(X,),.XX|H(X.)X|H(X)H(X)X.,H(X1n1n121n1,2022-12-2138Mutual InformationI(X,Y)随机变量与的互信息,知道另一个随机变量()之后,对随机变量()的不确定性减少了多少的量度,或者一个随机变量包含另一个随机变量的信息量Y)I(X,X)|H(Y-H(Y)Y)|H(X-H(X)Y)|H(XH(Y)X)|H(YH(X)Y)H(X,2022-12-2139 M
13、utual Information(cont)I等于 0当且仅当,独立H(X|Y)=H(X)H(X)=H(X)-H(X|X)=I(X,X)熵是自信息X)|H(Y-H(Y)Y)|H(X-H(X)Y)I(X,2022-12-2140熵与计算语言学熵是不确定性的量度,我们对事物了解得越多它的熵就越小如果一个语言模型更加精确地描述了语言的结构,那么它的熵应该越低.我们能够使用熵作为衡量我们语言模型的质量的参数2022-12-2141熵与计算语言学Kullback-Leibler Divergence 相关熵(KL(Kullback-Leibler距离)q(X)p(X)logE q(x)p(x)p(x)log q)|D(ppXx2022-12-2142 熵与计算语言学衡量了两种概率分布的差别目的:是相关熵最小化已得到更为精确的模型2022-12-2143噪声信道模型