1、6.4 贝叶斯估计贝叶斯估计 6.4.1 统计推断的基础统计推断的基础 经典学派经典学派的观点:的观点:统计推断是根据样本信息统计推断是根据样本信息对总体分布或总体的特征数进行推断,这里对总体分布或总体的特征数进行推断,这里用到两种信息:用到两种信息:总体信息总体信息和和样本信息样本信息;贝叶斯学派贝叶斯学派的观点:除了上述两种信息以外,的观点:除了上述两种信息以外,统计推断还应该使用第三种信息:统计推断还应该使用第三种信息:先验信息先验信息。(1)总体信息总体信息:总体分布提供的信息。总体分布提供的信息。(2)样本信息样本信息:抽取样本所得观测值提供的信息。抽取样本所得观测值提供的信息。(3
2、)先验信息先验信息:人们在试验之前对要做的问题在经人们在试验之前对要做的问题在经 验上和资料上总是有所了解的,这些信息对验上和资料上总是有所了解的,这些信息对 统计推断是有益的。先验信息即是抽样(试统计推断是有益的。先验信息即是抽样(试 验)之前有关统计问题的一些信息。一般说验)之前有关统计问题的一些信息。一般说 来,先验信息来源于经验和历史资料。先验来,先验信息来源于经验和历史资料。先验 信息在日常生活和工作中是很重要的。信息在日常生活和工作中是很重要的。基于上述三种信息进行统计推断的统计学称为基于上述三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学。它与经典统计学的差别就在于它与
3、经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的布,参加到统计推断中来,以提高统计推断的质量。忽视先验信息的利用,有时是一种浪费,质量。忽视先验信息的利用,有时是一种浪费,有时还会导出不合理的结论。有时还会导出不合理的结论。贝叶斯学派的基本观点:贝叶斯学派的基本观点:任一未知量任一未知量 都可看都可看作随机变量,作随机变量,可用一个概率分布去描
4、述,这个可用一个概率分布去描述,这个分布称为先验分布;在获得样本之后,总体分分布称为先验分布;在获得样本之后,总体分布、样本与先验分布通过贝叶斯公式结合起来布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量得到一个关于未知量 新的分布新的分布后验分布后验分布;任何关于任何关于 的统计推断都应该基于的统计推断都应该基于 的后验分的后验分布进行。布进行。6.4.2 贝叶斯公式的密度函数形式贝叶斯公式的密度函数形式 总体依赖于参数总体依赖于参数 的概率函数在贝叶斯统计中的概率函数在贝叶斯统计中记为记为P(x|),它表示在随机变量,它表示在随机变量取某个给定取某个给定值时总体的值时总体的条件概
5、率函数;条件概率函数;根据参数根据参数 的先验信息可确定的先验信息可确定先验分布先验分布();从贝叶斯观点看,样本从贝叶斯观点看,样本 x1,x2,xn 的产生分的产生分两步进行两步进行:首先从先验分布首先从先验分布()产生一个样本产生一个样本0,然后从然后从P(x|0)中中产生一组样本。这时样本的产生一组样本。这时样本的联联合条件概率函数合条件概率函数为为 ,这个,这个分布综合了总体信息和样本信息;分布综合了总体信息和样本信息;1001(,|)(|)nniip xxp x0 是未知的,它是按先验分布是未知的,它是按先验分布()产生的。产生的。为把先验信息综合进去,不能只考虑为把先验信息综合进
6、去,不能只考虑0,对,对 的其它值发生的可能性也要加以考虑,故要的其它值发生的可能性也要加以考虑,故要用用()进行综合。这样一来,样本进行综合。这样一来,样本x1,xn和和参数参数 的的联合分布为联合分布为:h(x1,x2 ,xn,)=p(x1,x2 ,xn )(),这个联合分布把总体信息、样本信息和先验这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了;信息三种可用信息都综合进去了;在没有样本信息时,人们只能依据先验分布对在没有样本信息时,人们只能依据先验分布对 作出推断。在有了样本观察值作出推断。在有了样本观察值 x1,x2,xn 之后,之后,则应依据则应依据 h(x1,x
7、2,xn,)对对 作出推断。由于作出推断。由于 h(x1,x2,xn,)=(x1,x2,xn)m(x1,x2,xn),其中其中 是是x1,x2,xn 的边际概率函数,它与的边际概率函数,它与 无关,不无关,不含含 的任何信息。因此能用来对的任何信息。因此能用来对 作出推断的仅作出推断的仅是条件分布是条件分布(x1,x2,xn),它的计算公式是,它的计算公式是 111(,)(,)(,|)()nnnm xxh xxdp xxd 11111(,)(,|)()(|,)(,)(,|)()nnnnnh xxp xxxxm xxp xxd 这个条件分布称为这个条件分布称为 的的后验分布,后验分布,它集中了总
8、体、它集中了总体、样本和先验中有关样本和先验中有关 的一切信息。的一切信息。后验分布后验分布(x1,x2,xn)的计算公式就是用密的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和样本度函数表示的贝叶斯公式。它是用总体和样本对先验分布对先验分布()作调整的结果,贝叶斯统计的作调整的结果,贝叶斯统计的一切推断都基于后验分布进行。一切推断都基于后验分布进行。6.4.3 贝叶斯估计贝叶斯估计 基于后验分布基于后验分布(x1,x2,xn)对对 所作的贝叶所作的贝叶斯估计有多种,常用有如下三种:斯估计有多种,常用有如下三种:使用后验分布的密度函数最大值作为使用后验分布的密度函数最大值作为 的点估计,
9、的点估计,称为最大后验估计;称为最大后验估计;使用后验分布的中位数作为使用后验分布的中位数作为 的点估计,称为后的点估计,称为后验中位数估计;验中位数估计;使用后验分布的均值作为使用后验分布的均值作为 的点估计,称为后验的点估计,称为后验期望估计。期望估计。用得最多的是后验期望估计,它一般也简称为用得最多的是后验期望估计,它一般也简称为贝叶斯估计,记为贝叶斯估计,记为 。B例例6.4.2 设某事件设某事件A A在一次试验中发生的概率为在一次试验中发生的概率为,为估计为估计,对试验进行了,对试验进行了n次独立观测,其中事件次独立观测,其中事件A发生了发生了X次,显然次,显然 X b(n,),即,
10、即 假若我们在试验前对事件假若我们在试验前对事件A没有什么了解,从而对没有什么了解,从而对其发生的概率其发生的概率 也没有任何信息。在这种场合,贝也没有任何信息。在这种场合,贝叶斯本人建议采用叶斯本人建议采用“同等无知同等无知”的原则使用区间的原则使用区间(0,1)上的均匀分布上的均匀分布U(0,1)作为作为 的先验分布,因的先验分布,因为它取为它取(0,1)上的每一点的机会均等。贝叶斯的上的每一点的机会均等。贝叶斯的这个建议被后人称为贝叶斯假设。这个建议被后人称为贝叶斯假设。(|)(1),0,1,xn xnP Xxxnx 由此即可利用贝叶斯公式求出由此即可利用贝叶斯公式求出 的后验分布。具体
11、如下:的后验分布。具体如下:先写出先写出X和和 的联合分布的联合分布 然后求然后求X的边际分布的边际分布 最后求出最后求出 的后验分布的后验分布 最后的结果说明最后的结果说明 X Be(x+1,n-x+1),其后验期望估计为,其后验期望估计为 (6.4.4)(,)(1),0,1,01xn xnh xxnx(1)(1)(1)(2)xnxnxnxdxn(1)1(1)1(,)(2)(|)(1),01()(1)(1)xn xh xnxm xxn x 1(|)2BxExn某些场合,贝叶斯估计要比极大似然估计更合理某些场合,贝叶斯估计要比极大似然估计更合理一点。比如一点。比如:“抽检抽检3个全是合格品个全
12、是合格品”与与“抽检抽检10个全是合格品个全是合格品”,后者的质量比前者更信得过。,后者的质量比前者更信得过。这种差别在不合格品率的极大似然估计中反映不这种差别在不合格品率的极大似然估计中反映不出来(出来(两两者都为者都为0),而用贝叶斯估计),而用贝叶斯估计两两者分别是者分别是 0.2 和和 0.83。由此可以看到,在这些极端情况下,贝叶斯估计由此可以看到,在这些极端情况下,贝叶斯估计比极大似然估计更符合人们的理念。比极大似然估计更符合人们的理念。例例6.4.3 设设x1,x2,xn是来自正态分布是来自正态分布N(,02)的的一个样本,其中一个样本,其中 02已知,已知,未知,假设未知,假设
13、 的先的先验分布亦为正态分布验分布亦为正态分布N(,2),其中先验均值,其中先验均值 和先验方差和先验方差 2均已知,试求均已知,试求 的贝叶斯估计。的贝叶斯估计。解:解:样本样本x x的分布和的分布和 的先验分布分别为的先验分布分别为2/22021021/2221(|)(2)exp()21()(2)exp()2nniip xx 由此可以写出由此可以写出x与与 的联合分布的联合分布其中其中 ,。若记。若记则有则有222211220212(,)exp2niinn xxhkx 11niixxn(1)/2110(2)nnk 2212222220001,niixnnxABC212211(,)exp22
14、(/)1exp(/)2/2hkABCB AkCBAAx 注意到注意到A,B,C均与均与 无关,由此容易算得样本的边无关,由此容易算得样本的边际密度函数际密度函数 应用贝叶斯公式即可得到后验分布应用贝叶斯公式即可得到后验分布 这说明在样本给定后,这说明在样本给定后,的后验分布为的后验分布为 N(B/A,1/A),即,即 21/211()(,)exp(/)(2/)2m xh xdkCBAA1/22(,)1(|)(2/)exp(/)()2/h xxAB Am xA 2202222001|,nxxNnn 后验均值即为其贝叶斯估计:后验均值即为其贝叶斯估计:它是样本均值它是样本均值 与先验均值与先验均值
15、 的加权平均。的加权平均。220222200/1/1/1/nxnnx6.4.4 共轭先验分布共轭先验分布 若后验分布若后验分布(x)与与()属于同一个分布族,则属于同一个分布族,则称该分布族是称该分布族是 的的共轭先验分布共轭先验分布(族族)。二项分布二项分布b(n,)中的成功概率中的成功概率 的共轭先验分布的共轭先验分布是贝塔分布是贝塔分布Be(a,b);泊松分布泊松分布P()中的均值中的均值 的共轭先验分布是伽玛的共轭先验分布是伽玛分布分布Ga(,);在方差已知时,正态均值在方差已知时,正态均值 的共轭先验分布是正的共轭先验分布是正态分布态分布N(,2);在均值已知时,正态方差在均值已知时,正态方差 2的共轭先验分布是的共轭先验分布是倒伽玛分布倒伽玛分布IGa(,)。