1、o一、统计决策的三个要素一、统计决策的三个要素 1 样本空间和分布族样本空间和分布族设总体设总体X的分布函数为的分布函数为 F(x;),设设X1,Xn是来自总体是来自总体X X的一个样本,则样本所有可能值组成的集合称的一个样本,则样本所有可能值组成的集合称为样本空间,记为为样本空间,记为X为样本的概率分布族则称记联合分布函数*1*1,),;(),;();(FxFFxFxFniinii 2 决策空间(判决空间)决策空间(判决空间)对于任何参数估计,每一个具体的估计值,就是一对于任何参数估计,每一个具体的估计值,就是一个回答,称为一个决策,一个统计问题中可能选取的全个回答,称为一个决策,一个统计问
2、题中可能选取的全部决策组成的集合称为决策空间,一个决策空间至少应部决策组成的集合称为决策空间,一个决策空间至少应有两个决策。有两个决策。3 损失函数损失函数 统计决策的一个基本假定是,每采取一个决策,必统计决策的一个基本假定是,每采取一个决策,必然有一定的后果,统计决策是将不同决策以数量的形式然有一定的后果,统计决策是将不同决策以数量的形式表示出来表示出来称为损失函数的二元函数和决策引入一个依赖参数,0),(,dLdo常见的损失函数有以下几种常见的损失函数有以下几种 (1)线性损失函数)线性损失函数 绝对损失函数绝对损失函数 (2)平方损失函数)平方损失函数 (3)凸损失函数)凸损失函数 (4
3、)多元二次损失函数)多元二次损失函数ddkddkdL),(),(),(10|),(ddL2)(),(ddL|)(|)(),(dWdL)()(),(dAddLTo二、统计决策函数及风险函数二、统计决策函数及风险函数 1 统计决策函数统计决策函数 定义定义3.1:定义在样本空间上:定义在样本空间上X,取值于决策空,取值于决策空间间A 内的函数内的函数d(x),称为统计决策函数,简,称为统计决策函数,简称决策函数称决策函数 决策函数就是一个行动方案,如果用表达决策函数就是一个行动方案,如果用表达式处理,式处理,d(x)=d(x1,x2,xn)本质上就是一个统本质上就是一个统计量计量 2 风险函数风险
4、函数 决策函数决策函数 d(X),完全取决于样本,损失函数,完全取决于样本,损失函数 L(d)也也是样本是样本X 的函数的函数,当样本取不同的值当样本取不同的值x时时,决策决策 d(X)可能不可能不同,所以损失函数值同,所以损失函数值 L(d)也不同,不能判断决策的好坏,也不同,不能判断决策的好坏,一般从总体上来评价、比较决策函数,取平均损失,就是一般从总体上来评价、比较决策函数,取平均损失,就是风险函数风险函数 定义定义3.2 设样本空间,分布族分别为设样本空间,分布族分别为X,F*,决策空间为,决策空间为A,损失函数为损失函数为 L(d),d(X)为决策函数为决策函数,为决策函数为决策函数
5、d(X)的风险函数,的风险函数,R(d),表示采取决策表示采取决策d(X)所所蒙受的平均损失(蒙受的平均损失(L(d)的数学期望)的数学期望))(,(),(XdLEdR 定义定义3.3 设设d1,d2 是统计问题中的两个决策函数,是统计问题中的两个决策函数,若其风险函数满足不等式若其风险函数满足不等式 则称决策函数则称决策函数d1 优于优于d2),(),(21dRdR等价则称若2121,),(),(dddRdR),(),(21dRdR等价则称若2121,),(),(dddRdR 定义定义3.4 设设D=d(X)是一切定义在样本空间是一切定义在样本空间X 上,上,取值于决策空间取值于决策空间A
6、上上的决策函数全体,的决策函数全体,若存在一个决策函数若存在一个决策函数d*(X),使对任意一个,使对任意一个d(X)都有都有 则称则称d*(X)为一致最小风险决策函数,或一致为一致最小风险决策函数,或一致最优决策函数最优决策函数DdddRdR*,),(),(,),(),1,(:1估计未知参数设总体例NX22)(),(),(,)()(),(:dEdLEdRXdddL风险函数为的任一估计则对选取损失函数为解,)()()(),(:,)(,)(2的方差即风险函数为估计量则风险函数为即是无偏估计若要求XdXdDEddEdRXdEXd111,1,1),(,)(1),(,)(XXnDXdRXXdnXDdR
7、XXd优于后者的风险比前者大时当显然则若取则若取风险不同时当显然则若取则若取则风险函数为即是无偏估计若要求风险函数为的任一估计则对选取损失函数为估计未知参数设总体例,1,),(,)(),(,)()()(),(:,)(,)()(),(),(,)()(),(:,),;(211222nDXdRXXdnXDdRXXdXdDEddEdRXdEXddEdLEdRXdddLxPXo1 风险函数是二元函数,极值往往不存在或不唯风险函数是二元函数,极值往往不存在或不唯一一o2 在某个区间内的逐点比较不现实(麻烦)在某个区间内的逐点比较不现实(麻烦)o3 对应不同参数的,同一决策函数,风险值不相对应不同参数的,同
8、一决策函数,风险值不相等等o4 由统计规律的特性决定不能点点比较由统计规律的特性决定不能点点比较o5 必须由一个整体指标来代替点点比较必须由一个整体指标来代替点点比较1)1)统计推断的基础统计推断的基础 经典学派经典学派的观点:的观点:统计推断是根据样本信息对统计推断是根据样本信息对总体分布或总体的特征数进行推断,这里用到总体分布或总体的特征数进行推断,这里用到两种信息:两种信息:总体信息总体信息和和样本信息样本信息;贝叶斯学派贝叶斯学派的观点:除了上述两种信息以外,的观点:除了上述两种信息以外,统计推断还应该使用第三种信息:统计推断还应该使用第三种信息:先验信息。先验信息。(1)总体信息总体
9、信息:总体分布提供的信息。总体分布提供的信息。(2)样本信息样本信息:抽取样本所得观测值提供的信息。抽取样本所得观测值提供的信息。(3)先验信息先验信息:人们在试验之前对要做的问题在经人们在试验之前对要做的问题在经 验上和资料上总是有所了解的,这些信息对验上和资料上总是有所了解的,这些信息对 统计推断是有益的。先验信息即是抽样(试统计推断是有益的。先验信息即是抽样(试 验)之前有关统计问题的一些信息。一般说验)之前有关统计问题的一些信息。一般说 来,先验信息来源于经验和历史资料。先验来,先验信息来源于经验和历史资料。先验 信息在日常生活和工作中是很重要的。信息在日常生活和工作中是很重要的。基于
10、上述三种信息进行统计推断的统计学称为基于上述三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学。它与经典统计学的差别就在于它与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的布,参加到统计推断中来,以提高统计推断的质量。忽视先验信息的利用,有时是一种浪费,质量。忽视先验信息的利用,有时是一种浪费,有时还会导出不合理的结论。有时还会导出不
11、合理的结论。贝叶斯学派的基本观点:贝叶斯学派的基本观点:任一未知量任一未知量 都可看都可看作随机变量,作随机变量,可用一个概率分布去描述,这个可用一个概率分布去描述,这个分布称为先验分布;分布称为先验分布;在获得样本之后,总体分在获得样本之后,总体分布、样本与先验分布通过贝叶斯公式结合起来布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量得到一个关于未知量 新的分布新的分布后验分布后验分布;任何关于任何关于 的统计推断都应该基于的统计推断都应该基于 的后验分的后验分布进行。布进行。o2)先验分布先验分布利用先验信息的前提利用先验信息的前提 (1)参数是随机的,但有一定的分布规律)参数是
12、随机的,但有一定的分布规律 (2)参数是某一常数,但无法知道)参数是某一常数,但无法知道目标:充分利用参数的先验信息对未知参数作出更目标:充分利用参数的先验信息对未知参数作出更准确的估计。准确的估计。贝叶斯方法就是把未知参数视为具有已知分布的随贝叶斯方法就是把未知参数视为具有已知分布的随机变量,将先验信息数字化并利用的一种方法,机变量,将先验信息数字化并利用的一种方法,一般先验分布记为一般先验分布记为()设总体设总体X X 的分布密度函数的分布密度函数P(x;)在贝叶斯统计中在贝叶斯统计中记为记为P(x|),它表示在随机变量,它表示在随机变量取某个给定值取某个给定值时总体的时总体的条件概率密度
13、函数;条件概率密度函数;P(x;)=P(x|)根据参数根据参数 的先验信息确定的先验信息确定先验分布先验分布();样本样本 x1,x2,xn 的的联合条件分布密度函数联合条件分布密度函数为为 这个分布综合了总体信息和样本信息这个分布综合了总体信息和样本信息;niixpxq1)|()|(0 是未知的,它是按先验分布是未知的,它是按先验分布()产生的。产生的。为把先验信息综合进去,不能只考虑为把先验信息综合进去,不能只考虑0,对,对 的其它值发生的可能性也要加以考虑,故要的其它值发生的可能性也要加以考虑,故要用用()进行综合。这样一来,样本进行综合。这样一来,样本x1,xn和和参数参数 的的联合分
14、布为联合分布为:f(x1,x2 ,xn,)=q(x1,x2 ,xn)(),简记为简记为 f(x,)=q(x)()这个联合分布把总体信息、样本信息和先验这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了;信息三种可用信息都综合进去了;在有了样本观察值在有了样本观察值 x1,x2,xn 之后,则应依之后,则应依据据 f(x,)对对 作出推断。由于作出推断。由于 f(x,)=h(x1,x2,xn)m(x1,x2,xn),其中其中m(x1,x2,xn)是是x1,x2,xn 的边际概率函的边际概率函数,它与数,它与 无关。因此能用来对无关。因此能用来对 作出推断的仅作出推断的仅是条件分布
15、是条件分布h(x1,x2,xn),它的计算公式是,它的计算公式是 dxqxqxmxfxh)()|()()|()();()|(这个条件分布称为这个条件分布称为 的的后验分布,后验分布,它集中了它集中了总体、样本和先验中有关总体、样本和先验中有关 的一切信息。的一切信息。后验分布后验分布h(x1,x2,xn)的计算公式就是的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和用密度函数表示的贝叶斯公式。它是用总体和样本对先验分布样本对先验分布()作调整的结果,贝叶斯统作调整的结果,贝叶斯统计的一切推断都基于后验分布进行。计的一切推断都基于后验分布进行。o定义:设总体定义:设总体X 的分布密度为的分
16、布密度为 p(x|为为的一个分布族,的一个分布族,()为为 的任意的任意一个先验分布,一个先验分布,()若对样本的任若对样本的任意观测值意观测值x,的后验分布的后验分布h()仍在仍在内,内,称称为关于分布密度为关于分布密度 p(x|的共轭先验分的共轭先验分布族,简称共轭族。布族,简称共轭族。o计算共轭先验分布的方法计算共轭先验分布的方法 当给定样本的分布(似然函数)当给定样本的分布(似然函数)q(x|)和和先验分布先验分布();由贝叶斯公式得由贝叶斯公式得 h(x|)=()q(x)/m(x)由于由于m(x)不依赖于不依赖于 h(x|)()q(x)上式不是正常的密度函数上式不是正常的密度函数,是
17、是h(x|)的主要的主要部分部分,称为称为h(x|)的核的核o例例8 8 X1,X2,Xn来自正态分布来自正态分布N(,2)的一个样本,的一个样本,其中其中 已知,求方差已知,求方差 2的共轭先验分布的共轭先验分布)(21exp)1()(21exp)2(1)|(),(2122/2212221niinniinTnxxxqXXX的似然函数为分布)为倒(exp)1()()(2122o例例9 9 X1,X2,Xn来自二项分布来自二项分布B(N,)的一个样的一个样本,求本,求 的共轭先验分布的共轭先验分布11121)1(),()1()1()|(),(11其核为分布所以的先验分布为贝塔的似然函数为BeCx
18、qXXXniiniiiiixnNxnixNxxNTno计算共轭先验分布的方法计算共轭先验分布的方法 1.h()q(x|)/m(x),m(x)不依赖于不依赖于 2.当参数当参数 ),();()|(121因子分解ninixxxhTgxpo定理定理3.1设设f()为任一固定的函数为任一固定的函数,满足满足 因子分解定理)(其中是共轭分布族则),()|()|(2,1;)()|()()|()()|(0)2(,0)()1(1xhtgxpndftgftgDdftgfnininnfn 若后验分布若后验分布h(x)与与()属于同一个分布族,则属于同一个分布族,则称该分布族是称该分布族是 的的共轭先验分布共轭先验
19、分布(族族)。o二项分布二项分布b(n,)中的成功概率中的成功概率 的共轭先验分布的共轭先验分布是贝塔分布是贝塔分布Be(a,b);泊松分布泊松分布P()中的均值中的均值 的共轭先验分布是伽玛的共轭先验分布是伽玛 分布分布(,);o指数分布中均值的倒数的共轭先验分布是伽玛分指数分布中均值的倒数的共轭先验分布是伽玛分布布(,);o在方差已知时,正态均值在方差已知时,正态均值 的共轭先验分布是正的共轭先验分布是正态分布态分布N(,2);o在均值已知时,正态方差在均值已知时,正态方差 2的共轭先验分布是的共轭先验分布是倒伽玛分布倒伽玛分布I(,)。o定义:定义:称为决策函数称为决策函数d(X)在给定
20、先验分布在给定先验分布()下下的贝的贝叶斯风险,简称叶斯风险,简称d(X)的贝叶斯风险的贝叶斯风险ddRdREdRdxxqxdLXdLEdRBx)(),(),()()|()(,()(,(),(的期望的关于风险函数 xBxxxBxhxdLxmdRdxdxhdLxmdxdxhxmdLdxdxqdLddRdR)|()(,()()()|(),()()|()(),()()|(),()(),()(离散型随机变量为定义:定义:设总体设总体X 的分布函数的分布函数F(x,中参数中参数为随机变量,为随机变量,()为为 的先验分布,若的先验分布,若在决策函数类在决策函数类D中存在一个决策函数中存在一个决策函数d*
21、(X),使得对决策函数类,使得对决策函数类D中的任一决中的任一决策函数策函数d(X),均有,均有 则称为则称为d*(X)参数参数 的贝叶斯估计量的贝叶斯估计量DddRdRBdB),(inf)(*定理定理3.2 设设 的先验分布为的先验分布为(),损失函数为,损失函数为 L(,则则 的贝叶斯估计是的贝叶斯估计是 其中其中h(为参数为参数 的后验密度的后验密度。dxhxXExd)|()|()(*等价与由于证明 .min)|()(min)|()()()(:22sadxhxddxdxhxdxmdRxB)(,)|()|()|()()|()(|(2 )|()()|()|()|(22定义其中dxhxEdxh
22、xdxExEdxhxdxEdxhxEdxhxdxExEdxhxd)|()()|()|()|()(22而0)|()|()()|()|()|()()|()|()()|()(|(xExExdxEdxhxExdxEdxhxdxExE又.)(,.)|()(,)|()()|()|()|()|()(*222达到最小时当显然所以dRsaxExddxhxdxEdxhxEdxhxdBo定理定理3.3 设设 的先验分布为的先验分布为(),取损失函数,取损失函数为加权平方损失函数为加权平方损失函数 则则 的贝叶斯估计为的贝叶斯估计为2)(),(ddL|)(|)()(*xExExd设设的先验分布为的先验分布为(),损失
23、函数为损失函数为则则的贝叶斯估计为的贝叶斯估计为正定QdQddLT),()(),()|()|()|()(1*xExExExdp定义:定义:设设d=d(x)为任一决策函数,损失函数为为任一决策函数,损失函数为L(,则,则L(对后验分布对后验分布h(的数学期的数学期望称为后验风险,记作望称为后验风险,记作 若存在一个决策函数若存在一个决策函数d*(x)使得使得则则d*(x)称为在后验风险准则下的最优决策函数称为在后验风险准则下的最优决策函数dxhdLdLExdR)|(),(),()|(DdxdRxdRd),|(inf)|*(定理定理3.5 对给定的统计决策问题(包括先验分布)对给定的统计决策问题(
24、包括先验分布)和决策函数类和决策函数类D当满足当满足 则贝叶斯决策函数则贝叶斯决策函数d*(x)与贝叶斯后验型决策与贝叶斯后验型决策函数函数d*(x)等价等价DddRBd,)(inf()d d*(x x)h h(|),(ddLDddRBd,)(inf|),(ddL()d*(x)h(ddkddkdL),(),(),(10 常用贝叶斯估计常用贝叶斯估计 基于后验分布基于后验分布h(x)的贝叶斯估计,常用如下三的贝叶斯估计,常用如下三种:种:o用后验分布的密度函数最大值作为用后验分布的密度函数最大值作为 的点估计,称的点估计,称为最大后验估计;为最大后验估计;用后验分布的中位数作为用后验分布的中位数
25、作为 的点估计,称为后验中的点估计,称为后验中位数估计;位数估计;用后验分布的均值作为用后验分布的均值作为 的点估计,称为后验期望的点估计,称为后验期望估计。用得最多的是后验期望估计,简称为贝叶斯估计。用得最多的是后验期望估计,简称为贝叶斯估计,记为估计,记为 。Bo1.根据总体根据总体X 的分布,求得条件概率的分布,求得条件概率q(x|)o2.在已知在已知 的先验分布的先验分布()下,求得下,求得x与与 的的联合分布密度联合分布密度 f(x,()q(x|)o3.求得求得X 的边缘分布的边缘分布m(x)o4.计算计算h()q(x|)/m(x)o5.求数学期望求数学期望o6.求得贝叶斯风险(如果
26、需要的话)求得贝叶斯风险(如果需要的话)dxh)|(dxdxqxdLdRxB)()|()(,()(dxh)|(dxdxqxdLdRxB)()|()(,()(o例例3.11 设总体设总体XB(1,p),其中参数,其中参数p未知,且未知,且服从服从0,1上的均匀分布,损失函数取二次损失上的均匀分布,损失函数取二次损失函数函数L(,求参数,求参数p的贝叶斯估计及的贝叶斯估计及贝叶斯风险贝叶斯风险)|()|()(),(1,0,1)(pxqpxqppxfpp所以又1,0,)1(),(),1(:1xpppxppBXxx即因为解niiniiiixnxnixxTnpppppxqXXX11)1()1()|(),
27、(1121的联合分布密度为)|()|()(),(1,0,1)(pxqpxqppxfpp所以又1,0,)1(),(),1(:1xpppxppBXxx即因为解niiniiiixnxnixxTnpppppxqXXX11)1()1()|(),(1121的联合分布密度为的后验分布为p!)1(,),()!1/()!()!()1(),()1,1()1()(),()()()(11101111102111nnqpnxnxdxxxqpxnxdpppxmXXXqpqpniiniiqpniiniixnxTnniinii的边缘密度为)!()!()1()!1()(),()|(1111niiniixnxxnxppnxmpx
28、fxphniinii21)!2()!()!1()!()!()!1()1()!()!()!1()|(11111110111011nxnxnxxnxndpppxnxndpxpphppniiniiniiniiniixnxniiniiniinii得贝叶斯估计是所以)2(61)2(1)()(|),()(10102)2(12211022ndppnxEdppEdpppEdpppdpLEpRinnxBi该估计的贝叶斯风险为.61,:大似然估计所以贝叶斯估计优于最风险为它的贝叶斯的最大似然估计附带说明nXp 若在试验前对事件若在试验前对事件A没有什么了解,对其发生没有什么了解,对其发生的概率的概率 也没有任何信
29、息。贝叶斯本人建议采用也没有任何信息。贝叶斯本人建议采用“同等无知同等无知”的原则使用区间的原则使用区间(0,1)上的均匀分上的均匀分布布U(0,1)作为作为 的先验分布,因为取的先验分布,因为取(0,1)上的每上的每一点的机会均等。贝叶斯的这个建议被后人称为一点的机会均等。贝叶斯的这个建议被后人称为贝叶斯假设。贝叶斯假设。某些场合,贝叶斯估计要比极大似然估计更合理某些场合,贝叶斯估计要比极大似然估计更合理一点。比如一点。比如:“抽检抽检3个全是合格品个全是合格品”与与“抽检抽检10个全是合格品个全是合格品”,后者的质量比前者更信得过。,后者的质量比前者更信得过。这种差别在不合格品率的极大似然
30、估计中反映不这种差别在不合格品率的极大似然估计中反映不出来(出来(两两者都为者都为0),而用贝叶斯估计),而用贝叶斯估计两两者分别是者分别是 0.2 和和 0.83。由此可以看到,在这些极端情况下,贝叶斯估计由此可以看到,在这些极端情况下,贝叶斯估计比极大似然估计更符合人们的理念。比极大似然估计更符合人们的理念。例设总体例设总体XN(,1),其中,其中 未知,假定未知,假定 N(0,1),对于给定的损失函数对于给定的损失函数L(,求,求 的的贝叶贝叶斯估计量斯估计量)2)1(21exp)2(1),(),(122121niinTnXnnxxfXXX的联合分布密度为与)(21exp)2(1)|()
31、,(:1221niinTnxxqXXX的条件分布密度为解)2)1(21exp)2(1),(),(122121niinTnXnnxxfXXX的联合分布密度为与)(21exp)2(1)|(),(:1221niinTnxxqXXX的条件分布密度为解11121exp)2(12)1(21exp)21exp()2(1),()(),(1222212121nxnnxdxnnxdxfxmXXXniinniinTn的边缘密度为)1(21exp21)(),()|(2nxnnnxmpxfxh的后验分布密度为11121exp)2(12)1(21exp)21exp()2(1),()(),(1222212121nxnnxd
32、xnnxdxfxmXXXniinniinTn的边缘密度为)1(21exp21)(),()|(2nxnnnxmpxfxh的后验分布密度为niixnnxndnxnnndxh12111)1(21exp21)|(得贝叶斯估计是所以1)(,1 )(),(),0(),1,(11)(2212222nkkRxnkkddLkNNXnRBniiB则若贝叶斯风险为niixnnxndnxnnndxh12111)1(21exp21)|(得贝叶斯估计是所以1)(,1 )(),(),0(),1,(11)(2212222nkkRxnkkddLkNNXnRBniiB则若贝叶斯风险为例例3.153.15X1,X2,Xn来自正态分
33、布来自正态分布N(,02)的一的一个样本,其中个样本,其中 02已知,已知,未知,假设未知,假设 的先的先验分布为正态分布验分布为正态分布N(,2),其中先验均值,其中先验均值 和先验方差和先验方差 2均已知,试求均已知,试求 的贝叶斯估计。的贝叶斯估计。解:解:样本样本x x的联合分布和的联合分布和 的先验分布分别为的先验分布分别为)(21exp)2()()(21exp)2()|(222122020212niixxqn由此可以写出由此可以写出x与与 的联合分布的联合分布其中其中 ,若记若记则有则有2)2(21exp),(222122201niixxnnkxfnnk012/)1(1)2(221
34、220220220,1niixCxnBnA)/(21/2)/(exp221exp),(22121ABCAABkCBAkxf 注意到注意到A,B,C均与均与 无关,样本的边际密度函数无关,样本的边际密度函数 应用贝叶斯公式即可得到后验分布应用贝叶斯公式即可得到后验分布 这说明在样本给定后,这说明在样本给定后,的后验分布为的后验分布为 N(B/A,1/A),即,即|x N(B/A,1/A)AABCkdxfxm2)/(21exp),()(21)/(/21exp2)(),()|(2ABAAxmxfxh 后验均值即为其贝叶斯估计:后验均值即为其贝叶斯估计:它是样本均值它是样本均值 与先验均值与先验均值
35、的加权平均。的加权平均。202202022nxnnx220220212-202-2012111,),(|nAnxnABNx其中记作,)|(Var)()|(MSE,)|(,)()|(MSE )(,)|(:2/2/2差其平方根称为后验标准称为后验方差时的后验期望为当小贝叶斯估计的误差就越的后验均方差越小误差其平方根称为后验标准的后验均方差称为的后验期望则贝叶斯估计为的后验分布为设定义xExxEExxhExEEx,)()|(MSE )(,)|(:2/2小贝叶斯估计的误差就越的后验均方差越小误差其平方根称为后验标准的后验均方差称为的后验期望则贝叶斯估计为的后验分布为设定义xExxh,)|(Var)()
36、|(MSE,)|(2/差其平方根称为后验标准称为后验方差时的后验期望为当xExxEExEE)|(Var)()|(Var)()()()()|(MSE,22/2/2/xxEEExEExEExx有如下关系后验均方差与后验方差.,)|(,是合理的期望作为的贝叶斯估计所以取后验小可使后验均方差达到最时为后验期望当表明xEE为单侧置信区间或当1 )|(1 )|(21xPxP.1,1)|(.,1),(,)|(:21212121贝叶斯置信区间的的置信度为为参数则称使得若存在两个统计量和置信度样本对给定的的后验分布为设参数定义xPXXXXxhTn为单侧置信区间或当1 )|(1 )|(21xPxP.1,1)|(.
37、,1),(,)|(:21212121贝叶斯置信区间的的置信度为为参数则称使得若存在两个统计量和置信度样本对给定的的后验分布为设参数定义xPXXXXxhTno两种区间估计的区别两种区间估计的区别 1)构造一个统计量,并求得其概率分布)构造一个统计量,并求得其概率分布 2)利用参数的后验分布)利用参数的后验分布o区间估计求解步骤区间估计求解步骤 前面同贝叶斯点估计;前面同贝叶斯点估计;求得后验分布后按置信度,分开单侧、双求得后验分布后按置信度,分开单侧、双侧查表,得出置信上下界。侧查表,得出置信上下界。注意:贝叶斯区间估计的置信区间较短;注意:贝叶斯区间估计的置信区间较短;贝叶斯点估计不再要求无偏
38、性。贝叶斯点估计不再要求无偏性。o例例3.153.15x1,x2,xn来自正态分布来自正态分布N(,02)的一的一个样本,其中个样本,其中 02已知,已知,未知,假设未知,假设 的先验的先验分布为正态分布分布为正态分布N(,2),其中先验均值,其中先验均值 和和先验方差先验方差 2均已知,试求均已知,试求 的贝叶斯区间估计。的贝叶斯区间估计。解:由贝叶斯点估计知解:由贝叶斯点估计知220220212022021211,),(|nnxnNx其中,1 1)(222211111111zzzzP贝叶斯置信区间为的故可得1)|(|1),1,0(,|21111211zPNNx给定置信度标准化得因为o例例3
39、.16 对某一儿童做智力测验对某一儿童做智力测验x=115,设结果为,设结果为XN(,100),为智商,为智商,根据经验根据经验 N(100,225),求该儿童智商的求该儿童智商的0.95贝叶斯置信区间贝叶斯置信区间o解:由上题结论知,解:由上题结论知,的后验分布服从正态分布的后验分布服从正态分布 220220212022021211,),(|nnxnNx其中225,100,100,1220n且221132.823.69225100225100139400225100100100225xx.6994.07,126 0.95 95.0)69.12607.94(,96.1,05.095.01)32
40、.838.110()32.8,38.110(|:1152222贝叶斯置信区间为的代入得将pzzzpNxx6.134,4.951096.1115,1096.1115,0.95 115),100,(2/2/zxzxxxNX的置信区间为的则而一般的区间估计o定义:设定义:设D是决策函数的集合,若有是决策函数的集合,若有d*(x)=d*(x1,x2,xn),d*D,使得对任意一个决策函使得对任意一个决策函数数d(x1,x2,xn),总有,总有 则称则称d*为最大最小决策函数,当上界能取到时可为最大最小决策函数,当上界能取到时可记为记为DddRdR),(max),(max*DddRdR),(sup),(
41、sup*DddR),(max),(maxmindRdo例设总体例设总体 X 服从两点分布,试求服从两点分布,试求 p 的极大的极大极小估计量,其中极小估计量,其中21,41,1,0,)1()(1pxppxpxx且L(p,d)d=0.25d=0.5P1=0.2514P2=0.532o解:决策空间为解:决策空间为A=0.25,0.5,选取容量为,选取容量为1的子的子样,样,x只能取只能取0,1 a只能取只能取0.25,0.5,则决策函数,则决策函数d(x)有四个:有四个:dx ad1(x)d2(x)d3(x)d4(x)00.250.50.250.510.250.50.50.25o风险函数风险函数R
42、(p,d)R(p1,di)R(p2,di)maxR(pi,dj)d1133d2434d37/45/25/2d413/45/213/4min(maxR(pi,dj)=5/2则极大极小估计为则极大极小估计为R(p,d)计算举例计算举例1,0,21413xxdp25212)211(32)1(3)1(),()0(),(),(47414)411(14)1(1)1(),()0(),(),(22222212321112111131ppxpapLxpapLdpRppxpapLxpapLdpRppppo例:地质学家把地层状态分为例:地质学家把地层状态分为0,1两种,两种,并把当地无石油记为并把当地无石油记为 0
43、,有石油记为有石油记为 1,分布规律如下表分布规律如下表o x01 0(无油)(无油)0.60.4 1(有油)(有油)0.30.7决策空间为决策空间为A=a1,a2,a3,其中,其中a1为钻探石油,为钻探石油,a2为出卖土地,为出卖土地,a3为开发旅游。为开发旅游。损失函数损失函数L(,a)取下表取下表 aa1a2a3 0(无油)(无油)1216 1(有油)(有油)0105 决策函数决策函数d(x)取下表取下表(取取n=1)(9个决策函数)个决策函数)x1d1d2d3d4d5d6d7d8d90a1a1a1a2a2a2a3a3a31a1a2a3a1a2a3a1a2a3风险函数风险函数R(i,dj
44、)及最大值表及最大值表di(x1)d1d2d3d4d5d6d7d8d9R(0,di)127.69.65.4138.446R(1,di)073.53106.51.58.55maxR(,di)127.69.65.4106.58.48.56 可知:可知:min(maxR(,di)=5.4,其对应的决策函数为其对应的决策函数为d4,所以,所以d4是这个统计决是这个统计决策问题的最大最小决策函数。策问题的最大最小决策函数。d4 为为:d4(0)=a2,d4(1)=a1 即当地质学家的结论是无油时出卖土地,有油即当地质学家的结论是无油时出卖土地,有油时钻探石油。时钻探石油。R(,d)计算举例计算举例5.1
45、3.057.00)0(),()1(),(),(4.86.064.012)0(),()1(),(),(33.0107.00)0(),()1(),(),(4.56.014.012)0(),()1(),(),(11001100311171301070211141201040 xpaLxpaLdRxpaLxpaLdRxpaLxpaLdRxpaLxpaLdRo定理定理3.8 给定一个统计决策问题,如果存在给定一个统计决策问题,如果存在某个先验分布下的贝叶斯决策函数的风险函某个先验分布下的贝叶斯决策函数的风险函数是一个常数,那么该决策函数必定是这个数是一个常数,那么该决策函数必定是这个统计问题的一个最大最
46、小决策函数。统计问题的一个最大最小决策函数。o若给定的统计决策问题是参数的点估计,在若给定的统计决策问题是参数的点估计,在定理条件下,相应的决策函数必为参数的最定理条件下,相应的决策函数必为参数的最大最小估计量大最小估计量例例3.18 设总体设总体XB(1,p),p未知,服从分布未知,服从分布损失函数为损失函数为 L(,参数,参数p的贝叶斯估计的贝叶斯估计 为为p的最大最小估计的最大最小估计 ),(22nnBe10,)1()()()()(112222pppnpnnnn又1,0,)1(),(),1(:1xpppxppBXxx即因为解niiniiiixnxnixxTnpppppxqXXX11)1(
47、)1()|(),(1121的联合分布密度为1,0,)1(),(),1(:1xpppxppBXxx即因为解niiniiiixnxnixxTnpppppxqXXX11)1()1()|(),(1121的联合分布密度为)1(212nXnp10,)1()()()()(112222pppnpnnnn又的后验分布为p111021211111)1()()1()()1()(),()|(nniinniiniiniiniiniixnxxnxxnxppkdpppppppxmpxfxph)1(212)|(),(|102121nXndpxpphpxnxBexpnniinnii即无关的常数是与的风险函数为pnpnpnnpp
48、nnpnXnEnXnDpnXnEppRp ,)1(41)1(212()1()1(44)1(212()1(212()1(212(),(22222.的最大最小估计为所以ppo定理定理3.9 给定一个贝叶斯决策问题,设给定一个贝叶斯决策问题,设 k():k 1为参数空间为参数空间上的先验分布列,上的先验分布列,dk:k1和和RB(dk):k1分别为相应的贝叶斯分别为相应的贝叶斯估计列和贝叶斯风险列,若估计列和贝叶斯风险列,若d0是是 的一个估计,的一个估计,且风险函数满足,且风险函数满足,则则d0为为 的最大最小估计的最大最小估计)(lim),(max0kBkdRdRo定理定理3.10 给定一个贝叶
49、斯决策问题,若给定一个贝叶斯决策问题,若d0是是的一个估计,其风险函数的一个估计,其风险函数R(d0)在参数空在参数空间间上为常数上为常数,且,且 k():k 1为先验分布为先验分布列,使得相应的贝叶斯估计列列,使得相应的贝叶斯估计列dk:k1的贝的贝叶斯风险满足叶斯风险满足 则则d0为为 的最大最小估计的最大最小估计)(limkBkdRo例例3.19 3.19 x1,x2,xn来自正态分布来自正态分布N(,1)的一的一个样本,设个样本,设 的先验分布的先验分布N(0,2),其中,其中 2已知,已知,在在0-10-1损失函数下损失函数下 的贝叶斯为估计的贝叶斯为估计 证明样本均值是证明样本均值
50、是 的最大最小估计的最大最小估计0,|,00,|,1),(dddL12)11()(nXXd)1,1(|,10,),(|222222022021202202120211nnxnNxnnxnNx所以其中|1|)|(),()|(dPdPdxhdLxdRo 的贝叶斯为估计为的贝叶斯为估计为1)(221nXnXd22222)1(1)(,1)(nnndDnndE)()(1)()(1)()(1)()(11|),(222222222222)1()1(11111111nnnnnnnnnnnnFFdPdPdR)(22),(lim)1()1(2)1(1)1(1)1()1(1),(222222222222ndRnnn
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。