1、 统计学家瓦尔德统计学家瓦尔德(A.Wald)(A.Wald)把关于假设检验把关于假设检验和参数估计的经典统计理论加以概括,将不确和参数估计的经典统计理论加以概括,将不确定意义下的决策科学也包括在统计学范围之内,定意义下的决策科学也包括在统计学范围之内,于于19391939年创立了统计决策理论,该理论弥补了年创立了统计决策理论,该理论弥补了过去统计理论的缺陷。过去统计理论的缺陷。统计决策的显著特点是:统计决策的显著特点是:统计决策建立在统计分析和统计预测的基础统计决策建立在统计分析和统计预测的基础 上,是一种上,是一种定量决策定量决策。统计决策是在不确定情况下,应用概率来进统计决策是在不确定情
2、况下,应用概率来进行决策的计算和分析,是一种行决策的计算和分析,是一种概率决策概率决策。6.1 6.1 统计决策统计决策决策问题的决策问题的三个基本要素三个基本要素状态集状态集行动集行动集行动空间行动空间损失函数损失函数依统计决策论的观点,对决策有用的信息依统计决策论的观点,对决策有用的信息先验信息先验信息样本信息样本信息决策问题的分类决策问题的分类无数据无数据(无样本信息)(无样本信息)决策问题决策问题统计决策问题统计决策问题贝叶斯贝叶斯决策问题决策问题一、基本概念一、基本概念1 1、损失函数、损失函数),(aLa描述当未知量处于状态描述当未知量处于状态 而采取行动而采取行动 时所引时所引起
3、的损失,记为起的损失,记为线性损失函数线性损失函数aaKaaKaL),(),(),(10的的相相对对重重要要性性。于于状状态态和和高高低低于于状状态态的的选选取取反反映映行行动动和和常常数数aKK10aaKaaKaL),(),(),(10)()(加权线性损失函数:加权线性损失函数:aaL),(绝对损失函数:绝对损失函数:2),()(平方损失函数:平方损失函数:aaL2)(),()(加权平方损失函数:加权平方损失函数:aaL)C(),(aaL凸损失函数:凸损失函数:.0)0(0)(0)(CxC凸函数且凸函数且上的单调非降上的单调非降是定义在是定义在且有限,且有限,0,1,0),(10其其中中损损
4、失失函函数数:aaaL一、基本概念一、基本概念2 2、决策函数、决策函数)(xd由样本空间由样本空间 到行动空间到行动空间 的可测映射的可测映射 称称为决策函数。为决策函数。3 3、风险函数、风险函数)/()(,()(,(),(|xdFXdLXdLEdRXx )(d称为决策函数称为决策函数 的风险函数。的风险函数。)(,(XdL设设 是一个决策函数,则损失函数是一个决策函数,则损失函数 关于样本分布关于样本分布 的数学期望的数学期望)(d)/(xF平均损失愈小,决策函数愈好。平均损失愈小,决策函数愈好。风险函数风险函数 描述在未知量处于状态描述在未知量处于状态 而采取决策而采取决策 时所蒙受的
5、平均损失。时所蒙受的平均损失。),(dRd二、常用的决策准则二、常用的决策准则1、一致最优决策准则、一致最优决策准则*(,)(,),RdRd 则称则称 为决策函数类为决策函数类 的一致最小风险决的一致最小风险决策函数,或称为一致最优决策函数。策函数,或称为一致最优决策函数。*()d D 定义定义 设设 表示定义在样本空间表示定义在样本空间 上取值于行上取值于行 动空间动空间 的某一决策函数类,若存在一个决的某一决策函数类,若存在一个决 策函数策函数 ,使得对任意,使得对任意 ,都有,都有()dHA*()d()dDDD2、最小最大(、最小最大(Minimax)决策准则)决策准则则称则称 为该统计
6、决策问题的最小最大决策函数,为该统计决策问题的最小最大决策函数,相应的风险称为最小最大风险。相应的风险称为最小最大风险。*d定义定义 对于一个统计决策问题,设对于一个统计决策问题,设 表示定义表示定义 在样本空间在样本空间 上取值于行动空间上取值于行动空间 的某一决策的某一决策 函数类。若有决策函数函数类。若有决策函数 ,使得,使得()dHA*()dDD*sup(,)infsup(,)dRdRdD3、贝叶斯决策准则、贝叶斯决策准则 先验信息与先验分布先验信息与先验分布 无论是在统计决策问题还是在统计推断问题中无论是在统计决策问题还是在统计推断问题中总会包含未知量总会包含未知量 。为了对。为了对
7、 作统计决策或者作作统计决策或者作统计推断,样本信息是必不可少的,因为它包含统计推断,样本信息是必不可少的,因为它包含 的最新信息。除此之外,一些非样本信息也可用于的最新信息。除此之外,一些非样本信息也可用于统计决策和统计推断。这些非样本信息主要来源于统计决策和统计推断。这些非样本信息主要来源于经验或历史资料。由于此类经验或历史资料大多存经验或历史资料。由于此类经验或历史资料大多存在于(获取样本的)试验之前,故称这些非样本信在于(获取样本的)试验之前,故称这些非样本信息为先验信息。息为先验信息。统计学中有两个主要学派:经典(频率)学派统计学中有两个主要学派:经典(频率)学派与贝叶斯学派。经典学
8、派认为与贝叶斯学派。经典学派认为 是未知参数;贝叶是未知参数;贝叶斯学派认为斯学派认为 是随机变量,应该用一个概率分布去是随机变量,应该用一个概率分布去描述描述 的未知状况。这个概率分布在抽样之前就已的未知状况。这个概率分布在抽样之前就已存在,它是关于存在,它是关于 的先验信息的概率陈述。这个概的先验信息的概率陈述。这个概率分布就称为先验分布,用率分布就称为先验分布,用 来表示。来表示。()贝叶斯公式与后验分布贝叶斯公式与后验分布()()()()()p xxp xd称称 为为 的后验分布。的后验分布。()x先验风险准则与后验风险准则先验风险准则与后验风险准则定义定义1:在给定的统计决策问题中,
9、设在给定的统计决策问题中,设 为决策为决策函数函数 的风险函数,的风险函数,为为 的先验分布,则平均风的先验分布,则平均风险险(,)Rd()d()()(,)(,)()B dE RdRdd称为决策称为决策 的贝叶斯风险。若在决策函数类的贝叶斯风险。若在决策函数类 中存中存在在 ,使得,使得()d*()dD*()inf()dB dB dD则称则称 为决策函数类为决策函数类 在贝叶斯(先验)风险准则在贝叶斯(先验)风险准则下的最优决策函数,简称贝叶斯决策函数或贝叶斯下的最优决策函数,简称贝叶斯决策函数或贝叶斯解。解。*dD定义定义2:在给定的统计决策问题中,设在给定的统计决策问题中,设 为决为决策函
10、数策函数 的损失函数,的损失函数,为为 的后验分布,则条的后验分布,则条件期望风险件期望风险()d X(,()Ld X()x()(,()(,()()xR d xELd xLd xx d称为决策函数称为决策函数 的贝叶斯后验风险。若在决策函数的贝叶斯后验风险。若在决策函数类类 中存在中存在 ,使得,使得D()d*()d则称则称 为决策函数类为决策函数类 在贝叶斯后验风险准则下的在贝叶斯后验风险准则下的最优决策函数,或称其为贝叶斯后验型决策函数。最优决策函数,或称其为贝叶斯后验型决策函数。D*d*()inf(),dRd xRd xxDH 例6.1 一位收藏家拟收购一幅名画,这幅画标价为5000元。
11、若这幅画是真品,则值10000元;若是赝品,则一文不值。此外,买下一幅假画或者没有买下一幅真画都会损害这位收藏家的名誉,其收益情况如下表 采取的行动画的状态 买 不 买 真 品+5000-3000 赝 品-60000现在,这位收藏家需要决定是买还是不买这幅画?(1)如果收藏家有以下三种决策可供选择:以概率0.5买下这幅画;:请一位鉴赏家进行鉴定(已知该鉴赏家以概率0.95 识别一幅真画,以概率0.7识别一幅假画),如果鉴赏家鉴定为真品就买下这幅画;:肯定不买那么,什么是这位收藏家的最小最大决策?1d2d3d(2)如果根据卖画者以往的资料得知,发生的概率为0.75,发生的概率为0.25,那么这位
12、收藏家是否应买下这幅画呢?12(3)在(2)的条件下,这位收藏家为稳妥起见,聘请一位鉴赏家做鉴定。已知鉴赏家以概率0.95识别一幅真画,以概率0.7识别一幅假画。如果鉴赏家说这幅画是真品,那么这位收藏家是否应买下这幅画呢?这是一个决策问题,状态集 ,为真品,为赝品,行动集 表示“买”,表示“不买”,损失函数 用矩阵可表示为12,12121,a aa 2a(,)La 统计决策中所说的损失可以理解为统计决策中所说的损失可以理解为“该赚到而没有赚到的该赚到而没有赚到的钱钱”,“不该亏而亏损的钱不该亏而亏损的钱”或者或者“不该支付而支付的钱不该支付而支付的钱”。(,)Qa(,)max(,)(,)a A
13、LaQaQa采用收益函数时,损失函数(,)(,)min(,)a ALaWaWa(,)Wa时,损失函数采用支付函数21210600080000Laa解:(1)对 ,1d40005.080005.00,11dR30005.005.06000,12dR对 ,2d40005.0800095.00,21dR18007.003.06000,22dR对 ,3d80001800000,31dR01006000,32dR40003000,4000max,max1d18001800,400max,max2d80000,8000max,max3d18008000,1800,4000min),(supinfdRd21
14、210600080000Laa 计算结果表明,收藏家的最小最大决策为 ,即如果鉴赏家鉴定为真品就买下这幅画,这一决策的最小最大风险为1800元。2d 根据先验分布 ,可分别算出行动 ,的平均损失,亦即,行动 ,的平均风险,因为这是无数据决策问题,所以1a2a1a2aaLaR,150025.0600075.00,1aLE600025.0075.08000,2aLE对比上述结果可知,采取行动 为上策,即,收藏家应该买下这幅画。1a(2)由题意知,的先验分布 为:1275.025.0(3)引入随机变量 由题意知:若鉴赏家识别为假画若鉴赏家识别为真画,0,1X95.011XP05.001XP3.012
15、XP7.002XP()12()0.75,()0.25 的先验分布 为 ,由贝叶斯公式可得 的后验分布9048.0|1)(|1)()1|(21111jjjXPXP0952.0|1)(|1)()1|(21222jjjXPXP8235.0|0)(|0)()0|(21222jjjXPXP1765.0|0)(|0)()0|(21111jjjXPXP12,11,0()axaxdx12,12,0()axaxdx31(),d xaxH 42(),d xaxH 这样样本空间 ,行动空间 ,所以决策函数只有以下4个1,0H 12,A a a这样本值 时,这些决策函数的贝叶斯后验风险分别是:1x1111=0.904
16、80+60000.952=571.2R dLd()E(,(1)2211=8000 0.9048+0 0.952=7238.4R dLd()E(,(1)3311=00.9048+60000.952=571.2R dLd()E(,(1)4411=80000.9048+00.952=7238.4R dLd()E(,(1)在 时,这些决策函数的贝叶斯后风险分别是:1100=80000.1756+00.8235=1412R dLd()E(,(0)2200=00.1756+60000.8235=4941R dLd()E(,(0)3300=00.1756+60000.8235=4941R dLd()E(,(
17、0)4400=8000 0.1756+0 0.8235=1412R dLd()E(,(0)0 x 可见在贝叶斯风险准则下,是最优决策函数,换言之,当鉴定家说这幅画是真品时,这位收藏家应买下这幅画。下面计算(3)中那些决策函数的贝叶斯风险,先算 的边缘分布:1()d X7875.0|1)()1(21jjjXPm2125.0|0)()2(21jjjXPm2()6750.202B d3()1499.782B d4()6000.29B d从而,87.7492125.014127875.02.571)|()(11XdREdBX 由此可见,在贝叶斯风险准则下的最优决策函数仍是 ,在两种不同风险准则下得出相
18、同的最优决策函数,其理论依据是定理6.1.1.1()d 定理定理6.1.1 对给定的统计决策问题(含给定的先对给定的统计决策问题(含给定的先验分布)和决策函数类验分布)和决策函数类 ,若贝叶斯风险满足条,若贝叶斯风险满足条件件D则贝叶斯决策函数则贝叶斯决策函数 与贝叶斯后验型决策函数与贝叶斯后验型决策函数 等价。等价。*()d*()dinf()dB dD6.2 6.2 贝叶斯推断贝叶斯推断在经典统计学中,总体 的分布函数用 表示,X);(xF其中 表示未知参数,表示参数空间。改写为 );(xF)|(xF经典统计学并不产生任经典统计学并不产生任何实质上的影响,仅仅何实质上的影响,仅仅是记号的变更
19、。是记号的变更。BayesBayes统计中意义就不同统计中意义就不同了,其表示条件分布。了,其表示条件分布。定义定义6.16.1 若函数若函数 和和 相比仅差一相比仅差一个常数因子,则称个常数因子,则称 为为 的核,记为的核,记为)(xh)(xg)(xh)(xg)()(xgxh例如例如xxN,2)(exp),(222的核是正态分布bxabaU,1),(的核是均匀分布0,),(1xexx分布的核是)()()()而言,有(的后验分布按照上述观点,对xpxx|)表示样本分布。(xp|贝叶斯学派认为,的后验分布 集先验信息和样本信息于一身,包含了 的所有可供利用的信息,所以有关 的点估计,区间估计和假
20、设检验等统计推断都要基于后验分布来进行。)(x|样本分布 其中 为总体 的条件概率密度。niixfxp1)|()|()(|xfX一、贝叶斯估计一、贝叶斯估计1、点估计、点估计贝叶斯估计量就是贝叶斯决策函数(贝叶斯解)贝叶斯估计量就是贝叶斯决策函数(贝叶斯解)则称则称 为为 的贝叶斯估计量的贝叶斯估计量 *()dX*()inf()dB dB dD 定义定义 设总体设总体 的分布函数为的分布函数为 ,其中参数,其中参数 为具有先验分布为具有先验分布 的随机变量,又设的随机变量,又设 为来自总体的样本。若在决为来自总体的样本。若在决策函数类策函数类 中有一个中有一个 ,使得,使得 X()F xD()
21、1(,)TnXXX*()d定理定理 若损失函数为若损失函数为 ,且,且 ,则则 的贝叶斯估计为的贝叶斯估计为 2(,)()Ldd2()Ed X()()()()xd xExx dE其中其中 为为 的后验概率密度。的后验概率密度。()x注:由定理可知,当使用平方损失函数注:由定理可知,当使用平方损失函数 时,时,的贝叶斯估计为的贝叶斯估计为 (或(或 ),即),即 的后验分布的期望,故称这种估计为后验期望的后验分布的期望,故称这种估计为后验期望 估计。估计。2(,)()Ldd()Ex()xE例例1 设总体设总体 的分布为的分布为 ,其中未知量,其中未知量 为随机变量,且为随机变量,且 ,为来自为来
22、自 总体总体 的样本值,求的样本值,求 的贝叶斯估计。的贝叶斯估计。X(,1)XN(0,1)N12(,)Tnxx xxX解:解:因为因为 的后验概率密度的核是的后验概率密度的核是 1(,)11nxxNnn所以,所以,的贝叶斯估计为的贝叶斯估计为 ()1nxExn可见,在样本可见,在样本 的条件下,的条件下,的条件分布为的条件分布为 Xx()()()xp x2122122121()()niinnxnxeee 条件(条件(1 1)、()、(2 2)表明,)表明,D D集中了后验概率密度取值集中了后验概率密度取值尽可能大的点,因此尽可能大的点,因此 的最大后验密度可信区间就是在的最大后验密度可信区间
23、就是在同一可信概率下长度最短的区间。同一可信概率下长度最短的区间。2、区间估计、区间估计定义定义 设参数设参数 的后验分布为的后验分布为 ,对给定的样本,对给定的样本 和概率和概率 ,若存在区域,若存在区域D满足下列条件:满足下列条件:()xx1(01)()()1 DPD xx d(1)(2)任给任给 ,总有,总有12,DD12()(),xx则称则称D是是 的可信水平为的可信水平为 的最大后验密度的最大后验密度可信域。当可信域。当 是一维的且是一维的且D是一个区间时,称是一个区间时,称D为为 的的 最大后验密度可信区间。最大后验密度可信区间。11例例2 设设 为来自正态分布为来自正态分布 的样
24、本,的样本,其中其中 已知。又设已知。又设 的先验分布为正态分布的先验分布为正态分布 ,其中其中 为已知,求为已知,求 的的 可信区间。可信区间。2(,)N12(,)TnXX XX2200(,)N1200,解:因为解:因为 的后验概率密度的后验概率密度()()()xp x22012220122()1()()2niixabee其中其中21022222200011()(),()nnxnab 可见可见 是正态分布是正态分布 ,因此对给定的,因此对给定的 ,查得标准正态分布查得标准正态分布 的上侧分位数的上侧分位数 ,使,使 2(,)N a b1()x(0,1)N22 1 aPxb 于是,于是,的的
25、最大后验可信区间是最大后验可信区间是 。122(,)abab0011(),0,1(:;:)iipx iHH 利用后验分布利用后验分布 ,分别计算假设,分别计算假设 与与 的后验概的后验概率。率。1H0H()x 3、贝叶斯假设检验、贝叶斯假设检验 当后验概率比当后验概率比 时接受时接受 ;当;当 时拒时拒绝绝 ;当;当 时,则不宜匆忙做判断,需进一步时,则不宜匆忙做判断,需进一步抽样或搜集更多的先验信息。抽样或搜集更多的先验信息。0H0H011011011例例3 设从正态总体设从正态总体 中随机地抽取了一个容量为中随机地抽取了一个容量为10的样本的样本 ,算得样本均值,算得样本均值 ,又设,又设
26、 的先验分布为的先验分布为正态分布正态分布 ,现在检验如下假设,现在检验如下假设 (,1)N(0.5,2)N1.5xx01:1;:1HH解解 由例由例2可知,可知,的后验分布仍为正态分布,且的后验分布仍为正态分布,且 2(,)xN a b其中其中 022220021222010 1.5 0.5 0.51()()1.452410 0.511()0.308610 0.5nxnanb011 1.4524(1)()0.07130.3086(1)1 0.07130.9287 pxpx因而假设因而假设 与与 的后验概率分别为的后验概率分别为 0H1H两后验概率之比两后验概率之比 故拒绝故拒绝 ,即认为正态
27、均值大于,即认为正态均值大于1。0H010.07130.07680.9287贝叶斯检验的特点:贝叶斯检验的特点:(1)简单易行,无需选择检验统计量,确定抽)简单易行,无需选择检验统计量,确定抽样分布;样分布;(2)无需事先给定显著水平,确定检验问题的)无需事先给定显著水平,确定检验问题的拒绝域;拒绝域;(3)容易推广到多重假设检验场合。)容易推广到多重假设检验场合。二、先验分布的选取二、先验分布的选取 从前面的介绍可以看到,贝叶斯推断是基于后从前面的介绍可以看到,贝叶斯推断是基于后验分布的推断,而根据贝叶斯公式,后验分布又验分布的推断,而根据贝叶斯公式,后验分布又有赖于先验分布的选取,选择不同
28、的分布作为有赖于先验分布的选取,选择不同的分布作为 的的先验分布将会影响先验分布将会影响 的后验分布,从而将影响到贝的后验分布,从而将影响到贝叶斯推断的结果,所以先验分布的选取对于贝叶叶斯推断的结果,所以先验分布的选取对于贝叶斯推断是至关重要的。斯推断是至关重要的。1、贝叶斯假设、贝叶斯假设 贝叶斯学派认为,如果没有以往的任何信息贝叶斯学派认为,如果没有以往的任何信息来确定未知量来确定未知量 的先验分布,那么就用均匀分布的先验分布,那么就用均匀分布作为它的先验分布,这种确定先验分布的原则称作为它的先验分布,这种确定先验分布的原则称为贝叶斯假设。按此原则选取的先验分布也称为为贝叶斯假设。按此原则
29、选取的先验分布也称为无信息先验分布。无信息先验分布。2、共轭先验分布、共轭先验分布 后验分布在贝叶斯推断中起着重要作用,但后验分布在贝叶斯推断中起着重要作用,但有时计算后验分布是一件比较复杂的事情。为了有时计算后验分布是一件比较复杂的事情。为了能够简便地计算未知量能够简便地计算未知量 的后验分布,引入共轭的后验分布,引入共轭先验分布的概念。先验分布的概念。定义定义 设总体设总体 的分布函数为的分布函数为 ,样本,样本 对对 的条件分布为的条件分布为 ,即样本分布,即样本分布 ,的的先验分布为先验分布为 ,若由,若由 和和 决定的后验分布决定的后验分布 与与 是同一个类型,则称先验分布是同一个类型,则称先验分布 为为 的共轭先验分布。的共轭先验分布。X()F x1,nXX1(,)np xx()p x()()()p x()x()()()p x寻找共轭先验分布的步骤:寻找共轭先验分布的步骤:(1)先写出样本分布)先写出样本分布 似然,似然,()()p xL(2)选取与)选取与 具有相同核的分布作为先验分布,具有相同核的分布作为先验分布,这个分布往往就是共轭先验分布。这个分布往往就是共轭先验分布。()LThanks!