1、 数理统计数理统计是在概率论的基础上研究怎样以有效的方是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获得的有限的式收集、整理和分析可获得的有限的, ,带有随机性的带有随机性的数据资料数据资料, ,对所考察问题的统计规律性尽可能作出精对所考察问题的统计规律性尽可能作出精确而可靠的推断或预测,为采取一定的决策和行动确而可靠的推断或预测,为采取一定的决策和行动提供依据和建议提供依据和建议. .数理统计与概率论是两个有密切联系的学科数理统计与概率论是两个有密切联系的学科, ,它们它们都以随机现象的统计规律为研究对象。都以随机现象的统计规律为研究对象。但在研究问题的方法上有很大区别:但在研究问
2、题的方法上有很大区别:概率论概率论 已知随机变量服从的分布规律已知随机变量服从的分布规律, , 寻求寻求 分布的性质、数字特征、及其应用分布的性质、数字特征、及其应用; ; 数理统计数理统计 通过对试验数据的统计分析通过对试验数据的统计分析, ,寻找寻找 随机变量所服从的分布和数字特征随机变量所服从的分布和数字特征, , 从而推断整体的规律性从而推断整体的规律性. . 数理统计的核心问题数理统计的核心问题由样本推断总体由样本推断总体 统计推断统计推断数理统计的一般步骤:数理统计的一般步骤:数据资料的收集数据资料的收集数据的整理、分析数据的整理、分析第5.1节 总体与子样一、总体与个体一、总体与
3、个体二、随机样本的定义二、随机样本的定义一、总体与个体 一一个统计问题总有它明确的研究对象个统计问题总有它明确的研究对象.研究对象的全体称为研究对象的全体称为总体总体(母体母体),总体中每个成员称为总体中每个成员称为个体个体.研究某批灯泡的质量研究某批灯泡的质量考察国产考察国产 轿车的质量轿车的质量总体总体总体总体 然而在统计研究中,人们往往关心每个然而在统计研究中,人们往往关心每个个体的一项个体的一项(或几项或几项)数量指标和该数量指标数量指标和该数量指标在总体中的分布情况在总体中的分布情况. 这时,每个个体具有这时,每个个体具有的数量指标的全体就是的数量指标的全体就是总体总体.该批灯泡寿命
4、的该批灯泡寿命的全体就是总体全体就是总体灯泡的寿命灯泡的寿命国产轿车每公里国产轿车每公里的耗油量的耗油量所有国产轿车每公里耗所有国产轿车每公里耗油量的全体就是总体油量的全体就是总体 相应的数量指标值的出现带有随机性。从而相应的数量指标值的出现带有随机性。从而可把此种数量指标看作可把此种数量指标看作随机变量随机变量,我们用一个,我们用一个随机变量或其分布来描述总体。为此常用随机随机变量或其分布来描述总体。为此常用随机变量的符号来表示总体,并把随机变量的分布变量的符号来表示总体,并把随机变量的分布称为总体分布。称为总体分布。 通常,我们用随机变量通常,我们用随机变量 , 等表示等表示总体。当我们说
5、到总体。当我们说到总体总体,就是指一个具有确定,就是指一个具有确定概率分布的概率分布的随机变量随机变量。,注:总体的分布一般来说是未知的,统计学的主要任务正是注:总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布进行推断要对总体的未知分布进行推断. .如如:研究某批灯泡的寿命时,我们关心的数研究某批灯泡的寿命时,我们关心的数量指标就是量指标就是寿命寿命,那么,此总体就可以用随,那么,此总体就可以用随机变量机变量X表示,其分布函数表示,其分布函数F(x).总体总体某批某批灯泡的寿命灯泡的寿命寿命寿命 可用一概可用一概率分布来刻划率分布来刻划F(x)总体的三层含义:例5.1.1 考
6、察某厂的产品质量,以0记合格品,以1记不合格品,则 总体 = 该厂生产的全部合格品与不合格品 = 由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:X 0 1P 1 p p比如:两个生产同类产品的工厂的产品的总体 分布:X01p0.9830.017X01p0.9150.085样本具有两重性 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, , Xn 表示; 另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, , xn 表示是恰
7、当的。简单起见,无论是样本还是其观测值,样本一般均用 x1, x2, xn 表示,应能从上下文中加以区别。表5.1.2 100只元件的寿命数据表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。 寿命范围 元件数 寿命范围 元件数 寿命范围 元件数 ( 0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120
8、144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13 独立性: 样本中每一样品的取值不影响其 它样品的取值 - x1, x2, , xn 相互独立。要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求: 随机性: 总体中每一个个体都有同等机会 被选入样本 - xi 与总体X有相同的分布。获得简单随机样本的抽样方法称为简单随机抽样.12 ( )有有放放回回取取样样获获取取方方法法( )不不放放回回取取样样(总体规模很大)(总体规模很大)定理定理(补充
9、补充)12121121121( ,).(1)( ),( ,)( ).(2)( ),( ,)( ).(3)()(1,2,),( ,)( ).nnniinniiiinniiF xF xp xp xPxp xip x 设为来自总体 的样本若总体 的分布函数为则样本的分布函数为若总体 的分布密度为则样本的分布密度为若总体 的分布率为则样本的分布率为3.样本样本的分布的分布1212(0), (,),(,).nn 设总体服从参数为的指数分布是来自总体的样本 求样本的概率密度解解总体 的概率密度为0, 00,)(xxexpx12,n 因为相互独立 且与 有相同的分布12 (,)n 所以的概率密度为)(),(
10、121niinnxpxxxp 其其它它, 00,1ixnxenii 例例11212(1,),01,(,),(,).nnBpp 设总体服从两点分布其中是来自总体的样本 求样本的分布律解解总体 的分布律为12 ,n 因为相互独立1(1)iiPipp)1, 0( i,且与 有相同的分布12 (,)n 所以的分布律为例例21122,nnPxxx1122 nnPx PxPx niiniixnxpp11)1(.1 , 0,21中中取取值值在在集集合合其其中中nxxx5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1, x2, , xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进
11、行排列,为 x(1), x(2), , x(n),则称 x(1), x(2), , x(n) 为有序样本,用有序样本定义如下函数 (1)( )(1)( )0, ( )/ ,1,2,.,11,kknnxxFxk nxx xknxx . , )( )(21的个数于过中不超表示其中xxxxxxSn)( ),(1)(xxSnxFn例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 351x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 354, x(5)= 355这是一个容量为5的样本,经排序可得有序样
12、本:其经验分布函数为x1,x2,xn , 2 , 1 , 1 具具有有一一个个样样本本值值设设总总体体 F )( 3的的观观察察值值为为则则经经验验分分布布函函数数xF . 2, 1, 21,32, 1, 0)(3xxxxF练习练习(4) 统计样本数据落入每个区间的个数频数, 并列出其频数频率分布表。表5.2.1 例5.2.2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%) 1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95
13、5 (187,197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值 分开 茎 和 叶 112 11 | 2 11 和 26467707274767679808182828385868891919293939395959
14、5979799100 100102 104 106 106 107 108 108112112114116118119119122 123 125 126 128 133我们用这批数据给出一个茎叶图,见下页。图5.2.3 测试成绩的茎叶图 4 7 0 2 4 6 6 9 0 1 2 2 3 5 6 8 1 1 2 3 3 3 5 6 6 7 7 9 0 0 2 4 6 6 7 8 8 2 2 4 6 8 9 9 2 3 5 6 8 3 在要比较两组样本时,可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7
15、 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。5.3.1 统计量与抽样分布5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义5.3.1 设 x1, x2, , xn 为取自某总体的样 本,若样本函数T = T(x1, x2, ,
16、 xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。按照这一定义:若 x1, x2, , xn 为样本,则 以及经验分布函数都是统计量。而当, 2 未知时,x1, x1/ 等均不是统计量。尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。niiniixx121,5.3.2 样本均值及其抽样分布 定义5.3.2 设 x1, x2, , xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即思考:在分组样本场合,样本均值如何计算? 二者结果相同吗? xx= (x1+xn)/n例5.3.1定理5.3.2 数据观测
17、值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,样本均值的基本性质:定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 最小,其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布:定理5.3.3 设x1, x2, , xn 是来自某个总体的样本,x为样本均值。(1) 若总体分布为N(, 2),则xx的精确分布为N(, 2/n) ; 若总体分布未知或不是正态分布, 但 E(x)=, Var(x)=2,则n 较大时 的渐近分 布为N(, 2/n) ,常记为 。xAN(, 2/n)这里渐近分布是指n 较大时的近似分布.5.3.3 样
18、本方差与样本标准差2211()1niisxxn称为样本标差。sn= sn2定义5.3.3称为样本方差,其算术平方根在n 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。2211()nniisxxn221nnssn其中在这个定义中, ( xi x )2n1称为偏差平方和的自由度。其含义是:x在 确定后, n 个偏差x1x, x2x, , xnx能自由取值,因为只有n1个数据可以自由变动,而第n个则不 (xi x ) = 0 .称为偏差平方和,中样本偏差平方和有三个不同的表达式:( xix )2 = xi2 (xi)2/n = xi2 nx它们都可用来计算样本方差。思考:分组样本如何计算
19、样本方差? 例5.3.4样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩,即 E(x)= , Var(x)=2 x1, x2, , xn 为从该总体得到的样本,x和s2 分别是样本均值和样本方差,则E( x )=, Var( x )=2 /n, E(s2) =2 E(sn2) =(n-1/n)2 5.3.4 样本矩及其函数样本矩及其函数 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。 称为样本k阶中心矩矩。 特别
20、,样本二阶中心矩就是样本方差。 bk = (xi x)k/nx样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义: 1 = b3/b23/2 称为样本偏度, 2 = b4/b22 -3 称为样本峰度。x5.3.5 次序统计量及其分布 另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1, x2, , xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1, x2, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2
21、,xn为 该样本的最大次序统计量。例5.3.6 设总体X 的分布为仅取0,1,2的离散 均匀分布,分布列为xp我们知道,在一个样本中,x1, x2,xn 是独立同分布的,而次序统计量 x(1), x(2), x(n) 则既不独立,分布也不相同,看下例。Xp 0 1 2 (1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。(2)x1327727p727 0 1 2进一步,我们可以给出两个次序统计量的联合分布,如,x(1) 和x(2) 的联合分布列为01207/279/273/27104/273/272001/27x(1)x(
22、2)因为 P(x(1) = 0, x(2) = 0) =7/27 ,二者不等,由此可看出x(1) 和 x(2)是不独立的。而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x), x1, x2, xn为样本,则第k个 次序统计量x(k)的密度函数为)()(1 ()()!()!1(!)(1xpxFxFknknxpknkk例5.3.7 设总体密度函数为 p(x)=3x2, 0 x1. 从该总体抽得一个容量为5的样本, 试计算 P(x(2)1/2)。例5.3.8 设总体分布为
23、U(0,1), x1, x2, xn为样 本,试求第 k 个次序统计量的分布。三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布,以两个为例说明:定理5.3.6 在定理5.3.5的记号下,次序统计 量 (x(i), x(j), (i j) 的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1 )()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如 样本极差 Rn = x(n) x(1), 样本中程 x(n) x(1)/2。样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。令 R = x(n
24、) x(1) ,由 R 0, 可以推出0 x(1) = x(n)R 1 R ,则例5.3.9 设总体分布为U(0,1), x1, x2, xn 为 样本,则(x(n), x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1这正是参数为(n1, 2)的贝塔分布。1220( )(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义: 120.5122,12nnnxnmxxn 为奇数,为偶数(1)()(1),1(2nppnpnpxnpmxxnp若不是整数
25、), 若是整数定理5.3.7 设总体密度函数为p(x),xp为其p分 位数, p(x)在xp处连续且 p(xp) 0,则特别,对样本中位数,当n时近似地有当n 时样本 p 分位数 mp 的渐近分布为2(1),pppppmNxn p x0.50.520.51,4mNxn p x例5.3.10 设总体为柯西分布,密度函数为p(x,)= 1/(1+(x)2) , x0.5x1, x2, xn m0.5 m0.5 AN(, 2/4n) .次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) ,中位数 m0.5
26、 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75.所谓五数概括就是指用这五个数:xmin , Q1 , m0.5 , Q3 , xmax来大致描述一批数据的轮廓。5.4 三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“ 三大抽样分布 ” 。5.4.1 2 分布(卡方分布)定义5.4.1 设 X1, X2, Xn, 独立同分布于标准 正态分布N(0,1) ,则X12+ Xn2的分布称 为自由度
27、为n 的分布,记为 。2( )n分布的概率密度 其其它它00)2(21)(2122xexnxpxnn10( )(0)axaxedxa 其其中中是是函函数数.)(2图图分布的概率密度曲线如分布的概率密度曲线如n (1)(1)=1(2).2x 2 22 2的的密密度度函函数数在在0 0 处处取取无无穷穷大大,以以y y轴轴为为 垂垂直直渐渐进进线线; ;是是的的指指数数分分布布(2)( )(3)22.nnxnxxn 2 2的的密密度度函函数数为为单单峰峰曲曲线线,从从原原点点开开始始 递递增增,在在处处取取得得最最大大值值,然然后后递递减减,渐渐近近于于轴轴,关关于于不不对对称称n随随着着自自由由
28、度度 的的增增大大,密密度度曲曲线线的的峰峰值值向向右右移移动动,图图形形变变得得比比较较平平缓缓并并趋趋于于对对称称,可可用用正正态态分分布布来来近近似似。分分布布的的性性质质2 性质性质1).(,),(),(2122221222122221221nnnn 则则立立独独并并且且设设)(2分分布布的的可可加加性性 (此性质可以推广到多个随机变量的情形此性质可以推广到多个随机变量的情形)性质性质2.2)(,)(),(2222nDnEn 则则若若)(2分布的数学期望和方差分布的数学期望和方差 12612221122345621,(0,1),()().NC CYCC 例设为来自正态总体的一组样本 求
29、使得服从分布1212(0,2),(0,1)2NN解则34563456(0,4),(0,1)4NN则同理同理122且34564X与与相互独立相互独立212()2所以223456() (2)4.,412121CC则则当随机变量 时,对给定 (01),称满足 P( 的 是自由度为n1的卡方分布的1 分位数.分位数 可以从附表3 中查到。5.4.2 F 分布定义5.4.2 设X1 , X2 X1与X2独立, 则称 F =(X1/m)/(X2/n) 的分布是自由度为 m 与 n 的 F分布,记为F F(m, n),其中m 称为分子自 由度,n 称为分母自由度。分布的概率密度为),(nmF其它, 00,1
30、222)(2122ynmynmynmnmynmnm该密度函数的图象也是一只取非负值的偏态分布 分布有以下性质分布有以下性质F).,(1),(mnFFnmFF则若(1)4(,)4()2()2(2)(),2(,2)(22nnnmnmnFDnnnFE(2)当随机变量F F(m,n) 时,对给定 (01) ,称满足 P(F F1(m,n) 的F1(m,n) 是自由度为m 与 n 的F 分布的 分位数。由 F 分布的构造知 F(n,m) = 1/F1(m,n)。例5.4.25.4.3 t 分布 定义 5.4.3 设随机变量X1 与X2 独立, 且X1 N(0,1), X2 则称t=X1/ X2/n的分布
31、为自由度为n 的t 分布,记为t t(n) 。 tntnnnthn,1221)(212 分布的概率密度函数为分布的概率密度函数为)(nt t 分布的密度函数的图象是一个关于纵轴对称的分布,与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。 n1时, t 分布的数学期望存在且为0; n2时,t 分布的方差存在,且为n/(n2); 当自由度较大 (如n30) 时, t 分布可以用 正态分布 N(0,1)近似。 自由度为1的 t 分布就是标准柯西分布, 它的均值不存在;2222( ,),( ),.NnTn 例设且相互独立 试求的概率分布2222( ,),(
32、0,1)( ),NNnX Y 解因为所以又且独立 则与独立由定理得2()/ ( )( /)/Tt nnn 当随机变量t t(n) 时,称满足P(t t1(n)的 t1(n) 是自由度为 n 的 t 分布的 分位数.分位数 t1(n) 可以从附表4中查到。譬如 n=10,=0.05,那么从附表4上查得t10.05(10) = t0.95(10)=1.812 .由于 t 分布的密度函数关于0 对称, 故其分位数间有如下关系t(n1)= t1(n1)定理5.4.1 设 x1, x2, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为和x = xi/n s2= (xix)2/(n1)(3
33、) (n1) s2/2 1则有(1) x 与 s2 相互独立;(2) x N(, 2/n) ;22211() ( )niiXn (4 4)推论5.4.1 设 x1, x2, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为和x = xi/n s2= (xix)2/(n1)则有(2) (1)/xtt nsn(1)(0,1)/xuNn推论5.4.2 设 x1, x2, xn 是来自N(1, 12) 的 样本,y1, y2, yn 是来自N(2, 22) 的样本, 且此两样本相互独立,则有特别,若12 =22 ,则F=sx2/sy2 F(m1,n1)221222/(1,1)/xysFF
34、 mns推论5.4.3 在推论5.4.1的记号下,设 12 =22 = 2 , 并记则2)()(2) 1() 1(1122222nmyyxxnmsnsmsminiiiyxw)2(11)()(21nmtnmsyxw5.5.1 充分性的概念例5.5.1 为研究某个运动员的打靶命中率,我们 对该运动员进行测试,观测其10次,发现除第 三、六次未命中外,其余8次都命中。这样的 观测结果包含了两种信息:(1) 打靶10次命中8次;(2) 2次不命中分别出现在第3次和第6次 打靶上。第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行n 次观测,得到 x1, x2, xn,每个x
35、j 取值非0即1,命中为1,不命中为0。令 T = x1+xn ,T为观测到的命中次数。在这种场合仅仅记录使用T 不会丢失任何与命中率 有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”。样本 x=(x1,x2,xn) 有一个样本分布F (x),这个分布包含了样本中一切有关 的信息。统计量T =T (x1,x2,xn) 也有一个抽样分布FT(t) ,当我们期望用统计量T 代替原始样本并且不损失任何有关 的信息时,也就是期望抽样分布 FT(t) 像 F (x) 一样概括了有关 的一切信息,这即是说在统计量 T 的取值为 t 的情况下样本 x 的条件分布 F (x|T=t) 已不含 的信
36、息,这正是统计量具有充分性的含义。定义5.5.1 设 x1, x2, , xn 是来自某个总体 的样本,总体分布函数为F( x ; ),统计 量 T = T(x1, x2, , xn) 称为 的充分统计 量,如果在给定T 的取值后,x1, x2, xn 的条件分布与 无关.112 (1),0,1( , )0,.1.xxnxf x设母体 服从参数为 的0-1分布,即其他为未知参数证明统计量是 的充分统计量例1111111111: ,| , ,nnniinnniinnnniiiiPxxxyPxxxyPxxPxyPxy证明11(1)(1)(1)1.(1)nniiiixnxyyn ynyn yyyn
37、yynnCCC.由于这个条件概率不依赖于参数 ,所以 是 的充分统计量11121111,( , ),.( ,),( , ).( ; ) (; )(; )( ,) ( ,) ; ,( ,)T=y ( ,) ,nnnnnnnxf xnTT xxg yf xf xf xh xxg T xxT xxh xx 设x是取自具有概率函数的母体X的一个容量为 的子样设是一个统计量有概率函数若成立且每当T取一固定值时发生条件下的条件概率函数不依赖于定义 就称T为 的一个充分.统计量5.5.2 因子分解定理充分性原则: 在统计学中有一个 基本原则- 在充分统计量存在的场合,任何统计推断都 可以基于充分统计量进行,
38、这可以简化统计 推断的程序。定理5.5.1 设总体概率函数为 f(x ; ), X1, , Xn 为样本,则 T=T(X1, Xn) 为充分统计量的充分 必要条件是:存在两个函数g(t; )和h(x1, , xn), 使得对任意的 和任一组观测值 x1, x2, xn,有1211( ; ) (; )(; ) (,); (,)nnnf xf xf xg T xxh xx其中g(t, )是通过统计量 T 的取值而依赖于样本的。例5.5.4 设x1, x2, , xn是取自总体U(0, )的样本, 即总体的密度函数为p(x ; )=1/ x 其他样本的联合密度函数为( ).n证明:最大次序统计量T=
39、x是 的一个充分统计量取T =x(n),并令 g(t ; )= (1/, h(x)=1,由因子分解定理知T =x(n) 是 的充分统计量。p(x1; )p(xn; )=0, 其它 (1/, 0minximaxxi由于诸xi,所以我们可将上式改写为p(x1; )p(xn; ) = (1/x(n)1,( ,1)-,.nxNx 设x是取自正态母体的子例5.5样,则子样均值 是 的一个充 3分统计量.222111(-)(- )( -),nniiiinxxxn xx证明:由推出x的联合密度函数为.xx等式右端第一个因子只是 的函数,并且依赖于未知参数 ;第二个因子不依赖于未知参数 ,所以根据因子分解定理
40、得到,子样均值 是 的一个充分统计量22121(- )(-)exp( -)2() expexp22()nniiininxxxxn122例5.5.5 设x1, x2, , xn 是取自总体N(, 2)的样 本, =(, 2)是未知的,则联合密度函数为2/2212122/2222111( ,; )(2)exp()21(2)expexp222nnniinnniiiip xxxnxx取 t1= xi , t2= xi2, 并令g(t1, t2, ) = (22)-n/2exp-n 2/(22) exp(t22 t1)/(22) ,其中 h(x)=1,由因子分解定理,T=(xi , xi2) 是充分统计量。 是一一对应的,这说明在正态总体场合 常用的进一步,我们指出这个统计量与(x, s2 )( x , s2 )是充分统计量。定理5.5.2 若统计量T是充分统计量,统计量S与统计 量T一一对应,则统计量S也是充分统计量。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。