第5章-统计量及其分布-概率论与数理统计教程配套课件.ppt_163文库

资源描述

1、5.1 总体与样本5.2 样本数据的整理与显示5.3 统计量及其分布5.4 三大抽样分布5.5 充分统计量 p 的大小如何；p 大概落在什么范围内；能否认为 p 满足设定要求（如 p 0.05）。5.1 总体与个体总体与个体总体的三层含义：例5.1.1 考察某厂的产品质量，以0记合格品，以1记不合格品，则总体=该厂生产的全部合格品与不合格品 =由0或1组成的一堆数若以 p 表示这堆数中1的比例（不合格品率），则该总体可由一个二点分布表示：X 0 1P 1 p pX01p0.9830.017X01p0.9150.085例5.1.2 在二十世纪七十年代后期，美国消费者购买日产SONY彩电的热情

2、高于购买美产 SONY彩电，原因何在？1979年4月17日日本朝日新闻刊登调查报告指出N(m,(5/3)2)，日产SONY彩电的彩色浓度服从正态分布，而美产SONY彩电的彩色浓度服从(m5,m+5)上的均匀分布。原因在于总体的差异上！图5.1.1 SONY彩电彩色浓度分布图等级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3样本具有两重性一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机变量，用大写字母 X1,X2,Xn 表示；另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数

3、值。此时用小写字母 x1,x2,xn 表示是恰当的。简单起见，无论是样本还是其观测值，样本一般均用 x1,x2,xn 表示，应能从上下文中加以区别。表5.1.2中的样本观测值没有具体的数值，只有一个范围，这样的样本称为分组样本。寿命范围元件数寿命范围元件数寿命范围元件数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (12

4、0 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13 独立性:样本中每一样品的取值不影响其它样品的取值-x1,x2,xn 相互独立。要使得推断可靠，对样本就有要求，使样本能很好地代表总体。通常有如下两个要求：随机性:总体中每一个个体都有同等机会被选入样本-xi 与总体X有相同的分布。11(,.,)().nniiF xxF x例5.1.5 设有一批产品共N个，需要进行抽样检验以了解其不合格品率p。现从中采取不放回抽样抽出2个产品，这时，第二次抽到不合格品的概

5、率依赖于第一次抽到的是否是不合格品，如果第一次抽到不合格品，则P(x2=1|x1=1)=(Np1)/(N1)P(x2=1|x1=0)=(Np)(N1)5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1,x2,xn 是取自总体分布函数为F(x)的样本，若将样本观测值由小到大进行排列,为 x(1),x(2),x(n)，则称 x(1),x(2),x(n)为有序样本，用有序样本定义如下函数(1)()(1)()0,()/,1,2,.,11,kknnxxFxk nxx xknxx 例5.2.1 某食品厂生产听装饮料，现从生产线上随机抽取5听饮料，称得其净重（单位：克）351 347 355

6、344 351x(1)=344,x(2)=347,x(3)=351,x(4)=354,x(5)=355这是一个容量为5的样本，经排序可得有序样本：其经验分布函数为x1,x2,xn表5.2.1 例5.2.2 的频数频率分布表组序分组区间组中值频数频率累计频率(%)1 (147，157 152 4 0.20 20 2 (157，167 162 8 0.40 60 3 (167，177 172 5 0.25 85 4 (177，187 182 2 0.10 95 5 (187，197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示，它的横坐标表示所关心变量

7、的取值区间，纵坐标有三种表示方法：频数，频率，最准确的是频率/组距，它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择，直方图本身并无变化。把每一个数值分为两部分，前面一部分（百位和十位）称为茎，后面部分（个位）称为叶，然后画一条竖线，在竖线的左侧写上茎，右侧写上叶，就形成了茎叶图。如：二、茎叶图数值分开茎和叶 112 11|2 11 和 2646770727476767980818282838586889191929393939595959797991001001021041061061071081081121121141161181191191221231251

8、26128133我们用这批数据给出一个茎叶图，见下页。图5.2.3 测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时，可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3

9、 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意：茎叶图保留数据中全部信息。当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。定义5.3.1 设 x1,x2,xn 为取自某总体的样本，若样本函数T=T(x1,x2,xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。按照这一定义：若 x1,x2,xn 为样本，则以及经验分布函数都是统计量。而当,2 未知时，x1,x

10、1/等均不是统计量。尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。niiniixx121,定义5.3.2 设 x1,x2,xn为取自某总体的样本，其算术平均值称为样本均值，一般用表示，即思考：在分组样本场合，样本均值如何计算？二者结果相同吗？xx=(x1+xn)/n定理5.3.2 数据观测值与均值的偏差平方和最小，即在形如 (xic)2 的函数中，样本均值的基本性质：定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即最小，其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布：定理

11、5.3.3 设x1,x2,xn 是来自某个总体的样本，x为样本均值。(1)若总体分布为N(,2)，则xx的精确分布为N(,2/n);(2)若总体分布未知或不是正态分布，但 E(x)=,Var(x)=2,则n 较大时的渐近分布为N(,2/n),常记为。xAN(,2/n)这里渐近分布是指n 较大时的近似分布.称为样本标差。s*=s*2定义5.3.3称为样本方差，其算术平方根在n 不大时，常用作为样本方差,其算术平方根也称为样本标准差。221*1()niisxxn2211()1niisxxn在这个定义中，(xi x)2n1称为偏差平方和的自由度。其含义是：x在确定后,n 个偏差x1x,x2

12、x,xnx能自由取值，因为只有n1个数据可以自由变动，而第n个则不 (xi x)=0.称为偏差平方和，中样本偏差平方和有三个不同的表达式：(xix)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。思考：分组样本如何计算样本方差？样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩，即 E(x)=,Var(x)=2 x1,x2,xn 为从该总体得到的样本，x和s2 分别是样本均值和样本方差，则E(x)=,Var(x)=2/n,E(s2)=2 样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。定义5.3.4

13、 ak=(xik)/n 称为样本 k 阶原点矩，特别，样本一阶原点矩就是样本均值。称为样本k阶中心矩矩。特别，样本二阶中心矩就是样本方差。bk=(xi x)k/nx样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义：1=b3/b23/2 称为样本偏度，2=b4/b22 称为样本峰度。x另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量，它的取值是将样本观测值由小到大排列后得到的第 i 个观测值。其中x(1)=minx1,x2,xn称为该样本的最小次序统

14、计量，称 x(n)=maxx1,x2,xn为该样本的最大次序统计量。xp我们知道，在一个样本中，x1,x2,xn 是独立同分布的，而次序统计量 x(1),x(2),x(n)则既不独立，分布也不相同，看下例。0 1 2(1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。(2)x1327727p727 0 1 2进一步，我们可以给出两个次序统计量的联合分布，如，x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1)=0,x(2)=0)=7/27 ，

15、二者不等，由此可看出x(1)和 x(2)是不独立的。而 P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27)，二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x)，分布函数为F(x)，x1,x2,xn为样本，则第k个次序统计量x(k)的密度函数为)()(1()()!()!1(!)(1xpxFxFknknxpknkk例5.3.7 设总体密度函数为 p(x)=3x2,0 x1.从该总体抽得一个容量为5的样本，试计算 P(x(2)1/2)。解：有两种求法：从古典概型出发；从次序统计量密度函数出发。例5.3.8 设总体分布为U(0,1)，x1,x2,xn为样本，

16、试求第 k 个次序统计量的分布。三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布，以两个为例说明：定理5.3.6 在定理5.3.5的记号下，次序统计量(x(i),x(j),(i j)的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1)()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如样本极差 Rn=x(n)x(1)，样本中程 x(n)x(1)/2。样本极差是一个很常用的统计量，其分布只在很少几种场合可用初等函数表示。令 R=x(n)x(1)，由 R 0,可以推出0 x(1)=x(n)R 1 R，则例

17、5.3.9 设总体分布为U(0,1)，x1,x2,xn 为样本，则(x(n),x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2,0 y z 1这正是参数为(n1,2)的贝塔分布。1220()(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：更一般地，样本p分位数mp可如下定义：120.5122,12nnnxnmxxn 为奇数，为偶数(1)()(1),1(2nppnpnpxnpmxxnp若不是整数)，若是整数定理5.3.7 设总体密度函数为p(x)，xp为其p分位数，p(x)在xp处连续且

18、p(xp)0，则特别，对样本中位数，当n时近似地有当n 时样本 p 分位数 mp 的渐近分布为2(1),pppppmNxn p x0.50.520.51,4mNxn p x例5.3.10 设总体为柯西分布，密度函数为p(x,)=1/(1+(x)2),x0.5x1,x2,xn m0.5 m0.5 AN(,2/4n).次序统计量的应用之一是五数概括与箱线图。在得到有序样本后，容易计算如下五个值：最小观测值 xmin=x(1),最大观测值 xmax=x(n),中位数 m0.5,第一4分位数 Q1=m0.25,第三4分位数 Q3=m0.75.所谓五数概括就是指用这五个数：xmin,Q1,m0.5,Q3

19、,xmax来大致描述一批数据的轮廓。5.4 三大抽样分布大家很快会看到，有很多统计推断是基于正态分布的假设的，以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有明显表达式，它们被称为统计中的“三大抽样分布”。定义5.4.1 设 X1,X2,Xn,独立同分布于标准正态分布N(0,1)，则X12+Xn2的分布称为自由度为n 的分布，记为。当随机变量时，对给定 (01)，称满足 P(的是自由度为n1的卡方分布的1 分位数.分位数可以从附表3 中查到。该密度函数的图像是一只取非负值的偏态分布 22,Var()2En

20、n5.4.2 F 分布定义5.4.2 设X1 ,X2 X1与X2独立，则称 F=(X1/m)/(X2/n)的分布是自由度为 m 与 n 的 F分布，记为F F(m,n)，其中m 称为分子自由度，n 称为分母自由度。当随机变量F F(m,n)时，对给定 (01)，称满足 P(F F1(m,n)的F1(m,n)是自由度为m 与 n 的F 分布的分位数。由 F 分布的构造知 F(n,m)=1/F1(m,n)。该密度函数的图象也是一只取非负值的偏态分布定义 5.4.3 设随机变量X1 与X2 独立，且X1 N(0,1),X2 则称t=X1/X2/n的分布为自由度为n 的t 分布，记为t t(n)

21、。t 分布的密度函数的图象是一个关于纵轴对称的分布，与标准正态分布的密度函数形状类似，只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。n1时,t 分布的数学期望存在且为0；n2时，t 分布的方差存在，且为n/(n2)；当自由度较大(如n30)时，t 分布可以用正态分布 N(0,1)近似。自由度为1的 t 分布就是标准柯西分布，它的均值不存在；当随机变量t t(n)时，称满足P(t t1(n)的 t1(n)是自由度为 n 的 t 分布的分位数.分位数 t1(n)可以从附表4中查到。譬如 n=10,=0.05，那么从附表4上查得t10.05(10)=t0.95(10)=1.812.

22、由于 t 分布的密度函数关于0 对称,故其分位数间有如下关系t(n1)=t1(n1)定理5.4.1 设 x1,x2,xn 是来自N(,2)的样本，其样本均值和样本方差分别为和x=xi/n s2=(xix)2/(n1)(3)(n1)s2/2 1则有(1)x 与 s2 相互独立；(2)x N(,2/n)；推论5.4.3 设 x1,x2,xn 是来自N(1,12)的样本，y1,y2,yn 是来自N(2,22)的样本，且此两样本相互独立，则有特别，若12=22，则F=sx2/sy2 F(m1,n1)221222/(1,1)/xysFF mns推论5.4.4 在推论5.4.3的记号下，设 12=22

23、=2，并记则2)()(2)1()1(1122222nmyyxxnmsnsmsminiiiyxw)2(11)()(21nmtnmsyxw5.5.1 充分性的概念例5.5.1 为研究某个运动员的打靶命中率，我们对该运动员进行测试，观测其10次，发现除第三、六次未命中外，其余8次都命中。这样的观测结果包含了两种信息：(1)打靶10次命中8次；(2)2次不命中分别出现在第3次和第6次打靶上。第二种信息对了解该运动员的命中率是没有什么帮助的。一般地，设我们对该运动员进行n 次观测，得到 x1,x2,xn，每个xj 取值非0即1，命中为1，不命中为0。令 T=x1+xn，T为观测到的命中次数。在这

24、种场合仅仅记录使用T 不会丢失任何与命中率有关的信息，统计上将这种“样本加工不损失信息”称为“充分性”。样本 x=(x1,x2,xn)有一个样本分布F(x)，这个分布包含了样本中一切有关的信息。统计量T=T(x1,x2,xn)也有一个抽样分布FT(t)，当我们期望用统计量T 代替原始样本并且不损失任何有关的信息时，也就是期望抽样分布 FT(t)像 F(x)一样概括了有关的一切信息，这即是说在统计量 T 的取值为 t 的情况下样本 x 的条件分布 F(x|T=t)已不含的信息，这正是统计量具有充分性的含义。定义5.5.1 设 x1,x2,xn 是来自某个总体的样本，总体分布函数为F(

25、x;)，统计量 T=T(x1,x2,xn)称为的充分统计量，如果在给定T 的取值后，x1,x2,xn 的条件分布与无关.充分性原则：在统计学中有一个基本原则-在充分统计量存在的场合，任何统计推断都可以基于充分统计量进行，这可以简化统计推断的程序。定理5.5.1 设总体概率函数为 p(x;)，X1,Xn 为样本，则 T=T(X1,Xn)为充分统计量的充分必要条件是：存在两个函数g(t;)和h(x1,xn)，使得对任意的和任一组观测值 x1,x2,xn，有p(x1,x2,xn;)=g(T(x1,x2,xn);)h(x1,x2,xn)(5.5.1)例5.5.4 设x1,x2,xn是

26、取自总体U(0,)的样本，即总体的密度函数为其中g(t,)是通过统计量 T 的取值而依赖于样本的。p(x;)=1/x 其他于是样本的联合密度函数为取T=x(n)，并令 g(t;)=(1/,h(x)=1，由因子分解定理知T=x(n)是的充分统计量。p(x1;)p(xn;)=0,其它 (1/,0minximaxxi由于诸xi，所以我们可将上式改写为p(x1;)p(xn;)=(1/x(n)例5.5.5 设x1,x2,xn 是取自总体N(,2)的样本，=(,2)是未知的，则联合密度函数为取 t1=xi,t2=xi2,并令g(t1,t2,)=(22)-n/2exp-n 2/(22)exp(t22 t1)/(22),其中 h(x)=1，由因子分解定理，T=(xi,xi2)是充分统计量。2/2212122/2222121(,;)(2)exp()21(2)expexp222nnniinnniiiip xxxnxx 是一一对应的，这说明在正态总体场合常用的进一步，我们指出这个统计量与(x,s2)(x,s2)是充分统计量。

展开阅读全文