1、统计学第六版贾俊平第统计学第六版贾俊平第6章章 PPT2 本章将较系统地介绍统计量的概念,以正态本章将较系统地介绍统计量的概念,以正态分布为基础导出常用的几个重要分布,并给出分布为基础导出常用的几个重要分布,并给出一些常用统计量的抽样分布。一些常用统计量的抽样分布。36.1 6.1 统计量统计量6.2 6.2 关于分布的几个概念关于分布的几个概念6.3 6.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布6.4 6.4 样本均值的分布与中心极限定理样本均值的分布与中心极限定理6.5 6.5 样本比例的分布样本比例的分布6.6 6.6 两个样本均值之差的分布两个样本均值之差的分布6.
2、7 6.7 关于样本方差的分布关于样本方差的分布5统计量是样本的函数,它不依赖于任何未知参统计量是样本的函数,它不依赖于任何未知参数;数;根据不同的研究目的,可构造不同的统计量;根据不同的研究目的,可构造不同的统计量;利用构造的统计量,用样本性质推断总体的性利用构造的统计量,用样本性质推断总体的性质;质;统计量是统计推断的基础,在统计学中占据着统计量是统计推断的基础,在统计学中占据着非常重要的地位。非常重要的地位。6.1.1 统计量的概念统计量的概念6 设设X1,X2,Xn是从总体中抽取的容是从总体中抽取的容量为量为n的一个样本,如果由此样本构造一个函数的一个样本,如果由此样本构造一个函数 T
3、(X1,X2,Xn),不依赖于任何未知参数,则称,不依赖于任何未知参数,则称函数函数 T(X1,X2,Xn)是一个统计量是一个统计量。v对于对于T(X1,X2,Xn),也称样本统计量。当获得也称样本统计量。当获得样本的一组具体观测值样本的一组具体观测值x1,x2,xn时,代入时,代入T,就是一个具体的统计量值就是一个具体的统计量值T(x1,x2,xn)。8参参数数。的的未未知知为为其其中中含含有有依依赖赖于于总总体体不不是是统统计计量量,主主要要是是因因都都E E(X X)/D D(X X)(X X,E E(X X)(X X都都是是统统计计量量,而而)X X(X X1 1n n1 1S SX
4、Xn n1 1X X个个样样本本,则则是是从从总总体体X X中中抽抽取取的的一一X X,X X,设设X X 【例例6 6.1 1】i in n1 1i i2 2i in n1 1i i2 2i i2 2n n1 1i ii in n2 21 19。,)XX()XX(n)(。,)XX()XX(n)(。k,)XX(nv)(。km,Xnm)(。XSV)(。)XX(nS)(。XnX)(niiniiniiniinikiknikkikniinii为样本峰度为样本峰度称称为样本偏度为样本偏度称称阶中心矩阶中心矩为样本为样本称称阶矩阶矩为样本为样本称称是样本的离散系数是样本的离散系数是样本方差是样本方差是样本
5、的均值是样本的均值412241432312313111221376151431211 10 设(设(X1,X2,Xn)是从总体)是从总体X中抽取的一个样中抽取的一个样本本,X(i)称为第称为第i个次序统计量个次序统计量,它是样本(它是样本(X1,X2,Xn)满足如下条件的函数:满足如下条件的函数:每当样本得到一组观测值每当样本得到一组观测值x1,x2,,xn时,其由小到大的排序时,其由小到大的排序x(1)x(2)x(i)x(n)中,第中,第i个值个值x(i)就作为次序统计量就作为次序统计量X(i)的观测值,的观测值,X(1),X(2)X(n)称为次序统计量。其中称为次序统计量。其中X(1)和和
6、X(n)分别分别为最小和最大次序统计量为最小和最大次序统计量。R R(n)=X=X(n)X(1)称为样本极差称为样本极差中位数、分位数、四分位数都是次序统计量。中位数、分位数、四分位数都是次序统计量。11 在统计学中,假如一个统计量能把含在样本中有关总体的在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,则对以后的统计推断质量信息一点都不损失地提取出来,则对以后的统计推断质量具有重要意义。具有重要意义。在统计量加工过程中一点信息都不损失的统计量通常称为在统计量加工过程中一点信息都不损失的统计量通常称为。是判别充分统计量的方法,由奈曼和哈尔姆是判别充分统计量的方法,由
7、奈曼和哈尔姆斯在斯在20世纪世纪40年代提出的。年代提出的。12 【例例6.2】某电子元件厂欲了解其产品的不合格率某电子元件厂欲了解其产品的不合格率p,质,质检员抽检了检员抽检了100个电子元件,检查结果是,除了前个电子元件,检查结果是,除了前3个是个是不合格品(记为不合格品(记为X1=1,X2=1,X3=1)外,其他都是合格)外,其他都是合格品(记为品(记为Xi=0,i=4,5,100)。当企业领导问及抽检结)。当企业领导问及抽检结果时,质检员给出如下回答:果时,质检员给出如下回答:(1)抽检的)抽检的100个元件中有个元件中有3个不合格;个不合格;(2)抽检的)抽检的100个元件中前个元件
8、中前3个不合格;个不合格;在产品检验中,二项分布的统计量在产品检验中,二项分布的统计量 是不合格是不合格品率品率p的充分统计量。的充分统计量。1001iiXT14近代统计学的创始人之一,英国统计学家费希尔曾把近代统计学的创始人之一,英国统计学家费希尔曾把看作统计推断的三个看作统计推断的三个中心内容。中心内容。在总体在总体X X的分布类型已知时,若对任一自然数的分布类型已知时,若对任一自然数n n,都能导出统计量都能导出统计量T(XT(X1 1,X,X2 2,X,Xn n)的分布的数学表达式的分布的数学表达式,这种分布称为这种分布称为。精确的抽样分布大多是在正态总体的情况下得到的。精确的抽样分布
9、大多是在正态总体的情况下得到的。在正态总体条件下主要有在正态总体条件下主要有 ,常,常称为统计的三大分布。称为统计的三大分布。215当当n无限增大时,统计量无限增大时,统计量T(X1,X2,Xn)的极限的极限分布常称为统计量的渐近分布;分布常称为统计量的渐近分布;第第4节中的中心极限定理揭示的就是样本均值的节中的中心极限定理揭示的就是样本均值的渐近分布;渐近分布;不少重要的统计方法就是基于渐近分布提出的。不少重要的统计方法就是基于渐近分布提出的。161.背景背景2.思想思想v 设有一个统计量设有一个统计量T(X1,X2,Xn),其中,其中n为样本容量,为样本容量,求统计量求统计量T的分布函数的
10、分布函数F(n)(t);v 可连续作一系列类似试验,每次试验都是从总体中抽可连续作一系列类似试验,每次试验都是从总体中抽取容量为取容量为n的样本,然后计算其统计量的值;的样本,然后计算其统计量的值;v 当这种试验进行了当这种试验进行了N次时,就得到统计量次时,就得到统计量T的的N个观测个观测值:值:T1,T2,TN;v 根据这根据这N个观测值可做其经验分布函数个观测值可做其经验分布函数FN(n)(t)的一个的一个很好的近似。很好的近似。182 设随机变量设随机变量X1,X2,Xn相互独立相互独立,且且Xi(i=1,2,n)服从标准正态分布服从标准正态分布N(0,1),则它们的平方和,则它们的平
11、方和 服从自由度服从自由度为为n的的 分布。分布。n n1 1i i2 2i iX X2当自由度增加时,当自由度增加时,卡方分布的概率卡方分布的概率密度曲线趋于对密度曲线趋于对称。当称。当n n趋于无趋于无穷大时,卡方分穷大时,卡方分布的极限分布就布的极限分布就是正态分布。是正态分布。19n2)n2)(n1(n1且独立,则且独立,则(n2),(n2),(n1),(n1),分布的可加性,即若分布的可加性,即若3.3.2n2n)2.方差为:D(2.方差为:D(n n)1.数学期望为:E(1.数学期望为:E(分布的性质分布的性质2 22 22 22 21 12 22 22 22 22 21 12 2
12、2 22 22 220 设随机变量设随机变量XN(0,1),Y ,且,且X与与Y独立独立,则则)(2nnYXt/其分布称为其分布称为t分布,记为分布,记为t(n),其中其中n为自由度。为自由度。(6.2)21称称的的.0 0对对图图形形是是关关于于t t一一个个偶偶函函数数,因因此此t t分分布布的的密密度度函函数数是是当当n充分大时充分大时,其图形其图形类似于标准正态变量类似于标准正态变量概率密度的图形概率密度的图形.;,1 1)分分布布t t分分布布近近似似于于N N(0 0,所所以以当当n n足足够够大大时时分分布布相相差差很很大大.t t分分布布与与N N(0 0,1 1)n n,但但
13、对对于于较较小小的的22niiXnX11niiXXnS122)(11SXn)(1.1.设设X X1 1,X X2 2,XXn n是来自正态分布是来自正态分布N(N(,2)2)的一个样本,的一个样本,则则 t(n-1)(6.3)称为服从称为服从。23niiXnX111)t(ns)X(n1n11)S(nn/X1)(n1)S(nXX1)S(n)X(X1n1S222222n1ii22n1i2i2得,由niiEXnXE11)(niinXDnXD122)(1)(证明:证明:因为因为X Xi i服从正态分布服从正态分布,所以所以 也服从正态分布也服从正态分布X)1,0(/),(2NnXnNX即242.设设X
14、和和Y是两个相互独立的总体,是两个相互独立的总体,XN(1,2),YN(2,2),X1,X2,Xn是来自是来自X的样本,的样本,Y1,Y2,Ym是来自是来自Y的样本,记的样本,记niiXnX11miiYmY11miiyYYmS122)(11niixXXnS122)(112)1()1(222mnSmSnSyxxy)2()()(21mntnmmnSYXxy(6.4)25)1,0(11)()(),()()()()(1,1212221222111NmnYXmnNYXmnYDXDYXDYXEYmYXnXmiinii)2()()()()()2()1()1(11)()()2()1()1()1()1(),1(
15、)1()(11,)(11212122222122222222222122122mntnmmnSYXSmnmnYXmnSmSnmnYXmnSmSnmSmnSnYYmSXXnSxyxyyxyxyxmiiyniix)2()()(21mntnmmnSYXxy证明:证明:26 设随机变量设随机变量Y与与Z相互独立,且相互独立,且Y与与Z分别服从自由分别服从自由度为度为m和和n的的 分布分布)()(22nZmY2mZmZnYnYZ/nZ/nY/mY/mX X则称则称(6.5)27n n).F F(1 1,n n)分分布布,则则X X若若随随机机变变量量X X服服从从t t(关关系系:2 2.F F分分布布
16、和和t t分分布布的的4 4n n,4 4)2 2)(n nmm(n n2 2)n n(mm2 2n nDD(X X)2 2n n,2 2n nn nE E(X X)和和方方差差为为n n)分分布布,则则数数学学期期望望F F(mm,1 1.若若X XF F分分布布的的性性质质:2 22 26.4 6.4 样本均值的分布与中心极限定理样本均值的分布与中心极限定理样本均值的分布与中心极限定理样本均值的分布与中心极限定理29【例例】设一个总体,含有设一个总体,含有4个元素(个体),即总体个元素(个体),即总体单位数单位数N=4。4 个个体分别为个个体分别为X1=1、X2=2、X3=3、X4=4。总
17、体的均值、方差及分布如下:。总体的均值、方差及分布如下:5.21NXNii25.1)(122NXNii30v3,4v3,3v3,2v3,13v2,4v2,3v2,2v2,12v4,4v4,3v4,2v4,14v1,44v1,3321v1,2v1,11第二个观察值第二个观察值第一个第一个观察值观察值v所有可能的所有可能的n=2 的样本(共的样本(共16个)个)31v3.5v3.0v2.5v2.0v3v3.0v2.5v2.0v1.5v2v4.0v3.5v3.0v2.5v4v2.5v4v2.0v3v2v1v1.5v1.0v1第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均
18、值(x)32nMxmixix222122625.016)5.20.4()5.20.1()(5.2160.45.10.11Mxmiix33 设设X1,X2,Xn为从某一总体中抽出的随机样本,若总体分布为为从某一总体中抽出的随机样本,若总体分布为正态分布正态分布N(,2),那么,那么 的抽样分布仍为正态分布,的抽样分布仍为正态分布,的数学期的数学期望为望为,方差为,方差为2/n,则,则XXn n ,N N X X2 2(6.9)X 的抽样分布有以下特点:期望值与总体相同,而方差的抽样分布有以下特点:期望值与总体相同,而方差则缩小为总体方差的则缩小为总体方差的1/n。X5x50 x5.2x34v对于
19、均值为对于均值为,方差为方差为2的任意总体分布,当的任意总体分布,当n比较比较大时大时,且且2有限有限,总有总有nXDnXnDXDXEnXnEXEniiniiniinii212111)(1)(1)()(1)(1)((6.10)(6.11)35中心极限定理:中心极限定理:v 设从均值为设从均值为、方差为、方差为2(有限)的任意一个总体中抽(有限)的任意一个总体中抽取样本量为取样本量为n的样本,当的样本,当n充分大时,样本均值的抽样分充分大时,样本均值的抽样分布近似服从均值为布近似服从均值为、方差为、方差为2/n的正态分布。的正态分布。xn x 36v最早的中心极限定理是在最早的中心极限定理是在1
20、8世纪初由德莫佛所世纪初由德莫佛所证明的,即证明的,即二项分布以正态分布为其极限分布二项分布以正态分布为其极限分布定理。定理。v现在的中心极限定理是现在的中心极限定理是19世纪世纪20年代林德伯格年代林德伯格和勒维证明的在和勒维证明的在任意分布的总体任意分布的总体中抽取样本,中抽取样本,其样本均值极限分布为正态分布。其样本均值极限分布为正态分布。37【例例6.4】设从一个均值设从一个均值=10、标准差、标准差=0.6的总体中随机选取容量的总体中随机选取容量为为n=36的样本。假定该总体不是很偏的的样本。假定该总体不是很偏的,要求要求:(1)计算样本均值计算样本均值 小于小于9.9的近似概率。的
21、近似概率。(2)计算样本均值计算样本均值 超过超过9.9的近似概率。的近似概率。(3)计算样本均值计算样本均值 在总体均值在总体均值=10附近附近0.1范围内的近似概率。范围内的近似概率。)1.0,10(1.0,01.0366.02222NXnXXX解解:根据中心极限定理根据中心极限定理,不论总体的分布是什么形状不论总体的分布是什么形状,在在假定总体分布不是很偏的情况下假定总体分布不是很偏的情况下,当从总体中随机抽取当从总体中随机抽取的样本时的样本时,样本的均值样本的均值 的分布近似服从均值为的分布近似服从均值为1010、标准差为标准差为0.10.1的正态分布的正态分布。XXXX380 0.6
22、 68 82 26 61 10 0.8 84 43 31 12 21 12 2(1 1)1 1)P P(Z Z1 1)P P(Z Z0 0.1 11 10 01 10 0.1 10 0.1 11 10 0X X0 0.1 11 10 09 9.9 9P P1 10 0.1 1)X X(3 3)P P(9 9.9 90 0.8 84 41 13 30 0.1 15 58 87 71 19 9.9 9)X XP P(1 19 9.9 9)X X(2 2)P P(0 0.1 15 58 87 70 0.8 84 41 13 31 1(1 1)1 11 1)P P(Z Z0 0.1 11 10 09
23、9.9 90 0.1 11 10 0X XP P9 9.9 9)X X(1 1)P P(39【例例6.5】某汽车电瓶商声称其生产的电瓶具有均值为某汽车电瓶商声称其生产的电瓶具有均值为60个月个月,标准差标准差为为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了为此随机抽取了50个该厂生产的电瓶进行试验。个该厂生产的电瓶进行试验。(1)假定厂商声称是正确的假定厂商声称是正确的,试描述试描述50个电瓶的平均寿命的抽样分布。个电瓶的平均寿命的抽样分布。(2)假定厂商声称正确假定厂商声称正确,则则50个样品组成的样本的平
24、均寿命不超过个样品组成的样本的平均寿命不超过57个月个月的概率为多少的概率为多少?解解:(1):(1)根据中心极限定理知根据中心极限定理知,这这5050个电瓶的平均寿命近似个电瓶的平均寿命近似服从正态分布。其均值为服从正态分布。其均值为=60,=60,方差为方差为)85.0,60(85.0,72.05062222NXnXXX40(2)(2)如果厂商声称是正确的,则观察到如果厂商声称是正确的,则观察到5050个电瓶的平均寿命个电瓶的平均寿命不超过不超过5757个月的概率为个月的概率为:0002.09998.01)529.3(1529.31529.385.0605785.060)57(ZPZPXP
25、XP即如果厂商说法正确即如果厂商说法正确,则则5050个电瓶的平均寿命不超过个电瓶的平均寿命不超过5757个个月的概率为月的概率为0.00020.0002。42v假定总体中对具有某一特征产品的喜好比例为假定总体中对具有某一特征产品的喜好比例为,在此条件下研究当从总体中随机抽取在此条件下研究当从总体中随机抽取n个个体进个个体进行调查时行调查时,喜好某一产品的人数喜好某一产品的人数X的概率。喜好某的概率。喜好某产品的比例产品的比例nXp p(6.12)用样本比例用样本比例 来估计总体比例来估计总体比例。43v由二项分布的原理和渐近分布的理论可知,当由二项分布的原理和渐近分布的理论可知,当n充充分大
26、时,分大时,的分布可用正态分布逼近。此时的分布可用正态分布逼近。此时 服服从均值为从均值为、方差为、方差为 的正态分布。的正态分布。p p n)(1,Np n)1((6.13)44p 0.00570.00576006000.980.980.020.02n n)(1(1 0.020.02 p pp p【例6.7】假定某统计人员在其填写的报表中有2%至少会有一处错误,如果我们检查了一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.0250.070之间的概率有多大?解解:设设600份报表中至少有一处错误的报表所占的比例份报表中至少有一处错误的报表所占的比例为为 ,由题意知由题
27、意知即即pN(0.02,0.0057pN(0.02,0.00572 2)n n)(1(1,N N p p 450.19020.1902(0.877)(0.877)(8.77)(8.77)8.77)8.77)Z ZP(0.877P(0.8770.00570.00570.020.020.0700.0700.00570.00570.020.02p p0.00570.00570.020.020.0250.025P Pn n)(1(1 0.0700.070n n)(1(1 p pn n)(1(1 0.0250.025P P0.070)0.070)p pP(0.025P(0.025即该统计人员所填写的报表
28、中至少有一处错误的报表所即该统计人员所填写的报表中至少有一处错误的报表所占的比例在占的比例在0.0250.070之间的概率为之间的概率为19.02%。所求概率为所求概率为:472221212121,nnNXX303021 n,n2221212121)()()(nnXDXDXXD设设 是独立地抽自总体是独立地抽自总体 X1 N(1,)的一个容量为的一个容量为 n1的样本的均值的样本的均值,是独立地抽自总体是独立地抽自总体 X2 N(2,)的一的一个容量为个容量为n2的样本的均值,则有的样本的均值,则有1X2221212121)X(E)X(E)XX(E不管两个总体是否为正态分布,只要不管两个总体是
29、否为正态分布,只要 ,则均值之,则均值之差也为正态分布,其均值和方差分别是式(差也为正态分布,其均值和方差分别是式(6.14)和式和式(6.15)。(6.15)(6.15)(6.14)(6.14)2X48两个样本比例之差的抽样分布两个样本比例之差的抽样分布设分别从具有参数为设分别从具有参数为1 1和和2 2的二项总体中抽取包的二项总体中抽取包含含n n1 1和和n n2 2个观测值的独立样本,则两个样本比例差个观测值的独立样本,则两个样本比例差的抽样分布为:的抽样分布为:221121nXnXpp22211121)1()1()(nnppD2121)(ppE 期望值和方差为:期望值和方差为:(6.
30、16)(6.17)492221112121)1()1(,)(nnNpp当当n1,n2很大时,很大时,)(21pp 的抽样分布近似为正态分布:的抽样分布近似为正态分布:50【例例.】一项抽样调查表明甲城市的消费者中有一项抽样调查表明甲城市的消费者中有15%的人喝过商标的人喝过商标为为“圣洁圣洁”牌的矿泉水牌的矿泉水,而乙城市的消费者中有而乙城市的消费者中有8%的人喝过该种矿泉的人喝过该种矿泉水。如果这些数据是真实的水。如果这些数据是真实的,那么当我们分别从甲城市抽取那么当我们分别从甲城市抽取120,乙城乙城市抽取市抽取140人,组成两个独立随机样本时人,组成两个独立随机样本时,样本比例差样本比例
31、差 不低于不低于0.08的概率有多大的概率有多大?解:根据题意解:根据题意,1 1=0.15,=0.15,2 2=0.08,n=0.08,n1 1=120,n=120,n2 2=140,=140,21pp 21pp 的抽样分布近似服从正态分布的抽样分布近似服从正态分布,即即0.40090.251)P(Z-10.251)P(Z0.001590.070.080.001590.07)pp(P0.08)ppP(0.00159)N(0.07,)pp(n)(1n)(1,N)pp(2121212221112121526.7.1 样本方差的分布样本方差的分布 设设X1,X2,Xn为来自正态总体分布为来自正态总
32、体分布N(,2)的样本,的样本,则样本方差则样本方差S2的分布为的分布为:)1()1(222nSn(6.18)(6.18)1(2n其中,将其中,将称为自由度为称为自由度为n-1n-1的卡方分布。的卡方分布。53v 设设X1,X2,Xn是来自正态总体是来自正态总体XN(1,12)的样本,的样本,Y1,Y2,Ym是来自正态总体是来自正态总体YN(2,22)的样本,且的样本,且X和和Y相互独立,则相互独立,则niiXnX11miiYmY11miiyYYmS122)(11niixXXnS122)(11)1,1(/222212222122mnFSSSSyxyx(6.19)F(n-1,m-1)F(n-1,m-1)是第是第1自由度为自由度为n-1n-1,第第2自由度为自由度为m-1m-1的的F F分布。分布。6.7.2 两个样本方差比的分布两个样本方差比的分布54niixXXnS122)(11)1()1(2212nSnx)1,1(/)1/()1()1/()1(221222221222mnFSSmSmnSnyxyxmiiyYYmS122)(11)1()1(2222mSmy得得由由由由所以所以55Bye Bye