1、第九章第九章 统计量和抽样分布统计量和抽样分布第一节第一节 统计量统计量第二节第二节 常用统计量常用统计量第三节第三节 抽样分布抽样分布9.1 统计量统计量完全由样本确定的量完全由样本确定的量(可能是向量可能是向量)称为称为统计量统计量 数学观点数学观点:统计量是样本的函数:统计量是样本的函数(可能是向量值函数可能是向量值函数)定义:定义:设设(X1,Xn)为总体为总体X的一个样本的一个样本,f(X1,Xn)为不为不含任何未知参数的连续函数,则称含任何未知参数的连续函数,则称f(X1,Xn)为样为样本本(X1,Xn)的一个统计量的一个统计量.统计量是随机变量统计量是随机变量(或随机向量或随机向
2、量),统计量是确定的,统计量是确定的数或向量,其数值称为统计量观察值数或向量,其数值称为统计量观察值.2(,)N 例:例:设设(X1,X2,X3)是从正态总体是从正态总体 中抽取的中抽取的 样本,其中样本,其中 已知已知,未知未知.1233XXX 2123XXX 前提:前提:1.样本均值样本均值 Sample Mean一组数据一组数据X1,X2,Xn是总体是总体X的一个样本的一个样本11niiXXn 9.2 常用统计量常用统计量2.样本标准差或均方差样本标准差或均方差注意:它们的观测值用相应的小写字母表示注意:它们的观测值用相应的小写字母表示 211niiSXXn 2211niiXXn 反映总
3、体反映总体X取值的平均取值的平均反映总体反映总体X取值的离散程度取值的离散程度2.样本方差样本方差 Sample Variance 2211niiSXXn 3.样本的样本的K阶原点矩阶原点矩11nkkiiAXn 4.样本的样本的K阶中心矩阶中心矩 11nkkiiBXXn 它包括两个方面:它包括两个方面:数据的简单处理数据的简单处理 研究随机现象,首要的工作是收集原始数据研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它杂乱无章的,需要通过整理后才能显示出它们的分布状况。们的分布状况。数据的简
4、单处理数据的简单处理:以一种直观明了方式加工数据以一种直观明了方式加工数据(1)数据整理数据整理(2)计算样本特征数计算样本特征数计算样本特征数:计算样本特征数:数据简单处理的具体操作步骤数据简单处理的具体操作步骤 数据整理:数据整理:(1)反映趋势的特征数反映趋势的特征数 (a)样本均值样本均值11niiXXn (b)中位数:数据按大小顺序排列后,位中位数:数据按大小顺序排列后,位 置居中的那个数或居中的两置居中的那个数或居中的两 个数的平均数个数的平均数.(c)众数:样本中出现最多的那个数。众数:样本中出现最多的那个数。(1)将数据分组将数据分组(2)计算各组频数计算各组频数作频率分布表作
5、频率分布表作频率直方图作频率直方图(2)反映分散程度的特征数:极差、四分位差反映分散程度的特征数:极差、四分位差 (a)极差:样本数据中最大值与最小值之差极差:样本数据中最大值与最小值之差 记为记为 RMm(b)四分位数:将样本数据依概率分为四等四分位数:将样本数据依概率分为四等 份的份的3个数椐,依次称为第一、个数椐,依次称为第一、第二、第三四分位数。第二、第三四分位数。第一四分位数第一四分位数Q1:1()0.25P XQ第二四分位数第二四分位数Q2:2()0.5P XQ第三四分位数第三四分位数Q3:3()0.75P XQ即即 例:为对某小麦杂交组合例:为对某小麦杂交组合F2代的株高代的株高
6、X进行研究,抽取进行研究,抽取 容量为容量为100的样本,测试的原始数据记录如下的样本,测试的原始数据记录如下(单位:单位:厘米厘米),试根据以上数据,画出它的频率直方图,试根据以上数据,画出它的频率直方图,求随机变量求随机变量X的分布状况。的分布状况。87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80
7、 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92 第一整理原始数据,加工为分组资料,作频率分表,第一整理原始数据,加工为分组资料,作频率分表,画直方图,提取样本分布特征的信息画直方图,提取样本分布特征的信息.1.找出数据中最小值找出数据中最小值m=69,最大值,最大值M=111,极差为:,极差为:Mm=42,即,即R=42.2.数据分组,根据样本容量数据分组,根据样本容量n的大小,决定分组数的
8、大小,决定分组数k。一般规律:一般规律:30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20具体步骤如下:具体步骤如下:数据分组数参考表数据分组数参考表 数据数数据数4060100150200400600分组数分组数68791015162024数据数数据数800100015002000500010000分组数分组数273035395674(2)一般采取等距分组一般采取等距分组(也可以不等距分组也可以不等距分组),组距等于极差除以组数略大的测量单位组距等于极差除以组数略大的测量单位 的整数倍。的整数倍。111694.759Mmk(1)本例取本例取 k=9(3
9、)本例测量单位为本例测量单位为1厘米,组距为厘米,组距为 3.确定组限和组中点值确定组限和组中点值注意:组的上限与下限应比数据多一位小数。注意:组的上限与下限应比数据多一位小数。当取当取a=67.5,b=112.49(a略小于略小于m,b略大于略大于M,且且a和和b都比数据多一位小数),分组如下:都比数据多一位小数),分组如下:一般根据算式:一般根据算式:各组中点值各组中点值 组距组距=组的上限或下限组的上限或下限1267.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,
10、112.5)组中点值分别为:组中点值分别为:70 75 80 85 90 95 100 105 1104.将数据分组,计算出各组频数,作频数、频率分布表将数据分组,计算出各组频数,作频数、频率分布表组序组序区间范围区间范围频数频数fj频率频率Wj=fj/n累计频率累计频率Fj167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5)180.180.35587.5,92.5)300.30.65692.5,97.5)180.180.83797.5,102.5)100.10.938102.5,107.5)40.04
11、0.979107.5,112.5)30.031.00作频率直方图作频率直方图 5.作出频率直方图作出频率直方图以样本值为以样本值为横坐标横坐标,频率,频率/组距为组距为纵坐标纵坐标;以分组区间为底,以以分组区间为底,以 为高为高 15jjjjjWWYXX 从频率直方图可看到:从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势数据比较多,即中间大两头小的分布趋势.随机变量分布状况的最粗略的信息随机变量分布状况的最粗略的信息在频率直方图中,每个矩形面积恰好等于样本值在频率直方图中,每个矩形面积恰好等于样本值落
12、在该矩形对应的分组区间内的频率,即落在该矩形对应的分组区间内的频率,即 频率直方图中的小矩形的面积近似地反映了样本频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似数据落在某个区间内的可能性大小,故它可近似描述描述X的分布状况。的分布状况。11jjjjjjjWSXXWXX 样本方差样本方差 样本标准差样本标准差 Q1 Q3 极差极差 四分位差四分位差 68.6909 8.288 85.25 95 42 4.875第二计算样本特征数第二计算样本特征数 1.反映集中趋势的特征数:反映集中趋势的特征数:样本均值、中位数、众数样本均值、中位数、众数等等样本均值样本均值
13、MEAN 中位数中位数MEDIAN 众数众数 2.反映分散程度的特征数:反映分散程度的特征数:样本方差、样本标准差、样本方差、样本标准差、极差、四分位差极差、四分位差等等注注:上述差异特征统计量的值越小,表示离散程度越小:上述差异特征统计量的值越小,表示离散程度越小.90.3X 9191,94统计量统计量 是样本是样本 的的不含不含任何未知数任何未知数的函数,它是随机变量的函数,它是随机变量.12(,.,)nf XXX12,.,nXXX统计量的分布称为统计量的分布称为抽样分布抽样分布定理定理9.3 抽样分布抽样分布一、有限总体的抽样分布一、有限总体的抽样分布设总体中个体总数为设总体中个体总数为
14、N,样本容量为,样本容量为n(N)且总体且总体有有限均值有有限均值,方差,方差2,则:,则:(1)()E X (2)当抽样是有放回时,当抽样是有放回时,当抽样是无放回时,当抽样是无放回时,()Xn ()1NnXNn 正态总体样本均值的分布正态总体样本均值的分布 211,niiXXNnn 2,XN 设总体设总体 ,是是X的的一个样本,则样本均值服从正态分布一个样本,则样本均值服从正态分布 12,.,nXXX 110,1niiXXnUNnn 1.U-分布分布 二、数理统计的四大重要分布二、数理统计的四大重要分布概率分布的分位数概率分布的分位数(分位点分位点)PXx =定义定义 对总体对总体X和给定
15、的和给定的 (0 1),若存在,若存在x,使:,使:则称则称x 为为X分布的分布的上侧上侧 分位数分位数或或上侧临界值上侧临界值.PXx =()dxf xx xyO()f x概率密度函数概率密度函数 x 阴影部分的面积为阴影部分的面积为X分布的分布的上侧上侧 分位数分位数概率分布的分位数概率分布的分位数(分位点分位点)定义定义2 若存在数若存在数 1、2,使:,使:PX 1=PX 2 则称则称 1、2为为X分布的分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值xyO()f x概率密度函数概率密度函数1 2 2 2 2x 12x X分布的分布的双侧双侧 分位数分位数双侧双侧 分位数或双侧临界
16、值分位数或双侧临界值的特例的特例2P Xx 当当X的分布的分布关于关于y轴对称轴对称时,时,则称则称 为为X分布的分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值2x 2,x 若存在若存在 使使xyO()f x概率密度函数概率密度函数/2x/2x 2 2 U分布的上侧分位数分布的上侧分位数 对标准正态分布变量对标准正态分布变量UN(0,1)和给定的和给定的,上侧上侧 分位数分位数是由:是由:PUu =221d2etut 即即 PUu =1-(u)=1-确定的点确定的点u 已知:已知:=0.05u0.05=1.645确定的点确定的点u xyOPUu =0.05 =0.050.051.645u
17、 U分布的双侧分位数分布的双侧分位数 的点的点u/2为标准正态分布的为标准正态分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值u/2可由可由PUu/2=/2针对变量针对变量UN(0,1)和给定和给定 的,称满足条件:的,称满足条件:P|U|u/2=即即 (u /2)=1-/2反查标准正态分布表得到反查标准正态分布表得到(x)Ou/2 /2-u/2 /2x例如例如:求求u0.05/2PUu0.05/2=0.05/2u0.05/2=1.96标准正态分布的分位数标准正态分布的分位数 在实际问题中,在实际问题中,常取常取0.1、0.05、0.01.常用到下面几个临界值常用到下面几个临界值:u0.0
18、5=1.645,u0.01=2.326 u0.05/2=1.96,u0.01/2=2.5752 2.分布分布 设设X1,X2,Xn为独立标准正态变量,为独立标准正态变量,称称随机变量随机变量U=X12+X22+Xn2的分布为的分布为自由度自由度n的的 分布,记作分布,记作2 2()Un 2 1221e,022()0,0nynyynf yy 注意:注意:(1)分布的自由度是指独立随机变量的个数分布的自由度是指独立随机变量的个数 2(2)分布的密度函数为分布的密度函数为:2(3)分布的期望和方差为分布的期望和方差为:E(U)=n,D(U)=2n 2 n=1n=4n=10图形随自由度图形随自由度n的
19、不同而有所改变的不同而有所改变 2分布表分布表 22()()pPnnp 分布的概率密度函数分布的概率密度函数 f(y)的图形的图形2 xyO满足满足 的数的数 2 22()()()()dnPnnf yy 称为称为 2分布的分布的上上 分位数分位数或或上侧临界值上侧临界值2()n f(y)是是 2分布的概率密度分布的概率密度f(y)xO 2()n 在自由度在自由度n取定以后,取定以后,的值只与的值只与 有关有关.2()n 例例:n=21,=0.05时,时,20.05(21)32.67即即 2(21)32.670.05P 2分布的上分布的上 分位数分位数查表:查表:2分布的双侧分布的双侧 分位数分
20、位数 f(x)xO22()n 212()n 2 2 22()n 为为 2分布的上分布的上 分位数分位数2 212()n 为为 2分布的上分布的上 分位数分位数12 例:若例:若n=8,=0.05220.97512()(8)n 220.0252()(8)n 2.1817.53满足满足 的数的数2222122()()2PnPn 22()n 和和 称为称为 2分布的分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值212()n 1.2分布的数学期望与方差:分布的数学期望与方差:设设 2 2(n),则,则E(2)=n,D(2)=2n.2.2分布的可加性:分布的可加性:设设22221122(),(),
21、nn 且且 相互相互2212,独立,则:独立,则:2221212()nn 2分布的性质分布的性质3.设设(X1,X2,Xn)为取自正态总体为取自正态总体XN(,2)的样本,则的样本,则:2212()()niiXn 4.设设(X1,X2,Xn)为来自正态总体为来自正态总体XN(,2)的样本,则的样本,则(1)样本均值样本均值 与样本方差与样本方差S 2相互独立;相互独立;X222122()(1)(1)niiXXnSn (2)3.t分布分布(1)t分布的概率密度函数为分布的概率密度函数为设随机变量设随机变量XN(0,1),Y 2(n),且,且X与与Y相互独立,则称统计量相互独立,则称统计量 服从自
22、由度服从自由度为为n的的t分布或学生分布,记作分布或学生分布,记作XTYn T t(n).1221()2()(1),()()2nntf ttnnn (2)当当n较大时,较大时,t分布近似于标准正态分布分布近似于标准正态分布.注意:注意:1.t 分布的数学期望与方差:分布的数学期望与方差:设设Tt(n),则,则E(T)=0,D(T)=.(2)2nnn t 分布的性质分布的性质2.设设(X1,X2,Xn)为来自正态总体为来自正态总体XN(,2)的样本,则统计量的样本,则统计量(1)XTt nSn 3.设设(X1,X2,Xn1)和和(Y1,Y2,Yn2)分别是来自正态总体分别是来自正态总体N(1,2
23、)和和N(2,2)的样本,且它们相互独立,则统计量的样本,且它们相互独立,则统计量121212()(2)11nXYTt nnSnn 其中其中22112212(1)(1),2nnSnSSnn 、21S22S分别为两总体的样本方差分别为两总体的样本方差.t 分布的上分布的上 分位数分位数对于给定的对于给定的 (0 1),称满足条件,称满足条件 ()()()dt nP Tt nf tt 的数的数t(n)为为t分布的分布的上上 分位数分位数或或上侧临界值上侧临界值t()f tO()tn t分布的分布的上侧上侧 分位数分位数t 分布的双侧分布的双侧 分位数分位数由于由于t分布的对称性,称满足条件分布的对
24、称性,称满足条件 2()2P Ttn 的数的数t/2(n)为为t分布的分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值t()f tO/2()tn/2/2()tn /2 4.F分布分布设随机变量设随机变量X 2(n1)、Y 2(n2),且,且X与与Y相互独立,则称随机变量相互独立,则称随机变量 服从服从第一自由度为第一自由度为n1,第二自由度为,第二自由度为n2的的F分布,分布,记作记作12X nFY n FF(n1,n2).F分布的概率密度函数为:分布的概率密度函数为:11211222(1),0()0,0nnnnAyyyf yny 其中其中11212122()2(),()()22nnnnA
25、nnn 注意:注意:F 分布的上分布的上 分位数分位数对于给定的对于给定的 (0 1),称满足条件,称满足条件 12 1212(,)(,)(,)()dF n nP F n nF n nf yy 的数的数F(n1,n2)为为F分布的分布的上上 分位数分位数或或上侧临界值上侧临界值xyO12(,)Fnn F分布的分布的上侧上侧 分位数分位数F 分布的双侧分布的双侧 分位数分位数称满足条件称满足条件 1212122(,)(,)2P FFn nP FF n n 为为F分布的分布的双侧双侧 分位数分位数1212122(,),(,)Fn nF n n 的的F分布的上分布的上 分位数分位数12 F分布的上分布的上 分位数分位数2 xyO/212(,)Fnn/2/2 1/212(,)Fnn F分布的性质分布的性质222,nS222(,)N 121,nS211(,)N (2)设设 为正态总体为正态总体 的样本的样本 容量和样本方差;容量和样本方差;为正态总体为正态总体 的样本容量和样本方差;且的样本容量和样本方差;且 两个样本相互独立,则统计量两个样本相互独立,则统计量2212221212(1,1)SSF nn 1X(1)若若XF(n1,n2),则,则F(n2,n1)