1、统计量及其抽样分布第 6 章 统计量及其抽样分布6.1 统计量统计量6.2 关于分布的几个概念关于分布的几个概念 6.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布 6.4 样本均值的分布与中心极限定理样本均值的分布与中心极限定理6.5 样本比例的抽样分布样本比例的抽样分布6.6 两个样本平均值之差的分布两个样本平均值之差的分布6.7 关于样本方差的分布关于样本方差的分布 D(10X)102 s24005 样本比例的抽样分布A用样本统计量来推断总体参数(1)计算样本均值小于的近似概率。样本均值的抽样分布与总体分布的比较样本均值的分布与中心极限定理A用样本统计量来推断总体参数 现从
2、总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。调节一个装瓶机使其对每个瓶子的灌装量均值为m盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差s=1盎司的正态分布。n3时,t 分布方差为:D(t)=n/n-2(n为自由度)从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为4 样本均值的分布与中心极限定理如果随机变量Xt(n),则 X2F(1,n)。样本均值的抽样标准差 等于多少?统计量6.1.1 统计
3、量的概念统计量的概念6.1.2 常用统计量常用统计量6.1.3 次序统计量次序统计量 6.1.4 充分统计量充分统计量 6.1.1 统计量的概念(statistic)设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量l样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数统计量是统计推断的基础6.1.2 常用统计量nikikxnm11nikikxxn116.1.3 次序统计量一组样本观测值X1,X2,Xn由小到大的排序 X(1)X(2)X(i)X(n)后,称X(1),X
4、(2),X(n)为次序统计量 中位数、分位数、四分位数等都是次序统计量6.1.4 充分统计量统计量加工过程中一点信息都不损失的统计量称为充分统计量。当X(X1,X2,Xn)是来自正态分布总体N(m,s 2)的一个样本时,若m已知,则 是s 2 的充分统计量;若s 2已知,则 是m 的充分统计量。21)(niiXmniiXnX11方差均值 关于分布的几个概念6.2.1 抽样分布抽样分布6.2.2 渐进分布渐进分布6.2.3 随机模拟获得的近似分布随机模拟获得的近似分布 为什么要抽样?为什么要抽样?为了收集必要的资料,对所研究对象(总体)的全部为了收集必要的资料,对所研究对象(总体)的全部元素逐一
5、进行观测,往往不很现实。元素逐一进行观测,往往不很现实。抽抽样样原原因因元素多,搜集数据费元素多,搜集数据费时、费用大,不及时而时、费用大,不及时而使所得的数据无意义使所得的数据无意义总体庞大总体庞大,难以对总难以对总体的全部元素进行体的全部元素进行研究研究检查具有破坏性检查具有破坏性炮弹、灯管、砖等炮弹、灯管、砖等关于总体,知道得很少关于总体,知道得很少所有数据所有数据何种分布何种分布样本数据样本数据已知已知总体特征总体特征总体特征总体特征想知道想知道描述性统计,计算参数描述性统计,计算参数统计推断统计推断为什么能抽样?为什么能抽样?中国成语:“一叶知秋”出自淮南子说山训:“以小明大,见一叶
6、落而知岁之将暮,睹瓶中之冰而知天下之寒。”谚语:“你不必吃完整头牛,才知道肉是老的”从检查一部分得知全体。复习 抽样方法简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样概率抽样概率抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样非概率抽样非概率抽样抽样方式抽样方式样本统计量的概率分布,是一种理论分布l在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本统计量l样本均值,样本比例,样本方差等结果来自容量相同容量相同的所有所有可能样本提供了样本统计量长远而稳定的信息,是
7、进行推断的理论基础,也是抽样推断科学性的重要依据 6.2.1 抽样分布(sampling distribution)抽样分布的形成过程 (sampling distribution)计算样本统计计算样本统计量量如:样本均值、比例、方差当样本量n无限增大时,计算统计量T(X1,X2,Xn)的极限分布,把极限分布作为抽样分布的一种近似,这种极限分布就被称为渐近分布。6.2.2 渐近分布6.2.3 随机模拟获得的近似分布 随机模拟:大样本时,样本均值服从正态分布吗?随机模拟:大样本时,样本均值服从正态分布吗?提示:提示:EXCEL数据分析数据分析随机数发生器随机数发生器几几种种概概率率分分布布正态分
8、布正态分布 分布分布 F F 分布分布 t t 分布分布26.3 由正态分布导出的几个重要分布 2分布 (2 distribution)222(1)(1)nsnsn 设随机变量X1,X2,Xn相互独立,且 ,则 服从自由度为n的 2分布。(0,1)iXN21niiXn当总体 ,从中抽取容量为n的样本,则n 由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来。&)1()(2212nxxniis),(2smNX 2分布 (2 distribution)2分布的概率密度函数222110;()()200.2nxnn
9、xnfxxx e01)(dxexx分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 n时,2分布的极限分布是正态分布。2分布 (性质和特点)2分布(图示)例题设随机变量 ,求 中的 。2(20)X0.05P Xkk解:,查表:即临界值20,0.05n31.410.05,31.41P Xk20.05(20)31.416.3.2 t 分布(t distrib
10、ution)高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出。设随机变量 ,且X与Y独立,则 ,称为t分布,记为t(n),n为自由度。(0,1)XNXtY n2()Yn t 分布 (t distribution)t 分布的概率密度函数t 分布数学期望与方差n2时,t 分布期望为:E(t)=0,n3时,t 分布方差为:D(t)=n/n-2(n为自由度)t 分布图示 t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 随机变量是 样本统计量随机变量是 样
11、本统计量2分布 (2 distribution)注意:不重复抽样时样本均值的方差等于重复抽样时的方差乘以有限总体校正系数:t 分布的概率密度函数由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来。A用样本统计量来推断总体参数谚语:“你不必吃完整头牛,才知道肉是老的”抽样分布的特征n2时,t 分布期望为:E(t)=0,(1)计算样本均值小于的近似概率。t(df=13)所有可能的n=2 的样本(共16个)A一个样本各观测值的分布随机模拟:大样本时,样本均值服从正态分布吗?3从服从正态分布的无限总体中分别抽取容量
12、为4,16,36的样本,当样本容量增大时,样本均值的标准差()。06 D样本均值、样本比例、样本方差等都是统计量例题由统计学家费希尔()提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为 F分布(F distribution)21nVnUF),(21nnFFF分布的概率密度函数为分布的概率密度函数为:112221121122()112()0;()()()222200.()(1)nnnxf xxn nnnnxxnnnnn F分布(F distribution
13、)XF(m,n),则 n2时,期望为:E(X)=n/n-2 n4时,方差为:22(2)()(2)(4)nmnD Xm nnF分布(图示)F分布(F distribution)F分布与t 分布关系 如果随机变量Xt(n),则 X2F(1,n)。例题6.4 样本均值的分布与中心极限定理 样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值m的理论基础样本均值的抽样分布(例题分析)【例例】设一个总体含有设一个总体含有4 个个体,分别为个个体,分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下。总体的均值、方差及分布
14、如下。总体均值和方差总体均值和方差5.21NXNiim25.1)(122NXNiims总体的频数分布总体的频数分布样本均值的抽样分布现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表.3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2 的样本(共16个)样本均值的抽样分布 各样本的均值如下表,并给出样本均值的抽样分布各样本的均值如下表,并给出样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布3.53.02.52.033.02.52.01.524.
15、03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)所有样本均值的均值和方差1.样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/nnMxnixix222122625.016)5.20.4()5.20.1()(smsmm5.2160.45.10.11MxniixM为样本数目为样本数目样本均值的抽样分布与总体分布的比较样本均值的抽样分布与总体分布的比较 m=2.5 2=1.25总体分布总体分布抽样分布抽样分布5.2xm625.02xs样本均值的抽样分布样本均
16、值的抽样分布构造样本统计量抽样分布的步骤1、从容量为N 的有限总体中随机选取容量为n的所有可能样本;2、计算出每个样本的统计量值;3、将来自不同样本的不同统计量值分组排列,把对应于每个数值的相对出现频数排成另一列,由此,全部可能的样本统计量值形成了一个概率分布,这个分布就是我们想要得到的抽样分布。样本均值的抽样分布与中心极限定理x5xs50 xm5.2xs 抽样分布的特征与总体分布的均值和方差有关。与总体分布的均值和方差有关。XnxEx22)(ssm),(2nNxsm例:设从一个均值为10、标准差为的总体中随机选取容量为36的样本。假定该总体不是很偏的,要求:(1)计算样本均值小于的近似概率。
17、(2)计算样本均值超过的近似概率。(3)计算样本均值在总体均值10附近范围内的近似概率。6826.01)1(2)11()366.0101.10366.010366.0109.9()1.109.9()3(8413.01587.01)9.9(1)9.9(8413.0)1()1()366.0109.9366.010()9.9()2(1587.0)1(1)1()366.0109.9366.010()9.9()1()1.0,10()36/6.0,10(,36)6.0,10(222zPzPxPxPxPxPzPzPxPxPzPzPxPxPNxNxnNX解二:,即则中心极限定理(central limit t
18、heorem)nxssmmx中心极限定理(central limit theorem)样本均值的抽样分布与总体分布的关系正态分布正态分布非正态分布非正态分布正态分布正态分布正态分布正态分布非正态分布非正态分布总体(或样本)中具有某种属性的单位与全部单位总数之比l不同性别的人与全部人数之比l合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为6.5 样本比例(proportion)的抽样分布NNNN101或nnpnnp101或在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例
19、的理论基础样本比例的抽样分布样本比例的数学期望样本比例的方差l重复抽样l不重复抽样样本比例的抽样分布(数学期望与方差)(pEnp)1(2s1)1(2NnNnps有限总体校正系数有限总体校正系数Finite Population Correction Factor注意:不重复抽样时样本均值的方差等于重复抽样时的方差乘以有限总体校正系数:当n/N时可以忽略有限总体校正系数。1NnN数学期望和方差的主要数学性质如果X是一随机变量,C是一常数,则CX与X有相同的分布形状。设E(X)m,D(X)s2,则若C是一常数,则E(CX)CE(X)=Cm,D(CX)C2 s2。补充:对于任意两个随机变量X、Y,有
20、 E(X+Y)E(X)E(Y)若两个随机变量X、Y相互独立,则 E(XY)E(X)E(Y)若两个随机变量X、Y相互独立,则 D(X+Y)D(X)D(Y)例题例:设XN(9,4),试描述10X的抽样分布。解:E(10X)10E(X)=90 D(10X)102 s2400 所以,10X N(90,400)。例:假定某统计人员在其填写的报表中有2至少会有一处错误,如果我们检查了一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在之间的概率有多大?02.00057.0102667.3600)02.01(02.0)1(52ssppn1902.0)7719.88772.0()0057.0
21、02.0070.00057.002.00057.002.0025.0()070.0025.0(zPpPpP576.1198.012)1(51260002.0pnpnp)0057.0,02.0(2Np6.7 关于样本方差的分布 6.7.1 样本方差的分布样本方差的分布 6.7.1 样本方差的分布)1()1(222nsns22)1(ssn 例题调节一个装瓶机使其对每个瓶子的灌装量均值为m盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差s=1盎司的正态分布。随机抽取由这台机器灌装的10个瓶子形成一个样本,并测定每个瓶子的灌装量,计算出样本方差,试确定一个合适范围,使得样本方差落入其中的概率为90
22、%。212()0.90P bsb)1()1(222nsns第6章 小结统计量及其分布统计量及其分布由正态分布导出的几个重要分布由正态分布导出的几个重要分布样本均值的分布与中心极限定理样本均值的分布与中心极限定理样本比例的抽样分布样本比例的抽样分布关于样本方差的分布关于样本方差的分布第6章 课堂练习1.抽样调查的主要目的是()。A用样本统计量来推断总体参数 B对调查单位作深入研究 C计算和控制抽样误差 D广泛运用数学方法 2.抽样分布是指()。A一个样本各观测值的分布 B总体中各观测值的分布C样本统计量的分布 D样本数量的分布AC3从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当
23、样本容量增大时,样本均值的标准差()。A保持不变 B增加 C减小 D无法确定4.假设总体比例为,从此总体中抽取容量为100的样本,则样本比例的标准差为()。A0.01 B0.05 C0.06 DCB课堂练习1.从均值为200、标准差为50的总体中,抽取n=100的简单随机样本,用样本均值X估计总体均值。X的数学期望是多少?X的标准差是多少?X的抽样分布是什么?样本方差的抽样分布是什么?2.假定总体共有1000个单位,均值m=32,标准差s=5。从中抽取一个容量为30的简单随机样本用于获得总体信息。X的数学期望是多少?X的标准差是多少?3.从一个标准差为5的总体中抽出一个容量为40的样本,样本均
24、值为25。样本均值的抽样标准差 等于多少?Xs构造样本统计量抽样分布随机模拟:大样本时,样本均值服从正态分布吗?随机模拟:大样本时,样本均值服从正态分布吗?提示:提示:EXCEL数据分析数据分析随机数发生器随机数发生器1、从容量为N 的有限总体中随机选取容量为n的所有可能样本;2、计算出每个样本的统计量值;3、将来自不同样本的不同统计量值分组排列,把对应于每个数值的相对出现频数排成另一列,由此,全部可能的样本统计量值形成了一个概率分布,这个分布就是我们想要得到的抽样分布。构造样本统计量抽样分布假设总体的分布为0-1区间上的均匀分布,则总体的均值为,方差等于1/12,标准差等于。从总体中抽取1000个样本容量为2的样本(有放回抽样),计算每个样本的样本均值,然后观察样本均值的分布状况。从总体中抽取1000个样本容量为30的样本(有放回抽样),计算每个样本的样本均值,然后观察样本均值的分布状况。感谢观看感谢观看