1、第六章第六章 参数估计基础参数估计基础抽样分布与抽样误差抽样分布与抽样误差t分布分布总体均数及总体率的估计总体均数及总体率的估计抽样分布与抽样误差抽样分布与抽样误差n在实际工作中,由于总体中各观察对象之间存在在实际工作中,由于总体中各观察对象之间存在着个体变异,且随机抽取的样本又只是总体中的着个体变异,且随机抽取的样本又只是总体中的一部分,因此计算的样本统计量,不一定恰好等一部分,因此计算的样本统计量,不一定恰好等于相应的总体参数。于相应的总体参数。n这种由于个体变异的存在,在抽样研究中产生的这种由于个体变异的存在,在抽样研究中产生的样本统计量与相应的总体参数间的差异,称为样本统计量与相应的总
2、体参数间的差异,称为抽抽样误差样误差(sampling errorsampling error) 一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差n实验实验6-1:假定某年某地:假定某年某地13岁女生身高服从正态分岁女生身高服从正态分布布N(155.4,5.32)()(cm)。利用计算机在该总)。利用计算机在该总体中随机抽取体中随机抽取100个样本,每个样本个样本,每个样本n=30,即可,即可求得如表求得如表6-1第(第(2)列中的)列中的100个样本均数。由个样本均数。由这这100个样本均数,可绘成样本均数的频率分布个样本均数,可绘成样本均数的频率分布表(表表(表6-2)。)
3、。n观察样本均数抽样分布的特点观察样本均数抽样分布的特点u样本均数恰好等于总体均数的情况很少;样本均数恰好等于总体均数的情况很少;u样本均数之间亦存在差异;样本均数之间亦存在差异;u样本均数的分布围绕总体均数左右基本对样本均数的分布围绕总体均数左右基本对称,呈近似正态分布;称,呈近似正态分布;u样本均数之间的变异明显小于原始变量值样本均数之间的变异明显小于原始变量值之间的变异;之间的变异;样本均数抽样分布的特点:样本均数抽样分布的特点:已证明:已证明: 从正态总体从正态总体NN( ,2 2 )中,随机抽取例)中,随机抽取例数为数为n n的样本,样本均数的样本,样本均数 也服从正态分布,也服从正
4、态分布,此正态分布为此正态分布为N N ( , ) ;x2xn均数的抽样误差均数的抽样误差指由抽样而造成的样本均数指由抽样而造成的样本均数与总体均数之间的差异。与总体均数之间的差异。n 称称标准误标准误,它说明均数抽样误差的大小。,它说明均数抽样误差的大小。nn n越大,标准误越小,样本均数的抽样误差亦越小越大,标准误越小,样本均数的抽样误差亦越小n实际工作中,实际工作中,常未知,而是用样本标准差常未知,而是用样本标准差s s来估来估计,则有计,则有n常用来说明均数的抽样误差的大小。常用来说明均数的抽样误差的大小。 xnssx/nx/u即使从偏态总体抽样,当即使从偏态总体抽样,当n n足够大时
5、,足够大时,样本均数也近似正态分布(见实验样本均数也近似正态分布(见实验6-26-2,观察图观察图6-16-1及图及图6-26-2的变化)。的变化)。n实验实验6-3,摸球实验。观察二项分布总体中样本频,摸球实验。观察二项分布总体中样本频率的分布特征。率的分布特征。n一个口袋内装有形状、重量完全相同的黑球和白一个口袋内装有形状、重量完全相同的黑球和白球,其中黑球比例为球,其中黑球比例为20%(=20%),从中重复,从中重复摸球摸球50次(次(ni=50),计算摸到黑球的频率(样本),计算摸到黑球的频率(样本率率pi)。这样的实验重复进行)。这样的实验重复进行100次,将每次得到次,将每次得到黑
6、球的频率列成频率分布表即表黑球的频率列成频率分布表即表6-3,观察表中,观察表中的频率分布特征。的频率分布特征。二、样本频率的抽样分布与抽样误差二、样本频率的抽样分布与抽样误差n由此分布可知:样本率与样本率之间;样本率与总体由此分布可知:样本率与样本率之间;样本率与总体率之间均存在差异,即抽样误差。率之间均存在差异,即抽样误差。n根据二项分布的原理,样本频率的总体概率为根据二项分布的原理,样本频率的总体概率为,率,率的标准误为的标准误为 p p= = n实际工作中,总体率往往未知,常用样本率来近似代实际工作中,总体率往往未知,常用样本率来近似代替总体率,则有替总体率,则有 Sp p = =n反
7、映率的抽样误差的大小。反映率的抽样误差的大小。例例6-16-1. .n)1 (npp)1 ( Xt分布分布n前面讲过,对正态变量前面讲过,对正态变量x采用采用 变变换,则将正态分布换,则将正态分布N(,2)变换为标准正)变换为标准正态分布态分布N(0,1)。)。 n已知样本均数也服从正态分布,那么对已知样本均数也服从正态分布,那么对 采采用用变换,即可将其变换为标准正态分布。变换,即可将其变换为标准正态分布。 x 但实际工作中但实际工作中 需用需用 来估计,这样,对正来估计,这样,对正态变量采用的就不是态变量采用的就不是变换而是变换而是t t变换了,即变换了,即 其结果即为其结果即为t t分布
8、。观察分布。观察t t分布曲线图分布曲线图 xxsxsxt/ )(图图6-4 自由度为自由度为1、5、的的t分布分布t t分布的特征:只有一个参数分布的特征:只有一个参数n以以0 0为中心,左右对称的单峰分布;为中心,左右对称的单峰分布;nt t分布是一簇曲线,形态变化与分布是一簇曲线,形态变化与n n(即自由度)大(即自由度)大小有关。自由度小有关。自由度越小,越小,t t分布曲线越低平;自分布曲线越低平;自由度由度越大,越大,t t分布曲线越接近标准正态分布分布曲线越接近标准正态分布(分布)曲线。分布)曲线。nt t分布峰部较矮,尾部翘得较高,说明远侧的分布峰部较矮,尾部翘得较高,说明远侧
9、的t t值值的个数相对较多,即尾部面积(概率的个数相对较多,即尾部面积(概率P P)较大。)较大。自由度自由度越小这种情况越明显,越小这种情况越明显,渐大时,渐大时,t t分分布渐逼近标准正态分布;当布渐逼近标准正态分布;当=时,时,t t分布就成分布就成为标准正态分布了。为标准正态分布了。n附表附表2 2,t t界值表界值表P P467 总体均数及总体概率的估计总体均数及总体概率的估计参数估计有两种方法:参数估计有两种方法: 1. 1.点(值)估计:未考虑抽样误差点(值)估计:未考虑抽样误差 2.2.区间估计区间估计:可信区间又称置信区间:可信区间又称置信区间 (confidence int
10、ervalconfidence interval,CICI)q指按一定的概率估计总体均数的可能范围。指按一定的概率估计总体均数的可能范围。q概率概率1-1-称为可信度(置信度),常取称为可信度(置信度),常取95%95%或或99%99%一、总体均数可信区间的计算一、总体均数可信区间的计算* * * :方法:方法:1.t1.t分布法:分布法: 未知且未知且n n较小时较小时 2.2.正态近似法:正态近似法: 已知或已知或未知但未知但n n较大时较大时1.t1.t分布法:分布法:未知且未知且n n小时,某自由度的小时,某自由度的t t曲线下有曲线下有95%95%的的t t值在值在 之间,即:之间,
11、即: , 2/05. 0t95. 0)(,2/05. 0,2/05. 0tttP95. 0)/ )(, 2/05. 0, 2/05. 0tsxtPx95. 0)(, 2/05. 0, 2/05. 0 xxstxstxP故总体均数故总体均数的的95%95%可信区间为:可信区间为: ( , ) xstx,2/05. 0 xstx,2/05. 02.2.正态近似法:正态近似法: 1 1)已知时,正态曲线下有已知时,正态曲线下有95%95%的的值在值在1.961.96之间,之间,即:即: P P(-1.96-1.96+1.96+1.96)=0.95=0.95 P P(-1.96 +1.96-1.96
12、+1.96)=0.95=0.95 移项后整理得,总体均数移项后整理得,总体均数的的95%95%可信区间为可信区间为 ( ) xx/ )( xxxx96. 1,96. 1 2 2)未知,但未知,但n n足够大(足够大(n50n50)时,可知)时,可知t t分布分布 逼近逼近分布,此时分布,此时t t曲线下有曲线下有95%95%的的t t值在值在1.961.96之间之间 即:即:P P(-1.96t+1.96-1.96t+1.96)=0.95=0.95 P(-1.96 +1.96)=0.95 P( )=0.95 故总体均数故总体均数的的95%95%可信区间为可信区间为 ( , ) xsx/ )(x
13、sx96.1xsx96.1xsx96.1xsx96.1总体均数总体均数的单侧(的单侧(1-1-)置信区间为:)置信区间为:xstx,05. 0 xstx,05. 0总体均数的总体均数的95%可信区间的含义可信区间的含义: 该区间包括总体均数该区间包括总体均数的概率为的概率为95%或或 总体均数有总体均数有95%的概率在该区间范围内的概率在该区间范围内二、总体概率可信区间的计算二、总体概率可信区间的计算1.1.查表法:查表法:n50n50,特别是,特别是p p接近接近0 0或或100%100%时,可查时,可查附表附表6 6(P P478-480478-480) ),二项分布概率的置信区间表,二项
14、分布概率的置信区间表,例例6-46-4。注意:附表注意:附表6 6中中X X值只列出了值只列出了Xn/2Xn/2部分,当部分,当Xn/2Xn/2时,应以时,应以n - Xn - X值查表,然后用值查表,然后用100100减去查得的数减去查得的数值,即为所求的区间。值,即为所求的区间。2.2.正态近似法正态近似法* * *:当:当n较大且较大且np和和n(1-p)均大于均大于5 5时,二项分布接近正态分布,则时,二项分布接近正态分布,则总体率的双侧总体率的双侧(1-1-)可信区间为)可信区间为: P /2Sp 例例6-6 案例讨论案例讨论小结小结n样本均数的抽样误差样本均数的抽样误差n样本率的抽样误差样本率的抽样误差nt分布分布n参数估计的方法参数估计的方法n参考值范围与总体均数置信区间的区别参考值范围与总体均数置信区间的区别 (表(表6-5)22谢谢!谢谢!