1、根据样本统计量对相应总体参数所作的估根据样本统计量对相应总体参数所作的估计叫作总体参数估计。计叫作总体参数估计。总体参数估计分为点估计和区间估计。总体参数估计分为点估计和区间估计。由样本的标准差估计总体的标准差即为点由样本的标准差估计总体的标准差即为点估计;而由样本的平均数估计总体平均数的估计;而由样本的平均数估计总体平均数的取值范围则为区间估计。取值范围则为区间估计。1.良好的点估计量应具备的条件 如果一切可能个样本统计量的值与总体参数如果一切可能个样本统计量的值与总体参数值偏差的平均值为值偏差的平均值为0 0,这种统计量就是总体参数,这种统计量就是总体参数的无偏估计量。的无偏估计量。当总体
2、参数不止有一种无偏估计量时,某一当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。高,方差大者为有效性低。良好的点估计量应具备的条件当样本容量无限增大时,估计量的值能越来当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。参数一致性估计量。一个容量为一个容量为n n的样本统计量的样本统计量,应能充分地反映应能充分地反映全部全部n n个数据所反映的总体的信息。个数据所反映的总体的信息。2.区间估计以样本统计量的抽样
3、分布(概率分布)以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为计量的值估计总体参数值的所在范围,称为总体参数的总体参数的。对总体参数值进行区间估计,就是要在对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的一定可靠度上求出总体参数的的上的上下限。下限。,也称置信间距(也称置信间距(confidence confidence interval,CIinterval,CI)是指在某一置信度时,总体)是指在某一置信度时,总体参数所在的区域距离或区域长度。参数所在的区域距离或区域长度。置信区
4、间置信区间是带有置信概率的取值区间。是带有置信概率的取值区间。置信度,即置信度,即,是作出某种推断是作出某种推断时正确的可能性(概率)。时正确的可能性(概率)。对总体平均数进行区间估计时,置信概率对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平会有犯错误的可能。显著性水平(significance levelsignificance level)就是指估计总体参数落就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号在某一区间时,可能犯错误的概率,用符号表示。表示。P P-要知道与所要估计的参
5、数相对应的样本要知道与所要估计的参数相对应的样本的的值,以及样本统计量的理论分布;值,以及样本统计量的理论分布;要求出该种统计量的要求出该种统计量的;要确定在多大的要确定在多大的上对总体参数作估计,再上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的该分布横轴上记分的,才能计算出总体参数的,才能计算出总体参数的的上下限。的上下限。.平均数区间估计的基本原理通过样本的平均数估计总体的平均数通过样本的平均数估计总体的平均数,首先首先假定该样本是随机取自一个正态分布的母总体假定该样本是随机取自一个正态分布的母总体(
6、或非正态总体中的或非正态总体中的n n3030的样本的样本),而计算出来,而计算出来的实际平均数是无数容量为的实际平均数是无数容量为n n的样本平均数中的的样本平均数中的一个。一个。根据样本平均数的分布理论,可以对总体平根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性。均数进行估计,并以概率说明其正确的可能性。1总体平均数区间估计的基本步骤根据样本的数据,计算样本的平均数和标准差;根据样本的数据,计算样本的平均数和标准差;计算平均数抽样分布的标准误;计算平均数抽样分布的标准误;确定置信概率或显著性水平;确定置信概率或显著性水平;根据样本平均数的抽样分布确定查何种统
7、计表;根据样本平均数的抽样分布确定查何种统计表;计算置信区间;计算置信区间;解释总体平均数的置信区间。解释总体平均数的置信区间。2平均数区间估计的计算平均数离差的的抽样分布呈正态,平均数的置平均数离差的的抽样分布呈正态,平均数的置信区间为:信区间为:nZXnZX22(91)例题例题1 1:某小学:某小学1010岁全体女童岁全体女童身高历年来标准差为身高历年来标准差为6.256.25厘米,厘米,现从该校随机抽现从该校随机抽2727名名1010岁女童,岁女童,测得平均身高为测得平均身高为134.2134.2厘米,试厘米,试估计该校估计该校1010岁全体女童平均身高岁全体女童平均身高的的9595和和
8、9999置信区间。置信区间。解:解:1010岁女童的身高假定是从正态总岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差体中抽出的随机样本,并已知总体标准差为为=6.25=6.25。无论样本容量大小,一切样本。无论样本容量大小,一切样本平均数的标准分数呈正态分布。于是可用平均数的标准分数呈正态分布。于是可用正态分布来估计该校正态分布来估计该校1010岁女童身高总体平岁女童身高总体平均数均数9595和和9999的置信区间。的置信区间。其标准误为其标准误为2028.12725.6nX当当0.950.95时,时,1.961.96因此,该校因此,该校1010岁女童平均身高岁女童平均身高95
9、95的置信区间为:的置信区间为:nZXnZX205.0205.02725.696.12.1342725.696.12.134558.136842.131当当0.990.99时,时,2.582.58因此,该校因此,该校1010岁女童平均身高岁女童平均身高9999的置信区间为:的置信区间为:nZXnZX201.0201.02725.658.22.1342725.658.22.134303.137097.131平均数离差的抽样分布为平均数离差的抽样分布为t t分布,平均分布,平均数的置信区间为:数的置信区间为:1122nStXnStXdfdf(92)例题例题2 2:从某小学三年级随机:从某小学三年级
10、随机抽取抽取1212名学生,其阅读能力得分名学生,其阅读能力得分为为2828,3232,3636,2222,3434,3030,3333,2525,3131,3333,2929,2626。试估计该。试估计该校三年级学生阅读能力总体平均校三年级学生阅读能力总体平均数数9595和和9999的置信区间。的置信区间。解:解:1212名学生阅读能力的得分假定是从正名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差态总体中抽出的随机样本,而总体标准差未未知,样本的容量较小(知,样本的容量较小(=1230=1230n=12030),),t t分布接近于正态分布,因分布接近于正态分布,因此可用
11、正态分布近似处理。此可用正态分布近似处理。其标准误为其标准误为1369.01205.1nSX当0.95时,1.96因此,该年全部考生作文成绩因此,该年全部考生作文成绩9595的置信区间为:的置信区间为:nSZXnSZX205.0205.01205.196.1261205.196.126291.26709.25当0.99时,2.58因此,该年全部考生作文成绩因此,该年全部考生作文成绩9999的置信区间为:的置信区间为:nSZXnSZX201.0201.01205.158.2261205.158.226383.26258.26参数估计,参数估计,即不能根据样本分布对即不能根据样本分布对总体平均数进
12、行估计总体平均数进行估计。总体相关系数为0,t分布总体相关系数不为0,Fisher Z分数大样本,渐近正态分布小样本,利用卡方分布F分布这里假设事物按性质不同分成两类,所以其中的一类事物的比率的抽样分布属于二项分布。假设有一个总体,这个总体中所包含的事件要么具有某种属性,要么不具有某种属性,其中具有某种属性的事件出现的概率为,不具有某种属性的事件出现的概率为q=1-。p1=X1/np2=X2/n经过反复抽样,就可以计算出许多样本的p值,这些p值就形成了一个实验性的比率的抽样分布。这个分布的形态是二项分布。根据二项概率分布理论就可进行总体比率的推断。二项概率分布的主要理论 包括(1)当p=q,无
13、论N的大小,二项分布呈对称分布;(2)当p=5时,或pq且nq=5,二项分布开始接近正态。标准误的计算:当总体比率已知时的标准误计算 pnp qp qnnn当总体比率未知时的标准误计算(用样本比率作为总体比率的估计值,因此其标准误该为如下)ppqSn总体比率的区间估计步骤正态近似法正态近似法确定分布形态:根据二项概率分布的理论判断;计算总体比率估计的标准误;计算统计量;ppZpqn计算置信区间:1.961.960.95pqpqP pppnn2.582.580.99pqpqP pppnn从北京市去年的理科考生中随机抽取200名考生作为样本,经统计,该样本高考英语的及格率为0.67,试估计去年高考
14、北京理科生英语及格率0.95和0.99的置信区间。即在去年的高考中,北京理科生英语及格率有即在去年的高考中,北京理科生英语及格率有95%的可能在的可能在0.605至至0.735之间,总体比率超出这个范围的可之间,总体比率超出这个范围的可能性只有能性只有5%。同理,总体比率同理,总体比率0.99的置信区间为:的置信区间为:p(0.67-2.580.03320.67+2.580.0332)=0.99p(0.5840.756)=0.99即在去年的高考中,北京理科生英语及格率有即在去年的高考中,北京理科生英语及格率有99%的可能在的可能在0.584至至0.756之间,总体比率超出这个范围的可之间,总体
15、比率超出这个范围的可能性只有能性只有1%。从某区随机抽取100个中学生,查得正常视力有65人,若用样本比率p=0.65来估计全区中学生正常视力的比率,那么全区中学生正常视力的比率0.95和0.99的置信区间各是什么?例1:有研究者从7岁儿童中随机抽取了100名被试进行了一项智力测查,结果发现,IQ在70分以下的(弱智)有2人,试估计7岁儿童从总体上看弱智的发生率是多少?因为n=100,X=2,查附表(二项分布置信界限表),得总体比率0.95的置信区间为07%,0.99的置信区间为09%。因此,可以说,7岁儿童中弱智比率有95%的可能在07%之间,有99%的可能在09%之间。有研究者向某中学65
16、名教职员工调查关于采取聘任制的意见,其中有28人表示赞同,试估计中学教职员工赞成聘任制的比率。先根据n=60,X=28查表,得0.95的置信下限和置信上限分别为34和60。然后根据n=70,X=28查表,得0.95的置信下限和置信上限分别为29和52。因此,当n=65,X=28时,其0.95的置信下限为:(6070):(3429)=(6065):(34p1)10(34p1)=55p1=31.5其0.95的置信上限为:(6070):(6052)=(6065):(60p2)10(60p2)=58p2=56以同样的方法可以计算出0.99的置信下限和置信上限为27.5和60。即中学的教职员工赞同聘任制
17、的比率有95%的可能在31.5%56%之间,有99%的可能在27.5%到60%之间。如果总体比率未知,又假设这两个样本来自同如果总体比率未知,又假设这两个样本来自同一个总体(即一个总体(即p1=p2=p=p),),那么总体比率可以那么总体比率可以用两个样本比率的加权平均数作为估计量,即用两个样本比率的加权平均数作为估计量,即212211nnpnpnp212211nnqnqnq则得比率差的标准误的估计量为:则得比率差的标准误的估计量为:2121nqpnqpSPP)(212122112211)(nnnnqnqnpnpn当两个样本的容量相等时,上式可以化简为:当两个样本的容量相等时,上式可以化简为:
18、nqqppnqpSPP2)(2212121)()(21212211221121nnnnqnqnpnpnppZP217怎样由样本平均数对总体平均数进行怎样由样本平均数对总体平均数进行区间估计?区间估计?一正态总体标准差为2,今随机取n=9的样本,平均数为12,标准差为1,估计总体均数的置信区间。从方差未知的正态总体中抽取n=10的样本,算得平均数为53,Sn-1=6,求总体平均数和总体方差的置信区间。某测验成绩的分布为正态,从这个总体中抽取n=160的样本,算得平均数位80,标准差为6,问该科测验的标准差是多少?某校长根据自己的经验预测今年高考全区的平均分为530分,全区随机抽取100名毕业生高考平均成绩为520分,标准差42。问该校长的预测是否准确?