1、统计学StatisticsStatistics第第 6 6 章章 参数估计参数估计u 6.1 6.1 参数估计的基本原理参数估计的基本原理u 6.2 6.2 一个总体参数的区间估计一个总体参数的区间估计u 6.3 6.3 两两个总体参数的区间估计个总体参数的区间估计u 6.4 6.4 样本量的确定样本量的确定u 6.5 6.5 小结小结第第 6 6 章章 参数估计参数估计6.1 6.1 参数估计的基本原理参数估计的基本原理参数估计的基本原理参数估计的基本原理参数估计中把用于估计总体参数的样本统计量就称为估计量估计量(estimator)。由于估计量是样本的函数(不包含未知的总体参数),如果重复
2、多次抽样,根据每个样本数据计算出来的估计量取值都可能不一样,所以估计量本身也是一个随机变量,有自己的抽样分布。参数估计参数估计(parameter estimation)是用样本统计量估计未知的总体参数。参数估计的基本原理参数估计的基本原理实践中往往只能抽取一次样本,根据一个具体样本计算得到的估计量的取值就称为估计值估计值(estimate)。一般地,通常用 表示总体参数,用 表示估计量。为便于区分,各类常见的总体参数和相应的估计量符号如表6-1所示。总体参数估计量均值方差2s2标准差s比例p表表6-1 常见的总体参数和相应的估计量符号常见的总体参数和相应的估计量符号xx参数估计的基本原理参数
3、估计的基本原理直接将基于某个特定样本计算出来的估计量的取值作为总体参数的估计值的方法就称为点估计点估计(point estimation)。理论上而言,根据一个特定样本计算出来的估计值恰好等于总体参数真实取值的概率是很小的,并且如果能够重复多次抽样,每次抽样计算出来的点估计值也都可能不一样,这是由抽样的随机性所决定的。因此,讨论一个具体的点估计值的可靠性是没有意义的,我们应该根据一些标准来选择合适的点估计量,也就是确定合适的计算点估计值的方法。参数估计的基本原理参数估计的基本原理统计学中常用的评价估计量好坏的标准主要包括无偏性、有效性和一致性。一般地,无偏性无偏性(unbiasedness)是
4、指估计量抽样分布的期望值等于被估计的总体参数。在同一个总体参数的多个无偏估计量中,人们更倾向于选择方差更小的估计量。有效性有效性(efficiency)指的就是估计量的方差大小。一致性一致性(consistency)是指随着样本量的增大,点估计量的值越来越接近被估计的总体参数。参数估计的基本原理参数估计的基本原理为了提供比点估计更多的信息,并且能够给出估计的可靠性,人们更多地会选择区间估计的方法。区间估计区间估计(interval estimation)是在点估计的基础上给出总体参数的一个估计区间,该区间通常是由样本统计量加减边际误差边际误差(margin of error)构造得到。与此同时
5、,通常用置信水平置信水平(confidence level,也称置信度置信度)来度量区间估计的可靠性,记作1-。参数估计的基本原理参数估计的基本原理基于样本统计量构造出的一定置信水平下的总体参数的估计区间也称为置信区间置信区间(confidence interval)。区间的最小值称为置信下限,最大值称为置信上限,置信区间的宽度即为置信上限和置信下限的差值。参数估计的基本原理参数估计的基本原理虽然人们习惯将置信水平通俗地理解为所构造的置信区间包含总体参数真值的概率,但严格来说,总体参数的真值是固定的(虽然未知),根据一个特定样本最终计算出来的置信区间也是固定的,因此该区间要么包含总体参数的真值
6、,要么不包含,并无概率可言。实际上,置信水平也是一个针对大量重复抽样的渐近概念。如果重复多次抽样,根据每次抽样结果计算出来的具体的置信区间不尽相同,置信水平表示的是在重复抽样情况下按特定方法构造的大量置信区间中包含总体参数真值的区间个数所占的比例。第第 6 6 章章 参数估计参数估计6.2 6.2 一个总体参数的区间估计一个总体参数的区间估计总体总体均值均值的区间估计的区间估计在对总体均值进行区间估计时,需要考虑总体是否服从正态分布、总体方差是否已知、用于估计的样本是大样本(n30)还是小样本(n30)等几种不同情况。但无论是哪种情况,通常选择的点估计量都是样本均值 ,在此基础上,根据 的抽样
7、分布计算指定置信水平下的边际误差,再由样本均值加减边际误差得到相应的置信区间。xxx由于在上述任一种情况下,的抽样分布都是左右对称的,因此总体均值的1-置信水平下的置信区间一般表达式为x (/2上侧分位数 的标准误差)x总体总体均值均值的区间估计的区间估计在大样本(n30)情况下,无论总体是否服从正态分布,由中心极限定理可知,样本均值 都近似服从正态分布,且均值为,标准误差为 。那么,经过标准化后得到的 就近似服从标准正态分布N(0,1)。当总体方差2已知时,总体均值在1-置信水平下的置信区间为xxn/nxz/nzx2/其中,为标准正态分布的/2上侧分位数,和 分别为置信上限和置信下限。2/z
8、nzx2/nzx2/总体总体均值均值的区间估计的区间估计当总体方差2未知时,用样本方差s2代替2,的抽样分布不变,这时,总体均值在1-置信水平下的置信区间为x其中,和 分别为置信上限和置信下限。nszx2/nszx2/nszx2/总体总体均值均值的区间估计的区间估计【例【例6.1】某款饮料的生产商在超市随机抽取了100位购买该饮料的消费者,记录下其年龄数据如表6-2所示。试构造该款饮料所有消费者平均年龄的95%置信区间。2024191726182021162222261828222425192820202019232322182625221816222426222619202320252517
9、1623232426182726231918202222172416162025242619182322202225171823262020192419202221211824232617212523181620222021表表6-2 某款饮料的某款饮料的100位消费者年龄数据位消费者年龄数据 单位:岁单位:岁总体总体均值均值的区间估计的区间估计解:解:根据题意,需要构造该款饮料所有消费者平均年龄即总体均值的95%置信区间。样本量n=100,=0.05,总体方差未知,因此用样本均值 作为估计量,用样本标准差s代替。根据表6-2中的样本数据计算得到:=21.44,s=3.13,使用Excel中的
10、【NORM.S.INV】函数计算得到z0.025=1.96,代入公式得到即该款饮料所有消费者平均年龄的95%置信区间为20.8322.05岁。0.6121.441003.131.9621.44xx总体总体均值均值的区间估计的区间估计在小样本(n30)情况下,需要假设总体服从正态分布。当总体方差2已知时,样本均值 同样服从均值为,标准误差为 的正态分布,此时总体均值在1-置信水平下的置信区间仍然为xn/nzx2/其中,为t(n-1)分布的/2上侧分位数,和 分别为置信上限和置信下限。但当总体方差2未知时,用样本方差s2代替2,经过标准化后得到的 则服从自由度为n-1的t分布。这时,总体均值在1-
11、置信水平下的置信区间为xnsxt/nstx2/2/tnstx2/nstx2/总体总体均值均值的区间估计的区间估计【例【例6.2】某食品生产企业生产的薯片标注每袋重量为150克,质检机构从其生产的一批产品中随机抽取了25袋,并测量每袋薯片的重量数据如表6-3所示。假定该批薯片的重量服从正态分布,试构造该批薯片平均重量的90%置信区间。150.5151.0149.8150.2150.0148.5151.2153.0147.0150.9147.6152.3150.0148.0149.7153.4151.0146.9152.0151.6150.7149.0148.8152.1153.2表表6-3 随机
12、抽取的随机抽取的25袋薯片重量数据袋薯片重量数据 单位:克单位:克总体总体均值均值的区间估计的区间估计解:解:根据题意,需要构造该批薯片平均重量即总体均值的90%置信区间。样本量n=25,=0.1,总体服从正态分布但方差未知,因此用样本均值 作为估计量,用样本标准差s代替。根据表6-3中的样本数据计算得到:=150.34,s=1.85,使用Excel中的【T.INV】函数计算得到t0.05(24)=1.71,代入公式得到即该批薯片平均重量的90%置信区间为149.71150.97克。xx63.034.1502585.171.134.150总体总体比例比例的区间估计的区间估计从一般性来看,通过样
13、本数据的调查(样本量为n)来估计总体中具有某一类特征的个体所占的比例,相当于做了n次伯努利试验,每次试验的结果只有两种可能,要么具有该类特征(记为“成功”),要么不具有该类特征(记为“失败”)。因此,在大样本情况下,抽取的样本数据中具有指定特征的个体所占的比例p也近似服从正态分布,且均值等于总体比例(即每次试验成功的概率),标准误差等于 。那么,样本比例p经过标准化后得到的 就近似服从标准正态分布N(0,1)。总体比例的1-置信水平下的置信区间一般表达式为n/)1(npz/)1(p(/2上侧分位数p的标准误差)总体总体比例比例的区间估计的区间估计与大样本情况下总体均值的区间估计类似,由于总体比
14、例未知,用样本比例p代替标准误差中的,最后得到总体比例在1-置信水平下的置信区间为其中,和 分别为置信上限和置信下限。nppzp)1(2/nppzp)1(2/nppzp)1(2/总体总体比例比例的区间估计的区间估计【例【例6.3】某电视频道想要估计旗下一档王牌节目的观众中女性所占的比例,为此随机调查了100名观众,其中72人为女性。试构造该档节目所有观众中女性比例的99%置信区间。解:解:根据题意,需要构造该档节目所有观众中女性比例即总体比例的99%置信区间。样本量n=100,=0.01,样本比例p=0.72,使用Excel中的【NORM.S.INV】函数计算得到z0.005=2.58,代入公
15、式得到1158.072.0100)72.01(72.058.272.0即该档节目所有观众中女性比例的99%置信区间为60.42%83.58%。总体总体方差方差的区间估计的区间估计要构造总体方差2的置信区间,自然想到选择样本方差s2作为估计量。在总体服从正态分布的假定下,可以证明 服从自由度为n-1的 分布。依据 分布的概率密度曲线可得其中,和 分别为(n-1)分布的1-/2上侧分位数和/2上侧分位数。和 即为总体方差2在1-置信水平下的置信区间上下限。22)1(sn21)1()1(22/12222/2snsnP222/122/222/12)1(sn22/2)1(sn总体总体方差方差的区间估计的
16、区间估计【例【例6.4】沿用例6.2,试构造该批薯片重量方差的90%置信区间。解:解:根据题意,需要构造该批薯片重量方差即总体方差2的90%置信区间。样本量n=25,=0.1,总体服从正态分布,基于表6-3中的样本数据已经计算得到s=1.85,使用Excel中的【CHISQ.INV.RT】函数可以计算得到 (24)=36.42,(24)=13.85,代入公式得到总体方差2在90%置信水平下的置信区间为即该批薯片重量方差的90%置信区间为2.265.93。)85.1385.124,42.3685.124(22205.0295.0第第 6 6 章章 参数估计参数估计6.3 6.3 两两个总体参数的
17、区间估计个总体参数的区间估计两个总体均值之差的区间估计两个总体均值之差的区间估计设两个总体的均值分别为1和2,从两个总体中分别抽取样本量为n1和n2的两个随机样本,其样本均值分别为 和 。与一个总体均值的区间估计类似,通常选择两个样本均值之差()作为两个总体均值之差(1-2)的估计量,并在此基础上构建两个总体均值之差(1-2)的1-置信水平下的置信区间一般表达式为 ()(/2上侧分位数()的标准误差)1x2x21xx 21xx 21xx 具体地,需要考虑独立大样本、独立小样本以及配对样本三种不同情况。两个总体均值之差的区间估计两个总体均值之差的区间估计如果两个样本是从两个总体中独立随机抽取的,
18、即一个样本中的元素与另一个样本中的元素相互独立,且均为大样本(n130,n230),可以证明,两个样本均值之差()近似服从正态分布,且均值为(1-2),标准误差为 。那么,()经过标准化后得到的就近似服从标准正态分布N(0,1)。当两个总体方差21和22已知时,两个总体均值之差(1-2)在1-置信水平下的置信区间为当两个总体方差21和22未知时,分别用两个样本方差s21和s22代替,两个总体均值之差(1-2)在1-置信水平下的置信区间为21xx 21xx 222121/nn2221212/21)(nnzxx2221212/21)(nsnszxx两个总体均值之差的区间估计两个总体均值之差的区间估
19、计【例【例6.5】某连锁快餐店分别在一个高校集中区域和一个商务写字楼区域开设了两家分店,为了估计两家店日平均营业额的差值,试营业期间随机抽取了两家店60天的营业额数据(单位:万元),计算得到相关样本信息如表6-4所示。假设两家店的营业互不影响,试构造其日平均营业额之差的95%置信区间。分店1分店2n1=60n2=60=1.24=0.98s1=0.16s2=0.101x2x表表6-4 两家分店日营业额样本数据信息两家分店日营业额样本数据信息两个总体均值之差的区间估计两个总体均值之差的区间估计解:解:根据题意,需要构造两家分店日平均营业额之差即总体均值之差(1-2)的95%置信区间。随机抽取了两个
20、独立大样本,样本量n1=n2=60,=0.05,两个总体方差未知,因此用两个样本均值之差()作为估计量,用两个样本方差s21和s22分别代替总体方差21和22。使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,与表6-4中的已知信息一并代入公式得到即这两家分店日平均营业额之差的95%置信区间为0.210.31万元。21xx 05.026.0601.016.096.1)98.024.1(22两个总体均值之差的区间估计两个总体均值之差的区间估计假定两个总体都服从正态分布,分别从两个总体中独立随机抽取两个小样本(n130,n230),当两个总体方差21和22已知时,两个样
21、本均值之差()近似服从均值为(1-2),标准误差为 的正态分布。因此,两个总体均值之差(1-2)的1-置信水平下的置信区间仍然为当两个总体方差21和22未知时,则需要进一步区分以下两种情形。21xx 222121/nn2221212/21)(nnzxx两个总体均值之差的区间估计两个总体均值之差的区间估计当两个总体方差21和22未知但相等时,即21=22=2,需要利用两个样本方差来合并估计总体方差,记为s2p,具体公式为用s2p代替21和22,两个样本均值之差()经过标准化后得到的 服从自由度为(n1+n2-2)的t分布。这时,两个总体均值之差(1-2)在1-置信水平下的置信区间为2)1()1(
22、212222112nnsnsnsp21xx 212121/1/1)()(nnsxxtp)11()2()(212212/21nnsnntxxp两个总体均值之差的区间估计两个总体均值之差的区间估计当两个总体方差21和22未知且不相等时,分别用两个样本方差s21和s22代替总体方差21和22,两个样本均值之差()经过标准化后得到的 服从自由度为v的t分布,自由度v的计算公式为这时,两个总体均值之差(1-2)在1-置信水平下的置信区间为21xx 2221212121/)()(nsnsxxt1)/(1)/()/(22222121212222121nnsnnsnsnsv2221212/21)()(nsns
23、vtxx两个总体均值之差的区间估计两个总体均值之差的区间估计【例【例6.6】某超市购进了一台自助结账机,为估计人工结账和自助结账完成每笔交易平均所需时间的差值,该超市随机调查了20笔人工结账和20笔自助结账交易所花时间,样本数据如表6-5所示。假设人工结账和自助结账互不影响,两种方式下每笔交易所需时间的方差21和22未知,试分别构造(1)21=22;(2)2122情形下人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间。人工结账4055706358743546688060525768457655496167自助结账3546325149543044485837284255604952
24、333945表表6-5 6-5 某超市某超市2020笔人工结账和自助结账交易所花时间笔人工结账和自助结账交易所花时间 单位:秒单位:秒两个总体均值之差的区间估计两个总体均值之差的区间估计解:解:根据题意,需要构造人工结账和自助结账完成每笔交易平均所需时间之差即总体均值之差(1-2)的95%置信区间。随机抽取了两个独立小样本,样本量n1=n2=20,=0.05。根据表6-5中的样本数据计算得到:=58.95,=44.35,s21=147.94,s22=91.08。使用Excel中的【T.INV】函数计算得到t0.025(38)=2.02,一并代入公式得到21xx 1x2x(1)假定两个总体方差未
25、知但相等,因此用两个样本均值之差()作为估计量,将两个样本方差s21和s22代入公式得到51.1192202008.91)120(94.147)120(2ps98.66.14)201201(51.11902.2)35.4495.85(即人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间为7.6221.58秒。两个总体均值之差的区间估计两个总体均值之差的区间估计使用Excel中的【T.INV】函数计算得到t0.025(35.96)=2.03,一并代入公式得到21xx(2)假定两个总体方差未知且不相等,因此用两个样本均值之差()作为估计量,将两个样本方差s21和s22分别代替总体方差2
26、1和22,根据公式计算得到抽样分布的自由度96.35120)20/08.91(120)20/94.147()20/08.9120/94.147(222v02.76.14)2008.912094.14703.2)35.4495.85(即人工结账和自助结账完成每笔交易平均所需时间之差的95%置信区间为7.5821.62秒。两个总体均值之差的区间估计两个总体均值之差的区间估计为了排除其他因素对所观察的变量可能产生的干扰,提高两个总体均值的可比性,有时候会将试验对象按照某些重要特征相近的原则进行配对设计(或者直接对同一组试验对象先后进行两次不同的试验),再获取相应的样本数据,这就是配对样本。在配对样本
27、中,两个样本的数据是一一对应的,两个样本的样本量n1=n2=n,因此用d表示两两配对数据的差值(即x1-x2),表示各差值的均值,两个总体配对差值的方差记为 ,两个样本配对差值的方差记为 。d2d2ds两个总体均值之差的区间估计两个总体均值之差的区间估计在大样本条件下,近似服从正态分布,且均值为(1-2),标准误差为 ,两个总体均值之差(1-2)在1-置信水平下的置信区间为在小样本条件下,假定两个总体的配对差值服从正态分布,当 已知时,构造的置信区间与上式一致;当 未知时,用 代替,此时,经过标准化后得到的 服从自由度为(n-1)的t分布。因此,两个总体均值之差(1-2)在1-置信水平下的置信
28、区间为dnd/nzdd2/当 未知时,可用 代替。2d2ds2d2d2dsdnsdtd/)(21nsntdd)1(2/两个总体均值之差的区间估计两个总体均值之差的区间估计【例【例6.7】从某高校随机抽取10名学生,先后采用A、B两套试卷对其进行测试,每名学生的两次测试成绩如表6-6所示。假定总体上两套试卷的测试成绩之差服从正态分布,试构造两套试卷平均测试成绩之差的95%置信区间。学生编号试卷A试卷B差值d17871726344193726111489845591741764951-27685513876601698577810553916表表6-6 某高校某高校10名学生两套试卷测试成绩名学生
29、两套试卷测试成绩 单位:分单位:分两个总体均值之差的区间估计两个总体均值之差的区间估计解:解:根据题意,需要构造两套试卷平均测试成绩之差即总体均值之差(1-2)的95%置信区间,由于是对同一组同学先后采用两套试卷进行测试,因此,这是典型的配对样本。样本量n1=n2=n=10,=0.05。根据表6-6中的样本数据计算得到:使用Excel中的【T.INV】函数计算得到t0.025(9)=2.26,一并代入公式得到即两套试卷平均测试成绩之差的95%置信区间为6.3315.67分。11101101nddnii53.61)(12nddsniid67.4111053.626.211两个总体两个总体比例比例
30、之差的区间估计之差的区间估计与一个总体比例的区间估计类似,要构造两个总体比例之差(1-2)的置信区间,通常选择两个样本比例之差(p1-p2)作为其估计量,在独立大样本(n130,n230)条件下,(p1-p2)近似服从正态分布,且均值等于总体比例之差(1-2),标准误差等于 ,两个样本比例之差经过标准化后就近似服从标准正态分布。由于两个总体比例1和2是未知的,分别用样本比例p1和p2代替,得到两个总体比例之差(1-2)在1-置信水平下的置信区间为222111/)1(/)1(nn2221112/21)1()1()(nppnppzpp两个总体两个总体比例比例之差的区间估计之差的区间估计【例【例6.
31、8】某保险公司拟开发一款新型寿险产品,为了解两个不同城市潜在消费者的购买意愿,在第一个城市随机调查了200人,其中40%的人明确表示有购买意愿;在第二个城市随机调查了300人,其中25%的人明确表示有购买意愿。试构造两个城市中有意愿购买该款寿险产品的消费者所占比例之差的99%置信区间。解:解:根据题意,需要构造两个城市中有意愿购买该款寿险产品的消费者所占比例之差即总体比例之差(1-2)的99%置信区间。样本量n1=200,n2=300,样本比例p1=0.4,p2=0.25,=0.01,使用Excel中的【NORM.S.INV】函数计算得到z0.005=2.58,代入公式得到1102.015.0
32、300)25.01(25.0200)4.01(4.058.2)25.04.0(即两个城市中有意愿购买该款寿险产品的消费者所占比例之差的99%置信区间为3.98%26.02%。两个总体两个总体方差之比方差之比的区间估计的区间估计如果要构造两个总体方差之比(21/22)的置信区间,通常会选择样本方差之比(s21/s22)作为估计量。可以证明,当两个总体均服从正态分布时,服从自由度为n1-1和n2-1的F分布。依据F分布的概率密度曲线可得其中,和 分别为F(n1-1,n2-1)分布的1-/2上侧分位数和/2上侧分位数,和 即为两个总体方差之比(21/22)在1-置信水平下的置信区间上下限。21222
33、221ss1/2/1222122212/2221FssFssP2/1F2/F2/12221/Fss2/2221/Fss两个总体两个总体方差之比方差之比的区间估计的区间估计【例【例6.9】沿用例6.5,假定两家分店日营业额均服从正态分布,试构造其总体方差之比的95%置信区间。解:解:根据题意,需要构造两家分店日营业额总体方差之比(21/22)的95%置信区间。样本量n1=n2=60,s1=0.16,s2=0.10,=0.05,两个总体均服从正态分布,使用Excel中的【F.INV.RT】函数可以计算得到F0.025(59,59)=1.674,F0.975(59,59)=0.597,代入公式得到两
34、个总体方差之比(21/22)在95%置信水平下的置信区间为即两家分店日营业额总体方差之比的95%置信区间为1.534.29。)597.01.0/16.0,674.11.0/16.0(2222第第 6 6 章章 参数估计参数估计6.4 6.4 样本量的确定样本量的确定样本量的确定样本量的确定理想情况下我们总是希望构造一个置信水平较高而宽度又较窄的置信区间。但从上述构造置信区间的过程中不难发现,当样本量固定的时候,设定一个较高的置信水平计算得到的置信区间也较宽,想要得到一个较窄的置信区间,相应的置信水平又会偏低。只有增加样本量,才能在固定的置信水平下缩小置信区间的宽度,或在固定的置信区间宽度下提高
35、置信水平。因此,人们可以根据可接受的区间宽度和置信水平来计算所需的样本量,或者在最大样本量的允许条件下,寻求置信水平和置信区间宽度之间的平衡。估计总体均值时样本量的确定估计总体均值时样本量的确定1.一个总体均值的估计一个总体均值的估计一个总体均值的置信区间通常表示为样本均值加减边际误差,因此边际误差的大小决定了置信区间的宽度,而置信水平1-和样本量n共同决定了边际误差的大小。令E代表实践中可接受的边际误差,在大样本情况下 ,变化得到这样,对于给定的置信水平和允许的边际误差,就可以确定所需的样本量。如果总体方差2未知,可以用以往类似的样本或预调查的样本方差s2代替。nzE2/22/Ezn估计总体
36、均值时样本量的确定估计总体均值时样本量的确定【例【例6.10】假定某城市的上班族每天乘坐地铁到达工作单位所花时间的标准差为20分钟,要构造其平均时间的95%置信区间,允许的边际误差为5分钟,试计算所需的样本量。解:解:根据题意,已知=20,E=5,使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,代入公式得到即调查的样本量应为62。6247.6152096.12n估计总体均值时样本量的确定估计总体均值时样本量的确定2.两个总体均值之差的估计两个总体均值之差的估计两个总体均值之差的置信区间通常表示为两个样本均值之差加减边际误差,在独立大样本情况下 ,假定抽取两个样本量
37、相同的样本,变化得到同样地,当两个总体方差21和22未知时,可以分别用以往类似的样本或预调查的样本方差s21和s22代替。2221212/nnzE2222122/21)()(Eznn估计总体均值时样本量的确定估计总体均值时样本量的确定【例【例6.11】某研究机构想要估计“双十一”消费者在两个购物网站上平均消费支出差值的95%置信区间,根据过去一年的调查数据显示消费者在两个购物网站上消费支出的标准差分别为500元和600元,现允许的边际误差为200元,假定新一轮计划调查的两个网站的消费者人数相同,试计算各自所需的样本量。解:解:根据题意,已知s1=500,s2=600,E=200,z0.025=
38、1.96,代入公式得到即两个网站调查的样本量均为59。5958.58200)600500(96.1222221 nn估计总体估计总体比例比例时样本量的确定时样本量的确定1.一个总体一个总体比例比例的估计的估计在大样本情况下,一个总体比例的置信区间通常表示为样本比例加减边际误差,且 ,变化得到这样,对于给定的置信水平和允许的边际误差,就可以确定所需的样本量。nzE)1(2/222/)1()(Ezn一般来说,比例估计的边际误差E应小于10%。由于总体比例未知,可以用以往类似的样本或预调查的样本比例p代替。估计总体估计总体比例比例时样本量的确定时样本量的确定【例【例6.12】某城市食品监督管理部门想
39、要估计中秋节期间上市销售的月饼合格率的95%置信区间,根据过去一年的抽检数据显示月饼合格率约为96%,现允许的边际误差为3%,试计算新一轮抽检所需的样本量。解:解:根据题意,已知p=0.96,E=0.03,z0.025=1.96,代入公式得到即抽检的样本量应为164。16491.16303.0)96.01(96.096.122n估计总体估计总体比例比例时样本量的确定时样本量的确定2.两个总体比例之差的估计两个总体比例之差的估计在独立大样本情况下,且两个总体比例1和2未知时,假定抽取两个样本量相同的样本,变化得到其中,p1和p2分别是用以往类似的样本或预调查的样本估计得到的两个样本比例。2221
40、112/)1()1(nppnppzE2221122/21)1()1()(Eppppznn估计总体估计总体比例比例时样本量的确定时样本量的确定【例【例6.13】某大学分别面向经济类专业和管理类专业本科生开设了两个班次的统计学选修课程,教务部门想要估计两个专业学生中愿意选修这门课程的学生所占比例差值的95%置信区间。根据上学年的调查数据显示选修人数的比例分别为80%和75%,现允许的边际误差为10%,假定新一轮计划调查的两个专业的学生人数相同,试计算各自所需的样本量。解:解:根据题意,已知p1=0.8,p2=0.75,E=0.1,z0.025=1.96,代入公式得到即两个专业调查的样本量均为134
41、。1345.1331.0)75.01(75.0)8.01(8.096.12221 nn第第 6 6 章章 参数估计参数估计6.5 6.5 小结小结小结小结参数估计是用样本统计量估计未知的总体参数,用于估计总体参数的样本统计量就称为估计量。同一个总体参数的估计量并不唯一,常用的选择标准包括无偏性、有效性和一致性。如果直接将基于某个特定样本计算出来的估计量的取值作为总体参数的估计值,即为点估计;区间估计则是在点估计的基础上给出总体参数的一个估计区间,该区间通常是由样本统计量加减边际误差构造得到,并用置信水平度量区间估计的可靠性。小结小结基于样本统计量构造出的一定置信水平下的总体参数的估计区间也因此称为置信区间。当样本量固定时,设定一个较高的置信水平计算得到的置信区间也较宽,想要得到一个较窄的置信区间,相应的置信水平就会偏低。人们往往会根据可接受的区间宽度和置信水平来计算所需的样本量,或者在最大样本量的允许条件下,寻求置信水平和置信区间宽度之间的平衡。