1、统计学-ch7 suyl1第七章参数估计第七章参数估计点估计区间估计抽样估计的进一步讨论统计学-ch7 suyl2l 数理统计的基本问题之一是根据样本所提供的信息,对总体的分布以及分布的数字特征做出统计推断。通过样本估计总体未知参数的方法主要包括参数估计和非参数估计法。这里的参数可以是总体分布中的未知参数,也可以是总体的某个数字特征。参数估计通常是通过构造样本的函数样本统计量来实现的。统计学-ch7 suyl3参数估计示意图总体总体样样本本统计量统计量描述描述作出推断作出推断统计量是进行参数估计的关键统计量是进行参数估计的关键.不同的参数估计不同的参数估计方法得到的统计量可能不同方法得到的统计
2、量可能不同.在这里在这里,我们介绍两我们介绍两种常用的参数估计方法种常用的参数估计方法:点估计法和区间估计法点估计法和区间估计法.随机抽样随机抽样统计学-ch7 suyl4点估计概念点估计概念求点估计量的两种方法求点估计量的两种方法统计学-ch7 suyl5,其中,其中7.1.1 点估计概念点估计概念随机抽查随机抽查5050天的销售金额(单位:万元):天的销售金额(单位:万元):30,27,26,38,35,22,41 呢呢?据此据此,我们应如何估计我们应如何估计和和而全部信息就由这而全部信息就由这50个数组成个数组成.例例 某商场每日销售金额某商场每日销售金额X X2(,)N u 2,u 未
3、知未知7.1 点估计点估计统计学-ch7 suyl6设总体设总体X的分布的函数的形式为已知的分布的函数的形式为已知(如正态分布、泊松如正态分布、泊松分布等分布等),但它的一个或多个参数未知,借助总体,但它的一个或多个参数未知,借助总体X的一的一个样本来估计总体未知参数的值的问题,称为参数的个样本来估计总体未知参数的值的问题,称为参数的点估计点估计问题。问题。统计学-ch7 suyl7如何寻找样本统计量?如何寻找样本统计量?有很多方法都可以用来构造样本统有很多方法都可以用来构造样本统计量,比如矩估计法、极大似然估计法、计量,比如矩估计法、极大似然估计法、最小二乘估计法、顺序统计量法最小二乘估计法
4、、顺序统计量法 这里,我们主要介绍矩估计法和极这里,我们主要介绍矩估计法和极大似然估计法。大似然估计法。统计学-ch7 suyl87.1.2 矩估计法矩估计法统计学中,矩是指以期望值为基础而定义的数字特征,如数学期望、方差、协方差等。矩估计法是英国统计学家K.皮尔逊最早提出来的,其理论基础是大数定理。统计学-ch7 suyl9矩估计法的基本思想就是:矩估计法的基本思想就是:样本均值样本均值1niiXXn 是一阶样本矩是一阶样本矩,总体均值总体均值E(X)是一阶是一阶 总体矩。总体矩。把样本矩作为相应的总体矩的估计量把样本矩作为相应的总体矩的估计量就是把一阶就是把一阶样本矩样本矩 作为一阶作为一
5、阶总体矩总体矩的估计量的估计量.X作为作为E(X)E(X)的估计量的做法的估计量的做法,将将推广这种做法推广这种做法,把把二阶样本矩二阶样本矩作为二阶作为二阶总体矩总体矩的估计量的估计量,把三阶样本矩作为三阶总体矩的估计量把三阶样本矩作为三阶总体矩的估计量,.,.这种方法就是这种方法就是矩估计法矩估计法.统计学-ch7 suyl10矩估计法的一般步骤如下:l设总体的分布中包含 个未知参数,则其分布函数可以表示为 。若总体 X 的 阶原点矩 l存在,l且为的函数,记为 。l分别用样本的k阶原点矩 去估计总体的K阶原点矩,即l l 12,k k k kk12(;,.,)kF x k k kk()k
6、kE X12,kk nXniki/11211,.,1,2,nkkkiiXikn 统计学-ch7 suyl11 l上式确定了包含个未知参数的个方程式,即有下列方程组l l l l解联立方程组,就可得到未知参数 的矩估计量l它是样本的函数。将样本观测值 代入矩估计量,即得到 的矩估计值 。111()(6.2)1()niinkkiiE XXnE XXni12,.,iinXXX 12,.,nx xxi12,.,iinx xx 统计学-ch7 suyl12例例1 1 设总体设总体X X的均值的均值 及方差及方差 2 均存在均存在 ,且且 2 0,0,但但 均为未知均为未知.又设又设 是一个样本是一个样本
7、,试求试求 2、的估计量的估计量.、12,.,nXXX2 解解 总体的一阶矩及二阶矩分别为总体的一阶矩及二阶矩分别为1(),E X22()E X 222()()D XE X 样本的一阶矩和二阶矩分别为样本的一阶矩和二阶矩分别为111,niiAXXn 2211niiAXn 令令1122AA 即即X 22211niiXn 统计学-ch7 suyl13解得解得,X 22211niiXn 2211niiXnXn 211niiXXn 2211niiXXn 2.nS 统计学-ch7 suyl14例例2 2 设总体设总体X X服从二点分布服从二点分布X X 0 1 0 1P P 1-1-P PP P其中其中
8、00P10,有 则称 是参数的一致估计量。一致估计量是大样本所呈现的性质。若某个估计量是待估参数的一致估计量,意味着样本容量很大时,估计量和待估参数接近的可能性几乎等于100%。lim|1nP 统计学-ch7 suyl51无偏估计量直接比较方差大小统计学-ch7 suyl52nXXX,217.2.1 区间估计的概念设是来自总体的一个样本,是总体未知参数。对给定的,如能确定两个统计量 和 ,满足)10(121P则称为置信度或置信概率,是的置信度的置信区间,称为显著性水平。置信度可以用频率来说明。如果是置信度 0.95 置信区间,当从总体中多次取样本容量为 n 的样本时,则每次可得到一个置信区间,
9、这些置信区间有的包含,而有的则不包含,但平均来说,包含的置信区间的频率应在 0.95 附近波动。),(21111),(21127.2 区间估计统计学-ch7 suyl53评价区间估计的两个标准:估计的可靠度。置信度1-反映了区间估计的可信度。置信水平 =0.95,说明估计区间 以95%的概率包含总体的参数。或者说,100个这样的估计区间中,平均有95个包含了总体参数;估计的精确度。区间的长度 反映了区间估计的精确度。当区间的长度愈大,估计区间包含真值的可能性也就愈大,但是估计也愈不精确。可靠度和精确度是相互矛盾的。112(),21()-统计学-ch7 suyl54估计的可靠度。估计的可靠度。置
10、信度 反映了区间估计的可信度。置信水平 =0.95,说明估计区间 以95%的概率包含总体的参数。或者说,100个这样的估计区间中,平均有95个包含了总体参数;121,1统计学-ch7 suyl55统计学-ch7 suyl56 区间的长度:(上限下限)区间的半径:(上限下限)/2 反映了区间估计的精确度。当区间的长度愈大,虽然估计区间包含真值的可能性愈大,但是估计却不精确。估计的精确度估计的精确度统计学-ch7 suyl57 可靠度和精确度是相互矛盾的。当其中之一确定时可靠度和精确度是相互矛盾的。当其中之一确定时,扩大样本容量可以改善另一个。,扩大样本容量可以改善另一个。统计学-ch7 suyl
11、58步骤:首先,构造一个与待估计参数有关的统计量T;其次,找出统计量的分布,在一定的置信水平下,给出临界值;最后,计算总体参数的置信区间。统计学-ch7 suyl59抽样平均误差l估计量的标准差也称为抽样平均误差。样本均值的标准差=均值的抽样平均误差nnXDx2)(在不重复抽样条件下,均值的抽样平均误差的计算公式为:)1()1()(22NnnNnNnXDxNnNnN11不重复抽样修正系数统计学-ch7 suyl60抽样极限误差nZx2/l一定置信水平下抽样误差的可能范围,称为抽样极限误差或允许误差。1-置信水平下,均值的抽样极限误差:l重复抽样条件下l不重复抽样条件下)1(22/NnnZx统计
12、学-ch7 suyl61(1)总体方差2(或总体标准差)。其它条件不变的条件下,总体差异程度大,抽样误差大。(2)样本容量n(Sample size;抽样数目)抽样数目).其它条件不变的条件下,n 愈大,抽样误差愈小影响抽样误差的因素统计学-ch7 suyl62(3)抽样方法。重复抽样的抽样平均误差较大;抽样比例很小时,修正系数接近于,重复抽样与不重复抽样的抽样误差相差很小l对于无限总体,无论采用重复还是不重复抽样,都可用重复抽样的抽样误差公式来度量抽样误差;l对于有限总体,当抽样比例很小时(小于5%),抽样误差常常都可采用重复抽样的公式来计算。影响抽样误差的因素(续)统计学-ch7 suyl
13、63(4)估计的置信度(1-)抽样平均误差不受置信度大小影响在其他条件相同的情况下,抽样估计的置信水平越高,抽样极限误差越大。(5)抽样组织方式。不同抽样组织方式有不同的抽样误差影响抽样误差的因素(续)统计学-ch7 suyl64样本均值的抽样分布样本均值的抽样分布:则:则:)/,(2nNXX02Z2ZZ/2 /2nZ2nZ21.大样本时总体均值的置信区间)1,0(/NnXZ7.2.2 单个总体参数区间估计的方法统计学-ch7 suyl65总体均值的置信区间由此可得,在(由此可得,在(1)置信度下,)置信度下,总体均值总体均值的的置信区间置信区间可表示为:可表示为:或:或:1/|2/2/2/Z
14、nXZPZnXP1/2/2/nZXnZXP)/,/(2/2/nZXnZX)/(2/nZX统计学-ch7 suyl66某专业大学生的体重服从标准差为5.4kg的正态分布。随机抽取36名,测得他们的平均体重为65kg。在95%的置信度下,对总体平均体重进行估计的抽样平均误差和抽样极限误差为多少?并求其置信区间。)kg(764.19.096.1例1)kgnx(9.0364.5【解】【解】:xxZ2抽样平均误差:抽样平均误差:抽样极限误差抽样极限误差:总体平均体重的置信区间总体平均体重的置信区间:(:(65-1.764,65+1.764)统计学-ch7 suyl67总体方差已知时,均值的置信区间的求解
15、步骤(1)假定条件总体服从正态分布,且总体方差(2)已知如果非正态分布,n 30,可以由正态分布来近似(2)枢轴量为正态变量:)1,0(NnXZ(3)在()在(1)置信度下,)置信度下,抽样极限误差抽样极限误差为:为:(4)在()在(1)置信度下,)置信度下,总体均值总体均值 的的置信区间置信区间为:为:xZ2/)(2/nZXnZx2/)(xX即统计学-ch7 suyl68 因此,给定置信度因此,给定置信度(1-),根据根据 t 分布表可得临界值分布表可得临界值 t/2。于是有:于是有:)1(/ntnSXt枢轴量为枢轴量为 t 统计量:统计量:2.小样本时总体均值的区间估计02t2tt/2Xn
16、St/2nSt/2nStx2/统计学-ch7 suyl69)(xX2.总体方差 未知时,均值的置信区间(1)假定条件总体服从正态分布总体方差(2)未知(2)枢轴量为t 分布变量:(3)总体均值)总体均值 在(在(1)置信度下的)置信度下的 抽样极限误差抽样极限误差 和和 置信区间置信区间 为:为:nStx2/(4)大样本条件下,也可由正态分布近似。)大样本条件下,也可由正态分布近似。)1(ntnSXt)(2/nStX即统计学-ch7 suyl70假定某商场某袋装食品总量呈正态分布,现随机抽取10袋,测得重量分别为789、780、794、762、802、813、770、785、810、806(克
17、),要求以95的置信度,估计这批食品平均每袋重量的区间范围。解:解:已知 n=10,1-=0.95,查表得:t/2(n-1)=t0.025(9)2.2622。由样本数据算得:样本均值=791.1,s=17.1361 12 2.2 26 61 10 01 17 7.1 13 36 62 2.2 26 62 22 2n nS St t 2 2 x x),(xxxx=(791.1-12.26,791.1+12.26)即(即(778.84,803.36)克。)克。例2统计学-ch7 suyl71某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量
18、为35件,产量的样本标准差为4.5件,试以95.45%的置信度估计总体人均产量以及总产量的置信区间。例【解】已知【解】已知 N=1000,n=100,1-=0.9545,5.4,35SX22/z统计学-ch7 suyl72xxZ2/350.86 350.86 0.86例解(P.119/126)【解】已知【解】已知 N=1000,n=100,1-=0.9545,5.4,35SX22/z43.0)10001001(1005.4)1(22Nnnx总体人均产量的置信区间:总体人均产量的置信区间:总产量的置信区间:总产量的置信区间:100034.14N 100035.86统计学-ch7 suyl731.
19、1.总体方差已知时总体方差已知时:22(,)xzxznn*22(1)(1)SSxtntnnn,x 2.2.总体方差未知时总体方差未知时:总体均值的置信区间可表示为:总体均值的置信区间可表示为:xxxx小结:统计学-ch7 suyl743.总体成数(比率)的置信区间1.假定条件成数成数P是是XB(1,P)的均值的均值E(X);D(X)=P(1-P);大样本大样本n 大于大于30且且 np 和和n(1-p)都大于都大于5条件下,样本条件下,样本成数的分布可以由正态分布来近似:成数的分布可以由正态分布来近似:2.枢轴量为正态枢轴量为正态分布分布变量:变量:)1(,(nPPPNp)1,0(/)1(Nn
20、PPPpZ),(ppppnppZp)1(23.总体成数总体成数 的置信区间为:的置信区间为:统计学-ch7 suyl75估计成数时的抽样平均误差成数的抽样平均误差成数的抽样平均误差=样本成数的标准差样本成数的标准差nPPnXDnXDpDnii)1()()/()(1npp)1(nPPp)1(在不重复抽样条件下,成数的抽样平均误差为:在不重复抽样条件下,成数的抽样平均误差为:)1()1()1()1(NnnPPNnNnPPp在重复抽样在重复抽样条件下条件下统计学-ch7 suyl76估计成数时的抽样极限误差当样本量当样本量n充分大时,充分大时,成数的抽样极限误差成数的抽样极限误差为:为:(重复抽样)
21、(重复抽样)),(ppppnppZZpp)1(22/总体成数总体成数 的置信区间为:的置信区间为:(不重复抽样)(不重复抽样))1()1(22/NnnppZZpp影响因素同前统计学-ch7 suyl77 某企业对职工进行调查。随机抽查了某企业对职工进行调查。随机抽查了200人。其中有人。其中有140人平均每天看电视一小时以上。试对每天看电视人平均每天看电视一小时以上。试对每天看电视一小时以上职工的比例进行区间估计(置信度一小时以上职工的比例进行区间估计(置信度95%)解:解:已知已知 n=200,p0.7,n p=1405,n(1-p)=605,1-=0.95,/2=1.96064.0200)
22、7.01(7.096.1)1(2nppZp以以95的置信度可推断该企业的置信度可推断该企业每天看电视一小时以上每天看电视一小时以上的职工比例在的职工比例在63.6%76.4%之间。之间。),(pppp(0.7-0.064,0.7+0.064)(0.636,0.764)例统计学-ch7 suyl78例随机从60000桶罐头中抽取300桶调查,发现有6桶不合格。以95.45%的概率估计全部罐头的不合格率和不合格桶数。解:解:已知已知 n=300,p0.02,n p=6 5,n(1-p)=2945,1-=0.9545,/2=2不合格率不合格率的置信区间的置信区间为:(2-1.616,2%+1.616
23、%)不合格品总数不合格品总数的区间的区间为:(0.38460000,3.61660000)(230.4,2169.6)(单位:桶)01616.0300)02.01(02.02)1(2nppZp统计学-ch7 suyl794.正态总体方差的区间估计设总体服从正态分布,则与样本方差设总体服从正态分布,则与样本方差S2和待和待估计的总体方差估计的总体方差2 有关的枢轴量及其分有关的枢轴量及其分布为:布为:)1()1(222222nSnnSn统计学-ch7 suyl80正态总体方差的区间估计(续)置信度与卡方分布的分位数置信度与卡方分布的分位数 2 222/222/1/2)1()1(2222nSn1)
24、1()1(12222221nSnnP)(1 1-)由于 对于给定的置信度对于给定的置信度(1-),有临界值有临界值 和和 满足:满足:)1(221n)1(22n统计学-ch7 suyl81总体方差总体方差2 的置信区间:的置信区间:)()(,11)1()1(2212222nSnnSn或:或:正态总体方差的区间估计(续)(,1)1(2212222nnSnnSnn)1()1(12222221nSnn)(由得:统计学-ch7 suyl82 例,随机从某车间加工的同类零件中,随机从某车间加工的同类零件中抽取抽取16件,测得其的平均长度为件,测得其的平均长度为12.8厘厘米,方差为米,方差为0.0023
25、。假定零件的长度服。假定零件的长度服从正态分布,求方差及标准差的置信区从正态分布,求方差及标准差的置信区间(置信度为间(置信度为95)。)。统计学-ch7 suyl83 已知已知16,0.0023,1-0.95,查,查 分布表得分布表得:2s220.97512(1)(15)6.262n220.0252(1)(15)27.488n2 代入数据,可得所求方差的置信区间为代入数据,可得所求方差的置信区间为 (0.0013,0.0059)标准差的置信区间(标准差的置信区间(0.036,0.077)解:解:统计学-ch7 suyl84大样本条件下,样本标准差大样本条件下,样本标准差S S的分布趋近于正的
26、分布趋近于正态分布:态分布:其均值 E(S),其标准差(亦即S的抽样平均误差)),(/nSZSnSZS2222 )2,(2nNS所以,所以,总体标准差总体标准差的的1-的置信区间为:的置信区间为:nSS2大样本条件下总体标准差的置信区间统计学-ch7 suyl857.2.3抽样数目(样本量)的确定 对各地区人口进行随机抽样时,对每个地区的估计误差和置信度都有同样的要求(其他要求相同的条件下),对于人口多的地区,是否需要一个较大的样本量?统计学-ch7 suyl86确定样本量的意义及方法l样本量与抽样误差和费用的关系n 大,抽样误差越小n 大,调查的耗费越多l必要样本量的定义为使抽样误差在一定置
27、信度下不超过允许范围所必须的样本量(最低限)。统计学-ch7 suyl871、估计总体均值必须的样本量、估计总体均值必须的样本量 在在 1 的置信度下估计总体均值的的置信度下估计总体均值的允许误差为允许误差为 ,则必要的样本量为:,则必要的样本量为:重复抽样下:重复抽样下:2222)(xZn x 必要样本量的计算公式l可由允许误差的公式反推出统计学-ch7 suyl88不重复抽样下:不重复抽样下:2222222 ZNNZnx )(2222222()xZNZ 统计学-ch7 suyl89 【例】【例】某食品厂要检验本月生产的某食品厂要检验本月生产的10,000袋袋某产品的重量,根据上月资料,这种
28、产品每袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为重量的标准差为25克。要求在克。要求在95.45的概率的概率保证程度下,平均每袋重量的误差范围不超过保证程度下,平均每袋重量的误差范围不超过5克,克,至少应抽查多少袋产品?袋产品?解:已知:已知:10,000,25,95.45,即即Z/2 2x 统计学-ch7 suyl90在重复抽样条件下:2222222225100()5Xzn(袋袋)在不重复抽样条件下:在不重复抽样条件下:22222222222222510000()510000225XzNnNz=99(袋)统计学-ch7 suyl912、估计总体成数时的样本量、估计总体成数时的样
29、本量设设 为估计总体成数的允许误差,在为估计总体成数的允许误差,在1的的置信度下,样本量置信度下,样本量 n 为:为:重复抽样下:重复抽样下:不重复抽样下:不重复抽样下:p22222221()pppZZPPn 2222211()()()pZPP NnNZPP 统计学-ch7 suyl92 1、总体方差(或总体标准差)其它条件不变的条件下,总体标准差与必要的抽样数目成反比。怎样估计总体方差呢?通常有下列代替方法:l是用以前同类调查的资料代替,l用同类地区的资料代替,l若有多个方差数值供参考时,应选其中最大的方差。对于成数,选择最接近0.5的成数来计算影响样本容量的因素统计学-ch7 suyl93
30、【例】某企业对一批产品进行质量检验,这批某企业对一批产品进行质量检验,这批产品的总数为产品的总数为5,000件,件,过去几次同类调查所过去几次同类调查所得的产品合格率为得的产品合格率为93、95和和96,为了为了使合格率的允许误差不超过使合格率的允许误差不超过3,在,在99.73的的置信度下置信度下至少应抽查多少件产品?产品?解:解:已知已知5000,199.73,Z/2=3,P 取取 0.93 来计算来计算p 统计学-ch7 suyl94【例】【例】一家公司想估计某地区电脑的家庭所占的一家公司想估计某地区电脑的家庭所占的比例。并要求对总体比例的估计误差不超过比例。并要求对总体比例的估计误差不
31、超过5,可靠程度为,可靠程度为95%,应抽多大容量的样本(没有,应抽多大容量的样本(没有可利用的可利用的 P 估计值)。估计值)。解解:已知已知=0.05,1=0.95,Z/2=1.96,P 未未知知,用用最大方差最大方差0.25 来计算,则来计算,则应抽取的样本量应抽取的样本量为:为:222220 511 90 561384 16038505()(.)()().(.).pZPPn 统计学-ch7 suyl95 2、允许误差范围、允许误差范围 允许误差增大,意味着推断的精度要求允许误差增大,意味着推断的精度要求降低,在其他条件不变的情况下,必要的降低,在其他条件不变的情况下,必要的样本量可减少
32、。样本量可减少。反之,缩小允许误差,就要增加必要的反之,缩小允许误差,就要增加必要的抽样数目。抽样数目。统计学-ch7 suyl96 【例例】在其它条件不变的情况下在其它条件不变的情况下,若抽若抽样样允许误差扩大到原来的允许误差扩大到原来的 2倍倍,样本量会样本量会为原来的多少为原来的多少?若抽样允许误差减少到原若抽样允许误差减少到原来的来的1/2,样本容量会如何变化样本容量会如何变化?都采用重复抽样下的公式来推算都采用重复抽样下的公式来推算统计学-ch7 suyl97 3、置信度、置信度 因置信度与置信区间是同方向变化的,所因置信度与置信区间是同方向变化的,所以在其它条件不变的情况下,要提高
33、推断的以在其它条件不变的情况下,要提高推断的置信度,就必须增加抽样数目。置信度,就必须增加抽样数目。统计学-ch7 suyl98 4、抽样方法、抽样方法 相同条件下,采用重复抽样应比不重复抽相同条件下,采用重复抽样应比不重复抽样多抽一些样本单位。样多抽一些样本单位。不过,很大时,二者差异很小。为简便不过,很大时,二者差异很小。为简便起见,实际中当很大时,一般都按重复抽起见,实际中当很大时,一般都按重复抽样公式计算必要的抽样数目。样公式计算必要的抽样数目。统计学-ch7 suyl99 5、抽样组织方式、抽样组织方式上述公式适用于简单随机抽样下样本量的上述公式适用于简单随机抽样下样本量的确定确定其
34、它抽样组织方式下样本量的计算也可根其它抽样组织方式下样本量的计算也可根据相应的误差公式来推导。据相应的误差公式来推导。统计学-ch7 suyl100两个正态总体均值差的区间估计两个正态总体均值差的区间估计1 1、总体均值差的区间估计总体均值差的区间估计 121nXXX,221nYYY,22212122221212)()(nnzYXnnzYX,2121211)2wXYtnnSnn()设 ,是总体X和Y的 的样本,且两样本相互独立。1、方差已知的两个正态总体均值差置信区间为:2、方差未知且相等的两个正态总体均值差的置信区间为:),(211NX),(222NY统计学-ch7 suyl101 特别:任
35、意两个总体均值差的置信区间为(大样本条件下)2221212nSnSzYX2)1()1(21222211nnSnSnSw统计学-ch7 suyl102两个总体成数之差的置信区间设有两个独立总体X和Y,它们的总体成数分别为 和 。从两个总体中分别抽出容量为n和m的样本,样本中具有某种特征的单位数分别为n1和m1,两个样本相互独立,两个样本的成数分为 。当样本容量足够大时,的 的置信区间为1P2P,11nnp mmp1221PP 1mPPnPPzpp)1()1(2211221统计学-ch7 suyl103 为调查城市居民与近郊对政府所指定的某项政策的态度之间的差别,从城市随机抽5000人,其中240
36、0人赞成;从近郊随机抽选了2000人,其中有1200人赞成。分别求城市与近郊居民赞成此项政策人数比例之差异的90%和95%的置信区间。222111221)1()1()(nppnppzpp48.0500024001p60.0200012002p96.12z50001n20002n2000)60.01(60.05000)48.01(48.096.1)60.048.0(统计学-ch7 suyl104 设总体设总体 ,总体,总体 ,参数均未知。,参数均未知。和和 分别为总体分别为总体X和和Y的样本,对于给定的置信的样本,对于给定的置信度度 ,查,查F分布表确定临界值分布表确定临界值 方差比的方差比的
37、的置信区间为的置信区间为211(,)XN),(222NY1,21nXXX2,21nYYY11212(1,1)Fnn和)1,1(212nnF22112222122121211(1,1)SSS FnnS Fnn,(,)22123、正态总体方差比的置信区间、正态总体方差比的置信区间统计学-ch7 suyl105 例例 进行的职工家计调查结果表明:进行的职工家计调查结果表明:在甲市抽取500户,样本平均每户年消费支出为 3000元,标准差400元;在乙市抽取1000户,样本平均每户年消费支出 4200元,标准差500元。试求:(1)在甲乙两个城市每户年消费支出方差比的置信区间(95%)。(2)在甲乙两
38、个城市每户年平均消费支出间差异的置信区间。1S统计学-ch7 suyl106221212212()SSxxznn)1,1()1,1(212122212122221nnFssnnFss,162.1)999,499(025.0F8572.0)999,499(975.0F96.12z统计学-ch7 suyl107 注:确定样本容量时,无论是总体还是样本方差均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最大的。统计学-ch7 suyl108 注:确定样本容量时,无论是总体还是样本成数均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最靠近50%的。统计学-ch7
39、 suyl109222121221)(nnzxx2122111)(nnStxxw222112212(1)(1)2wnSnSSnn222121221)(nSnSzxx21222122221FssFss,正态总体已知方差 两个总体均值差正态总体方差未知且相等估计两个总体均值差 大样本条件估计两个总体均值差正态总体估计两个总体方差比统计学-ch7 suyl1107.3 抽样估计的进一步讨论l7.3.1抽样设计抽样估计的一般步骤抽样估计的一般步骤1、设计抽样方案:目的;范围、设计抽样方案:目的;范围N、n;怎样抽;怎样抽;内容内容调查标志、调查表、调查方式;时间;经调查标志、调查表、调查方式;时间;经
40、费费2、抽取样本:随机、抽取样本:随机3、搜集样本资料(数据):、搜集样本资料(数据):4、整理:审查、分组汇总、计算样本指标、整理:审查、分组汇总、计算样本指标5、推断总体:、推断总体:统计学-ch7 suyl111第四次国家卫生服务调查设计方案l一、调查目的:主要目的是对前五年卫生工作进行回顾和总结,预测居民卫生服务需要、需求及长远健康问题,为卫生改革政策的制定提供依据并为今后卫生改革实施效果的评价提供基楚资料。(提供人群健康状况、卫生服务需求量、卫生服务费用、居民对卫生服务的反映性等信息,为制定政策和开展评价提供客观依据。这是第三次调查的)l二、调查组织与时间l国家卫生服务调查由卫生部统
41、一组织,卫生部统计信息中心具体负责技术设计和实施。各省、自治区、直辖市卫生厅负责本省样本地区的卫生服务调查的领导、组织实施、质量控制和资料验收、技术指导和咨询等项工作样本县(市、区)的卫生局负责领导、组织调查指导员和调查员的培训、组织实施本地区卫生服务的调查和调查表的质量控制工作。l 统计学-ch7 suyl112l第四次国家卫生服务调查分为抽样调查和专题调查研究两部分。抽样调查的调查时间拟定于2019年6月中旬至7月上旬,与以往调查的时间保持一致。专题研究将根据工作需要在年内不同时间开展。l调查对象和调查时间l本次调查包括两部分:即家庭健康询问调查和小规模定性调查。家庭健康询问调查的对象为全
42、国抽中样本住户的实际人口。小规模定性调查的对象包括所抽中样本地区及卫生服务相关的主要人群。l住户健康询问调查的现场时间从2019年9月18日开始至10月20日结束。统计学-ch7 suyl113l三、调查内容l城乡居民卫生服务调查、城乡居民卫生服务需求与利用、城乡居民医疗保障、居民的满意度、基层医疗卫生机构服务提供能力与质量、医务人员执业环境与满意度l四、调查方法与对象l本次调查采用居民调查与服务提供机构调查相结合、定量调查与定性调查相结合、代表性调查与专题研究相结合的方法。既了解现状也探究原因。l家庭健康询问调查采用入户询问的方法收集数据。调查对象为所抽中样本住户的实际人口(凡居住并生活在一
43、起的家庭成员和其他人,或单身居住、生活的,均作为一个住户)。统计学-ch7 suyl114l基层医疗卫生机构问卷调查采用统一的调查问卷,由卫生机构自我填报。调查对象为样本乡或街道中所有的乡镇(街道)卫生院、社区卫生服务中心(站)和村卫生室。此次调查研究将充分利于统计年报资料等各种已有调查资料,对已有的数据不再作重复调查,以提高调查质量及效率。l医务人员问卷调查的调查对象为样本地区中部分二、三级医院、社区卫生服务中心、乡镇卫生院的医生和护理人员,调查问卷由被抽中人员按调查问卷的内容进行自我填报。l专题研究采用定性和定量相结合的研究方法,由卫生部统计信息中心与北京大学、复旦大学、华中科技大学、山东
44、大学等国内著名院校的教授及研究人员共同实施,由被调查地区卫生行政管理部门配合完成。初步确定调查研究地区为北京、天津、上海、山东、湖北、广东、重庆、四川、甘肃、宁夏等地。统计学-ch7 suyl115l五、抽样设计l国家卫生服务调查遵循经济而有效的原则,采用多阶段分层整群随机抽样的方法。本次调查样本地区与前三次保持一致,样本住户重新随机抽取。在调查设计过程中利用2000年人口普查资料,对原有样本的代表性进行了检验。结果表明,原有样本地区对国家整体人口、经济、教育及居民健康状况等方面具有较好的代表性。l调查样本涉及全国31个省,共有94个县(市、区)、470个乡镇(街道)、940个村(居委会)。家
45、庭健康询问调查最终的抽样单位是户,在每个样本村(居委会)中随机抽取60户,全国共抽取56400户(约20万人口)。l抽样设计:国家卫生服务调查遵循经济而有效的原则,采用多阶段分层整群随机抽样的方法,通过样本估计总体。l本次调查的全国样本地区为:95个县(市、区)、475个乡镇(街道)、950个村(居委会)。家庭健康询问调查最终的抽样单位是户,每个样本村中随机抽取60户,全国共抽取57000户(约21万人)。全国平均每户被抽取的概率为1:5800。统计学-ch7 suyl116l六、调查质量控制l为了保证调查的顺利开展和调查的质量,必须对调查的每一个环节实行严格的质量控制,并措施贯穿于调查的全过
46、程其中,抓好现场调查阶段的质量控制尤为重要。l每个县(市、区)设立质量考核小组,在调查过程中抽查调查质量,调查完成后进行复查考核,家庭健康询问调查的复查考核应在已完成户数中随机抽取5%,通过电话或再入户的方式对复核调查表的内容进行询问,复核调查结果录入计算机后,观察复核调查与原调查结果的复合率。统计学-ch7 suyl117l质量要求:l调查员调查技术一致性考核的百分比:用来衡量调查员调查技术的一致性。要求经过培训后,调查人员调查技术的一致性达到95%以上;l调查完成率:在三次上门未调查成功而放弃还该户时,应从候选户中按顺序递补。调查完成率应控制在96%以上。l本人回答率:回答应以本人为主,本
47、人不在场时可由熟悉情况的人代替回答;婴幼儿一般应由直接抚养者回答,育龄妇女应由本人回答;要求成年人的本人回答率不低于70%;l复查的符合率:复查考核中,同户复查项目与原调查结果的符合率要求在95%以上。l七、数据处理及上报方式l样本地区(省或县)负责调查数据录入采取调查数据两遍录入的方式。录入数据通过电子邮件报送卫生部统计信息中心,机构调查数据应于2019年8月10前报送,家庭健康询问调查数据和医务人员调查数据应于2019年8月31日前报送。l八、领导与实施统计学-ch7 suyl118三、抽样方案设计的基本准则l随机原则l抽样误差最小l费用最少统计学-ch7 suyl119四、抽样方案设计的
48、主要内容(一)编制抽样框(一)编制抽样框 确定抽样范围确定抽样范围抽样框:全部总体单位的名单目录。抽样框:全部总体单位的名单目录。依据研究对象特征不同,抽样框有三种形式:依据研究对象特征不同,抽样框有三种形式:(1)名单抽样框)名单抽样框 (2)区域抽样框)区域抽样框 (3)时间表抽样框)时间表抽样框统计学-ch7 suyl120一个例子一个例子 1936年罗斯福年罗斯福(Franklin Delano Rooseverlt)任总统的第一任期届满,兰登任总统的第一任期届满,兰登(Alfred Landon)与其竞选总统。由于国家与其竞选总统。由于国家正努力从大萧条中恢复过来,失业人数高达正努力
49、从大萧条中恢复过来,失业人数高达900万人。万人。文学摘要文学摘要自自1916年以来,历年以来,历届总统选举它都正确地预测出获胜的一方。届总统选举它都正确地预测出获胜的一方。但是,当但是,当Rooseverlt1936年以年以62%比比38%获胜后不久,获胜后不久,文学摘要文学摘要就垮了。就垮了。统计学-ch7 suyl121 Rooseverlt(%)文学摘要文学摘要预测选举结果预测选举结果R 43 文学摘要文学摘要预测选举结果预测选举结果L 57 盖洛普的预测结果盖洛普的预测结果 L 44 盖洛普预测选举结果盖洛普预测选举结果R 56 实际选举结果实际选举结果R 62 统计学-ch7 su
50、yl122l具体的做法是:l文学摘要文学摘要的程序是将问卷邮寄给一千的程序是将问卷邮寄给一千万人(万人(10,000,000),这一千万人的名),这一千万人的名字来自电话簿或会员俱乐部名册。字来自电话簿或会员俱乐部名册。l盖洛普用了一个来自全美国的盖洛普用了一个来自全美国的50,000人样人样本。本。文学摘要文学摘要差错出在哪里?差错出在哪里?统计学-ch7 suyl123 文学摘要文学摘要的程序是将问卷邮寄给一千万的程序是将问卷邮寄给一千万人(人(10,000,000),这一千万人的名字来自),这一千万人的名字来自电话簿或会员俱乐部名册。这就导致不属于俱电话簿或会员俱乐部名册。这就导致不属于