1、第八章第八章 二阶及多阶抽样二阶及多阶抽样初级单元大小相等时的二阶抽样初级单元大小相等时的二阶抽样初级单元大小不等时的二阶抽样初级单元大小不等时的二阶抽样样本量的确定和多阶段抽样的问题样本量的确定和多阶段抽样的问题8.1 8.1 概述概述 一.什么是多阶段抽样 1.1.概念:概念:设总体由设总体由N N个初级单元组成,每个初级单元又个初级单元组成,每个初级单元又由若干次级单元组成,若在总体中按一定方法抽取由若干次级单元组成,若在总体中按一定方法抽取n n个初个初级单元,对每个被抽中的初级单元再抽取若干次级单元级单元,对每个被抽中的初级单元再抽取若干次级单元进行调查,这种抽样称为二阶抽样,进行调
2、查,这种抽样称为二阶抽样,或二级抽样或二级抽样(two-(two-stage sampling)stage sampling)。一些记号:初级单元(PSU)-Primary Sampling Unit 二级单元(SSU)-Second-stage Sampling Unit 三级单元(TSU)-Third-stage Sampling Unit 最终单元(USU)-Ultimate Sampling Unit2.2.实施步骤实施步骤:(1 1)从总体中抽初级单元,称为第)从总体中抽初级单元,称为第一阶抽样;(一阶抽样;(2 2)从每个被抽中的初级单元中抽二)从每个被抽中的初级单元中抽二级单元,
3、称为第二阶抽样,以此类推。级单元,称为第二阶抽样,以此类推。3.3.与其他几种抽样方法的关系与其他几种抽样方法的关系:整群整群抽样抽样可以看成是二阶抽样的特殊情形可以看成是二阶抽样的特殊情形,即最,即最后一阶抽样是后一阶抽样是100%100%的抽样;的抽样;分层抽样分层抽样也可看作是多阶抽样的特例,每个初级也可看作是多阶抽样的特例,每个初级单元即是层,第一阶抽样是单元即是层,第一阶抽样是100%100%抽样,而层内抽抽样,而层内抽样则是第二阶抽样。样则是第二阶抽样。4.4.抽样方法:抽样方法:多阶抽样中每一个阶段的抽样多阶抽样中每一个阶段的抽样可以相同,也可以不同,它通常与分层抽可以相同,也可
4、以不同,它通常与分层抽样、整群抽样、系统抽样结合使用。一般样、整群抽样、系统抽样结合使用。一般来说,来说,当初级单元大小相同时,第一阶段当初级单元大小相同时,第一阶段的抽样采用简单随机抽样;的抽样采用简单随机抽样;当初级单元大当初级单元大小不同时,第一阶段的抽样采用不等概抽小不同时,第一阶段的抽样采用不等概抽样。样。二、多阶段抽样特点二、多阶段抽样特点1.1.构造抽样框相对容易。构造抽样框相对容易。分级准备抽样框,即每次分级准备抽样框,即每次只需要对被抽中的单元准备下一级抽样单元的抽只需要对被抽中的单元准备下一级抽样单元的抽样框;样框;2.2.节省人力、物力。节省人力、物力。3.3.行政上便于
5、组织。行政上便于组织。4.4.可用于散料的抽样。可用于散料的抽样。所谓所谓“散料散料”,是指连续松散的、,是指连续松散的、不易区分的个体或抽样单元的材料。例如一堆土,一车水不易区分的个体或抽样单元的材料。例如一堆土,一车水泥和粮食等。对于散料,抽样单元可以人为划分,也可以泥和粮食等。对于散料,抽样单元可以人为划分,也可以取其自然的单位。进行散料抽样时,取其自然的单位。进行散料抽样时,例例:对土壤中有机磷对土壤中有机磷的测定的测定,一级单元是自然或人为划分的分装(例如一级单元是自然或人为划分的分装(例如1010份土份土样),二级单元则是从分装中抽取一定数量(如一千克)样),二级单元则是从分装中抽
6、取一定数量(如一千克)的份样作调查。的份样作调查。5.5.划分阶段不宜过多。划分阶段不宜过多。例:例:某个新开发区拥有相同户型的某个新开发区拥有相同户型的1515个单元的个单元的楼盘,居民已经陆续搬入新居,每个单元住有楼盘,居民已经陆续搬入新居,每个单元住有1212户居民,为调查户居民,为调查家庭装潢情况家庭装潢情况,准备利用二,准备利用二阶段抽样法,从阶段抽样法,从180180户居民户抽取户居民户抽取2020户进行调查。户进行调查。初级单位有初级单位有1515个,每个初级单元拥有的二个,每个初级单元拥有的二级单元为级单元为1212个,先从初级单元简单随机抽个,先从初级单元简单随机抽5 5个个
7、单元,然后在每个单元中单元,然后在每个单元中简单简单随机抽取随机抽取4 4户。户。(属于等概抽样?)(属于等概抽样?)编号单元房号1*A座12*3*4*5678910*11122B座1234567891011123C座1234567891011124D座1234567891011125E座1234567891011126*F座1*23456*789*1011*127G座1234567891011128H座1234567891011129*I座12345*67*8*910*111210J座12345678910111211K座12345678910111212*L座12345*67*8*9101
8、1*1213*M座1234*56*7*891011*1214N座12345678910111215H座123456789101112data a;input x$;datalines;1 2 3 4 5 6 7 8 9 10 11 12 13 14 15;run;proc surveyselect data=a out=b method=srs n=5;run;proc surveyselect data=c out=d method=srs n=(4,4,4,4,4);strata a;run;上面的二阶抽样可用上面的二阶抽样可用sas编程如下:编程如下:初级单元大小相等时的二阶抽样初级单元
9、大小相等时的二阶抽样一、总体均值的估计量:一、总体均值的估计量:假定总体由假定总体由N N个初级单元组成,每个初级个初级单元组成,每个初级单元都含有单元都含有MM个次级单元个次级单元,简称简称初级单元规模初级单元规模相等的两阶段抽样相等的两阶段抽样。否则称为初级单元规模。否则称为初级单元规模不相等不相等的两阶段抽样。的两阶段抽样。现对第一种情况:从现对第一种情况:从N N个初级单元中按简单个初级单元中按简单随机抽样抽取随机抽样抽取n n个初级单元,个初级单元,再从每个被抽中的初级单元中按简单随机再从每个被抽中的初级单元中按简单随机抽样抽取抽样抽取m m个次级单元。个次级单元。二、常用符号总体样
10、本初级单元初级单元(psu)(psu)个数个数N Nn n初级单元拥有的二级单元个数初级单元拥有的二级单元个数Mm第第i i个个psupsu中的第中的第j j个二级单元值个二级单元值Yijyij第第i i个初级单元按二级单元的平个初级单元按二级单元的平均值均值按二级单元的平均值按二级单元的平均值初级单元初级单元(psu)(psu)均值间的方差均值间的方差第第i i个个psupsu内内ssussu间的方差间的方差第一阶段抽样比第一阶段抽样比 第二阶段第二阶段11MiijjYYM11miijjyym11NiiYYN11niiyyn22111()1NiiSYYN22111()1niisyyn2221
11、()(1)MiijijSYYM22211()(1)miijijsyym1/fnN2/fm M)(EE)(E)1(21 )(VE)(EV)(V)2(2121 性质性质l:l:对于两阶抽样,有对于两阶抽样,有式中,式中,E E2 2,V V2 2为在固定初级单元时对第二阶抽样求为在固定初级单元时对第二阶抽样求均值和方差;均值和方差;E E1 1,V V1 1为对第一阶抽样求均值和方差。为对第一阶抽样求均值和方差。两阶段抽样估计量的均值和方差两阶段抽样估计量的均值和方差推导推导 过程过程 记()E ,()V 2()E212()EE 22()E 22()E222()E 22()E2()V222()E
12、对两边求1E,得 ()V 212()E E12()E V212()EE 12()V E12()E V 三、估计量及其性质(一一)总体均值的估计:总体均值的估计:对于初级单元大小相等的二对于初级单元大小相等的二阶抽样,如果两个阶段都是简单随机抽样,且对阶抽样,如果两个阶段都是简单随机抽样,且对每个初级单元,第二阶抽样是相互独立进行的,每个初级单元,第二阶抽样是相互独立进行的,则对总体均值则对总体均值 的无偏估计为:的无偏估计为:Y11111nnmiijiijyyynnm其方差为:其方差为:22221111)(SnmfSnfyV的无偏估计为:的无偏估计为:21122211(1)fvffyssnnm
13、)(yVy222123112123(1)1(1)()f fffffysssnnmnmk类似的,可以构造三阶抽样类似的,可以构造三阶抽样的估计方差22112222211122112121()111()(1)1()(1)niinnmiijiiijsyynssyynn mfv yfssnnmf其中,证明:证明:22N1i2i2n1i2i21n1iM1j2iij1n1im1j2iij21n1im1j2iij21222122SSN1Sn1E)YY(1M1n1E)yy(1m1En1E)yy()1m(n1EE)s(EE)s(E 22112121(1)(3)()()fffV yv yssnmn的无偏估计为.S
14、smf1sSSmf1S)s(EE)s(E.Ss212222121222212121212222的的无无偏偏估估计计是是的的无无偏偏估估计计是是 )的的无无偏偏估估计计。(是是yVsmn)f1(fsnf1)y(v2221211 例:例:某部门欲研究某农药在叶面上某部门欲研究某农药在叶面上 的残留量,第一步先从的残留量,第一步先从一块棉田一块棉田10001000株里简单随机抽取株里简单随机抽取4 4株株,然后从每株上简单随,然后从每株上简单随机抽取机抽取4 4片片叶子(假定每株共叶子(假定每株共200200片叶子),数据如下表,试片叶子),数据如下表,试估计每片叶子农药的平均残留量,并计算抽样误差
15、。估计每片叶子农药的平均残留量,并计算抽样误差。植株各叶片上农药的残留量13.283.093.033.033.110.0140323.523.483.383.383.440.0050732.882.82.812.762.810.00249243.343.383.233.263.300.0048iy2is11(3.113.442.813.3)/43.165()niiyyn解单位:22111()113niisyyn22222(3.11-3.165)+(3.44-3.165)+(2.81-3.165)+(3.3-3.165)=0.07403(单位)42222110.0066 4iiss2211212
16、1(1)()1 0.0040.0040.074030.006644 40.01850.0000016170.01851617fffv yssnmn(1-0.02)例:例:欲调查欲调查4 4月份月份100100家企业的某项指标,首先从家企业的某项指标,首先从100100家企业中抽取了一个含有家企业中抽取了一个含有5 5家样本企业的简单随机样家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水账,本,由于填报一个月的数据需要每天填写流水账,为了减轻样本企业的负担,调查人员对这为了减轻样本企业的负担,调查人员对这5 5家企业分家企业分别在调查月内随机抽取别在调查月内随机抽取3 3天作为调查
17、日,要求样本企天作为调查日,要求样本企业只填写这三天的流水帐。调查结果如下:业只填写这三天的流水帐。调查结果如下:要求根据这些数据推算100家企业该指标的总量,并给出估计的95%的置信区间。解:解:利用二阶抽样,首先将企业作为初级单元,将每一天看作二级单元,每个企业在调查月内都拥有30天(即拥有30个二级单元)。在这个问题中,调查人员首先在初级单元中抽取了一个n=5 的简单随机样本,然后对每个样本单元的二级单元分别独立抽取了一个m=3 的简单随机样本,这就是初级单元大小相等的二阶抽样问题。方差估计式中,第一项是主要的,第二项要小得多,这是因为第二项的分母是第一项的m倍,而且它还要乘以小于1 的
18、f1。影响精度的主要是初级单元,所以抽样设计的原所以抽样设计的原则:在经费一定时,多抽一些初级单元,少抽一些二级则:在经费一定时,多抽一些初级单元,少抽一些二级单元比较好。单元比较好。如果第一阶的抽样比f1可以忽略,则方差估计式可以简单为如下的结果:这个结果在实际工作中非常有用,因为第二阶抽样采用等距抽样或某些复杂抽样时,方差的无偏估计很难得到,当f1可以忽略时,只需要初级单元指标按次级单元的平均值就可以得到方差的估计。221121222211111(1)111()1niifffv yssnmnfssyynnn n说明:说明:2、总体比例的估计、总体比例的估计22111()1niisppn22
19、11(1)1niiimsppnm,221121222112121(1)()()1(1)()fffV yv yssnmnfffv pssnmn对照:的无偏估计为故:V(P)的无偏估计为:无偏估计为:无偏估计为:niiiniiqpmnffppnnfpv1221121)1()1()()1(1)()(pV例:欲调查某个新小区居民户家庭装修聘请专业公司的例:欲调查某个新小区居民户家庭装修聘请专业公司的比例比例。在。在15个单元中随机抽取了个单元中随机抽取了5个单元,在每个单元个单元,在每个单元都是都是12户,从中分别抽取户,从中分别抽取4户,对这户,对这20户的调查结果如户的调查结果如下:下:样本单元第
20、一户第二户第三户第四户1栋 A座YYNN2栋 C座NYNN3栋 C座NNNY4栋 C座NNNN5栋 B座YNNN根据上面的信息推算居民家庭装潢聘请专业装潢根据上面的信息推算居民家庭装潢聘请专业装潢公司的比例。公司的比例。解:解:记请专业装潢公司的居民记为记请专业装潢公司的居民记为“1”1”,否则记为,否则记为“0”0”,这里,这里 N=15,M=12,n=5,m=4,fN=15,M=12,n=5,m=4,f1 1=5/15,f=5/15,f2 2=4/12=4/12因此,聘请专业装潢公司的比例为:因此,聘请专业装潢公司的比例为:121221111(21101)0.2554(1)()(1)0.0
21、0657()()0.081950.251.960.081iniinniiiianmffppp qnmspvp1其 方 差 的 估 计 是:1-f v(p)=n(n-1)因 此,以 的 把 握 认 为,居 民 装 潢 请 专 业 公 司 的 比 例 为:例:例:某林场有一块苗圃,划分为某林场有一块苗圃,划分为160160块面积相等的小地块面积相等的小地块,每块中有块,每块中有9 9棵树苗,现苗圃发现了某种病害,欲用棵树苗,现苗圃发现了某种病害,欲用抽样的方法迅速估计已发生病害的苗木占总苗木的比抽样的方法迅速估计已发生病害的苗木占总苗木的比例。方法:从例。方法:从160160块地中简单随机抽取了块
22、地中简单随机抽取了4040块地,每块块地,每块地中又随机抽取地中又随机抽取3 3棵树苗棵树苗;检查结果为:这检查结果为:这4040块样本地块样本地中中,有有2222块抽取的块抽取的3 3棵无病害,棵无病害,1111块地中有块地中有1 1棵病害,棵病害,4 4块块地有地有2 2棵苗病害,棵苗病害,3 3块样地中块样地中3 3棵苗都有病棵苗都有病.试估计已有病试估计已有病害的树苗的比例及其估计标准误。害的树苗的比例及其估计标准误。解:样本中病树的比例及频率如下:解:样本中病树的比例及频率如下:f221143pi01/32/3111112(22011413)40330.233niPppn 树苗有病的
23、比例为:树苗有病的比例为:23.2%222112222212211212311()22(00.233)1391211(0.233)4(0.233)3(1 0.233)0.0983331221(114)0.125(1)40 2 333312111(1)434()0.0980.1254040 32.01361 10niniiisppnmspqn mfffv pssnmn 一、初级单元大小相等时一、初级单元大小相等时,最优样本量最优样本量m m与与n n的确定:的确定:1.m1.m的确定:的确定:线性费用函数:线性费用函数:nmcnccC210T )mcc(mSMSS)mncnc(nmSMSSn1)
24、cC(NS)y(VNSnmSMSSn1Smnf1Snf1)y(V21222221212222210T2121222221222211 )()()(又又)(样本量的确定样本量的确定2222222222221222221122221212222222211122112/,/,(1),1;(1,1)uoptuoptoptoptSSSMSSSmMcc mScScScmcScSSScSMMmmmfSsSssmmm mmmmm m根据柯西许瓦兹不等式,达到最小值的充要条件是:()()()令为的整数部分,则 的取值规则为:当则取当则取2221;0,;2optTmmSmMSmMMmCVn当或()则取()确定后
25、,再根据给定的或求出。例(续前例)若例(续前例)若c1/c2=10,()V y=15,试确定最优试确定最优m,n解:首先计算解:首先计算mopt,由上例已知由上例已知 22122222112222222221212249.3,23.4110.1S49.323.442.283S23.4S23.4SS42.2841.53023.4102.37,41.5S2,135.64(1)26uoptoptuoptssfssmsMScmmmcmmmmm为的 整 数 部 分取 最 优 值 为进一步计算进一步计算nopt2212122222222211211()S23.411 0.1S49.323.442.283f
26、fV ySSnmnsfssm因此因此211100301542.2823.423.454optnnnnn因而可取012TCcc nc nmn如果给了总费用,可根据求出 在实际工作中,对于各级单元大小不相等时的多阶抽在实际工作中,对于各级单元大小不相等时的多阶抽样,通常的做法是:除了最后一阶采用等概率抽样样,通常的做法是:除了最后一阶采用等概率抽样(放回放回的或不放回的均可的或不放回的均可),前几阶均采用,前几阶均采用PPS(sampling with probabilities proportional to sizes,简称PPS抽样)抽样,抽样,具体放在不等概部分讲解。具体放在不等概部分讲解
27、。初级单元大小不等时的二阶抽样初级单元大小不等时的二阶抽样 在实际的抽样中,初级单元的大小很少是相同的,针对大在实际的抽样中,初级单元的大小很少是相同的,针对大小不同的初级单元,在抽样方法上有小不同的初级单元,在抽样方法上有等概率抽样和不等概率等概率抽样和不等概率抽样抽样,在估计方法上有,在估计方法上有简单估计和比估计简单估计和比估计。1、等概抽样实现:、等概抽样实现:设总体中初级单元数为设总体中初级单元数为N,从中等概抽从中等概抽取取n个单元,其大小为个单元,其大小为Mi(i=1,2,n),第二阶段在抽中的第二阶段在抽中的初级单元中等比例抽取基本单元,即抽样比相同:初级单元中等比例抽取基本单
28、元,即抽样比相同:f2i=mi/Mi=f2 2、也可采用不等概抽样(以后再讲)、也可采用不等概抽样(以后再讲)一、简单估计一、简单估计 第一阶抽样按简单随机抽样从第一阶抽样按简单随机抽样从N N个初级单元中抽取个初级单元中抽取n n个,个,第二阶抽样按简单随机抽样第二阶抽样按简单随机抽样,在抽中的初级单元中分别在抽中的初级单元中分别独立抽取独立抽取m mi i,i=1n,i=1n,个个2 2级单元。级单元。(1)(1)简单估计简单估计:22221211112222121110(1)11()()(1)11()()()(N1)Y()(1)nnniiiniiniiiNNiiiiiiiiiiiiM y
29、NYYNnnMMMMffv yyysn nMnNyM yM nyyNMmffV yYYSnMNnMm,估计量 的方差为:估计量 方差的 估计为:例题:例题:某居委会欲了解居民健身活动的情况,如果已某居委会欲了解居民健身活动的情况,如果已知该居委会有知该居委会有500500名居民,在所居住的名居民,在所居住的1010个单元中抽取个单元中抽取了了4 4个单元,然后在样本单元中分别抽出若干居民,两个单元,然后在样本单元中分别抽出若干居民,两阶段的抽样都是简单随机抽样,调查了样本居民每天阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身活动的时间(用于健身活动的时间(1010分钟为一单位),估计居
30、民分钟为一单位),估计居民平均每天用于锻炼的时间,并给出估计的标准差。平均每天用于锻炼的时间,并给出估计的标准差。初级Mimi时间yij13244,2,3,63.752.9224552,2,4,3,63.42.833643,2,5,84.5745464,3,6,2,4,64.172.2iy22 is解:采用简单估计解:采用简单估计10=3.3niiiNyM yM n21222221()(1)11-13245=1350503654500.8()=+504(1-0.9)(1-0.9)(1 0.9)46+=50546niiniiiiMyyMMfsnMm2222222222先计算:(3.75-3.3)
31、+(3.4-3.3)+(4.5-3.3)+(4.17-3.3)=5778/3 50=192()322.92452.86/50再367 542.2计算:228.485022221211(1)11()()()(1)nniiiiiiMMffv yyysn nMnNMm1220119264628.4850M0.115560.0462850.162=0.402RRfNv Ynnv Y则:()标准差为:(),由此看出,二阶抽样抽样误差主要是由第一项决定,由此看出,二阶抽样抽样误差主要是由第一项决定,抽样时尽量多抽一些初级单元,少抽一些次级单元比抽样时尽量多抽一些初级单元,少抽一些次级单元比较好。较好。11
32、0001122222221121212221121,1)11()1,=11RiRRRniiniNniiiiRiNniiiiNiiiiNiiiiMiijjiiiiiRYYYMMYMMMMMMYYffMMMSEVSnNNnmYYSMYYYMMyfMvYynY其中,样本估计以为辅助变量=()()()其中(为:)222221212001)1,1=niRiniiiiRRRRMYfMsnNnmYM yv YMv y)(则:()()(2)(2)比估计比估计:例题:例题:某居委会欲了解居民健身活动的情况,如果已某居委会欲了解居民健身活动的情况,如果已知该居委会有知该居委会有500500名居民,在所居住的名居民
33、,在所居住的1010个单元中抽取个单元中抽取了了4 4个单元,然后在样本单元中分别抽出若干居民,两个单元,然后在样本单元中分别抽出若干居民,两阶段的抽样都是简单随机抽样,调查了样本居民每天阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身活动的时间(用于健身活动的时间(1010分钟为一单位),估计居民分钟为一单位),估计居民平均每天用于锻炼的时间,并给出估计的标准差。平均每天用于锻炼的时间,并给出估计的标准差。初级Mimi时间yij13244,2,3,63.752.9224552,2,4,3,63.42.833643,2,5,84.5745464,3,6,2,4,64.172.2iy22
34、is4111=324536541201531622253.952167RniiiiniiYMyYM解:采 用 比 估 计即 居 民 平 均 每 天 用 于 锻 炼 的 时 间222220222221121222212121222012221)1111)1=1=132+45+36+5MM4RniiRiiniiiinRiiniiiiiinRiiiMMyYffv YsnnnmMyYMMffsnnnMNNNmMyYn222()()()()其中:(3.75-3.952)(3.4-3.952)(4.5-3.952)(4.3=1186.58217-3.952)2222221224532451)3245=+4
35、54636543654+=4628.4846niiiiiMfsm(1-)2.92(1-)2.8(1-)7(1-)2.221220022211186.584628.48MM1010=1186.58+4628.4850045004=0.071195+0.046285=0.11750.34275RRfNv YNnnv Y()(1-0.4),比简单估计稍好些()设 表示第i个一阶单元的二阶样本单元中具有某特性的单元占的比例,则总体中具有该特性的单元占的比例的估计量在估计 的公式中,令Y1,Y0ijijij若第 个一阶单元中第 个二阶单元具有某特性,若第 个一阶单元中第 个二阶单元不具某特性,11nii
36、iniiM pPM3、比例的估计、比例的估计ip222112221()(1)11()(1)11niiniiiiiiiMpPppfv PMfnmnMnNM,02,iiiimMnffMNMN其中:()v P 的样本估计量为:222221121221)111RniiRiiniiiiMMyYffv YsnnnmMMN()(对照公式:()例:例:某省卫生部欲对城市饮食业的卫生状况做一次抽样调某省卫生部欲对城市饮食业的卫生状况做一次抽样调查,在全省查,在全省3232个城市中随机抽选了个城市中随机抽选了4 4个城市个城市,在抽选的城市,在抽选的城市中中抽抽25%25%的饮食店进行检查,在检查的各项指标的基础
37、上的饮食店进行检查,在检查的各项指标的基础上进行卫生状况是否合格的评估,其评估结果如下,试估计进行卫生状况是否合格的评估,其评估结果如下,试估计这这3232个城市中饮食店卫生不合格店占总店数的个城市中饮食店卫生不合格店占总店数的比例比例,若样,若样本比例近似正态分布,计算其本比例近似正态分布,计算其95%95%的置信区间。的置信区间。样本城市饮食店数(Mi)样本数(mi)卫生不合格数比例1521340.308220510.200336940.444432820.250解:卫生不合格店占总店数的比例为:解:卫生不合格店占总店数的比例为:1152 0.30820 0.236 0.44432 0.2
38、552203632440.31140niiniM ppM222112221()(1)11()(1)11niiniiiiiiiMpPppfv PMfnmnMnNM,22222212222()1=52(0.3080.31)20(0.20.31)14-1136(0.4440.31)32(0.250.31)31.966410.663niiiMpPn先计算再计算:再计算:221(1)()(1)(1)1152(52 13)0.308 0.69220 15 0.20.836 27 0.444 0.55613 14832 24 0.25 0.7598.571437niiiiiiiiiiiippM Mm ppM
39、fmm=012221122212211MM=(52203632)354()(1)11()(1)11324110.6698.571430.002533243543235()0.05,95%0.212,0.408niniiniiiiiiiMnMpPppfv PMfnmnMnN Mv PP未知,用近似代替的置信区间为三、三阶抽样三、三阶抽样 设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n,m和k。令yiju(u=1,2,,K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则11111KijijuuMKiijujuYyKY
40、yMK1111NMKijuijuYyNMK22111()1niisyyn222111()(1)nmijiijsyyn m2231111()(1)nmkijuijijusyynm k 若三阶抽样中,每阶抽样都是简单随机的,则总体均值 的无偏估计量为 Y11niiyyn其方差为其方差为 方差的无偏估计量为 222312123111()fffV ySSSnnmmnk233212212211)1()1(1)(smnkfffsnmffsnfyV其中其中 123,nmkfffNMK分层二阶抽样 设总体分成L层,第h层有Nh个一阶单元,每个一阶单元均含Mh个二阶单元。在第h层随机抽了nh个一阶单元,又从每个
41、被抽中的一阶单元中随机抽了mh个二阶单元。则均值的估计量为 hLhhstyWy其中其中 MhhhLhhhN MWN是按二阶单元的层权;是按二阶单元的层权;hhnimjhijhmnyyhh/11为第h层的样本均值。其方差为)11()(2222112hhhhhhhLhhshSmnfSnfWyV方差估计量为 222112121(1)()()LhhhshhhhhhhhfffV yWssnn m其中其中 上式乘以 hhhhhhMmfNnf21,2()LhhhN M则得 的方差及其估计量。在分层二阶抽样中,若stY即总体中每个二阶单元入样的概率都即总体中每个二阶单元入样的概率都相等,则样本是自加权的。相等
42、,则样本是自加权的。12hhhhhhnmffNM 常 数1111/hhnmLLsthijhhhijhyyn my例:某县电视台欲对本台所制做的节目在本县的收视率情例:某县电视台欲对本台所制做的节目在本县的收视率情况进行调查,调查中分为城镇和农村两层,各进行二阶段况进行调查,调查中分为城镇和农村两层,各进行二阶段分层抽样,城镇中第一阶段抽选街道,从分层抽样,城镇中第一阶段抽选街道,从1010条街道中选条街道中选4 4条条街道,每条街道再抽取街道,每条街道再抽取2020的住户进行调查;农村第一阶的住户进行调查;农村第一阶段从段从2020个乡中抽取个乡中抽取4 4个乡作为初级样本,再从每个乡中抽取个
43、乡作为初级样本,再从每个乡中抽取1010的农户进行调查结果如下:若已知该县城镇和农村的的农户进行调查结果如下:若已知该县城镇和农村的人数比例为人数比例为 3 3:7 7,要求估计该节目在本县的收视比例,并,要求估计该节目在本县的收视比例,并计算抽样标准误。计算抽样标准误。层NhnhhiMhimhiphi城镇 104 11200400.6125001000.513300600.4814400800.6220421300300.3522200200.223400400.424500500.36农村农村解解 可先计算城镇和农村两层分别的收视比例可先计算城镇和农村两层分别的收视比例及方差,然后进行加权
44、及方差,然后进行加权411114114111221111221111,7620.544314003504()(1)11()()11iiiiiiiniiniiiiiiiihM ppMMMMppppfV pM MmnMnmnNM令城镇层则:24434212421442312217.7 7 0 2 2 2 8 5 71 02.8 3 3 2 6 81 01.0 3 6 6 8 3 8 6 61 024 8 50.3 4 6 41 4 0 0()7.4 2 5 3 0 6 1 2 21 02.9 4 11 01.0 3 6 6 8 31 00.3,0.70.30.5 4 4 30.70.3 4 6 40.4 0 5 84 0.5 8iiiiis thhhMppMVpWWpwp令农村层221%()()0.0 0 0 1 6 9 5 8()0.0 2 4 62.4 6%4 0.5 82.4 6s thhhs tVpwVpVp故该节目在本县的收视比例为,抽样标准误为多阶段抽样小结多阶段抽样小结1、初级单元大小相等时的二阶抽样、初级单元大小相等时的二阶抽样2、初级单元大小不等时的二阶抽样、初级单元大小不等时的二阶抽样(简单估计和比估计)简单估计和比估计)3、二阶抽样样本量的确定、二阶抽样样本量的确定