第4章-等概率整群抽样和多阶段抽样.课件.ppt

上传人(卖家):三亚风情 文档编号:2984589 上传时间:2022-06-19 格式:PPT 页数:53 大小:726.50KB
下载 相关 举报
第4章-等概率整群抽样和多阶段抽样.课件.ppt_第1页
第1页 / 共53页
第4章-等概率整群抽样和多阶段抽样.课件.ppt_第2页
第2页 / 共53页
第4章-等概率整群抽样和多阶段抽样.课件.ppt_第3页
第3页 / 共53页
第4章-等概率整群抽样和多阶段抽样.课件.ppt_第4页
第4页 / 共53页
第4章-等概率整群抽样和多阶段抽样.课件.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、第第4章章 等概率整群抽样和多阶等概率整群抽样和多阶段抽样段抽样n由若干有联系的基本单元所组成的集合称为群群。抽样时抽取群,并对入选群的所有基本单元进行调查,这种方法就是整群抽样整群抽样。n当群规模比较大时,由于群内单元通常具有相似性,对群内单元进行再抽样,这就是两阶段抽样两阶段抽样,其中的群也称为初级抽样单元初级抽样单元,群内再抽样的单元称为二级抽样单二级抽样单元元。4.1.1 定义定义2022-5-313l整群抽样(整群抽样(cluster samplingcluster sampling)是将总体)是将总体划分为若干群,然后划分为若干群,然后以群(以群(clustercluster)为抽

2、)为抽样单元样单元,从总体中随机抽取一部分群,对,从总体中随机抽取一部分群,对被选群内的被选群内的所有单元所有单元进行调查进行调查的一种抽样的一种抽样技术。技术。例例2022-5-314l欲估计某高校大学生拥有手机数量,大学共有欲估计某高校大学生拥有手机数量,大学共有4000040000名学生,名学生,1000010000个宿舍(每个宿舍个宿舍(每个宿舍4 4名学生)。名学生)。l方案方案1 1(简单随机抽样)(简单随机抽样):采用简单随机抽样方法抽采用简单随机抽样方法抽取取400400个学生;个学生;l方案方案2 2(整群抽样)(整群抽样):根据学生宿舍名录抽取根据学生宿舍名录抽取10010

3、0个宿个宿舍,并调查被抽宿舍的每一个学生;舍,并调查被抽宿舍的每一个学生;l方案方案3 3(两阶段抽样)(两阶段抽样):先随机抽取先随机抽取400400个宿舍,再在个宿舍,再在每个被抽中的宿舍中随机抽取每个被抽中的宿舍中随机抽取1 1个学生。个学生。4.1.2 整群抽样的特点整群抽样的特点(1)抽样框)抽样框编制得以简化(2)实施调查便利,节省费用节省费用 (3)对某些特殊结构的总体却有好的估计效果好的估计效果(4)抽样误差较大(可通过增大样本量的方法弥补抽样精度的损失)。大致可分为两类1.根据行政或地域形成的群体2.调查人员人为确定的分群的原则可用方差分析原理说明:4.1.3 群的划分群的划

4、分v群的规模大,估计的精度差但费用省;群的规模大,估计的精度差但费用省;v群的规模小,估计的精度可以提高但费用增群的规模小,估计的精度可以提高但费用增大;大;v群规模不宜过大群规模不宜过大v对于规模很大的群,通常需要采用多阶段抽样。对于规模很大的群,通常需要采用多阶段抽样。v有群规模相等与不相等两种情况有群规模相等与不相等两种情况4.1.4 群的规模群的规模4.1.5 符号说明符号说明表表 4.1 4.2 等概率整群抽样等概率整群抽样n4.2.1 群规模相等时的估计群规模相等时的估计群规模相同,均为群规模相同,均为M,则,则 的估计量为:的估计量为: Y1111nMnijiijiYyynMyn

5、11nMijijNyYNMynn定理定理 4.4.1 1: 是 的无偏估计,即n定理定理 4.24.2: 的方差为:yY YyEy221111()1NibiffVyYYSnNnMn定理定理 4.34.3: 的样本估计为:)(yV21)(bsnMfyv)()()()()(2222yvMNYvyVMNyNMVYVyNMY总体总值总体总值的估计量的估计量及其方差及其方差【例4.1】n在一次对某中学在校零花钱的调查中,在一次对某中学在校零花钱的调查中,以宿舍作为群进行整群抽样。每个宿舍以宿舍作为群进行整群抽样。每个宿舍都有都有M=6名学生。用简单随机抽样在全名学生。用简单随机抽样在全部部N=315间宿

6、舍中抽取间宿舍中抽取n=8个宿舍。全个宿舍。全部部48个学生上周每人的零花钱个学生上周每人的零花钱 及相关及相关计算数据如表计算数据如表4-2所示。试估计该学校学所示。试估计该学校学生平均每周的零花钱生平均每周的零花钱 ,并给出其,并给出其95%的置信区间。的置信区间。ijyY整群抽样的效率分析整群抽样的效率分析群内相关系数 表达式为:上式中的分子为:2)()(YYEYYYYEijikij2) 1()(MNMYYYYNMikij上式中的分母为:221)(SMNNMNMYYNMij故 又可写为:2) 1)(1()(2SMNMYYYYNMikij212222211( )( )11(1)11(1)1

7、11NiiYYfV yV yNMnMfNMSMnMNfSMnM 用简单随机抽样方法抽取n个群,每个群内的M个单元全部进入样本,则等群抽样均值估计量 的方差可用群内相关系数近似表示y22222) 1)(1() 1(2)(SNMMSNMYYYYYYYYYYNiMjkjikijijNiMjijNii n简单随机抽样的方差公式为n由此可计算出等群抽样的设计效应为21)(SnMfyVsrs) 1(1)()(MyVyVdeffsrs 整群抽样的估计效率,与群内相关系数 的关系密切。 当 时,deffM 当 时,deff1 当 为负时,deff1 的取值范围是1 0 1 ,11M群内方差为群内方差与总体方差

8、相等群间方差为群内相关系数也可由样本统计量 估计【例4.2】22,bwss2222) 1(wbwbsMsss221()1nbiiMsyyn22111()(1)nMwijiijsyyn M4.2.2 群规模不等时的估计群规模不等时的估计当群规模Mi不等时,有不同的抽取方法和估计方法。(1)等概抽样,无偏估计)等概抽样,无偏估计 思路:以群规模Mi为权数,乘以各群均值 ,得到群观察值总值yi,再将样本中n个群的群总和平均,求得群总和均值 ,再除以 群平均规模y1NiiMMNiy估计公式为:若 未知,可用样本群平均规模代替nMmni1101nniiiiiM yyyNYyynMnMMMNMM总体总值Y

9、的估计为总量估计的另一公式为0YM y1niiNYyn估计量的方差为它的无偏估计为均值估计 的方差为221()(1)( )1NiiYYNfV YnN221()(1)( )1niiyyNfv Ynny2212200()1(1)( )( )1NiiYYNfV yV YNMM n(2)等概抽样,比率估计)等概抽样,比率估计总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为总体总量估计为11niiniiyyM1001niiniiyYM yMM估计量的方差分别是2221122()()11( )11NNiiiiiiYYMMYYffV yNNnMnM22222102221()(1)( )( )(

10、 )1()(1) 1NiiiNiiiYYMNfV YM V yN M V ynNMYYNfnN 与 的样本估计分别是2222122111()111( )(2)11niinnniiiiiiiiyM yffv yyyMyM ynnnMnM)(yV)(YV2222221111()(1)(1)1( )(2)11niinnniiiiiiiiyM yNfNfv YyyMyM ynnnn若若 未知,可用样本群平均规模未知,可用样本群平均规模 代替代替nMmniM 【例4.3】某县有33个乡,726个村,该年度某种作物总种植面积30525亩,现采用等概抽样随机抽出10个乡,要求估计全县总产量,计算抽样误差。

11、调查资料如下:样本乡编号村庄数 Mi作物总产量(乡) yi(万公斤)种植面积(乡) xi(亩)iiiMyy 123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882合计 209 257.1 8940 n分别采用几种方法估计(1)等概抽样,无偏估计)等概抽样,无偏估计1133(22.023.6)848.4310125.71niiniiN

12、Yynyyn221()(1)( )1567.91niiyyNfv Ynn评价:虽是无偏估计量,但方差估计与 之间的差异有关,适合于 之间差异不大的整群抽样。iyiy( )1567.939.6()s Y 万公斤(2 ) 等概抽样,比率估计等概抽样,比率估计11221257.1726893.08209()(1)( )687.81( )687.826.2()niitniiniiiyYMMyM yNfv Ynns Y万公斤评价:评价:比率估计量将 作为辅助变量引入估计,其估计方差取决于群均值 的差异。 的差异比 的差异要稳定,所以比率估计比前一种方法获得更好的估计效果。但比率估计量是有偏的,适合n比较

13、大的情形。iMiYiYiY(3)以种植面积为辅助变量的比率估计)以种植面积为辅助变量的比率估计 已知:种植面积X30525(亩) 用种植面积为辅助变量评价:评价:和 相比, 更小,因而有 更好的估计效果。11221257.130525877.858940()(1)( )127.841( )127.8411.3()niiniiniiiyYXxyRxNfv Ynns Y万公斤21()niiiyRx21()niiiyyM4.3 等概率两阶段抽样等概率两阶段抽样什么是多阶段抽样?什么是多阶段抽样? 分多个阶段抽到最终接受调查的样本。分多个阶段抽到最终接受调查的样本。 初级单元(初级单元(PSU)-Pr

14、imary Sampling Unit 二级单元二级单元 (SSU)-Second-stage Sampling Unit 三级单元(三级单元(TSU)-Third-stage Sampling Unit 最终单元最终单元 (USU)-Ultimate Sampling Unitn在整群抽样中,被抽中群中的在整群抽样中,被抽中群中的SSU全部全部进入样本。但在很多情况下,群中单元进入样本。但在很多情况下,群中单元具有相似性,尤其在群比较大时,显然具有相似性,尤其在群比较大时,显然没有必要调查没有必要调查PSU中的所有中的所有SSU,而是,而是在每个被抽中在每个被抽中PSU中对中对SSU再抽取子

15、样再抽取子样本,这就是本,这就是两阶段抽样两阶段抽样。同样的道理,同样的道理,还可以有三阶段抽样、四阶段抽样等,还可以有三阶段抽样、四阶段抽样等,我们统称为多阶段抽样。我们统称为多阶段抽样。多阶段抽样特点多阶段抽样特点便于调查,节省费用便于调查,节省费用避免了对小单元的过多调查造成的浪费;避免了对小单元的过多调查造成的浪费;不需要编制所有小单元的抽样框不需要编制所有小单元的抽样框多阶段抽样每一个阶段的抽样可以相同,也可以多阶段抽样每一个阶段的抽样可以相同,也可以不同,它通常与分层抽样、整群抽样、系统抽样不同,它通常与分层抽样、整群抽样、系统抽样结合使用。结合使用。式中, , 表示在固定初级单元

16、时对第二阶段抽样求均值和方差; , 表示对第一阶段抽样求均值和方差。4.3.2 多阶段抽样估计量的均值和方差多阶段抽样估计量的均值和方差n定理定理4.4 对于两阶段抽样,有12( )( )EE E 1212( )( )( )VV EE V 2E1V2V1E证明:证明: 记( )E , ( )V 2()E 212()E E 22()E 22( )E222( )E 22( )E2( )V222( )E 对 两 边 求1E, 得 ( )V 212( )EE12( )E V212( )E E 12( )VE12( )E V 4.3.3 等概率两阶段抽样的符号说明等概率两阶段抽样的符号说明n表4-54.

17、3.4 初级单元(初级单元(PSU)规模相等的)规模相等的两阶段抽样两阶段抽样n定理定理4.5 对于初级单元规模相等的两阶段抽样对于初级单元规模相等的两阶段抽样,如果两个阶段都是简单随机抽样,且对每个,如果两个阶段都是简单随机抽样,且对每个初级单元,第二阶抽样是相互独立进行的,则初级单元,第二阶抽样是相互独立进行的,则对总体均值对总体均值 的无偏估计为:的无偏估计为: 其方差为:其方差为:11111nnmiijiijYyyynnm Y22121211( )ffV ySSnmn的无偏估计为)(yV2221211)1 (1)(snmffsnfyv【例例4.14.1】欲调查4月份100家企业的某项指

18、标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水帐,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐。调查的结果如表4-7(见下图): 样本企业样本企业第一日第一日第二日第二日第三日第三日1 15757595964642 23838414150503 35151606063634 44848535349495 5626255555454要求根据这些数据推算要求根据这些数据推算100家企业该指标的总值,并给家企业该指标的总值,并给出估计的出估计的95%置信区间。置信区间。n解:

19、 05. 010051Nnf230.1030mfMiy22is样本企业样本企业1 1606013132 2434339393 3585839394 45050 7 75 557571919111(6043585057)53.65niiyyn9.36700.07029.4372 2221211)1 (1snmffsnfyv 849348009216.0078s Yv Y 2222100309.437284934800v YN M v y100 30 53.6160800YNMy160800 1.96 9216置信区间:置信区间: 方差估计式中,第一项是主要的,第二项要小得多,这方差估计式中,第一

20、项是主要的,第二项要小得多,这是因为第二项的分母是第一项的是因为第二项的分母是第一项的m m倍,而且它还要乘以小倍,而且它还要乘以小于于1 1的的f1f1。如果第一阶的抽样比如果第一阶的抽样比f1f1可以忽略,则方差估计可以忽略,则方差估计式可以简单为如下的结果:式可以简单为如下的结果:这个结果在实际工作中非常有用,因为第二阶抽样采用这个结果在实际工作中非常有用,因为第二阶抽样采用等距抽样或某些复杂抽样时,方差的无偏估计很难得到,等距抽样或某些复杂抽样时,方差的无偏估计很难得到,当当f1f1可以忽略时,只需要初级单元的均值就可以得到方可以忽略时,只需要初级单元的均值就可以得到方差的估计。从另一

21、方面看,差的估计。从另一方面看, f1 f1可以忽略意味着总体中初可以忽略意味着总体中初级单元级单元N N很大而选出的很大而选出的n n很小,结果势必增大抽样误差。很小,结果势必增大抽样误差。 221111()1niisv yyynn n4.3.5 初级单元规模不等的两阶段抽样初级单元规模不等的两阶段抽样n几种处理方法几种处理方法 * * 先分层,再抽样先分层,再抽样 * * 不等概抽样不等概抽样 n简单估计量简单估计量11nnuiiiiiNNYM yYnn222212211()11()1NiNiiiiuiiYYNfMfSNV YnNnm222212211()11()1niuniiiiuiiY

22、YNfMfsNv Ynnnm(此估计量是无偏的)(此估计量是无偏的)11nuiiYYnn自加权条件:第二阶段抽样比为一个常数 22iiimffM111112iimmnnniuiiijijiijijiMNNNYM yyynnmf nn比率估计量比率估计量110011nniiiiiRnniiiiM yYYMMMM2222212211()11()1NiiNiiiiRiiMYYNfMfSNMSE YnNnm样本估计为:样本估计为:2222212211()11()1niiRniiiiRiiMyYNfMfsNv Ynnnm101=niiiRRniiM yYYMM其中,4.4 等概率两阶段抽样设计等概率两阶

23、段抽样设计n考虑一下四个问题:(1)大体需要多高的精度?)大体需要多高的精度?(2)PSU的规模应该多大?的规模应该多大?(3)在每个入杨的)在每个入杨的PSU中应该抽取多少中应该抽取多少SSU?(4)应该抽取多少个)应该抽取多少个PSU? 对于初级单元大小相等的二阶抽样,如何设计两对于初级单元大小相等的二阶抽样,如何设计两个阶段的样本量,即如何确定最优的个阶段的样本量,即如何确定最优的n和和m?考虑费用函数为线性函数:考虑费用函数为线性函数:012TCCC nC nmn m 的最优值是:212optuScmSc22221uSSSMn m 确定之后,就可以根据总费用函数确定n,从而确定最优抽样比 和 。1f2fend

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第4章-等概率整群抽样和多阶段抽样.课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|