[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt

上传人(卖家):三亚风情 文档编号:3515622 上传时间:2022-09-10 格式:PPT 页数:81 大小:1.20MB
下载 相关 举报
[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt_第1页
第1页 / 共81页
[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt_第2页
第2页 / 共81页
[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt_第3页
第3页 / 共81页
[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt_第4页
第4页 / 共81页
[管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

1、第第3章章 分层随机抽样分层随机抽样3.1 定义与符号定义与符号2022-7-262一、定义l在抽样之前,先将总体在抽样之前,先将总体N N个单元划分成个单元划分成L L个互不个互不重复的子总体,每个子总体称为层,它们的大重复的子总体,每个子总体称为层,它们的大小分别为小分别为 ,这个层合起来就是,这个层合起来就是整个总体整个总体 ,然后,在每个层中分别,然后,在每个层中分别进行抽样,这种抽样就是分层抽样,所进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。得到的样本称为分层样本。NNNL12,NNhhL1不重不漏总体中的每一个单元一定属于并且只属于某一个层,总体中的每一个单元一定属于

2、并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。而不可能同时属于两个层或不属于任何一个层。n定义定义3.1 层:层:如果一个包含N个单元的总体可以分成“不重不漏”的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样的子总体为层。即L个子总体所包含的单位数分别为 ,则有n定义定义3.2 分层抽样:分层抽样:又称为类型抽样或分类抽样,即在每一层中独立进行抽样,总的样本由各层样本组成,总体参数则根据各层样本参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分层样本。设总得样本量为n,从L个子总体中所抽取的样本量分别为 ,则有,n定义定义3.3 分层随机抽样:分层随机抽样:如

3、果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样分层随机抽样,所得的样本称为分层随机样本。NNNL12,12LNNNN12,Ln nn12Lnnnn分层随机抽样的三个必要条件分层随机抽样的三个必要条件n(1)每层都抽每层都抽;n(2)各层都独立独立地抽;n(3)各层的抽样都是简单随机抽样简单随机抽样。2022-7-265特点:特点:n样本在总体中分布更均匀,更具代表性。样本在总体中分布更均匀,更具代表性。n每层的抽样都是独立进行,允许各层选择不同的抽样每层的抽样都是独立进行,允许各层选择不同的抽样方法。方法。n分层抽样不仅能对总体指标进行估计,而且能对各层分层

4、抽样不仅能对总体指标进行估计,而且能对各层指标进行估计。指标进行估计。n分层抽样的抽样效率较高,也就是说分层抽样的估计分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。(这是因为分层抽样估计量的方差只和层精度较高。(这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。)内方差有关,和层间方差无关。)2022-7-266符号说明符号说明 (关于第关于第h h层的记号层的记号 )n层号层号 hL12,NhnhiyhiWNNhhfnNhhhYNyhhhiiNh11ynyhhhiinh11SNyYhhhihiNh22111snyyhhhihinh22111单元总数样本单元数第 个单元的

5、值层权抽样比总体均值样本均值总体方差样本方差2022-7-2673.2 3.2 简单估计量及其性质简单估计量及其性质3.2.1 3.2.1 总体均值的简单估计及其性质总体均值的简单估计及其性质n分层样本,总体均值 的估计n分层随机样本,总体均值 的简单估计 YW YNN YsthhhLhhhL111yW yNN ysthhhLhhhL111YYn定理定理 3.3.1 1:对于分层随机抽样,是 的无偏估计。YstYn定理定理 3.23.2:对于分层随机抽样,有 V YW V YsthhhL21n定理定理 3.33.3:对于分层随机抽样,的估计量 具有如下性质:YstE yYsty 2221122

6、22111 LLhsthhhhhhhLLhhhhhhhhfV yW V YWSnW SW SnN 第第h层样本的样本方差。层样本的样本方差。n定理定理 3.43.4:对于分层随机抽样,的方差 的无偏估计量:sty2212222111 LhsthhhhLLhhhhhhhhfv yWsnW sW snNstv ysnyyhhhihinh221111hn n推论推论 3.3.1 1:对于分层随机抽样,总体总量 的简单估计量 有如下性质:(1)(2)(3)是 的一个无偏估计。stYNyY()stE YY21()LhsthhhhhSV YNNnn21()Lhsthhhhhsv YNNnn()stV Yn

7、推论推论 3.23.2:对于分层随机抽样,总体比例 的简单估计量 有如下性质:(1)(2)(3)是 的一个无偏估计。1LsthhhpW pP()stE pP2211()1LhhhhsthhhhNn PQV pNNNn()stV P211()1LhhsthhhhhNnv pNp qNnn推论推论 3.33.3:对于分层随机抽样,总体中具有指定特征的单元总数 的简单估计量 为:具有如下性质:(1)(2)(3)是 的一个无偏估计。AstA()stV A11LLststhhhhhhANpNW pN p()stE AA21()1LhhhhsthhhhNn PQV ANNn1()1LhhhsthhhhNN

8、nv Ap qn2022-7-2614例例3.13.1 n调查某地区的居民奶制品年消费支出,以居民户为抽调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为样单元,根据经济及收入水平将居民户划分为4层,每层,每层按简单随机抽样抽取层按简单随机抽样抽取10户,调查获得如下数据(单户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及位:元),要估计该地区居民奶制品年消费总支出及其置信区间。其置信区间。层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出1234567891012001040011015104080900240050

9、1306080100551608516017037501802601100140602001803002204150050351502030251030252850N 101,2,3,4hnh112000.070182850NWN111100.05200nfN224000.140352850NWN222100.025400nfN337500.263162850NWN333100.0133750nfN4415000.526322850NWN444100.00671500nfN11111139.5niiyyn1221111111624.7221niisyyn2105y 3165y 424y 222

10、166.667s 238205.556s 24193.333s 2022-7-261641sthhhYN y200 39.5400 105750 16515002420965044222281115.93 10hsthhhhhhhfv YNW v yNsn/2209650 1.96 23207.6stZv YstY2022-7-2617例例3.23.2 n在例在例3.1的调查中,同时调查了居民户拥有家的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及置信要估计该地区居民拥有家庭电脑的比例及置信水平

11、为水平为95%的置信区间。的置信区间。层层居民居民户总户总数数样本户拥有家庭电脑情况样本户拥有家庭电脑情况123456789101200000100010024000100000010375011000010104150010000000002022-7-2618解:由上表可得,由上表可得,根据前面对各层层权根据前面对各层层权 及抽样比及抽样比 的计算结果,可得各层估计量的方差:的计算结果,可得各层估计量的方差:因此,该地区居民拥有家庭电脑比例的估计为:因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:估计量的方差为:估计量的置信区间为:估计量的置信区间为:2.01p2.02p4.03

12、p1.04phWhf1 111110.01691p qv pfn2222210.01731p qv pfn3333310.02631p qv pfn4444410.00991p qv pfn41411hhhhhhstpNNpWp12000.24000.27500.415000.128500.241221hhhstpvNNpv2222212000.01694000.01737500.026315000.009928500.005/2ststpZv pn两种途径:n分别比估计:分别比估计:对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,即先“比”后“加权”;n联合比估计:联合比估计:

13、对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量,然后用对应的分层估计量来构造比估计,即先“加权”后“比”。3.3 比率估计量及其性质比率估计量及其性质3.3.1 3.3.1 分别比估计分别比估计定义定义 3.4 总体均值 和总体总量 的分别比估计为:YYhhhhRhhRSXxyWyWyRhhhhRSRSYXxyyNY定理定理 3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有()RSE yY22221()()(1)(2)RSRSLhhyhhxhhyxhhhMSE yV yWfSR SR Snhn根据定理定理3.5,很容易推得在各层样本量 都比较大的情况下,有(

14、)RSE YY22221()()(1)(2)RSRSLhhyhhxhhyxhhhMSE YV YNfSR SR Snhn3.3.2 3.3.2 联合比估计联合比估计定义定义 3.5 总体均值 和总体总量 的联合比估计为:YYXRXxyyCststRCXRyNXxyYCRCststRC1LsthhhyW y1LsthhhxW x定理定理 3.6 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有()RCE yY22221()()(1)(2)RCRCLhhyhxhyxhhhMSE yV yWfSR SRSnhn根据定理定理3.6,很容易推得在各层样本量 都比较大的情况下,有()RCE Y

15、Y22221()()(1)(2)RCRCLhhyhxhyxhhhMSE YV YNfSR SRSnhn3.3.3 分别比估计与联合比估计的比较分别比估计与联合比估计的比较 22221221()()(1)2(1)2RCRSLhhhxhhyxhhhLhhhhxhyxhhhV yV yWfRRSRRSnWfRRRRSSnn两种途径:n分别回归估计:分别回归估计:对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先“回归”后“加权”;n联合回归估计:联合回归估计:对两个变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先“加权”后“回归”。

16、3.4 回归估计量及其性质回归估计量及其性质3.4.1 3.4.1 分别回归估计分别回归估计定义定义 3.6 分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对 的分别回归估计为:对 的分别回归估计为:YY11()LLlrshlrhhhhhhhhyW yWyXx11()=()LlrslrshhhhhhLhhhhhhYNyNWyXxNyXx1.各层的回归系数 事先给定h()lrsE yY()lrsE YY22221(1)()(2)LhhlrsyhhxhhxyhhhWfV ySSSn 22221(1)()(2)Lhhlrsyhh

17、xhhxyhhhNfV YSSSn 2(1,2.)xyhhxhShLS 222min(1)()(1)hhlrsyhhhWfVySn2.不能事先设定各层的回归系数 h2221(1)()(1)LhhlrsyhhhhWfV ySn若 不能事先设定,则将 取为第h层总体回归系数 的最小二乘估计 ,即为样本回归系数:hhhbhb121()()()hhnhihhihihnhihiyyxxbxx2221(1)()1(1)(2)LhhlrshyhhhhhWfv ynsrn n2:hr第h层样本相关系数的平方3.4.2 3.4.2 联合回归估计联合回归估计定义定义 3.7 联合回归估计是指在分层随机抽样中,先对

18、 和 作分层估计:YX1LsthhhyW y1LsthhhxW x进而构造总体均值 的联合回归估计为:总体总量 的联合回归估计为:YY()lrclrcststYNyYXX()lrcststyyXx1.当 为事先设定的常数()lrcE yY()lrcE YY22221(1)()(2)LhhlrcyhxhxyhhhWfV ySSSn 22221(1)()(2)LhhlrcyhxhxyhhhNfV YSSSn 21221(1)/(1)/LhhxyhhhcLhhxhhhWfSnBWfSn 2222min(1)()()hhlrcyhcxhhWfVySB Sn2.当回归系数 不能事先设定22221(1)(

19、)(2)LhhlrcyhcxhcxyhhhWfV ySB SBSn当 不能事先设定,取 的样本估计 :cBcb222 21(1)()(2)Lhhlrcyhcxhc xyhhhWfv ysb sb sn2:hr第h层样本相关系数的平方21221(1)/(1)/LhhxyhhhcLhhxhhhWfsnbWfsn3.4.3 分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较2222222minmin11222221(1)(1)()()()(1)(1)()LLhhhhlrclrsyhcxhyhhhhhhLxyhhhcxhhhxhWfWfVyVySB SSnnSWfB SnS21 0Lhh

20、chaBB当 和 均取最优值时,分别回归估计优于联合回归估计,尤其是当回归系数相差较大时,分别回归估计的优越性更加明显。h小结小结 在比估计中,分别比估计与联合比估计均为有偏估计量,当各层样本量都比较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。在回归估计中,少数情况下,回归系数是可以事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。2022-7-26363.5 3.5 各层样本量的分配各层样本量的分配 n 当总样本量当总样本量n固定,如何将这固定,如何将这n个样本合个样本

21、合理地分配到各层去?理地分配到各层去?222211LLhhhhsthhhW SW SV ynN估计量的方差不仅与各层的方差有关,还和各层所估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。分配的样本量有关。实际工作中有不同的分配方法,实际工作中有不同的分配方法,(1 1)常数分配;)常数分配;(2 2)与层内方差)与层内方差 成比例地分配;成比例地分配;(3 3)与层权)与层权 成比例的分配成比例的分配(比例分配比例分配);(4 4)与)与 成比例地分配(内曼最优分配)。成比例地分配(内曼最优分配)。2hShWhhW S2022-7-26383.5.1 3.5.1 比例分配比例分配

22、 n定义定义3.8 3.8 比例分配(比例分配(Proportional Proportional allocation):allocation):在分层抽样中,若每层的样本在分层抽样中,若每层的样本量量 都与层的大小都与层的大小 成比例,即成比例,即 或或 则称样本量的这种分配方式为比例分配。则称样本量的这种分配方式为比例分配。变形变形后可得后可得n 即即 或或 hhhnNWnN(1,2,.)hhhnnff hLNNhnhNhhnnfNNhhnn W hhnnNN(总体中的任一个单元,不管它在哪一个层,都以同样的概率入样)(总体中的任一个单元,不管它在哪一个层,都以同样的概率入样)111hn

23、LpropprophihiNYNyyynfyynynniiLhnihih11111自加权LhnihihhLhhhLhhhprophynnnynnyWy11111n定义定义3.9 自加权:若总体总量(或总体自加权:若总体总量(或总体均值)的一个无偏估计量可以表示成样均值)的一个无偏估计量可以表示成样本基本单元的变量值总量(或均值)的本基本单元的变量值总量(或均值)的一个常数倍,即一个常数倍,即 则称这种估计量为自加权或等加权。则称这种估计量为自加权或等加权。()YkyYky或2022-7-2641n样本均值估计量的方差样本均值估计量的方差 11Lprophhppan22211111LLLhhpr

24、opprophhhhhhhhhhnffVyW V yWSW Snnn211111LLhhhpropprophhhhhhN PQffVpW PQNnNn比例2022-7-26423.5.2 3.5.2 最优分配最优分配 定 义定 义 3.1 0 最 优 分 配(最 优 分 配(o p t i m u m allocation):在分层随机抽样中,对于:在分层随机抽样中,对于给定的费用,使估计量的方差达到最小,给定的费用,使估计量的方差达到最小,或者对于给定的估计量方差,使得总费用或者对于给定的估计量方差,使得总费用达到最小的各层样本量的分配称为达到最小的各层样本量的分配称为最优分最优分配配。20

25、22-7-2643n简单线性费用函数,总费用简单线性费用函数,总费用n构造如下目标函数:构造如下目标函数:01LThhhCcc n22220111LLLhhhhhhhhhhhWWC VCcVSSc nNn (3.132)n定理定理 3.7 对于分层随机抽样,若费用函数为对于分层随机抽样,若费用函数为式(式(3.132),则最优分配为:),则最优分配为:11(1,2,.)hhhhhhhLLhhhhhhhhW ScN ScnhLnW ScN Sc证明:证明:2022-7-2645对所有层成立时,达到极小,此时,VC nnW ScW ScN ScN SchhhhhhhhLhhhhhhhL11222h

26、hh haba bhhhhW Sbnhh hacnhhhhhhhhhhhc nncbKaW SW Sn当且仅当,hhhhW SnKc11,LLhhhhhhW SnnKc,得证。2022-7-2646n给定给定V时,由时,由hhhhnKW Sc1121LLhhhhhhhhLhhhW ScW ScnVW SN 121/LhhhhLhhhW ScKVW SN2022-7-2647n给定给定C时,时,011LLhhhhhhhCcc nKc W S01LhhhhCcKc W S01hhhLhhhhhCcW Sncc W S00()()()()hhhhhhhhhhhhhhhhCcW ScCcN ScnW

27、ScN SchhhhW SnKcn最优分配的结果说明:最优分配的结果说明:如果某一层如果某一层(1)第)第h层所含的单元数较多;层所含的单元数较多;(2)第)第h层内部单元的差异程度较大;层内部单元的差异程度较大;(3)第)第h层每个样本所需的费用较低,层每个样本所需的费用较低,则对第则对第h层需要抽取一个含量较多的。层需要抽取一个含量较多的。2022-7-26493.5.3 内曼最优分配内曼最优分配n如果每层抽样的费用相同,最优分配可如果每层抽样的费用相同,最优分配可简化为简化为n这种分配称为这种分配称为NeymanNeyman分配。分配。11hhhhhLLhhhhhhnW SN SnW S

28、N Sn定理定理 3.8 在分层随机抽样中,当样本量在分层随机抽样中,当样本量n固固定的情况下,如果定的情况下,如果则则此此时的时的 最小。最小。nnW SW SnN SN ShhhhhhLhhhhhL11V ystLhhhLhhhstSWNSWnyV1212min112022-7-2651LhhhnhstSnfWyV122min1LhhhLhhhstSWNSWnyV1212min11LhLhhhhhnhhSWSnWfSW11221LhLhhhhhhhLhhhSWNnSWnSWn11121)(1LhLhhhhhLhhhSWNSnnSWn11121)(1LhLhhhLhhhhhLhhhSWSWN

29、SnWnSWn1112121)(1证明:证明:2022-7-2652例例3.43.4n某市有甲、乙两个地区,现要进行家庭收入的某市有甲、乙两个地区,现要进行家庭收入的调查。令调查。令n=500,n=500,已知甲地区共有已知甲地区共有20 00020 000户居民户居民,乙地区共有,乙地区共有50 00050 000户居民;甲地居民和乙地户居民;甲地居民和乙地居民年收入标准差估计分别为居民年收入标准差估计分别为 ;同时对甲地和乙地每户的平均抽样费用之比;同时对甲地和乙地每户的平均抽样费用之比为为2:32:3,请分别计算出在甲地和乙地进行比例,请分别计算出在甲地和乙地进行比例分配、一般最优分配(

30、考虑费用因素)以及内分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。曼分配(不考虑费用因素)的样本量。122500,2000SS2022-7-26533.5.4 3.5.4 某些层要求大于某些层要求大于100%100%抽样时的抽样时的修正修正 n 按最优分配时,有时按最优分配时,有时抽样比抽样比f f较大,某较大,某个层的个层的 又比较大,又比较大,则可能出现按最优则可能出现按最优分配计算的这个层的样本量分配计算的这个层的样本量 超过超过 的的情况。情况。n实际工作中,如果第实际工作中,如果第 k k 层出现这种情况层出现这种情况,最优分配是对这个层进行,最优分配是对

31、这个层进行100%100%的抽样的抽样,即取,即取 ,然后,将剩下的样本量,然后,将剩下的样本量 按最优分配分到各层。按最优分配分到各层。ShNhnhnNkknnkn1.精度是以 的上限给出2022-7-26543.6 3.6 总样本量的确定总样本量的确定 n(1)确定的样本量分配形式22221111LLhhhhhhhhWWVSSnwNWhhnwn VNSWVwSWnhhhhh222222211LLhhhhsthhhW SW SV ynN22011LhhhhnW SwV令02111LhhhnnW SNV2022-7-2655n(2)(2)比例分配,比例分配,wWhhnW SVW SNhhhh2

32、2VSWnhh20nnnN001令2022-7-2656n(3)Neyman(3)Neyman分配,分配,1LhhhhhhwW SW S210221111LhhhLLhhhhhhW SnnVW SNW SNV2011LhhhnW SV令2022-7-2657n(4)(4)一般最优分配,一般最优分配,1LhhhhhhhhwW ScW Sc1121LLhhhhhhhhLhhhW ScW ScnVW SNn2.精度是以 的绝对误差限 (在给定置信水平下)的形式给出:2022-7-265811ststststyYdP yYdPV yV y dsty2stdzV y22dVz 2022-7-2659n(

33、1)确定的样本量分配形式:hhnwn 222222hhhhhW SwndW SNz2022-7-2660n(2)(2)比例分配,比例分配,wWhh22222hhhhW SndW SNz2022-7-2661n(3)Neyman(3)Neyman分配,分配,1LhhhhhhwW SW S2122212LhhhLhhhW SndW SNz2022-7-2662n(4)(4)一般最优分配,一般最优分配,1LhhhhhhhhwW ScW Sc1122212LLhhhhhhhhLhhhW ScW ScndW SNzn3.精度是以 的相对误差限 (在给定置信水平下)的形式给出:2022-7-266311s

34、tstststyYyYrYPrPYV yV y rsty2strYzV y22rYVz 2022-7-2664n(1)确定的样本量分配形式:hhnwn 22222hhhhhW SwnrYW SNz2022-7-2665n(2)(2)比例分配,比例分配,wWhh2222hhhhW SnrYW SNz2022-7-2666n(3)Neyman(3)Neyman分配,分配,1LhhhhhhwW SW S212212LhhhLhhhW SnrYW SNz2022-7-2667n(4)(4)一般最优分配,一般最优分配,1LhhhhhhhhwW ScW Sc112212LLhhhhhhhhLhhhW Sc

35、W ScnrYW SNz例3.7n某工厂生产的机器供应全国某工厂生产的机器供应全国219家用户家用户,现在想请用户对该厂机器进行评分。,现在想请用户对该厂机器进行评分。今把这些用户分成本地区、本省外地区今把这些用户分成本地区、本省外地区以及外省三层,相关资料如表以及外省三层,相关资料如表3-11所示所示。现在要求评分均值的估计量的方差。现在要求评分均值的估计量的方差V=0.1,同时还要求费用最省,求样本,同时还要求费用最省,求样本量量n及其在各层的分配,并计算出对应的及其在各层的分配,并计算出对应的最低费用是多少?最低费用是多少?3.6.2 总费用给定时总样本量的确定总费用给定时总样本量的确定

36、2022-7-2669n考虑简单线性费用函数,费用函数为考虑简单线性费用函数,费用函数为n根据最优分配的结论,有根据最优分配的结论,有01LThhhCcc n011LLhhhhhhhCcc nKc W S01LhhhhCcKc W S01hhhLhhhhhCcW Sncc W S00()()()()hhhhhhhhhhhhhhhhCcW ScCcN ScnW ScN Sc所以,所以,2022-7-26713.7 3.7 分层抽样的其他方面分层抽样的其他方面3.7.1 多重分层多重分层n定义定义3.11 3.11 当调查指标当调查指标 与两个或多个辅助变与两个或多个辅助变量量 都存在相关关系时,

37、为提高分层的都存在相关关系时,为提高分层的效益,需要按每一个辅助变量进行分层,通常效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式分层。当存在多个分层变量时,这种分层方式即称为多重分层(即称为多重分层(multiple stratificationmultiple stratification)12,.x x2022-7-2672u对于多重分层,当对于多重分层,当“子层子层”划分好以后,就要考虑划分好以后

38、,就要考虑样本量在各子层的分配问题。样本量在各子层的分配问题。u设按照变量设按照变量1分层可以分层分层可以分层R层,每大层的层权为层,每大层的层权为 ;按照变量;按照变量2可以分成可以分成C层,每大层,每大层的层权为层的层权为 。设总样本量为。设总样本量为n,则,则kl子层的样本量为子层的样本量为 。u各子层的样本量确定后,就可以在子层内随机抽取各子层的样本量确定后,就可以在子层内随机抽取样本了。样本了。(1,2,.)kWkRklklnnW(1,2,.)lWlC2022-7-2673u当样本量当样本量n相对于子层总数相对于子层总数RC不够大时,可能出现不够大时,可能出现某些子层分配不到样本的情

39、况。某些子层分配不到样本的情况。若若 ,则此时应当考虑重新确定分层,则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益很变量或者不采用分层抽样,否则这种分层的效益很难保证。难保证。若若 ,同时还满足,同时还满足 ,就可以,就可以考虑用试验设计的思想来进行样本量的分配。考虑用试验设计的思想来进行样本量的分配。【例例3.8】max(,)nR CnRCmax(,)nR C2022-7-26743.7.2 3.7.2 事后分层事后分层 事先分层存在一定的困难,如事先分层存在一定的困难,如n(1)(1)各层的抽样框无法得到;各层的抽样框无法得到;n(2 2)几个变量都适合于分层,要进行

40、事先的)几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计;层后每个子层的估计;n(3 3)总体规模)总体规模N N太大,事先分层太费事等。太大,事先分层太费事等。注意:注意:(1 1)事后分层技术要求层权已知或可以通过某种途径)事后分层技术要求层权已知或可以通过某种途径获得,当层权未知需要对其进行估计时,应当确保层获得,当层权未知需要对其进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。高估计量精度的目的。(2 2)使用事后分层

41、技术时,还应注意)使用事后分层技术时,还应注意“事后层事后层”不宜不宜太多。太多。事后分层的实施办法:事后分层的实施办法:先采用简单随机抽样的方法从总体中抽取一个样本量先采用简单随机抽样的方法从总体中抽取一个样本量为为n n的样本,然后对样本中的单元按某些特征进行分层。的样本,然后对样本中的单元按某些特征进行分层。假设在假设在n n个样本中,落入第个样本中,落入第h h层的样本数为层的样本数为 ,有,有 ,此时,对总体均值,此时,对总体均值 的事后分层估计为:的事后分层估计为:代表落入第代表落入第h h层的第层的第i i个样本的指标值。个样本的指标值。hmY1Lhhmn1111hmLLpsth

42、hhhihhihyW yWymhiy性质性质3.13.1在在 固定而且都大于固定而且都大于0 0的条件下,的条件下,可以看成是独立地从各层中抽取的简单随机样本。可以看成是独立地从各层中抽取的简单随机样本。根据性质根据性质3.13.1,在,在 固定而且都大于固定而且都大于0 0的条件下,有的条件下,有hm12,.,hhhhmyyy222111LLhhpsthhhhhW SV yW SmNhm22111hNhhihihSYYN2022-7-2678定理定理 3.93.9当当 充分大时,事后分层估计量充分大时,事后分层估计量 及其方差及其方差 有如下性质:有如下性质:(1 1)(2 2)npsty2

43、221111(1)LLpsthhhhhhfE V yW SW Snn()pstE yY()pstV y2022-7-2679n第一项就是按比例分配分层抽样估计量的方差第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。分层引起的方差增加量。n只要样本量足够大,事后分层的精度与按比例只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当。分配事先分层的精度相当。LhhhLhhhpstSWnSWnfyVE12212111LhhhpropSWnV122112022-7-2680n 如果样本是按某一个辅助指标分层后抽如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格取的,只要这个事先分层抽样是严格按按比例分配比例分配进行的,则这个样本是进行的,则这个样本是自加权自加权的,总体中每个单元被抽中的概率相同的,总体中每个单元被抽中的概率相同,我们可以将这个样本,我们可以将这个样本看作简单随机样看作简单随机样本,分别对其它指标进行事后分层估计本,分别对其它指标进行事后分层估计。end

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文([管理学]抽样调查理论与方法-第二版第3章-分层随机抽样课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|