1、精品精品pptppt模板模板分层随机抽样概述分层随机抽样概述精品精品pptppt模板模板*2 简单随机抽样只适合小型的抽样调查简单随机抽样只适合小型的抽样调查:1.抽样框抽样框 2.代表性代表性 如如:了解中国各民族的情况了解中国各民族的情况:(鄂伦春族鄂伦春族)精品精品pptppt模板模板*3 一定义与作用一定义与作用 (一一)分层抽样和分层随机抽样分层抽样和分层随机抽样 先将总体个单元划分成个互不重复的子总体,每先将总体个单元划分成个互不重复的子总体,每个子个子 总体称为层,它们的大小分为别,这个层总体称为层,它们的大小分为别,这个层 合起来就是整个总体()。合起来就是整个总体()。然后,
2、在每个层中分别然后,在每个层中分别独立独立进行抽样,这种抽样就是分层进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。样,则称为分层随机抽样,所得到的样本称为分层随机样本。不重不漏精品精品pptppt模板模板*4 各层中的抽样是独立进行的,因此,在各各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各
3、层的可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的样本尽可能反映总体的特性以及子总体的特性。特性。分层抽样有时也称为分层抽样有时也称为类型抽样或分类抽样类型抽样或分类抽样。精品精品pptppt模板模板*5 分层随机抽样三原则:分层随机抽样三原则:(1)每层都抽样每层都抽样;(2)各层都)各层都独立独立地抽样;地抽样;(3)各层的抽样都是)各层的抽样都是简单随机抽样简单随机抽样。精品精品pptppt模板模板*6(二)特点:(二)特点:.分层抽样的抽样效率较高,也就是说分层分层抽样的抽样效率较高,也就
4、是说分层抽样的估计精度较高。抽样的估计精度较高。注意:注意:分层抽样估计量的方差只和层内方差有关,分层抽样估计量的方差只和层内方差有关,和层间方差无关。和层间方差无关。.分层抽样不仅能对总体指标进行推算,分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。而且能对各层指标进行推算。如如:消费物价指数消费物价指数(全国和各省全国和各省).层内抽样方法可以不同,而且便于抽样层内抽样方法可以不同,而且便于抽样 工作的组织。工作的组织。精品精品pptppt模板模板*7(三三)作用作用 可以对各层的参数进行估计可以对各层的参数进行估计,有助于提有助于提高估计精度高估计精度。精品精品pptppt模
5、板模板*8 应用条件:应用条件:适合于适合于各层差异较大各层差异较大,有进行分层的辅助信息有进行分层的辅助信息。层的划分原则:层的划分原则:层内单元具有相同性质,通常按调查对象的不同类型进层内单元具有相同性质,通常按调查对象的不同类型进 行划分,行划分,这时,分层抽样能够对每一类的目标量进行估这时,分层抽样能够对每一类的目标量进行估 计。计。尽可能使层内单元的标志值相近,层间单元的差异尽可尽可能使层内单元的标志值相近,层间单元的差异尽可 能大,从而达到提高抽样估计精度的目的。能大,从而达到提高抽样估计精度的目的。既按类型又按层内单元标志值相近的原则进行多重分既按类型又按层内单元标志值相近的原则
6、进行多重分 层,同时达到实现估计类值以及提高估计精度的目的。层,同时达到实现估计类值以及提高估计精度的目的。为了抽样组织实施的方便,通常按行政管理机构设置进为了抽样组织实施的方便,通常按行政管理机构设置进 行分层。行分层。精品精品pptppt模板模板*9如:对全国汽车货运量调查,目的是不仅要如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分了解全国货运量,而且推算不同经济成分货运量。货运量。首先为组织方便首先为组织方便,按省分层;各省再按按省分层;各省再按经济成分分层;为提高抽样效率经济成分分层;为提高抽样效率,再按吨位再按吨位分层。分层。精品精品pptppt模板模板*
7、10层号:层号:h(h=1,2,L)h(h=1,2,L)第第h h层的记号如下层的记号如下:单元总数:单元总数:样本单位数:第样本单位数:第i i个单元标志值为个单元标志值为:从该层中抽取的样本的单元值为从该层中抽取的样本的单元值为:层权:层权:抽样比:抽样比:总体均值:总体均值:样本均值:样本均值:精品精品pptppt模板模板*11 层内方差:层内方差:样本方差:样本方差:精品精品pptppt模板模板*12 一总体均值的估计一总体均值的估计(一一)简单估计量的定义简单估计量的定义 对于分层样本,对总体均值对于分层样本,对总体均值 的估计是通过的估计是通过对各层的对各层的 的估计的估计,按层权
8、按层权 加权平均加权平均得到的。公式为得到的。公式为:精品精品pptppt模板模板*13 如果得到的是如果得到的是分层随机样本分层随机样本,则总体均值则总体均值 的的简单估计为简单估计为:(二二)估计量的性质估计量的性质 性质性质1 1 对于对于一般的分层随机抽样一般的分层随机抽样,如果如果 是是 的无偏估计的无偏估计(h=1,2,L),(h=1,2,L),则则 是是 的无偏估计。即对各层估计是无偏的,则对总体的无偏估计。即对各层估计是无偏的,则对总体的估计也是无偏的。的估计也是无偏的。的方差为的方差为:由于各层的抽样由于各层的抽样是相互独立的是相互独立的精品精品pptppt模板模板*14证明
9、:因各层抽样是相互独立,则证明:因各层抽样是相互独立,则 也相互独立,也相互独立,则有则有精品精品pptppt模板模板*15精品精品pptppt模板模板*16 性质性质3 3 对于分层随机抽样对于分层随机抽样,的一的一个无偏估计为:个无偏估计为:精品精品pptppt模板模板*17 注注:当当 适当适当的大,各层样本平均数的大,各层样本平均数 均可适用正态均可适用正态近似,因此一般地近似,因此一般地 也适用于正态近也适用于正态近似其置信区间。似其置信区间。精品精品pptppt模板模板*18 (一)简单估计量的定义(一)简单估计量的定义 总体总量总体总量Y Y的估计为:的估计为:分层随机样本分层随
10、机样本:(二)估计量的性质(二)估计量的性质性质对于性质对于一般的分层抽样一般的分层抽样,如果是,如果是 偏估计,则偏估计,则是是Y Y的无偏估计。的无偏估计。的方差为:的方差为:精品精品pptppt模板模板*19精品精品pptppt模板模板*20 性质对于性质对于分层随机抽样分层随机抽样,的方差为:的方差为:性质对于分层随机抽样性质对于分层随机抽样,的一个无偏估计为:的一个无偏估计为:精品精品pptppt模板模板*21精品精品pptppt模板模板*22层层 居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出精品精品pptppt模板模板*23 解:N=200+400+750+15
11、00=2850 =10(h=1,2,3,4)各层的层权及抽样比为:精品精品pptppt模板模板*24精品精品pptppt模板模板*25 该地区居民奶制品年消费总支出该地区居民奶制品年消费总支出:估计量方差及标准差的样本估计为估计量方差及标准差的样本估计为:精品精品pptppt模板模板*26精品精品pptppt模板模板*27 【例例3.2】某市进行家庭收入调查】某市进行家庭收入调查,分城镇居民分城镇居民和农村居民两部分抽样和农村居民两部分抽样,在全部城镇在全部城镇2356023560户户中抽取中抽取300300户户,在全部农村在全部农村148420148420户中抽取户中抽取250250户户(均
12、按简单随机抽样进行均按简单随机抽样进行),),调查结果是城镇调查结果是城镇年平均户收入为年平均户收入为1518015180元元,标准差为标准差为29722972元;元;农村年平均收入为农村年平均收入为98569856元元,标准差为标准差为25462546元。元。求全市年平均户收入的估计及其求全市年平均户收入的估计及其90%90%的置信区的置信区间。间。精品精品pptppt模板模板*28解:精品精品pptppt模板模板*29精品精品pptppt模板模板*30 全市年户均收入的置信区间全市年户均收入的置信区间:10585.39 1.645 142.287,即即 10351.33 10819.45(
13、元元)注注:由于城镇居民与农村居民收入水平,抽样由于城镇居民与农村居民收入水平,抽样比不同比不同(前者大于后者前者大于后者)。如果不分层,计算。如果不分层,计算样本平均数作为全市户均年收入是不合理样本平均数作为全市户均年收入是不合理的的:精品精品pptppt模板模板*31(一一)简单估计量的定义简单估计量的定义 总体比例总体比例P P的估计为的估计为:(二二)估计量的性质估计量的性质 如果定义如果定义 1,1,第第i i个单元具有所考虑个单元具有所考虑的特征的特征 0,0,其他其他 i=1,2Ni=1,2N 精品精品pptppt模板模板*32 性质性质7 7 对于对于一般的分层抽样一般的分层抽
14、样,如果是,如果是 的无偏估计的无偏估计(h=1,2,L),(h=1,2,L),则则 是是P P的的无偏估计无偏估计.的方差为的方差为:性质性质8 8 对于对于分层随机抽样分层随机抽样,是是P P的一个无偏的一个无偏估计估计,的方差为的方差为:因为因为:及及 精品精品pptppt模板模板*33 精品精品pptppt模板模板*34 性质性质对于分层随机抽样,对于分层随机抽样,的一个无偏估计的一个无偏估计为:为:精品精品pptppt模板模板*35 了解某地区居民户拥有家庭电脑的情况如下,估计该了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。地区家庭拥有电脑的比例
15、及估计的标准差。样本户拥有家庭电脑情况样本户拥有家庭电脑情况层层居民户居民户总数总数样本户拥有家庭电脑情况样本户拥有家庭电脑情况 精品精品pptppt模板模板*36精品精品pptppt模板模板*37精品精品pptppt模板模板*38(三三)总体具有所考虑特征单元总数总体具有所考虑特征单元总数A的估计的估计 它的方差 及方差估计 分别是:精品精品pptppt模板模板*39【例例3.43.4】为调查某个高血压高发病地区青少年与成年人高血为调查某个高血压高发病地区青少年与成年人高血压的患病率压的患病率,对对1414岁以上的人分四个年龄组进行岁以上的人分四个年龄组进行分层随机抽样分层随机抽样,调查结果
16、如下调查结果如下,求总体高血压的患病率求总体高血压的患病率P P的估计及其标准差的的估计及其标准差的估计。估计。高血压患病率调查数据高血压患病率调查数据年龄组年龄组(岁岁)层权层权层样本量层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536精品精品pptppt模板模板*40 为求为求 的方差估计的方差估计,取取精品精品pptppt模板模板*413.3 比率估计及其性质比率估计及其性质(一一)分别比率估计分别比率估计 条件:条件:各层的样本量都比较大各层的样本
17、量都比较大的情况下的情况下 方法:各层分别进行比率估计,将各层加权汇总得方法:各层分别进行比率估计,将各层加权汇总得到总体指标的估计。到总体指标的估计。(先比后加权先比后加权)总体均值总体均值 和总体总量和总体总量Y的分别比率估计量的分别比率估计量:已知已知各层各层的的均值和总量均值和总量精品精品pptppt模板模板*42 对分别比估计,若各层样本量都比较大,则有对分别比估计,若各层样本量都比较大,则有:为第为第h层层X与与Y的相关系数的相关系数注:公式中注:公式中S、R、用样本数据替代用样本数据替代精品精品pptppt模板模板*43 证明:根据比估计量的性质,当证明:根据比估计量的性质,当
18、比较大时,则有:比较大时,则有:所以所以精品精品pptppt模板模板*44 总量:总量:精品精品pptppt模板模板*45(二二)联合比率估计联合比率估计条件:条件:各层的样本量不是都很大各层的样本量不是都很大的情况的情况方法:先分别对方法:先分别对 作分层估计,然后再采用比估计作分层估计,然后再采用比估计方法。(先加权后比)方法。(先加权后比)总体均值总体均值 和总体总量和总体总量Y的联合比率估计量:的联合比率估计量:已知已知总体总体的的均值和总量均值和总量精品精品pptppt模板模板*46的均方误差为的均方误差为:v对联合比估计,若总样本量对联合比估计,若总样本量 n比较大,则有比较大,则
19、有:证明:证明:p75注意与分别比估计方差公式的差异注意与分别比估计方差公式的差异(Rh)精品精品pptppt模板模板*47(三三)分别比率估计量与联合比率估计量的比较分别比率估计量与联合比率估计量的比较 如果如果各层的样本量都较大各层的样本量都较大,且有理由认为,且有理由认为各层的比率各层的比率 差异较大差异较大,则,则分别比率估计分别比率估计优于联合比率估计。优于联合比率估计。当当各层的样本量不大各层的样本量不大,或,或各层比率各层比率 差异很小差异很小,则,则联合比率估计联合比率估计更好些。更好些。精品精品pptppt模板模板【例【例4.4】某市某市1996年对年对950家港口生产单家港
20、口生产单位完成的吞吐量进行了调查,位完成的吞吐量进行了调查,1997年欲对年欲对全市港口生产单位完成的吞吐量进行抽样全市港口生产单位完成的吞吐量进行抽样调查。对港口生产单位按非国有调查。对港口生产单位按非国有(h=1)和和国有国有(h=2)分为两层,单位数分别为分为两层,单位数分别为800家家和和150家,分别在两层中调查了家,分别在两层中调查了10家、家、15家港口生产单位,调查数据如下表,试估家港口生产单位,调查数据如下表,试估计计1997年全市港口生产单位完成的吞吐量。年全市港口生产单位完成的吞吐量。精品精品pptppt模板模板*49 1997年非国有和国有企业调查数据年非国有和国有企业
21、调查数据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465精品精品pptppt模板模板接上表接上表12817650139191160141160107015735698精品精品pptppt模板模板*51h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.11714001029002743
22、00214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.049725精品精品pptppt模板模板*52 1.按分别比率估计量估计按分别比率估计量估计:精品精品pptppt模板模板*532.按联合比率估计量估计按联合比率估计量估计精品精品pptppt模板模板*54精品精品pptppt模板模板n两种途径:两种途径:n分别回归估计:分别回归估计:对每层样本分别求取回归估计量,对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先然后对各层的回归估计量进行加权平均,即先
23、“回归回归”后后“加权加权”;n联合回归估计:联合回归估计:对两个变量先分别计算出总体总对两个变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先的分层估计量来构造回归估计,即先“加权加权”后后“回归回归”。3.3回归估计量及其性质回归估计量及其性质精品精品pptppt模板模板*563.3分层随机抽样下的回归估计分层随机抽样下的回归估计(一一)分别回归估计分别回归估计 适用适用:各层样本量不小的情况各层样本量不小的情况 方法方法:先对各层的平均数或总和作回归估计,然先对各层的平均数或总和作回归估计,然后按层权
24、平均或相加,得到总体指标的估计后按层权平均或相加,得到总体指标的估计。(先。(先回归再加权)回归再加权)定义定义 3.6 分别回归估计是指在分层随机抽样中,分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对对各层的回归估计按总体层权进行加权平均。对 的分别回归估计为:的分别回归估计为:精品精品pptppt模板模板*57 总体均值的分别估计量:总体均值的分别估计量:总体总量的分别估计量:总体总量的分别估计量:1、当各层的回归系数为给定的常数时,分别估计、当各层的回归系数为给定的常数时
25、,分别估计量是无偏的,其方差为:量是无偏的,其方差为:精品精品pptppt模板模板*58 并且当并且当 时时,达到最小达到最小,即即 2、通常、通常 未知未知,可以用样本回归系数可以用样本回归系数 作为作为 的估计的估计:这时分别估计量是有偏的,但当每一层的样本量这时分别估计量是有偏的,但当每一层的样本量精品精品pptppt模板模板*59 都较大时,估计的偏倚可以忽略,其方差近似都较大时,估计的偏倚可以忽略,其方差近似为为:方差方差 的样本估计为的样本估计为:式中式中,精品精品pptppt模板模板第第h层样层样本相关系本相关系数的平方数的平方精品精品pptppt模板模板*61(二二)联合回归估
26、计联合回归估计 条件:各层样本量不大条件:各层样本量不大 联合回归估计是对联合回归估计是对 作分层估计;然作分层估计;然后构造总体均值和总量的联合估计量。后构造总体均值和总量的联合估计量。(先分层(先分层再回归)再回归)总体均值、总量的联合估计量:总体均值、总量的联合估计量:其中:精品精品pptppt模板模板*62 1、当回归系数为事先给定的常数时,联合估计量、当回归系数为事先给定的常数时,联合估计量 是无偏的,其方差为:是无偏的,其方差为:精品精品pptppt模板模板*63 当当 取取 时时,达到最小。达到最小。2、当回归系数未知时,取、当回归系数未知时,取 为为 的样本估计:的样本估计:精
27、品精品pptppt模板模板第第h层层样本相样本相关系数关系数的平方的平方精品精品pptppt模板模板*65这时联合估计是有偏的这时联合估计是有偏的,但当样本量但当样本量n 较大时较大时,估估计量的偏倚趋于零计量的偏倚趋于零,回归估计是渐近无偏的,且回归估计是渐近无偏的,且方差方差 的样本估计为的样本估计为:精品精品pptppt模板模板*66(三三)分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较 当回归系数当回归系数事先设定事先设定时,分别回归估优于联合时,分别回归估优于联合回归估计,尤其在回归估计,尤其在各层回归系数相差较大时,分别各层回归系数相差较大时,分别回归估计更好。回
28、归估计更好。当回归系数由当回归系数由样本估计样本估计时,如果各层的时,如果各层的样本量样本量不太小,且各层的不太小,且各层的回归系数回归系数相差较大,还是采用分相差较大,还是采用分别回归估计为宜。若各层的样本量不太大,且各层别回归估计为宜。若各层的样本量不太大,且各层的回归系数大致相同,则采用联合回归估计较好。的回归系数大致相同,则采用联合回归估计较好。若层内的回归系数差别不太大,而每层的样本量并若层内的回归系数差别不太大,而每层的样本量并非都相当大时,联合回归估计可能更保险些。非都相当大时,联合回归估计可能更保险些。精品精品pptppt模板模板*67【例例4.6】P P4545:(续前例续前
29、例)利用回归估计量估利用回归估计量估计该市港口生产单位计该市港口生产单位1997年完成的吞吐年完成的吞吐量。量。解解:样本回归系数样本回归系数:(1)按分别回归估计量估计按分别回归估计量估计:=163421.10+107135.19=270556.30h=1,非国有 h=2,国有1.070170.856402精品精品pptppt模板模板*68(2)按联合回归估计量估计按联合回归估计量估计:精品精品pptppt模板模板*69精品精品pptppt模板模板*70小结小结比估计量与回归估计量的异同:比估计量与回归估计量的异同:1.从形式上看,比估计量是一个简单估计量从形式上看,比估计量是一个简单估计量
30、 的的线性组合,而回归估计量两个简单估计量线性组合,而回归估计量两个简单估计量 的的线性组合;但实质上都是利用两个简单估计量和线性组合;但实质上都是利用两个简单估计量和辅助变量来估计总体指标。辅助变量来估计总体指标。2.比估计量借助主要变量与辅助变量之间的比值比估计量借助主要变量与辅助变量之间的比值关系;回归估计量借助两者之间的线性相关关系。关系;回归估计量借助两者之间的线性相关关系。精品精品pptppt模板模板*71 第四节第四节 样本量在各层的分配样本量在各层的分配 简单随机抽样只需要根据调查精度的要简单随机抽样只需要根据调查精度的要求与费用的限制来确定抽样容量的大小,而分层求与费用的限制
31、来确定抽样容量的大小,而分层抽样则提出另一个重要的问题,一旦确定抽样则提出另一个重要的问题,一旦确定n n,又,又如何在各层中分配抽样容量如何在各层中分配抽样容量 ,其中有些问,其中有些问题要考虑,比如在各层中各有精度的要求以及费题要考虑,比如在各层中各有精度的要求以及费用的限制,由于各层具有各自的鲜明特征,其花用的限制,由于各层具有各自的鲜明特征,其花费自然不同,因而在样本容量分配上必须带有经费自然不同,因而在样本容量分配上必须带有经济观点。另一个重要考虑因素是由于济观点。另一个重要考虑因素是由于 的不同的不同而带来数据处理的困难。而带来数据处理的困难。样本量的分配必须尽可能地使估计量及样本
32、量的分配必须尽可能地使估计量及其方差具有较简单的形式,从而使数据汇总工作其方差具有较简单的形式,从而使数据汇总工作量小,做到省时省力。量小,做到省时省力。精品精品pptppt模板模板*72精品精品pptppt模板模板*73 某个总体分为三层,其层权某个总体分为三层,其层权 及层标准差及层标准差 见下表,设总样本量为见下表,设总样本量为300300,考虑四种不同的样本量,考虑四种不同的样本量分配,并计算出每一种分配下,总体均值估计量的分配,并计算出每一种分配下,总体均值估计量的方差:方差:样本量的不同分配对方差的影响样本量的不同分配对方差的影响h常数分配与 成正比与 成正比与 成正比 10.22
33、010049604020.330100110909030.5341001411501703.863.113.093.00精品精品pptppt模板模板*74精品精品pptppt模板模板*75 (一一)比例分配(比例分配(proportional allocation)即在分层抽样中,若每层的样本量nh 都与层的大小Nh 成比例,即 也就是按各层的层权进行分配,即大的子总体多抽一些,小的子总体少抽一些。比例分配时,也与层权 成比例。简单随机抽样中总体的每一个单元入样的概率即为抽样比f。因而按比例分配而在各层中进行简单随机抽样的分层方法,任何一层中的样本被抽中的概率都为f。因此比例分配的分层随机抽样
34、是一种等概率抽样。精品精品pptppt模板模板*76显然估计量有相当简单的形式。精品精品pptppt模板模板*77 自加权:自加权:如果总体总量(或均值)的无偏估计量可以写成样本观测值的总和(或平均数)的常数倍(如:Y=ky或 ),那么这种样本(或估计量)称作自加权自加权的或等加权等加权的。按比例分配的分层抽样就是自加权的。简单随机抽样(放回的和不放回的)也是自加权的。精品精品pptppt模板模板*78精品精品pptppt模板模板*79 (一)最优分配 在分层随机抽样中,在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小的各层样本量的分配称为最优分配(opti
35、mum allocation)。简单线性费用函数:精品精品pptppt模板模板*80 建立目标函数:根据柯西-许瓦兹(Cauchy-Schwarz)不等式,对于任意的 ,有 通过极小化目标函数,可同时达到给定方差下费用最小和给定费用下方差最小的效果。精品精品pptppt模板模板*81 当且仅当 (K为常数)时,上式等号成立。所以对于目标函数则有:上式成立的条件是:精品精品pptppt模板模板*82 所以则使目标函数达到最小时的最优分配为:精品精品pptppt模板模板*83 上式表明,越大(即层越大),则层内抽样应越多;又若 越大(即层内变差越大),则层内抽样也应越多;但如果 越大(即层内平均每
36、单元费用越大),则在该层中的抽样应少一些。即最优分配的 与 或 成正比,与 成反比。精品精品pptppt模板模板*84 由此得出下面的行为准则,如果某一层:单元数较多 内部差异较大 费用比较省 则对这一层的样本量分配较多些。精品精品pptppt模板模板*85(二)Neyman(内曼)分配 条件:如果每层抽样的费用相同,即 时,最优分配可简化为:将 代入 即得:精品精品pptppt模板模板*86 【例例3.53.5】(续例续例3.1)p693.1)p69如果样本量为如果样本量为 n=40,n=40,则按比则按比例分配和例分配和NeymanNeyman分配分配,各层的样本量应为多少各层的样本量应为
37、多少?解解:按比例分配时按比例分配时,各层的样本量为各层的样本量为:即各层的样本量分别为:3,6,11,20(公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。如:n=56.03 则n=57)精品精品pptppt模板模板*87精品精品pptppt模板模板*88即各层的样本量分别为:3,7,23,7。精品精品pptppt模板模板*89【例例3.6】在例3.2中若固定n=550不变,城镇居民与农村居民年收入的标准差估计分别为 元,元,对城镇居民与农村居民抽样平均每户的费用比1:2,试求城镇与农村两层比例分配与最优分配的样本量。又若不考虑费用因素,那么最优分配的
38、结果又有何变化?如何计如何计算呢?算呢?精品精品pptppt模板模板*90解:城镇与农村居民年收入调查样本量分配的计算h1235600.137 30001411.0411.02148420 0.863 250022157.5 1525.61719802568.5 1936.6精品精品pptppt模板模板*91(1)比例分配(2)最优分配(3)内曼分配 精品精品pptppt模板模板*92 不考虑费用的内曼分配在农村的样本量比考虑费用的最优分配在农村的样本量更大。这是因为农村调查费用较高,因此最优原则是适当增加城镇样本量,减少农村样本量。精品精品pptppt模板模板*93 按最优分配时,当某些层的
39、标准差 特别大,而层的大小 相对指定的总样本量n又小很多,若加上对这些层抽样的平均单位费用 又很低,而抽样比f比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。精品精品pptppt模板模板*94精品精品pptppt模板模板*95 在这种情况下,对于方差 的一般公式,可以直接将修正后的最优分配所得的 带入,而内曼分配最小方差公式则需必要的调整:其中,是仅对最后实际分配的样本量 严格小于 的各层求和,也只是这些层中抽取的单元总数。修正的含义可理解为:因为对于那些
40、实施普查()的层来说,已经不存在所谓的抽样误差了,自然需要从原来的公式中将它们舍去。精品精品pptppt模板模板*96【例例3.73.7】某个模拟的总体分为4层,和 的值见下表,设n=80,请问该如何进行内曼分配?一个模拟总体的分配情况h154002000210500500032001020004400208000合计合计61517000精品精品pptppt模板模板*97解:解:计算各层的样本量:(1)第一层样本量的分配:而 ,可见 ,则(2)将 个待分配的样本量分到24层:精品精品pptppt模板模板*98而 ,可见 ,则(3)将 个待分配的样本量分到3、4层:因为 ,所以(4)将个待分配的
41、样本量分到第4层:精品精品pptppt模板模板*99因为 ,所以 因此,各层所分配的样本量是:5,10,13,52 此时上题计算总体均值估计量的最小方差为:对第三、四层计算精品精品pptppt模板模板*100 一一.影响样本总量影响样本总量n的因素的因素 1.估计量精度的要求:(1)对总体参数估计的精度 (2)对各层参数估计的精度 2.费用的限制 (1)总费用的限制 (2)不同层中平均抽取一个单元的费用 3.层的划分和层的样本量的分配形式精品精品pptppt模板模板*101 由于估计量的精度实际上取决于每层样本量的大小,因此在总样本量给定的情况下,对层样本量的不同分配,其精度也不同。反之对同一
42、精度要求,对不同的样本量分配形式,计算得到的总样本量也有差异,因此在确定总样本时,要求先确定样本量的分配形式。精品精品pptppt模板模板*102 1.1.一般公式一般公式令 其中 已经选定,在调查的目标是估计总体均值 时,当给定方差V的上限或d时,精品精品pptppt模板模板*103精品精品pptppt模板模板*104(1)当按比例分配比例分配时,即 则上式为:精品精品pptppt模板模板*105 先计算 ,当 不能忽略不计 时,再计算:(2)当按内曼分配内曼分配时,即精品精品pptppt模板模板*106 如果在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量
43、分别为多少?解:按比例分配时:精品精品pptppt模板模板*107精品精品pptppt模板模板*108 对 进行修正得n:按Neyman分配时:精品精品pptppt模板模板*109 简单线性函数:C =将 代入n的一般公式,得:精品精品pptppt模板模板*110(P92 式式3.139)精品精品pptppt模板模板*111精品精品pptppt模板模板*112 一一.抽样效果分析抽样效果分析 与简单随机抽样相比。分层随机抽样的精度与样本量的分配及各层的方差有关。在固定样本的情况下,如果 相对1可以忽略,则 分别为分层随机抽样最优分配、分层随机抽样按比例分配、简单随机抽样简单估计的方差。精品精品
44、pptppt模板模板*113 如果各层的均值差异越大,则用比例分配法较好,而当各层的标准差较大时,用最优分配法较好。在调查多个目标量时,按比例分配的分层抽样可能更好些。通常用比例分配法较多,因为:(1)最优分配并不是对每个指标都是最优的。(2)由于最优分配时需对层标准差进行估计,估计又不可能十分精确,加上计算时样本量必须取整数,因此理论上的最优分配的最小方差并不一定能达到。(3)而且当实际分配偏离最优分配时,方差增加并不明显。考虑到比例分配样本的自加权性质的简单性,除非层标准差异十分明显从而考虑最优分配有较大的改进,否则还是可以采用比例分配法。对于最优分配,需要各层标准差Sh的值,可以用调查指
45、标的历史数据或通过辅助指标的信息推算。精品精品pptppt模板模板*114(1)(1)与比例分配的分层随机抽样的效果比较与比例分配的分层随机抽样的效果比较前提:前提:相同样本量相同样本量的情况下的情况下 简单随机抽样简单随机抽样(对均值估计量对均值估计量)的方差的方差:比例分配的分层随机抽样相应估计量的方差比例分配的分层随机抽样相应估计量的方差:精品精品pptppt模板模板*115 根据总体单元指标的平方和分解,简单随机抽样的方差分解如下:层内方差层间方差精品精品pptppt模板模板*116 故 若所有的 都比较大,则 从而精品精品pptppt模板模板*117 上式右边的第二项是层间平方和,它
46、一定是非负的,因此有 上式意味着,当所有的 都比较大时,比例分配的分层随机抽样的方差小于简单随机抽样的方差,也就是说,比例分配分层随机抽样的精度比后者高,设计效应小于1。精品精品pptppt模板模板*118 方差差值为:这表明层平均数 的差异越大,分层的效果就越好,若层平均数都相等,那么分层的效果与不分层的一样。事实上正因为层间的这种变异不进入分层随机抽样的方差,因此才有分层随机抽样精度高于简单随机抽样的结果。精品精品pptppt模板模板*119 按定义,最优分配的精度应高于相同样本量的任何其他分配,当然也高于比例分配的精度,但最优分配在精度上的改进究竟有多大?为此比较比例分配方差与最优分配(
47、内曼情形)方差之差精品精品pptppt模板模板*120 从上式可以看出,最优分配在精度取决于各层标准差的差异,差异越大,最优分配的效果越好,反之若各层间标准差(方差)差别不大,那么最优分配的效果就不会比比例分配的效果好很多。精品精品pptppt模板模板*121 使用条件使用条件:最优分配:各层标准差差异大,尤其是调查多个目标量时。比例分配:各层的均值差异大二二.层的划分层的划分 基本原则:使层内差异尽可能小-各层有自己鲜明特色,使层间差异明显地较大-各层之间有显著不同。在多指标问题中可采用聚类分析的手段进行分层,在此我们考虑单指标如何分层。精品精品pptppt模板模板*122 (一一)最优分层
48、最优分层 目的不同,分层方法不同,构造层的原则如下:若为了便于组织、估计子总体的参数,则按自然 层或单元的类型划分。若是提高抽样效率,减少估计量的方差,则按目标 量 分层,但在调查之间目标量是未知的,因此 分层通常选择一个与调查指较大线性相关的指标 来进行。这个标志可以是目标量的前期值,也可 以完全是另一个变量。精品精品pptppt模板模板*123 如何利用一个分层标志具体分层呢?实际上也就是说如何确定各层的分点。思路思路:设总体分成h层,假定 与 分别为总体的最小与最大可能值。按数值分层即为在 与 之间插上(h-1)个分点:如果各层的抽样分配方案已定,即设法求这些分点以使得 达到最小。精品精
49、品pptppt模板模板*124确定层界的快速近似法确定层界的快速近似法:累积平方根法:由戴伦纽斯(Daleniues)与霍捷斯(Hodges)提出的根据等分分层变量分布的累积平方根的最优分层方法,简称累积平方根法。累积平方根法精品精品pptppt模板模板*125【例3.】某地区电信部门在对利用电话上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有电话上网支出的居民用户为总体(上网电话费为0.02元/分钟),并准备按上网电话支出(x)进行分层,试确定各层的分点。精品精品pptppt模板模板*126范围x 频数f累计0565328255.5934255.593451089240298.
50、7306554.3241101536128190.0737744.3977152077525278.43311022.831202562407249.81391272.645253024591156.81521429.46304024586221.74761651.20840509582138.43411789.642506015761177.54441967.18660708099127.27142094.45770805676106.54582201.003不不等等距距67813562034精品精品pptppt模板模板*1278090345383.102352284.10690100425