1、 第四章第四章 分层抽样分层抽样u第一节第一节 分层抽样概述分层抽样概述u第二节第二节 总体参数的估计总体参数的估计u第三节第三节 总样本量的分配总样本量的分配u第四节第四节 分层与提高精度分层与提高精度 第一节第一节 分层抽样概述分层抽样概述u分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),然后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。u如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。u分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。u进
2、行分层抽样时应注意:层内抽样设计的选择;分层变量的选择;各层样本量的分配;层数;层的分界。以前只重视,近年来,和引起了越来越多的关注。u分层抽样具有以下特点:u分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。u在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。u由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。u分层抽
3、样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。u分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。u分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。u分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。u分层抽样中,由于各层的抽样相互独立,互不影
4、响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。u当总体有周期现象时,用分层比例抽样法可以减少抽样方差。u分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。u满足下述条件时,分层在精度上会有很大的得益:满足下述条件时,分层在精度上会有很大的得益:u总体是由一些大小差异很大的单元组成的,即总体差异大;u分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;u要调查
5、的主要变量(标志)与单元的大小是密切相关的;u对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。第二节第二节 总体参数的估计总体参数的估计u一、分层抽样相关符号说明一、分层抽样相关符号说明u在分层抽样中,先将含有 个单位的总体分成分别含有 个单位的 层,这些层之间互不重复,且有:u从每层中抽取一个子样本,而且抽样在各层中独立进行,若各层内样本量分别用 表示,则将这些子样本合起来就是从总体中所抽取的一个样本。其样本容量 显然满足:,对于分层抽样,经常使用下列一些符号:hYhnhNnnnnL21nLnnn,21NNNNL21LLNNN,21N第 层总体中的单位数;hihh第 层样本中的
6、单位数;第 层的总体总量;hiyihhiYhhyh第 层的样本总量;第 层第 个总体单元(单位)的取值;第 层第 个样本单元(单位)的取值;212)(11hNihihhYYNShhhnihihhyny11hhNihihhYNY11hhhhNnf hNNWhh第 层的总体层权;第 层的抽样比;第 层的总体均值;第 层的样本均值;第 层的总体方差;h212)(11hnihihhyynshh第 层的样本方差。为总体总量;表示分层的层数;h表示层的编号(h,,);YLNiy1h1hihu二、估计量二、估计量u、总体均值的估计量u在分层抽样中,总体均值 的估计量一般用 表示,它是各层总体均值 的估计量按
7、层权 的加权平均,即:u如果得到的是分层随机样本,则总体均值 的简单估计为:u一般情况下:u原因在于权数问题。在 中,每层都有精确的权数 。如果每层都有 或 ,即 ,则 完全相等于 。这种情况称为 按比例分配的分层抽样,各层的抽样比相同。YstyhYhWhhhLststYNYWyYN1L1h1hhL1h1hhstynnyyNNnnhh/NnNnhh/ffhystyNNh/hLhhhLhhstyNNyWy111Yhnstyu、总体总和的估计量u有了总体均值的估计量,就可推出总体总和的估计量:u、总体比例P的估计量u按照总体均值估计量的公式,可推出总体比例(成数)的估计量为:u可以证明,在分层随机
8、抽样中,是 的无偏估计量,是 的无偏估计量,是的无偏估计量。LhhhNyyNYststhhhhhhpWPWPLLststystPYYYu三、估计量的方差三、估计量的方差u、总体均值估计量的方差u对于一般的分层抽样,由于各层的抽样是相互独立的,诸 也相互独立,因此总体均值 估计量的方差是总体各层均值估计量方差的加权平均,即 式中 是第h层总体均值估计量的方差。u对于分层随机抽样,则有:YhYLhh2h)(W)()(YVyVYVstst)(hYV)(styVLh2hhh2hn1WSfLSNnWh2hhh2h)11(LSNnSWhLh2hhh2h2hW1h2hhhhh2)(1nSnNNNLu可见,在
9、分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。u、总体总和估计量的方差u有了总体均值估计量的方差,就可推导出总体总和估计量的方差:u对于分层随机抽样,则有:LststYVNYVNYVhh2h2)()()(Lhh2hhhh2hhhh2h)(N1)(nSnNSnfNYVLstu、总体比例估计量的方差u估计总体比例,当 充分大时,有:u对于分层随机抽样,则有:u四、方差的估计量四、方差的估计量u按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的
10、,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。hNLhh2h)()(PVWPVst)(stPVLhhhhh2h)1(n1WPPfLnPPnNNNhhhhhhh2)1()(1)1(hh NNu此时:u 与 分别是 与 无偏估计。u当用样本资料估计方差 时,可将 用 替代,则得:u 是 的无偏估计。Lh2hhlhh2h2h2Lhhh2hW1Wn1W)(sNnssfyVhstLhh2hhhh2)(N1nsnNNLststnsnNNyVNYVhh2hhhh2)()()()(styV)(stYV)(styV)(stYV)(stPVhh)hn1(PP1)1(hhhnppLstnppfW
11、PVhhhhh2h1)1()1()(Lhhhhhhh21)1()(1nppnNNN)(stPV)(stPV 第三节第三节 总样本量的分配总样本量的分配u一、总样本量在各层间的分配一、总样本量在各层间的分配u在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?各层的容量大小问题。u总样本量在各层间分配时可采用如下方法:u(一)比例分配u在分层抽样中,若各层的抽样比都相同,即 ,则称总样本量为按比例分配。此
12、时:u所以 ,因此 。(应取整)NnnhhNhhhNWNnnhhnWn ffhhnu比例分配时,总体中任一单元的入样概率都相等,都为 。由此所得到的样本称为是自加权的或等加权的。在这种情况下:u即 或 为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。u对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:LniststynnyY1h1hih1y1kyynNyNYststNnf/nNk/(为常数)stYstYLstpropstpropSWnfyVYVh2hh1)()(u若令 为各层内方差的平均,则:u当估计比例P时,同样有:其中:为各层内成数方差的平均。
13、Lh2hh2W SS21)(SnfYVstpropLhhhh)1(1)1(1)(PPnfPPWnfPVstpropLhhhh)1(W)1(PPPPu(二)最优分配u、一般情形u在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。u在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:u其中 是固定费用,如组织宣传费、分层及编制抽样框的费用等,是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。L1hhh0C nCC0ChCu根据前面的论述
14、,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:2hhh2h2h1SWNnSWV可见,第二项与样本量无关。考虑到hh0nCCCCVV2hh1SWN=h2h2hnSWu 则在给定总费用C下使估计量的方差V最小,与在给定V下使C最小均等价于使)(hhh2h2hnCnSWCV =2hh2hhh)(nnCSWu柯西许瓦兹(Cauchy-Schwarz)不等式u对于任意的 ,有:u当且仅当 (为常数)时,等号成立。kkbahh222)()(hhhhhhhbaba0,0hhbau根据柯西许瓦兹(Cauchy-Schwarz)不等式,有 其中等号只有在以下情形时才成立(达到极小值):(为常数),
15、这意味着:u则u因此u所以使达到极小的最优分配即为2hhh)(CSWCVKSCnnSWnChhhhhhhhhWKhhhhCSWKn hhhhCSWKnnhhhCSWnKu即 u可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。hL1hhhhhhhCCSWSWnnhL1hhhhhhCCSNSNn(应取整)hnhL1hhhhhhhCCnSWSWnhL1hhhhhhCCSNSNu、特殊情形内曼分配u如果各层内每个单元的平均抽样费用相等,也即 时,最优
16、分配简化为:u即 (应取整)u在内曼分配时,估计量所能达到的最小方差为:0hCC L1hhhhhL1hhhhhhSNSNSWSWnnL1hhhhhSWSWnnhL1hhhhhSNSNnhn)()(stoptstoptyVYVNSnSL1h2hhLh2hhW)W(NSnS2Lh2hh)W(u、某些层需要超过100%抽样时的修正u若抽样比 较大,而个别层的 也很大,则按最优分配,一些层的 有可能超过 (即 1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下:u假定:,则令 。对 部分作内曼分配:u此时
17、,若所有的 (h2)则分配合理。否则,若有:,则 hfhNhnhSNnf/hn11Nn 11Nn 1NnL2hhhhh1h)(SWSWNnnhhNn 22Nn 11Nn 22Nn u对 部分再作内曼分配:u若所有 (h3),则分配合理。否则再重复上述过程,直到所有的 为止。u此时,最优分配所达到的估计量 的最小方差公式也应修正为:21NNnL3hhhhh21hW)(SSWNNnnhNn hhNnhstYh2hh2hhh1)(1)(VSWNSWnystoptu、估计p时的最优分配u)一般情形u)特殊情形内曼分配LhhhhhhhhhLhhhhhhhhhh)1(N)1()1(W)1(CPPCPPNn
18、CPPCPPWnnLhhhhhhhLhhhhhhhh)1(N)1()1(W)1(PPPPNnPPPPWnnu、最优分配与比例分配的精度比较 u比例分配时估计量的方差为:u而内曼分配时估计量的最小方差为:u因此:u若诸 很接近,则比例分配与内曼分配的精度相差无己。只有当各层的 相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的 的离散程度加以分析,以决定是采用比例分配还最优分配。222111)(SNSnSnfyVstpropLh22hh1)(1)(SNSWnyVstoptLh2hh2)(1SWSnLh2hh0)(W1SSn)()(stoptstp
19、ropyVyVhShShSu(三)多指标时的分配u一次抽样调查中调查项目(指标)可能不止一个。因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。如果此时仍希望采用最优分配,则可按下述有关方法进行处理。实质上下列方法都是对不同指标最优分配的某种程度的折衷。u、平均法u其基本思路是先在众多的指标中,选择最重要的个,分别按最优分配原则计算出各层应分配的样本量 ,然后求其平均值:h jnKjjnKn1hh1u、查特吉(Chatterjee)折衷方法(1967)u假设经过挑选后,有个主要指标,
20、为j个指标在第h层按最优分配的样本量,n为第h层应分配的样本量,查特吉提出折衷的办法是:u、耶茨(Yates)方法u这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。把总的预期损失L看作估计量的方差的线性函数,则可进一步经过变换,推导出结论:h jn L1h12h12hhkjjkjjnnnnL1hhhhhhhh)C(CAWAWnnkjjjSaA12hhu讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子 之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小
21、的甚至是中等的变动并不敏感,因此,基什(LKish)认为在实际中除非各层的因子 之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若 的几个值大致相等,就要用比例分配。最优分配往往不是估计比例值的经济方法,因为比例的标准差等于 ,它们对于0.1到0.9之间变动的值是不敏感的。应用最优分配时,在实践上要避免使抽样比成为复杂的分数。很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽
22、样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。hhCShhCShhCS)1(hhPPu二、总样本量的确定二、总样本量的确定u、估计总体均值的情形u设允许估计量的最大方差为,对某种已确定的样本量分配原则,有:u代入总体均值估计量的方差的计算公式,则有:u于是对给定的:nwnhhLhhhLhhhhstSWNwSWnyV1212211)(LhhhLhhhhSWNVwSWn121221u当 (比例分配)时u当 (内曼分配)时u当各层抽样费用不同,而总费用给定时hhWw LhhhhhhSWSWw1LhhhLhhhSWNVSWn12121221SNVS
23、2212121)(1)(SNVSSWNVSWnLhhhLhhhLhhhstLhLhhhhhhhLhhhhhLhhhNSWyVCSWCSWCSWCSWCCn1211110/)()/)()(u、估计总体总和的情形u同样的道理,可得出对给定的分配形式()有:u当比例分配时u当内曼分配时nwnhhLhhhhLhhhSNVNwSNn22222222222SNVNSNSNVNSNNnLhhhLhhh2222222)()(SNVNSNSNVNSNnLhhhLhhhu、估计总体比例的情形u若 较大,则 ,此时可进一步求出估计P时对给定的分配形式()有:u比例分配时:u内曼分配时:hN)1(2hhhPPShhn
24、wn LhhhhhhhhPPWNVwPPWn)1(1)1(2)1(1)1(PPNVPPnLhhhhLhhhhPPWNVPPWn)1(1)1(2 第四节第四节 分层与提高精度分层与提高精度u一、分层随机抽样与简单随机抽样的精度比较分层随机抽样与简单随机抽样的精度比较u分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当 的值远离最优值时,分层抽样可能有较大的方差。事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。u设 为简单随机抽样的方差;为按比例分配的分层随机抽样的方差;为最优
25、分配的分层随机抽样的方差。因为 hnsrsVpropVoptVnSfVsrs21LhLhhhhhpropnSWSWnfV221NSWLhhh2 又nSWVLhhhopt2NSWLhhh2LhNihihYYSN12121LhNihhhihYYYY121LhNihhihYY2LhNihhYY121LhhhSN21LhhhYYN2u两边同除N-1,由于 均较大,可忽略,则u所以u所以hNhN1LhhhSWS22LhhhYYW2LhLhhhhhsrsYYWSWnfV221LhhhSWnf21LhhhYYWnf21propsrsVVu又因为u其中:是 的加权平均值,所以optpropVVLhLhhhhh
26、SWSWn221012LhhhSSWnhhSWShS012LhhhoptpropSSWnVVoptpropVVoptpropsrsVVVu因此,当 的项被忽略不计时,由u可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。第一部分为 是消除了层间均值的差异的影响的结果;第二部分为 是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上的差异。hN1srsVoptVLhhhYYWnf21LhhhSSWn21LhhhYYWnf21LhhhSSWn21u若含 的项不忽略时,则u式中当 时,也即层间方差小于层内方差时 按比例分层还会比简单随机抽样有更大方差。hN1srsVo
27、ptVLhLhhhhhSNNNYYNNnf22111LhLhhhhhSNNNYYN221propsrsVVu二、设计效应二、设计效应u抽样方案不同,估计量的精度也会不同。基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff。Deff=u设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。u设计效应Deff中涉及的是简单随机抽样和复杂抽样的估计量的方差。事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff就成为一个值得讨论的问题。对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样本量相同的简单随机抽样估计量的方差。方差随机样本所得估计
28、量的从按相同样本量的简单计量的方差从一个复杂样本所得估u在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差 估计总体方差 未必无偏,所以不能用公式 作为 的无偏估计。此时 的无偏估计量为:u如果样本量按比例分配,则2s2S21snf yV yV yVsrsLhststnihihhVyynNNnfh2211stststyVyyNnnN221 yVsrs22)(11snNnNyVsnnnfstu三、层权误差的影响三、层权误差的影响u用分层样本估计 时,估计量是以层权 为权的加权平均。因此必须正确地掌握层权。若 未知而又不能精确地估计,将对估计量的精度带来严重的影响。u设真正的层权为 ,实际
29、使用的为 ,则估计量u于是u所以,是有偏的,且偏倚 不会随样本量n的增大而减小。此时估计量 的方差:YNNWhhhWhW/hWLhhhstyWY/)(stYELhhhhYWWY/stYLhhhhYWW/stYstyV2YYEst2/22/1LhhhhLhhhhYWWnSWfu四、分层标志的选择四、分层标志的选择u(1)如果具备调查标志的全面的过去资料(如上一次的普查资料),而且自那时以来的变化不太大时,可用调查标志本身的过去资料来分层;u(2)尽量利用自然标志分层;u(3)充分利用那些能决定调查标志数量差异的品质标志;u(4)在多个可供选择的数量标志中,应选取那个与调查标志相关系数绝对值最大者
30、;u(5)同时使用几个标志进行重叠分层;u(6)当同时掌握一个品质标志和一个数量标志的资料时,应优先选择按数量标志分层。u以上只是就单项目分层抽样而言,而在实际应用中多项目分层抽样是比较常见的。u多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要,合理进行分层。u第一种思路,是从多项需要推断的指标中,选取被认为是最重要的一项,然后根据该项指标调查推断的需要,选择合适的标志对总体进行分层。u第二种思路,是当各项之间存在显著相关关系时,可选择其中任何项目的过去资料进行分层。u第三种思路,是利用现成的品质标志和自然标志分层。u第四种思路,是当各项目之间相关关系不明显时,最好采用多标志层叠分
31、层(也叫做复分层)的方法,即先按某一主要项目的过去资料或相关标志分层,然后各层再按另一次要项目的过去资料或相关标志分小层,直到按所有的(或若干重要的)项目分层。这种方法适合于大总体大样本的分层抽样。u五、层数的确定五、层数的确定u六、层界的确定六、层界的确定u分层抽样的L层由(L-1)个分界点所决定,所以最佳分层便是找到(L-1)个分界点 ,以使分层抽样的抽样方差在抽样方式、层数和样本量分配方式都为已定时达到最小。u在比例分配中(设 可忽略),能使方差u为极小值的一组点也是使1/2/1,Lyyyfpc21)(hhstpropSWnYV LhNihhhihhHYNySN222u为极小值的最佳分界
32、点。可以证明,满足该条件的第h和h+1层的最佳分界点为u同理可得在最优分配的条件下,求第h和h+1层的最佳分界点 的方程为u然而,上述方程在实际中是无法求解的,因为和都同有关。因此,一些学者曾讨论提出过相关的近似求法,如戴伦纽斯和霍奇斯(DaleniusandHodges,1959年)的快速近似法,塞蒂(Sethi,1963年)的结合总体分布特征求解的方法等。2)(1hhhYYyhy1212122)()(hhhhhhhhSYySSYySu如果y和x有直线关系,则用比例分配按x求得的最佳分界点对y也为最佳;更进一步,如果y与x的回归是线性的,所有各层中的y与x高度相关,则用x分层同用y一样有效。
33、u设:u其中E()=0对一切x和 成立,且与x不相关。是在第h层内e的方差,则使 达到最小值的x界限满足下列方程:u其中 ,是h层内y与x的相关系数。exyee2ehS)(styV222222212)(xhehxhehxhhhSSSSSXx2)1(22)1()1(2)1(2)1(21212)(hxhehxhehxhhSSSSSXx22222)1(hhxhehSShu七、抽样后分层七、抽样后分层u分层抽样须先分层再抽样。如果在抽样前分层有困难,也可以在抽样后分层。事后分层是先在总体中抽一个容量为n的简单随机样本,再依样本中单元的某些特征进行分层,用 估计 ,其中 ,是样本中落入第h层的单元数,若落入某些层的样本单元数为0,可将层加以合并,使 0。是落入第h层的样本的均值。u 形式上与 相同,但 是随机变量,也具有随机性。可以证明:LhhhwyWy1YNNWhhhmihihhymy11hmhmhywysty)1()(222hhhhhwSWNmSWyVLhLhhhhhwSWnSWnfyVE222)1(11)(hm