1、第四章第四章 分层抽样分层抽样分层抽样的概念及特点分层抽样的概念及特点抽样标准误差的计算抽样标准误差的计算抽样数目在各层的分配抽样数目在各层的分配 本章重点:本章重点:第四章第四章 分层抽样分层抽样 先将总体各单位划分为先将总体各单位划分为若干组(层)若干组(层),然后,然后从各组中按从各组中按随机原则随机原则分别抽取一定数目的单位分别抽取一定数目的单位构成样本,以样本观测结果推断各组的数量特构成样本,以样本观测结果推断各组的数量特征和总体数量特征的一种抽样组织形式。征和总体数量特征的一种抽样组织形式。第一节第一节 分层抽样概述分层抽样概述一、概念:一、概念: 其随机性体现在:层内各单位有相同
2、被抽其随机性体现在:层内各单位有相同被抽中的机会(一般情况下),层与层之间相互中的机会(一般情况下),层与层之间相互独立。(对层而言是全面调查)独立。(对层而言是全面调查) 第四章第四章 分层抽样分层抽样 不仅要求知道总体单位数不仅要求知道总体单位数N N和具体名录,而和具体名录,而且要求掌握至少一个可用以分层的标志的全面且要求掌握至少一个可用以分层的标志的全面资料。即对于某一标志而言。总体资料。即对于某一标志而言。总体N N个单位的个单位的特征都是可知的。特征都是可知的。二、特点:二、特点:1 1分层抽样要求事先对总体有较多的了解。分层抽样要求事先对总体有较多的了解。用以分层的标志通常有两类
3、:用以分层的标志通常有两类:与调查标志密切相关的标志。与调查标志密切相关的标志。调查标志本身的过去资料。调查标志本身的过去资料。第四章第四章 分层抽样分层抽样 所以,分层抽样的样本代表性高低,取决于层所以,分层抽样的样本代表性高低,取决于层内样本对层的代表性,与层间差异无关。因此,内样本对层的代表性,与层间差异无关。因此,分层抽样要求尽量扩大层间差异,缩小层内差异。分层抽样要求尽量扩大层间差异,缩小层内差异。即尽量将层内差异转化为层间差异。为此,即尽量将层内差异转化为层间差异。为此,要选要选好分层标志。并适当增加分层数。好分层标志。并适当增加分层数。 2 2分层抽样对层而言是全面调查,对层分层
4、抽样对层而言是全面调查,对层内单位而言是非全面调查。内单位而言是非全面调查。 当总体内部层界越明显,越适合分层抽样,效当总体内部层界越明显,越适合分层抽样,效果也越好。此外,还可与其他抽样组织形式(整果也越好。此外,还可与其他抽样组织形式(整群、等距)结合,提高抽样效果。群、等距)结合,提高抽样效果。3 3适合于调查标志在各单位的分布差异大适合于调查标志在各单位的分布差异大的总体。的总体。第四章第四章 分层抽样分层抽样( (二二) )作用作用1 1分层抽样的分层抽样的抽样效率较高抽样效率较高,也就是说分层,也就是说分层抽样的估计精度较高。抽样的估计精度较高。比较定额抽样,与分层抽样有何区别?比
5、较定额抽样,与分层抽样有何区别? 与简单随机样本比较,分层样本在总体中与简单随机样本比较,分层样本在总体中的分布更为均匀,不会出现偏于某一部分的不的分布更为均匀,不会出现偏于某一部分的不平衡情况,在实际工作中受欢迎。平衡情况,在实际工作中受欢迎。 将相近的单位归为一层,且每一层必有若将相近的单位归为一层,且每一层必有若干单位抽中,所以,避免了样本明显偏高或干单位抽中,所以,避免了样本明显偏高或偏低情况。偏低情况。分类分类确定每类抽选比例确定每类抽选比例主观抽样主观抽样 第四章第四章 分层抽样分层抽样 有时调查的目的不仅要推算总体指标,可能有时调查的目的不仅要推算总体指标,可能还要推算各层的指标
6、。还要推算各层的指标。2 2分层抽样不仅能对总体指标进行推算,而分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。且能对各层指标进行推算。 例如,一次全国性抽样调查,若以省为层,例如,一次全国性抽样调查,若以省为层,则调查后既可得到有关全国的数据,又可得到则调查后既可得到有关全国的数据,又可得到各省的数据,这一点大受各级政府领导的欢迎各省的数据,这一点大受各级政府领导的欢迎,也便于部门统计。,也便于部门统计。可使我们获得关于总体内部较多的信息。可使我们获得关于总体内部较多的信息。第四章第四章 分层抽样分层抽样 例如,某项全国范围的大型抽样调查,要例如,某项全国范围的大型抽样调查,要编
7、制全国范围的抽样框往往是一件非常困难的编制全国范围的抽样框往往是一件非常困难的事,但如果抽样按行政区划或行业分层后,可事,但如果抽样按行政区划或行业分层后,可以调动各级主管部门的积极性,分头编制抽样以调动各级主管部门的积极性,分头编制抽样框并实施抽样的组织和调查工作。为了组织调框并实施抽样的组织和调查工作。为了组织调查的方便,各层可以根据层内的特点,分别采查的方便,各层可以根据层内的特点,分别采用不同的抽样方法。用不同的抽样方法。 3 3层内抽样方法可以不同,而且便于抽样工层内抽样方法可以不同,而且便于抽样工作的组织。作的组织。第四章第四章 分层抽样分层抽样二、使用场合与分层原则二、使用场合与
8、分层原则 根据分层抽样的特点,分层除了可以提供子总根据分层抽样的特点,分层除了可以提供子总体指标和便于调查的组织实施外,通常,使用分体指标和便于调查的组织实施外,通常,使用分层抽样的主要目的是为了提高估计的精度。为充层抽样的主要目的是为了提高估计的精度。为充分利用分层抽样的特点,在一项抽样调查项目中分利用分层抽样的特点,在一项抽样调查项目中,往往反复使用分层抽样方法。,往往反复使用分层抽样方法。在对层进行具体划分时,通常考虑如下原则:在对层进行具体划分时,通常考虑如下原则: 通常按调查对象的不同类型进行划分。这时,通常按调查对象的不同类型进行划分。这时,分层抽样能够对每一类的目标量进行估计。分
9、层抽样能够对每一类的目标量进行估计。1 1层内单元具有相同性质。层内单元具有相同性质。第四章第四章 分层抽样分层抽样 通常用于分层的指标有行政区划、地理位置、通常用于分层的指标有行政区划、地理位置、海拔高度、行业、经济发达程度、企业规模、海拔高度、行业、经济发达程度、企业规模、家庭收入水平、性别等。家庭收入水平、性别等。 2 2使层间单元的差异尽可能大。从而达到提使层间单元的差异尽可能大。从而达到提高抽样估计精度的目的。高抽样估计精度的目的。3 3既按类型又按层内单元标志值相近的原则既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计层值以及提进行多重分层,同时达到实现估计层值以
10、及提高估计精度的目的。高估计精度的目的。4 4抽样组织实施的方便。通常按行政管理机抽样组织实施的方便。通常按行政管理机构设置进行分层。构设置进行分层。第四章第四章 分层抽样分层抽样 例如,对全国范围汽车运输的抽样调查,调查例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完推算不同经济成分(国有、集体、个体)汽车完成的运量。为组织的方便,首先将货运汽车总体成的运量。为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查按省分层,由各省运输管理部门负责省内的调查工
11、作;各省再将省内拥有的汽车按经济成分分层工作;各省再将省内拥有的汽车按经济成分分层;为提高抽样效率,再按吨位对汽车分层。;为提高抽样效率,再按吨位对汽车分层。 又如,某高校对学生在宿舍使用电脑的情况又如,某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生拥有电进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大,因此,在抽样前对学生按脑的状况差异较大,因此,在抽样前对学生按本科生和研究生进行分层是有必要的。本科生和研究生进行分层是有必要的。第四章第四章 分层抽样分层抽样第二节第二节 分层抽样的简单估计分层抽样的简单估计设设X Xijij为第为第i i层第层第j j个单位的标
12、志值(个单位的标志值(i=1i=1,2 2k k,j=1j=1,2 2N Ni i),), 为层内样本均值,为层内样本均值, 为层为层均值,均值, 为样本均值,为样本均值, 为总体均值,为总体均值, 为层为层总值,总值, 为总体总值,则有:为总体总值,则有:iXixxXiTXTXiijninxxi 一、层和总体体参数的估计量。一、层和总体体参数的估计量。iijNiNNXi (即总体分为(即总体分为k k层,第层,第i i层有层有N Ni i个单位,个单位,NNi i=N=N)第四章第四章 分层抽样分层抽样nxnnxxiiKiijnKi iiNijijiTXNXX1NxNNxXiiKiijNiK
13、iiijNiKTxNxX第四章第四章 分层抽样分层抽样上面六个式子中,只有上面六个式子中,只有 和和 可通过样本资料可通过样本资料计算,其余四个都需要估计。在简单估计下,计算,其余四个都需要估计。在简单估计下,各估计量为:各估计量为:ixxiiiTiixNXxXXNxNXiiKTstiiKiiKxNxNNXNX记为第四章第四章 分层抽样分层抽样容易证明,容易证明, 是是 的无偏估计量。的无偏估计量。进一步可得进一步可得 也是也是 的无偏估计量。的无偏估计量。X XNxNENxENNxNEXEiiKiiKiiKTXTXiiWNNiiiKxWXX(第(第 层单位数占总层单位数占总体单位数的比重)体
14、单位数的比重)如果令如果令则:则:第四章第四章 分层抽样分层抽样 我们知道,纯随机抽样的抽样误差,是按总我们知道,纯随机抽样的抽样误差,是按总体方差计算的,对于分层抽样,由于对各层而体方差计算的,对于分层抽样,由于对各层而言是全面调查,故层间不存在抽样误差问题。言是全面调查,故层间不存在抽样误差问题。所以,其抽样方差等于平均层内方差。所以,其抽样方差等于平均层内方差。2即222Pi二、分层抽样简单估计的抽样标准误二、分层抽样简单估计的抽样标准误如果我们对总体方差如果我们对总体方差 进行分解,可得进行分解,可得总体方差总体方差= =平均层内方差平均层内方差+ +层间方差层间方差第四章第四章 分层
15、抽样分层抽样其中:其中: iiiinfx221iiiNnf iiiiKiiKiinfWXWxWX2222221)()()(在不重复抽样下,根据前一章公式可知在不重复抽样下,根据前一章公式可知也就是说,每一层可看作一个子总体。也就是说,每一层可看作一个子总体。所以:所以:上式在重复抽样下,则设有(上式在重复抽样下,则设有(1 1f fi i)第四章第四章 分层抽样分层抽样 例例3.13.1调查某地区的居民奶制品年消费支出,调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将以居民户为抽样单元,根据经济及收入水平将居民户划分为居民户划分为4 4层,每层按简单随机抽样抽取层,每
16、层按简单随机抽样抽取1010户,调查获得如下数据(单位:元),如表户,调查获得如下数据(单位:元),如表3.13.1。估计该地区居民奶制品年消费总支出及估计。估计该地区居民奶制品年消费总支出及估计的标准差。的标准差。表表3.1 3.1 样本户奶制品年消费支出样本户奶制品年消费支出见教材见教材P44页。页。第四章第四章 分层抽样分层抽样?思考问题:?思考问题:如何计算与估计该地户均奶制品消费支如何计算与估计该地户均奶制品消费支出?即如何计算样本户户均奶制品消费出?即如何计算样本户户均奶制品消费支出?支出?算法算法1 1:40401401 iiiixnxx第四章第四章 分层抽样分层抽样算法算法2
17、2:iixNNx 算法算法3 3:iiixNnx 应该采用哪种算法?应该采用哪种算法?第四章第四章 分层抽样分层抽样总体比例的估计总体比例的估计 iipWP总体比例的估计为:总体比例的估计为:对于一般的分层抽样,的方差为:对于一般的分层抽样,的方差为: )()(iipVWpV2对于分层随机抽样,的方差为:对于分层随机抽样,的方差为: iiiiinQPfWpV)()(12第四章第四章 分层抽样分层抽样的一个无偏估计为:的一个无偏估计为: )p(V 112iiiiinqpfWpv)()(【例【例3.2】在例】在例3.1的调查中,同时调查了居民户的调查中,同时调查了居民户拥家庭电脑的情况,获得如下数
18、据(单位:台),拥家庭电脑的情况,获得如下数据(单位:台),如表如表3.2。估计该地区居民拥有家庭电脑的比例及。估计该地区居民拥有家庭电脑的比例及估计的标准差。估计的标准差。 见教材见教材P页。页。第四章第四章 分层抽样分层抽样 如果按等比例抽样,即各层抽取的单位数如果按等比例抽样,即各层抽取的单位数 占样本占样本n n的比重等于该层单位数的比重等于该层单位数 占总体占总体N N的比的比重。重。即:即:iniNiiiWNNnn iiiKnfWX2221)(则:则:2211nfnWfii)()()()(NnffnNnWnniiiiiiiK21等比例分层抽样等比例分层抽样第四章第四章 分层抽样分层
19、抽样nPPWnPPPnWnXiKiiK)()()()(1122这样我们就可得出等比例分层抽样的抽样平这样我们就可得出等比例分层抽样的抽样平均误差公式均误差公式: :重复抽样重复抽样第四章第四章 分层抽样分层抽样不重复抽样不重复抽样)1 (11)1 ()(11)(22PPWnffnPPPWnffnXiKiiK 实际应用中,以层内样本方差代替总实际应用中,以层内样本方差代替总体方差。体方差。第四章第四章 分层抽样分层抽样第四章第四章 分层抽样分层抽样解:本题中解:本题中,.NNnn20fffii321 是等比例分配的分层抽样。是等比例分配的分层抽样。万元9211501085060698530280
20、0102011122.).)(.()()()(iiiSWnffnX)(.万元4821206080030170010 iiKxWxX84232.)( Xttx估计区间为估计区间为48248223.8423.84万元万元第四章第四章 分层抽样分层抽样此时,各层抽样比此时,各层抽样比 也相等:也相等:三、各层应抽单位数三、各层应抽单位数 的确定的确定 确定确定 最简单常用的方法,它只考虑各层单最简单常用的方法,它只考虑各层单位数位数 占总体占总体N N的比重大小这一因素。的比重大小这一因素。 ininiNnwNnNnNNnniiiiiiffNnNnfiii(1 1)比例分配法。)比例分配法。第四章第
21、四章 分层抽样分层抽样 由于没考虑不同层有不同变异程度,而是把由于没考虑不同层有不同变异程度,而是把它们同等看待了。事实上,变异程度大的层应它们同等看待了。事实上,变异程度大的层应多抽样本,变异程度小的层应少抽样本,若某多抽样本,变异程度小的层应少抽样本,若某层没有变异,只需抽层没有变异,只需抽?? ?单位就够了。单位就够了。?比例分配法的缺陷:比例分配法的缺陷:所以,此法不能使抽样精度达到最高。所以,此法不能使抽样精度达到最高。第四章第四章 分层抽样分层抽样 此法同时考虑了各层单位数和各层标准差两此法同时考虑了各层单位数和各层标准差两个因素。它在给定条件下,所确定的个因素。它在给定条件下,所
22、确定的 能使估能使估计量的方差达到最小。计量的方差达到最小。innnimin)(2X)()(nnXQi2(2 2)NeymanNeyman(奈曼)分配(奈曼)分配 即在约束条件即在约束条件建立目标函数:建立目标函数: 下下使使即:即:)()(nnnfNNQiiiii2221第四章第四章 分层抽样分层抽样 i2i22ii2i22ii2iii22ii2ii22iNNNnNNnNn1NNnf1NN )()(求求 关于关于 的偏导,并令其等于的偏导,并令其等于0 0,得:,得: Qin02222iiiinNNnQNNniii又由于:又由于: nNNniii NnNii 所以:所以: 第四章第四章 分层
23、抽样分层抽样按此法确定的按此法确定的 ,有最小的估计量方差为:,有最小的估计量方差为:iiiiiNNnnin iiiiiNnfNNW NWnWfnNNXiiiiiiii2222221代入代入有:有:(请同学们自己去推导)(请同学们自己去推导)第四章第四章 分层抽样分层抽样若各层的标准差相等,则有:若各层的标准差相等,则有:nWNNnNNnNNnniiiiiiiii即为比例分配。即为比例分配。?最优分配可能可能出现最优分配可能可能出现 的情的情况吗?况吗?iiNn 第四章第四章 分层抽样分层抽样某些层需要超过某些层需要超过100%100%抽样时的修正抽样时的修正 在某些特殊情形,例如某些层的方差
24、特别在某些特殊情形,例如某些层的方差特别大,按最优分配方法,这些层有可能需要超大,按最优分配方法,这些层有可能需要超过过100%100%抽样,即抽样,即 。iiNn 此时的处理办法(此时的处理办法(?):提出你自己的):提出你自己的思路来!思路来! 对这些层进行对这些层进行100%100%抽样,然后将剩下的待抽样,然后将剩下的待分配的样本是再按最优分配公式在其余层内分配的样本是再按最优分配公式在其余层内分配。分配。解决思路:解决思路:第四章第四章 分层抽样分层抽样按最优分配公式,若有某层(不妨记为第按最优分配公式,若有某层(不妨记为第1 1层)层)的最优分配样本量的最优分配样本量 ,则令实际抽
25、样量:,则令实际抽样量:iiNn 11Nn 1NniiiiiiNNNnn)(1步骤如下:步骤如下:对其余各层对其余各层: :(i2)(i2)若仍有若仍有: :如如: :22Nn 第四章第四章 分层抽样分层抽样则令则令: :2211,NnNniiiiiNNNNnn)(21(i3)(i3) 遇到类似情况同样处理,直到所有分配的样遇到类似情况同样处理,直到所有分配的样本量都不超过为止。本量都不超过为止。 而此时最优分配达到的最小方差公式而此时最优分配达到的最小方差公式需需作相应的修改,对于那些作全面调查的层,作相应的修改,对于那些作全面调查的层,不产生抽样误应,因此方差只来自实际抽样不产生抽样误应,
26、因此方差只来自实际抽样的层。的层。 第四章第四章 分层抽样分层抽样,)(222NWnWxiiii其中其中 为仅对最后实际分配为仅对最后实际分配 的层求的层求和,和, 为这些层中抽样的样本量之和。为这些层中抽样的样本量之和。iiNn n某些层需要超过某些层需要超过100%100%抽样时的抽样时的修正之例:修正之例:第四章第四章 分层抽样分层抽样例:某个总体分为四层,资料如下,设例:某个总体分为四层,资料如下,设n=80n=80,问如何进行各层样本分配(奈曼分,问如何进行各层样本分配(奈曼分配)?配)?层NiSiNiSini1234510200400400500102020005000200080
27、009.4123.539.4137.656151700080第四章第四章 分层抽样分层抽样计算步骤如下:计算步骤如下:1 1、按正常公式计算、按正常公式计算n n列于表的右列。其中列于表的右列。其中1 1、2 2层均超过各自的层中所包含的单元数,必须进层均超过各自的层中所包含的单元数,必须进行修正。行修正。2 2、令、令n n1 1=N=N1 1=5=5,然后将剩下待分配的样本量,然后将剩下待分配的样本量n-n-N N1 1=75=75仍按奈曼分配公式分配到仍按奈曼分配公式分配到2 24 4层,结果是:层,结果是:222515000500075Nn 3 3、再令、再令 ,然后将剩下,然后将剩下
28、6565个样本单个样本单元仍按奈曼分配公式分配到元仍按奈曼分配公式分配到3 34 4层,结果是:层,结果是:1022 Nn331310000200065Nn 第四章第四章 分层抽样分层抽样445210000800065Nn 因此最终结果是:因此最终结果是:5 5;1010;1313;5252此时的估计量方差达到最小值:此时的估计量方差达到最小值:59173475900676420615400106152006151206154001061520065122.)()(min V第四章第四章 分层抽样分层抽样考察,考察, 、 和调查费用和调查费用C C三个因素。即要在三个因素。即要在调查总费用既定
29、、各层单位调查费用不同的调查总费用既定、各层单位调查费用不同的条件下,所确定的条件下,所确定的 能使估计量的方差达到能使估计量的方差达到最小。最小。iNiiniikcncc0)(2stx(三)经济分配法(最优分配)(三)经济分配法(最优分配)其中其中C C为总调查费用,为总调查费用,C C0 0为固定费用,为固定费用,C Ci i为第层的单位调查费用。为第层的单位调查费用。也就要在约束条件:也就要在约束条件:下,下,使使最小。最小。第四章第四章 分层抽样分层抽样建立目标函数:建立目标函数:)()(0ccncxVQiikxt求偏导并令其为求偏导并令其为0 0得得: :02222iiiiiCnQN
30、NnQiiiicWniiiKicwnn又由于又由于两式相除两式相除iiiiiiiiiiiiicNcNncWcWnn 若各层单位调查若各层单位调查费用相等,则该费用相等,则该式同与奈曼分配式同与奈曼分配 得得: :得得: :第四章第四章 分层抽样分层抽样按经济方法确定的估计量的方差为:按经济方法确定的估计量的方差为: 若各层单位调查费用相等,则上式等同于若各层单位调查费用相等,则上式等同于奈曼分配。奈曼分配。 iiistnfxV21)()(iiiiiiNWnW2222NWcWncWiiiiiiii2第四章第四章 分层抽样分层抽样例:设某总体例:设某总体N=5000N=5000,分三层,资料如下表
31、。,分三层,资料如下表。n=100n=100,问在三种分配方法下的,问在三种分配方法下的n ni i以及估计量方以及估计量方差差. .结果请同学们自己计算。结果请同学们自己计算。第四章第四章 分层抽样分层抽样计算结果如下:计算结果如下:第四章第四章 分层抽样分层抽样在等比例分配法下,各层应抽单位数为:在等比例分配法下,各层应抽单位数为:26260100444401003030100332211 .nWnnWnnWn估计量的方差为:估计量的方差为:43.10100/ )5126. 02844. 0123 . 0(%)21 ()(222stxV第四章第四章 分层抽样分层抽样在奈曼分配法下,各层应抽
32、单位数为:在奈曼分配法下,各层应抽单位数为:13)511300282200121500/(121500100/111iiNNnn同理可得:同理可得:454232 nn估计量估计量方差为方差为30. 850005126. 02844. 0123 . 01005126. 02844. 0123 . 0)(2222stxV第四章第四章 分层抽样分层抽样在最优分配法下,各层应抽单位数为:在最优分配法下,各层应抽单位数为:14)85126. 02 . 62844. 05123 . 0/(5123 . 01001111111cWcWnn同理可得:同理可得:424432 nn第四章第四章 分层抽样分层抽样3
33、6. 85000)5126. 02844. 0123 . 0)85126. 02 . 62844. 05123 . 0(100)85126. 02 . 62844. 05123 . 0()(222stxV估计量方差为:估计量方差为:第四章第四章 分层抽样分层抽样 相差不大时;相差不大时;可见对于相同的可见对于相同的n n,在不同分配法下,有,在不同分配法下,有不同的不同的n ni i和不同的估计量方差和不同的估计量方差 。但事实上,当各层但事实上,当各层 相差不大时,经济分配法相差不大时,经济分配法意义不大。意义不大。)(stxVici同时,在多数情况下,奈曼分配法也无多大同时,在多数情况下,
34、奈曼分配法也无多大“优势优势”。? 未知要用未知要用S S来代替时。来代替时。都难以保证奈曼分配法一定优于比例分配法都难以保证奈曼分配法一定优于比例分配法i第四章第四章 分层抽样分层抽样样本量的确定样本量的确定 一、一般公式一、一般公式令令n ni i=nw=nwi i, ,其中其中w wi i已经选定已经选定, ,于是当方差于是当方差V V给定时给定时, ,可由以下公式可由以下公式: : LiiiiLiiiiLiiiiiSNWSnWSnfWV1221221221 LiiiiLiiiiSWWNSwWn12212211得到确定样本得到确定样本量的一般公式量的一般公式为:为: NSWVwSWnii
35、iii 222第四章第四章 分层抽样分层抽样当按比例分配时,当按比例分配时, 实际工作中,实际工作中,n n的计算可分两步走的计算可分两步走, ,先计算先计算 : : iiWw NSWVSWniiii 22VSWnii 20然后进行修正:然后进行修正:Nnnn001 第四章第四章 分层抽样分层抽样当按当按NeymanNeyman分配时分配时 iiiiiSWSWw 2222iiiiiiiiSWNVSWNNSWVSWn)()(当按最优分配当按最优分配( (经济分配经济分配) )时时, ,由下式由下式: : NSWcSWncSWViiiiiiii2 2iiiiiiiiSWNVCSWCSWNn)(/(
36、第四章第四章 分层抽样分层抽样例:某总体例:某总体N=5000N=5000,分三层,资料如下:,分三层,资料如下:分层分层NiiCi1231000270013001002125102610125265530合计5000-iX 要求在总体均值估计量方差不超过要求在总体均值估计量方差不超过350350的前提下,分别计算比例分配、奈曼分配的前提下,分别计算比例分配、奈曼分配、最优(经济)分配下的样本容量。、最优(经济)分配下的样本容量。第四章第四章 分层抽样分层抽样根据表中资料可计算得到:根据表中资料可计算得到:728103/26720506)(9389630626. 054. 02 . 02232
37、1iiiiiiiiiiiiCWCWWXXWWXWWW255938963505000938965000 比n第四章第四章 分层抽样分层抽样19493896350500026750002 奈n2049389635050007281035000 优n奈优比nnn 第四章第四章 分层抽样分层抽样四、分层抽样简单估计的效果分析四、分层抽样简单估计的效果分析优V比V纯VnfV/21纯一般情况下,对于相同的一般情况下,对于相同的n n,有,有因为:因为:nWfVii/21比第四章第四章 分层抽样分层抽样而:而: 221XxNijNik 21XXXxNiiijNijki iijNiikiiNikiijNikX
38、xXxNXxNXxN 211222211XXNNNNiikiik2222piiiiXXWW即层内平均方差即层内平均方差+ +层间方差层间方差第四章第四章 分层抽样分层抽样从而:从而:22211XXWWnfnfViiii/纯 2iiXXWnf1V 比显然显然纯V比V第四章第四章 分层抽样分层抽样又因为:又因为: NWNWViii/22 奈21iiWnfV比NWnWii/222222)()( nWnWVViiii奈比)(22 EED而:而:故:故:0)(D当各层标准差相等时,等号成立。当各层标准差相等时,等号成立。另外,另外, 一般介于一般介于 与与 之间。之间。 经V比V奈V第四章第四章 分层抽
39、样分层抽样分层抽样的其他问题:分层抽样的其他问题:一、什么时采用分层抽样一、什么时采用分层抽样 如前所述,分层抽样的效果一般优于纯随如前所述,分层抽样的效果一般优于纯随机抽样,因而在实际中得到广泛应用。但是机抽样,因而在实际中得到广泛应用。但是否任何一次抽样都应该采用分层抽样呢?这否任何一次抽样都应该采用分层抽样呢?这就涉及到以下几个问题:就涉及到以下几个问题: 、如果说分层抽样的效果优于纯随机抽、如果说分层抽样的效果优于纯随机抽样,那么从所增加的人力财力与所提高的抽样,那么从所增加的人力财力与所提高的抽样精度对比上看是否值得?样精度对比上看是否值得?第四章第四章 分层抽样分层抽样 如果分层抽
40、样并不需要增加什么费用,如果分层抽样并不需要增加什么费用,或者说所增加的费用有限,那么只要其他或者说所增加的费用有限,那么只要其他条件适合,就可采用分层抽样组织形式。条件适合,就可采用分层抽样组织形式。 如果分层抽样在方差上下降的幅度不大如果分层抽样在方差上下降的幅度不大,那么有时从工作简便性考虑,即使分层,那么有时从工作简便性考虑,即使分层抽样不会增加费用,也宁可采用纯随机抽抽样不会增加费用,也宁可采用纯随机抽样。样。第四章第四章 分层抽样分层抽样、分层抽样的效果是否一定优于纯随抽样?、分层抽样的效果是否一定优于纯随抽样? 当层间方差大,层内方差小,即分层合理当层间方差大,层内方差小,即分层
41、合理时,分层抽样效果优于纯随机抽样;但如果时,分层抽样效果优于纯随机抽样;但如果分层标志选择不当,造成分层极不合理时,分层标志选择不当,造成分层极不合理时,可能会发生相反的情况。所以不是任何分层可能会发生相反的情况。所以不是任何分层的分层抽样都有好的效果。的分层抽样都有好的效果。第四章第四章 分层抽样分层抽样、如果不采用分层抽样,纯随机抽样的估、如果不采用分层抽样,纯随机抽样的估计精度是否达到事先所设计的要求?计精度是否达到事先所设计的要求? 这是从抽样推断的实际需要来考虑的。有时这是从抽样推断的实际需要来考虑的。有时,分层抽样所能提高的精度可能是很有限的,分层抽样所能提高的精度可能是很有限的
42、,但为了达到事先设计的精度要求或尽量提高抽但为了达到事先设计的精度要求或尽量提高抽样精度,哪怕是一点点,那么在样本容量不能样精度,哪怕是一点点,那么在样本容量不能增加的情况下,分层抽样是必要和值得的。增加的情况下,分层抽样是必要和值得的。第四章第四章 分层抽样分层抽样二、如何选择分组标志?二、如何选择分组标志?为了使分层抽样的层间方差尽量大,选择好分层为了使分层抽样的层间方差尽量大,选择好分层标志是关键中的关键。如果分层标志选择有误,就可标志是关键中的关键。如果分层标志选择有误,就可能使分层抽样的误差比纯随机抽样的还要大。例:能使分层抽样的误差比纯随机抽样的还要大。例:男男3003201501
43、60165170女女315320155120 某总体由名男职工和名女职工组成,月奖金某总体由名男职工和名女职工组成,月奖金(元)分别为(元)分别为:(n=5).容易计算容易计算: :25.63615 .2172总体方差总体均值 X第四章第四章 分层抽样分层抽样1 1、在纯随机抽样下估计量方差为:、在纯随机抽样下估计量方差为:868.706) 1()(2NnnNxV2 2、按工资高低分两层,每次抽取、按工资高低分两层,每次抽取50%50%的的单位,其估计量方差为:单位,其估计量方差为:高高320320315300低低165170155120150160583.22) 1()(2iiiiiistW
44、NnnNxV说明分层抽样的效果较好。说明分层抽样的效果较好。第四章第四章 分层抽样分层抽样3 3、按性别分层进行分层抽样,每层仍、按性别分层进行分层抽样,每层仍抽抽50%50%的单位,估计量方差为:的单位,估计量方差为:38.799) 1()(2iiiiiistWNnnNxV 估计量方差比纯随机抽样的还大,这样估计量方差比纯随机抽样的还大,这样的分层抽样是很不好的。的分层抽样是很不好的。 分层抽样中选择好分组标志的关键是让分层抽样中选择好分组标志的关键是让调查标志分层后的层间方差达到最大。提调查标志分层后的层间方差达到最大。提出以下几点思路:出以下几点思路:第四章第四章 分层抽样分层抽样1 1
45、、如果具备调查标志的全面的过去资料,、如果具备调查标志的全面的过去资料,而且变化不会太大,那么以调查标志本身的而且变化不会太大,那么以调查标志本身的过去资料来分层是值得提倡的。过去资料来分层是值得提倡的。 例如某省以县为单位进行粮食总产量分例如某省以县为单位进行粮食总产量分层抽样调查,那么就可以按各县过去的粮层抽样调查,那么就可以按各县过去的粮食总产量资料进行分层。食总产量资料进行分层。2 2、尽量利用自然分层标志。、尽量利用自然分层标志。 如居民按居住地域标志分为城镇居民和如居民按居住地域标志分为城镇居民和农村居民两层;土地按自然耕作条件分层农村居民两层;土地按自然耕作条件分层等。等。第四章
46、第四章 分层抽样分层抽样3 3、充分利用那些能决定调查标志数量差、充分利用那些能决定调查标志数量差异的品质标志。异的品质标志。 例如:职业往往能决定收入高低,因此职业例如:职业往往能决定收入高低,因此职业标志作为居民收入抽样调查的分层标志是合适标志作为居民收入抽样调查的分层标志是合适的。的。 再如,居民的性别差异能决定个人消费支出再如,居民的性别差异能决定个人消费支出结构的差异,因此以性别标志作为居民消费支结构的差异,因此以性别标志作为居民消费支出结构调查的分层标志也是合适的。出结构调查的分层标志也是合适的。 优先选择品质标志的另一个理由是:其标志优先选择品质标志的另一个理由是:其标志表现较数
47、量标志少得多,界限也易确定。表现较数量标志少得多,界限也易确定。4 4、在多个可供选择的数量标志中,应选择、在多个可供选择的数量标志中,应选择那个与调查标志相关系数之绝对值最大者。那个与调查标志相关系数之绝对值最大者。第四章第四章 分层抽样分层抽样三、分几层三、分几层 分层标志选好后的问题是,如何确定分层数。分层标志选好后的问题是,如何确定分层数。分层数的多少与分层抽样效果有关。分层数的多少与分层抽样效果有关。 思考?:思考?:在正常情况下,层数多少与在正常情况下,层数多少与层间方差及抽样效果有何关系?层间方差及抽样效果有何关系? 由于总体方差可分解为层内方差与层间方差由于总体方差可分解为层内
48、方差与层间方差两部分,所以,正常情况下两部分,所以,正常情况下 ,分层数越多,层,分层数越多,层间方差就会越大,分层抽样的效果就会越好。间方差就会越大,分层抽样的效果就会越好。所以,在样本单位数既定和不增加调查费用(或所以,在样本单位数既定和不增加调查费用(或增加不多)的情况下,尽量多地分层是可取的。增加不多)的情况下,尽量多地分层是可取的。但这并不意味着分层数可以无限多。两个原因:但这并不意味着分层数可以无限多。两个原因:第四章第四章 分层抽样分层抽样 其一:因为当层数达到一定时,估计量方其一:因为当层数达到一定时,估计量方差下降的速度就变得很慢,这时再增加层数的差下降的速度就变得很慢,这时
49、再增加层数的意义就不大。意义就不大。 其二:分层越细,工作量就越大,费用也其二:分层越细,工作量就越大,费用也不可能不增加。因此当层数达一定量时,再分不可能不增加。因此当层数达一定量时,再分层的费用会大幅度上升,与所提高的精度相比层的费用会大幅度上升,与所提高的精度相比可能会得不偿失。可能会得不偿失。 对于按自然标志分层的总体,自然层数通常对于按自然标志分层的总体,自然层数通常就是理想的和有效的层数。就是理想的和有效的层数。 因为这种分层轮廓清晰、层次分明,即与因为这种分层轮廓清晰、层次分明,即与实际情况相符,又能体现性质差异,并且基实际情况相符,又能体现性质差异,并且基本上现成可用。本上现成
50、可用。第四章第四章 分层抽样分层抽样 可采用现代多元统计分析方法中的聚类分可采用现代多元统计分析方法中的聚类分析与判别分析法来确定层界和层数。但要注析与判别分析法来确定层界和层数。但要注意以下几个问题:意以下几个问题: 若是按数量标志分层,而层界较难确定时若是按数量标志分层,而层界较难确定时,可用什么现代统计分析方法解决?,可用什么现代统计分析方法解决?1 1、聚类、判别分析要与定性分析相结合,避、聚类、判别分析要与定性分析相结合,避免以数量上的小距离把不同性质的单位归为免以数量上的小距离把不同性质的单位归为一类。例如:计划一类。例如:计划99%99%与与101%101%;5959与与6060