1、返回5.1 不等概抽样一、概念与特点前面所学的简单随机抽样,总体中的每个单元前面所学的简单随机抽样,总体中的每个单元具有同样的入样概率,它是等概率抽样。具有同样的入样概率,它是等概率抽样。与等概率抽样对应的另一类方法是不等概抽样,与等概率抽样对应的另一类方法是不等概抽样,也就是在抽样前赋予总体每个单元一个入样概率也就是在抽样前赋予总体每个单元一个入样概率.一一般而言般而言,每个单元的入样概率是由该单元在整体中的每个单元的入样概率是由该单元在整体中的地位来确定的地位来确定的.因此每个单元的入样概率可能是不相因此每个单元的入样概率可能是不相同的同的.返回 什么时候使用不等概抽样?实际工作中,如果遇
2、到下面几种情况,则可以实际工作中,如果遇到下面几种情况,则可以考虑使用不等概抽样:考虑使用不等概抽样:1、抽样单元在总体中所占的地位不一致、抽样单元在总体中所占的地位不一致2、调查的总体单元与抽样总体的单元不一致、调查的总体单元与抽样总体的单元不一致3、改善估计量、改善估计量 不等概抽样的优点:提高估计精度提高估计精度,减少抽样误差减少抽样误差。返回二、不等概抽样的种类1 1、放回不等概抽样、放回不等概抽样首先给整体的每一个单元赋予一个确定的首先给整体的每一个单元赋予一个确定的入样概率(通常是不相等的),然后在总体中入样概率(通常是不相等的),然后在总体中对每个单元按入样概率进行抽样,抽取出来
3、的对每个单元按入样概率进行抽样,抽取出来的样本单元记录后又放回总体,再进行下一次的样本单元记录后又放回总体,再进行下一次的抽样,很显然每次抽样都是独立的。抽样,很显然每次抽样都是独立的。返回NiiiiiMMMMZ10 放回不等概抽样中,最常用的是按照整体单放回不等概抽样中,最常用的是按照整体单元的规模大小来确定单元在每次抽样时的入样概元的规模大小来确定单元在每次抽样时的入样概率,假设总体中第率,假设总体中第i个单元的规模度量为个单元的规模度量为 ,总,总体的总规模为体的总规模为 每次抽样中,第每次抽样中,第i个单个单元被抽中的概率用元被抽中的概率用 表示,其中表示,其中iMNiiMM10iZ返
4、回 这种不等概抽样称作放回的与规模大小成比这种不等概抽样称作放回的与规模大小成比例的概率抽样(例的概率抽样(probability proportional to size),简称简称PPS抽样。实际问题中,总体单元大小的度抽样。实际问题中,总体单元大小的度量往往不止一个,比如企业员工数量、产值、销量往往不止一个,比如企业员工数量、产值、销售量、利润等都可以度量企业规模的大小。售量、利润等都可以度量企业规模的大小。PPS抽样的实施主要有两种方法:抽样的实施主要有两种方法:代码法代码法和和拉希里拉希里(Lahiri)法,下面我们用一个实例分别介法,下面我们用一个实例分别介绍这两种方法。绍这两种方
5、法。返回代码数,将代码数累加得到0M每次抽样0M都产生一个1,之间的随机数,设为m则代码m所对应的单元被抽中。(如果iM不是整数,则乘以某个倍数。)(1 1)代码法)代码法 在PPS抽样中,赋予每个单元与相等的iM返回 10累计累计 10代码代码123456789100.614.51.513.77.815103.661.161451513778150100366011615116630338153163166772773816715115216616730330438138253153263163266766872772873873.8738_iMiMiM【例5.1】设某个总体有N=10个单元
6、,相应的单元大小 及其代码数如下表,我们要在其中产生一个n=3的样本.iM返回先在先在1,7381,738中产生一个随机数为中产生一个随机数为354,354,再再在在1,7381,738中产生第二个随机数为中产生第二个随机数为553,553,最后最后产生第三个随机产生第三个随机493493。则它们所对应的第。则它们所对应的第5 5,7 7,6 6号单元被抽中。号单元被抽中。返回(2 2)拉希里法)拉希里法,max1iNimM令 每次抽样都分别产生M一个1,N之间的随机数 i 及1,之间的随机数m如果mMi则第i个单元被抽中;否则,重抽一组(i,m).在例5.1中,.10,150NM在1,10和
7、1,150中分别产生(i,m):返回(3,121),3M=15 121,舍弃,重抽;m(8,50),8M=36 50,舍弃,重抽;m(7,77),7M=100 77,第7号单元入样;m(5,127),5M78 127,舍弃,重抽;m(4,77),4M137 77,第4号单元入样;m(9,60),9M60 60,第9号单元入样。m因此,第因此,第,7,9,7,9号单元被抽中。号单元被抽中。返回2 2、不放回不等概抽样、不放回不等概抽样每次在总体中对每个单元按入样概率进行抽样,每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不放回总体,对总体中剩下的抽取出来的样本单元不放回总体,对总体
8、中剩下的单元进行下一次抽样。不放回不等概抽样的效率比单元进行下一次抽样。不放回不等概抽样的效率比放回时的效率高,但是样本不独立会加大抽样实施、放回时的效率高,但是样本不独立会加大抽样实施、参数估计及精度计算的难度。参数估计及精度计算的难度。返回对于不放回不等概抽样,样本的抽取可以有以下几对于不放回不等概抽样,样本的抽取可以有以下几种方法:种方法:(1 1)逐个抽取法)逐个抽取法。每次从总体未被抽中的单元中。每次从总体未被抽中的单元中以一定的概率取一个样本单元。以一定的概率取一个样本单元。(2 2)重抽法。)重抽法。以一定的概率逐个进行放回抽样,以一定的概率逐个进行放回抽样,如果抽到重复单元,则
9、放弃所有抽到的单元,重新抽取。如果抽到重复单元,则放弃所有抽到的单元,重新抽取。(3 3)全样本抽取法。)全样本抽取法。对总体每个单元分别按一定对总体每个单元分别按一定概率决定其是否入样。这种方法的样本量是随机的,事概率决定其是否入样。这种方法的样本量是随机的,事先不能确定。先不能确定。(4 4)系统抽样法)系统抽样法。将总体单元按某种顺序排列,。将总体单元按某种顺序排列,根据样本量确定抽样间距根据样本量确定抽样间距k,k,在在11,kk中产生一个随机数。中产生一个随机数。返回5.2 放回不等概抽样一、只抽取一个样本单元(n=1)的不等概抽样 为了便于了解不等概抽样的基本思想,我们先看为了便于
10、了解不等概抽样的基本思想,我们先看一个总体已知,只抽取一个样本单元的例子。一个总体已知,只抽取一个样本单元的例子。【例】一个城市有四个超市营业面积从【例】一个城市有四个超市营业面积从100100平方米平方米到到10001000平方米不等(见下表),我们的目标是通过抽平方米不等(见下表),我们的目标是通过抽取一家超市来估计这四个超市上个月的总营销量。通取一家超市来估计这四个超市上个月的总营销量。通常超市面积越大则销售量越大,因此,我们选择的入常超市面积越大则销售量越大,因此,我们选择的入样概率与超市的营业面积成正比。样概率与超市的营业面积成正比。返回超市营业面积(平方米)(万元)A1001/16
11、11B2002/1620C3003/1624D100010/16245总计16001300iZiY四个超市的背景数据四个超市的背景数据iYiZ:第:第i i个超市的包含概率,个超市的包含概率,:第:第i i个超市的销售量个超市的销售量返回 如果超市的营业面积近似正比于超市的销售额,如果超市的营业面积近似正比于超市的销售额,那么超市那么超市A A的销售额就占所有超市销售额的的销售额就占所有超市销售额的1/16,1/16,因因此超市此超市A A的销售额乘以权重的销售额乘以权重1616(包含概率的倒数)(包含概率的倒数)可以近似地估计所有超市的销售额。因此,样本量可以近似地估计所有超市的销售额。因此
12、,样本量为为1 1的不等概抽样的总体总值估计量为:的不等概抽样的总体总值估计量为:SiiiiSiiZyywYiiZw1式中式中返回样本样本A1/161117615375B2/162016019600C3/162412829584D10/162453928464iZiySY2)(YYS四个四个n=1n=1可能的不等概样本及其估计量可能的不等概样本及其估计量返回从上表可以算出:万元)。(3003921610128163160162176161)(SiiYZYE.1424884641610295841631960016215367161)()()(22YYZYYEYVSii可见不等概抽样的总体总值估
13、计量是无偏的可见不等概抽样的总体总值估计量是无偏的返回 我们用同一个例题将不等概抽样与简单随机抽样我们用同一个例题将不等概抽样与简单随机抽样作一比较,以此认识不等概抽样的意义。作一比较,以此认识不等概抽样的意义。与与n=1n=1的简单随机抽样相比,简单随机抽样的样本的简单随机抽样相比,简单随机抽样的样本NZZii41,41所有可能的样本见下表所有可能的样本见下表返回样本样本A1/4114465536B1/4208048400C1/4249641616D1/4245980462400iZiySRSY2)(YYSRS四个可能的简单随机样本的数据及其估计量四个可能的简单随机样本的数据及其估计量返回我
14、们来计算简单随机抽样的估计量方差我们来计算简单随机抽样的估计量方差154488)462400416164840065536(41)(SRSYV 前面按不等概抽样的估计量方差为前面按不等概抽样的估计量方差为 1424814248,是无偏估计,期望为是无偏估计,期望为300300万元,但是其方差万元,但是其方差大于不等概抽样,这是因为不等概抽样利用了辅大于不等概抽样,这是因为不等概抽样利用了辅助信息,即与销售额相关的超市面积。助信息,即与销售额相关的超市面积。SRSY返回二、一般有放回不等概抽样niiiHHzynY11 对于放回不等概抽取样本容量为对于放回不等概抽取样本容量为n n的样本,总体总值
15、的样本,总体总值的估计量为样本中所有的估计量为样本中所有 的平均,我们得到汉森的平均,我们得到汉森赫维慈赫维慈(Hansen-Hurwitz)(Hansen-Hurwitz)估计估计 :iiZy/上式是总体总值的无偏估计上式是总体总值的无偏估计返回如果采用的是如果采用的是PPSPPS抽样,即抽样,即 ,则,则0MMZiiniiiniiiHHMynMzynY1011 上面估计量是上面估计量是n n个独立观测的平均,因此每个个独立观测的平均,因此每个单元的总值估计量方差是:单元的总值估计量方差是:21)(YZYZiiNii返回:的方差为HHYNiiiiHHYZYZnYV12)(1)(:)(的无偏估
16、计为HHYVniHHiiHHYxynnYv12)(111)(niHHiiMYmynnM12020)()1(返回【例5.2】某部门要了解所属某部门要了解所属85008500家生产企业当月完成家生产企业当月完成的利润的利润,该部门手头已有一份上年各企业完成产量的报告该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成产量为将其汇总得到所属企业上年完成产量为36763676万吨万吨.考虑考虑到时间紧到时间紧,准备采用抽样调查来推算当月完成的利润准备采用抽样调查来推算当月完成的利润.根根据经验据经验,企业的产量和利润相关性比较强企业的产量和利润相关性比较强,且企业的特点且企业的特点
17、是规模和管理水平差异比较大是规模和管理水平差异比较大,通常大企业的管理水平通常大企业的管理水平较高较高,因此采用与上年产量成比例的因此采用与上年产量成比例的PPSPPS抽样抽样,从所属企从所属企业中抽出一个样本量为业中抽出一个样本量为3030的样本的样本,调查结果如下表调查结果如下表.不等概抽样例题不等概抽样例题返回imiyiimiyiimiyi138.2310926106.501900191.510213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.001045229.01384552.0011021412.3
18、0220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.819921821.00640276.20510样本单元的有关数据红色数字表示被两次抽到,红色数字表示被两次抽到,mimi为企业上年完成的产量,为企业上年完成的产量,yiyi为企业当月完成的产量。为企业当月完成的产量。返回 要根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?解:由上述条件知由上述条件知
19、3676,300Mn估计当月完成的利润为:75708710niiiHHmynMY返回174118)()(8.53031700514)()1()(20120HHHHHHniiiHHYvYsMYmynnMYvHHY方差及标准差的估计%4575708717411896.1)(HHHHYYstr在置信度为在置信度为95%95%时时,对应的对应的t=1.96,t=1.96,的相对误差的相对误差HHY返回 因此,在置信度仍为因此,在置信度仍为95%95%、相对误差时、相对误差时 ,所需样本量为:所需样本量为:%201r15230)2.045.0(22121nrrn返回三、有放回不等概整群抽样 在群规模不等
20、的整群抽样中,如果群的规模在群规模不等的整群抽样中,如果群的规模差异较大,各个群对总体的影响会产生很大差别。差异较大,各个群对总体的影响会产生很大差别。这时可以采用不等概方式抽取群。其好处是把群这时可以采用不等概方式抽取群。其好处是把群的规模作为抽取样本的辅助信息,提高了估计的的规模作为抽取样本的辅助信息,提高了估计的精度,而且方差估计有比较简单的形式。下面主精度,而且方差估计有比较简单的形式。下面主要讨论以要讨论以PPS抽样抽取群的情况。抽样抽取群的情况。返回 每次按每次按 的概率抽取第的概率抽取第i i个群,由于群内的单元全部参与调查,个群,由于群内的单元全部参与调查,第第i i个群的总值
21、为:个群的总值为:),2,1(0NiMMZii.1iMiijiyy 根据上节讲到的汉森根据上节讲到的汉森赫维茨估计量,赫维茨估计量,PPSPPS整群整群抽样的总体总值估计量为:抽样的总体总值估计量为:yMMynMZynYniiiniii01011我们知道,这是一个无偏估计。我们知道,这是一个无偏估计。返回估计量的方差是:估计量的方差是:21021)()(1)(YYMnMYZYZnYViNiiiiNii估计量方差的估计为:估计量方差的估计为:212021)()1()()1(1)(yynnMYZynnYviniiini返回【例【例5.35.3】某企业欲估计上季度每位职工的平均病某企业欲估计上季度每
22、位职工的平均病假天数。该企业共有假天数。该企业共有8 8个分厂(工人数资料见下表),个分厂(工人数资料见下表),现用不等概整群抽样拟抽取三个分厂为样本,并以现用不等概整群抽样拟抽取三个分厂为样本,并以95%95%的置信度计算其置信区间。有关数据及抽样过程的置信度计算其置信区间。有关数据及抽样过程如下:如下:返回分厂编号分厂编号职工人数职工人数累积区间累积区间1120011200245012011650321001651375048603751461052840461174506191074519360739093619750832009751129508 8个分厂的职工人数资料个分厂的职工人数
23、资料返回【解】采用采用PPSPPS抽样,利用随机数表在数字抽样,利用随机数表在数字 1 11295012950之间随机抽取之间随机抽取3 3个数,分别是个数,分别是0201102011,0797207972和和1028110281,于是,于是3 3分厂、分厂、6 6分厂和分厂和8 8分厂入分厂入选样本。用选样本。用 分别表示三个分厂职工分别表示三个分厂职工的病假天数,调查结果为:的病假天数,调查结果为:321,yyy.5790,4160,4320321yyy431.2)320097901910416021004320(3111110niiniiiynMynMYy返回同样可求得估计量方差的估计值
24、为:同样可求得估计量方差的估计值为:0356.0)()1(1)()(2120yynnMYvyvnii其其95%的置信区间为:的置信区间为:80.2,06.237.043.20356.096.143.2返回【评价】【评价】对于群规模不等的整群抽样,采用不等对于群规模不等的整群抽样,采用不等概概PPSPPS抽样,可以得到总体目标量的无偏估计,估计抽样,可以得到总体目标量的无偏估计,估计量和估计量方差都有比较简明的形式,估计的效率量和估计量方差都有比较简明的形式,估计的效率也比较高,确实是值得优先采用的方法。但是此方也比较高,确实是值得优先采用的方法。但是此方法使用的条件是:在抽取样本前,要了解有关
25、群规法使用的条件是:在抽取样本前,要了解有关群规模大小的信息。此外,抽样过程比等概整群抽样更模大小的信息。此外,抽样过程比等概整群抽样更为复杂。为复杂。返回5.3 多阶段有放回不等概抽样一、两阶段有放回不等概抽样一、两阶段有放回不等概抽样 抽样方法:抽样方法:对初级单元进行抽样时,先确定每个对初级单元进行抽样时,先确定每个初级单元的入样概率。对被抽中的初级单元,再抽初级单元的入样概率。对被抽中的初级单元,再抽取取 个二级单元。如果某个初级单元被抽中多次,个二级单元。如果某个初级单元被抽中多次,则将这则将这 个二级单元放回,重新抽取个二级单元放回,重新抽取 个二级单元。个二级单元。当然,这两个样
26、本中的二级单元可能会有重复。在当然,这两个样本中的二级单元可能会有重复。在实际调查时,对重复的二级单元只调查一次,但计实际调查时,对重复的二级单元只调查一次,但计算的时候,应该按照被抽中的次数进行重复计算。算的时候,应该按照被抽中的次数进行重复计算。imimim返回总体总值的估计总体总值的估计:先构造初级单元总值先构造初级单元总值 的无偏的无偏估计估计 然后利用汉森然后利用汉森-赫魏茨估计量对总体总值赫魏茨估计量对总体总值Y进行估计:进行估计:iYiYniiiHHZYnY11)()(1)(1221NiiiiiNiiHHZYVYZYZnYV21)()1(1)(HHniiiHHYZYnnYv返回特
27、别地特别地 记总体中所有二级单元数为记总体中所有二级单元数为 ,如果抽样时,如果抽样时每个初级单元被抽中的概率与其拥有的二级单元数成每个初级单元被抽中的概率与其拥有的二级单元数成比例,即初级单元被抽中的概率为比例,即初级单元被抽中的概率为 第二第二阶段对二级单元进行简单随机抽样,则阶段对二级单元进行简单随机抽样,则 ,样本,样本是自加权的,对总体总值的估计为:是自加权的,对总体总值的估计为:0M,/0MMZiimmi2120110100)()1(yynnM)YvynmMynMyMYniiPPSnimjijniiHH返回 在实际调查中,如果初级单元大小不相等,人们在实际调查中,如果初级单元大小不
28、相等,人们通常喜欢在第一阶段时按放回的与二级单元成比例通常喜欢在第一阶段时按放回的与二级单元成比例的的PPS抽样,第二阶段抽样则进行简单随机抽样,且抽样,第二阶段抽样则进行简单随机抽样,且每个初级单元的二级单元样本都相同,这样得到的样每个初级单元的二级单元样本都相同,这样得到的样本是自加权的,估计量的形式非常简单。本是自加权的,估计量的形式非常简单。【例5.4】某小区拥有某小区拥有10座高层建筑,每座高层建筑拥座高层建筑,每座高层建筑拥有的楼层数如下表有的楼层数如下表高层建筑高层建筑ABCDEFGHIJ楼层楼层1212161510161018162010座高层建筑的层数返回 我们用两阶段抽样方
29、法抽出我们用两阶段抽样方法抽出10个楼层进行调查,个楼层进行调查,第一阶段抽样为放回的按与每层建筑拥有的楼层成第一阶段抽样为放回的按与每层建筑拥有的楼层成比例的不等概抽取比例的不等概抽取5座建筑,第二阶段按简单随机抽座建筑,第二阶段按简单随机抽样对每座建筑抽取两个楼层。对样对每座建筑抽取两个楼层。对10个楼层居民人数个楼层居民人数的调查结果如下,试对小区总居民数进行估计,并的调查结果如下,试对小区总居民数进行估计,并给出估计的误差。给出估计的误差。初级样本序号初级样本序号12345居民数居民数18,1215,1819,1316,1016,11被选中的高层建筑序号及被选中的高层建筑序号及10个楼
30、层的居民数个楼层的居民数返回【解】已知.625.9776)()1()(8.141452146214614825145.148,145,2,51200110110yynnMYvMYyymnMYyMmnniinimjijnimjij返回二、多阶段有放回不等概抽样 (略)参看教材P174返回5.3 不放回不等概抽样一、PS 抽样不放回不等概抽样:我们知道我们知道,若采用放回抽样若采用放回抽样,对总体参数的估计对总体参数的估计及其方差估计比较简单及其方差估计比较简单,但样本单元中可能有单元但样本单元中可能有单元被抽中多次被抽中多次.因此因此,放回抽样得到的样本其代表性比放回抽样得到的样本其代表性比不放
31、回抽样差不放回抽样差.在相同样本量的条件下在相同样本量的条件下,放回抽样的放回抽样的估计精度较低估计精度较低.不放回不等概抽样不放回不等概抽样是指不放回的与单元大小成是指不放回的与单元大小成比例的概率抽样比例的概率抽样.返回包含概率:在不放回不等概抽样中,每个单元入样的概率 及任意两个单元同时入样的概率 统称为包含概率.iij对固定的 n,包含概率满足下面等式:nNii1iNijijn)1()1(211nnNiNijij返回如果每个单元入样概率与其大小iM严格成比例,0MMZii记则对于固定的 n,有iinZ 这时,我们简称这种情形的抽样为严格的PS抽样。求得,只有在 n=2 时才有一些实用的
32、方法。严格的PS抽样实施起来非常复杂,不易ij返回二、赫魏慈汤普森估计量 对于不放回不等概抽样,其总体总量Y的估计是:赫魏慈汤普森估计:niiiHTyY1i为第i个单元的包含概率.其中返回如果),2,1(0Nii则YYHT是的无偏估计,它的方差为:NiNijjijijiijiNiiiHTyyYYV12121)(如果 n 固定,则21)()(jjiiNiNijijjiHTYYYV返回【例5.3】假设有5个居委会,每个居委会的住户数X已知,但常住居民人数未知,我们从这5个居委会抽出两个来估计常住居民的总人数,调查数据如下表.i住户数(X)常住人数(Y)包含概率()140011000.8225060
33、00.532005000.441002400.2550800.110002520-i返回上面表中的包含概率为上面表中的包含概率为:01XXnXXniNiiii 从从5 5个居委会中不放回地抽出个居委会中不放回地抽出2 2个居委会个居委会,无论是无论是不放回不等概抽样还是简单随机抽样不放回不等概抽样还是简单随机抽样,共有共有1010种不同种不同的样本的样本,我们用这些样本分别利用霍维茨我们用这些样本分别利用霍维茨汤普森估汤普森估计计算及简单随机抽样简单估计计算对总量的估计计计算及简单随机抽样简单估计计算对总量的估计,计算结果列于下表计算结果列于下表.返回样本1,2257542501,326254
34、0001,4257533501,5217529502,3245027502,4240021002,5200017003,4245018503,5205014504,52000800psYsrsY不同估计量的估计结果返回 从理论上来说从理论上来说,和和 都是无偏的都是无偏的,它们的它们的均值是均值是2520.2520.本例题的结果表明:本例题的结果表明:不放回不等概赫魏慈不放回不等概赫魏慈汤汤普森估计量比简单随机抽样简单估计更精确,其原普森估计量比简单随机抽样简单估计更精确,其原因是因是X X 和和Y Y 之间有较强的相关关系。之间有较强的相关关系。psYsrsY返回三、n不同情况下的严格PS抽
35、样我们在上面提到的严格PS抽样,就是指 n 固定、严格不放回、包含概率i与单元大小成比例。即iinZ下面分别介绍一种适合于n=2和n2情形的严格的 抽样。PS21iZ1 1、的情形的情形在总体中只抽两个单元,通常用逐个抽取法来保证抽样是不放回的。我们可以采用几种不同的抽样方法。对总体所有的单元,如果有 就可以采用布鲁尔方法。2n返回布鲁尔抽样方法:按与iiiZZZ21)1(成比例的概率抽取第一个单元,记为j,按与jiZZ1成比例的概率抽取剩下的N-1个单元中抽取第二个单元.布鲁尔方法的包含概率为:iiZ2NiiijijijiijZZZZZZ1)211)(21)(21()1(4返回 对于总体总量
36、估计可采用赫魏慈汤普森估计量:)(21jjiijjiiBZyZyyyY2)()(jjiiijijjiHTygsyyYv【例5.7】对于例5.6,如果抽样是按布鲁尔方法的,则其所有可能样本的包含概率如下表:返回样本样本1,225750.348791,326250.265741,425750.124571,521750.060902,324500.091352,424000.040482,520000.019383,424500.029073,520500.013844,520000.00588psYij返回我们可以按下述公式总体均值的估计及其方差:ijpspsYYE)(ijpspsYYYV2)(
37、)(返回2.n 2的情形一般采用一般采用水野法,水野法,也是一种逐个抽取方法,它以也是一种逐个抽取方法,它以概率概率,1)1(nNnnNZNnZiii=1,2,N抽取第一个样本单元抽取第一个样本单元,在剩下的在剩下的N-1N-1个单元中个单元中,不放回不放回等概地抽出等概地抽出n-1n-1个样本单元。为了保证每个个样本单元。为了保证每个要求每个单元的大小满足:要求每个单元的大小满足:0iZ)1()1(0NnMnMi返回四、几种非严格PS抽样1.耶茨格隆迪逐个抽取法:每次都以与未入样的单元的iZiZ成比例的概率抽样,即以抽取第一个单元,不妨记被抽中的单元为第1个;11ZZi以在剩下的N-1个单元
38、中抽取第二个样本单元;不妨记被抽中的单元为第2个;以211ZZZi在剩下的N-2个单元中抽取第二个样本单元;依此类推,直到抽出 n 个样本单元。返回这种方法显然i不是与单元大小严格成比例的,但它在不放回不等概抽样中操作最简单、想法最自然,因而在实际中人们常常使用。耶茨格隆迪方法的 不易计算,因而不能用,我们采用拉奇估计量。inyyy,21nzzz,21 设设 为按抽中顺序排列的样本单元为按抽中顺序排列的样本单元的指标值,相应的的指标值,相应的Z Z值为值为 ,令,令返回)1()1(12112112212111nnnnnzzzzyyyytzzyytzyt则拉奇估计量为则拉奇估计量为:niiRaj
39、tnY11返回【例5.8】总体由 N=10 个单元组成,300M要在总体中按不等概逐个抽取出3n个样本单元,并在调查后对总体进行推算。解 (1)首先利用代码来进行抽样。如下表(下页)如果在1,30的范围内产生的随机数为12,则代码12所在的4号单元被抽中。如果在1,26的范围内产生的随机数为23,则代码23所在的8号单元被抽中。如果在1,24的范围内产生的随机数为5,则代码5所在的3号单元被抽中。返回抽 样 过 程 表 4 =3031731213167312131673122112345678910取第三个样本元 代码 Mi取第二个样本元 代码 Mi取第一个样元 代码 Mii0M2640MM2
40、4840MMM426返回(2 2)接下来由样本推算总体)接下来由样本推算总体 按被抽出的顺序排列,样本单元为按被抽出的顺序排列,样本单元为4 4,8 8,3 3号单元,号单元,相应的相应的 值为值为 调查完毕后,如果相应的指标值为调查完毕后,如果相应的指标值为先计算先计算iz.306,302,304,384yyy38484338438448842444414)1(13)1(5.7304yyyzzzyyytyyzzyytyyzyt返回将n=3及 代入32,1,ttt211)()1(1)(1RajniiRajniiRajYtnnYvtnY则得到总体总量的估计及其方差的样本估计。则得到总体总量的估计
41、及其方差的样本估计。返回2.泊松(Poisson)抽样泊松抽样是一种严格不放回,iinZ严格成立但样本量n事先不能确定的抽样方法。这种方法对总体每一个单元赋予一个是入样概率i即设定一个常数0n使得ioiZn然后对总体每个单元分别产生一个0,1之间的随机数rir ,如果 ,则这个单元被抽中,否则,这个单元就未被抽中.返回 对总体总量Y的估计仍旧采用赫魏慈汤普森估计量:niiiPSyY1其方差)(PSYV的无偏估计为:221)1()(iiniiPSyYv返回本章小结(1)不等概抽样方法是与简单随机抽样方法平行的一类方法.它主要用于总体单元差异非常大的情形.(2)不等概抽样的效率比较高,它能大大提高估计精度.(3)不等概抽样分为PPS抽样和 抽样.PPS抽样虽然精度要差点,但操作实施相对简单些.PS返回本章作业本章作业(1 1)熟悉本章附录的证明;)熟悉本章附录的证明;(2 2)思考书后习题)思考书后习题5.1;5.1;(3 3)在作业本上完成书后)在作业本上完成书后 习题习题5.3,5.3,习题习题5.45.4,习题习题5.65.6。(第五章结束)
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。