1、第八章 系统抽样n第一节 概述n第二节 等概率系统抽样估计量n第三节 不同特征总体的系统抽样n第四节 系统抽样的方差估计1ppt课件第一节 概述n一、系统抽样的定义n二、系统抽样的实施方法n三、排序标志n四、系统抽样的特点n五、系统抽样、整群抽样与分层抽样的关系2ppt课件一、系统抽样的定义n系统抽样(Systematic sampling):也称机械抽样,它是将总体中的单元按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其它样本单元的一种抽样方法。n上述定义是广义的,事实上,总体单元的排列可以是一维的(直线或圆形的),也可以是二维的(平面的);起始单元可以是一个,也可以是一
2、组;对总体单元的抽取可以是等概的也可以是不等概的。3ppt课件n系统抽样中最简单的是等间隔抽取,这种系统抽样又称为等距抽样等距抽样。n等距抽样的随机性是有限制的,因此也被称为伪随机抽样,但要注意:等距抽样并未真正丧失随机性原则。n例:工业产品质量检查,每隔2小时抽选一个或若干样品进行检验。4ppt课件二、系统抽样的实施方法n(一)直线等距抽样n假设:总体N个单元按直线排列,样本容量为n,且有N/n=k,k为整数,称为抽样间距整数,称为抽样间距(sampling interval)。n实施方法:n1.将总体分为n段,每段k个单元n2.在第一段的k个单元中随机抽取一个单元rn3.每隔k个单元抽出一
3、个单元,共抽取n个单元,则被抽中的单元编号分别为:r,r+k,r+2k,r+(n-1)kn例见课本P1425ppt课件n方法评价:n当N/n=k为整数时,总体中每个单元的入样概率都相等(都等于1/k),从而是一种严格的等概率抽样。n当N/n=k不是整数时,实际抽取到的样本单元数可能是N/k,也可能是N/k+1,也即与原来设定的样本量可能相差1。每个单元的入样概率也是不相等的。这时等距抽样有可能产生偏倚。6ppt课件n(二)循环等距抽样n为克服直线等距抽样的上述缺陷,拉希里(Lahiri)提出一种替代方法,称为循环(或圆形)等距抽样。n实施方法:n1.将总体排成首尾相连的圆形。n2.在1N范围内
4、随机抽取整数r作为起始单元编号。n3.每隔间距k(k为最接近N/n的整数)抽取样本单元。直到抽足n个单元为止。n评价:对于循环等距抽样,即使对于N/n不为整数的情况,不仅样本量不会随起始值而变化,且是严格等概率的。n例:见P1437ppt课件n注意注意:以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。8ppt课件n(三)不等概系统抽样法n常用的不等概率系统抽样是PS系统抽样n令:表示总体所有单元大小的总和,n则有入样概率为:n在实际中,实施不等概率抽样最简单的方法是代码法。NiiMM100MMnii9ppt课件n实施方
5、法:n1.先将单元 Mi值累加,取最接近M0/n 的整数k为抽样间距。n2.从 1,k中随机抽取一个整数作为起始单元编号。n3.每间隔k抽取样本单元,则代码 r,r+k,r+(n-1)k 所对应的单元即样本单元.10ppt课件n【例【例7.17.1】设总体由】设总体由1010个行政村组成个行政村组成,N=10,N=10,每个行政村的人每个行政村的人数数 M Mi i见下表见下表,利用利用PS 系统抽样抽取系统抽样抽取 n=3 n=3 个行政村个行政村行政村编号行政村编号人数人数(Mi)累计人数累计人数抽中代码抽中代码110310310024325353966314246877723584961
6、6731034720512398168140713469146155310317187011ppt课件解:623,3,1870010nMknMMNii在 1,623中随机抽取整数r,设r=100,则 r+k=723,r+2k=1346,则对应的行政村为1,4,8.注:对于特别大的单元一般直接作为样本,然后对剩余的单元组成的总体实施抽样.12ppt课件三、排序标志n等距抽样需要有作为排序依据的辅助标志。n排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。13ppt课件(一)按无关标志排队(无序系统抽样)n即各单元的排列
7、顺序与所研究的内容无关.n如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的n无关标志排序的等距抽样也称无序等距抽样。14ppt课件n评价:n在无关标志排序的条件下,各单元的位次排定,并不等于各单元的调查标志值也按同一次序排定,虽然是等距抽样,它与随机抽样在性质上并无不同.n故无关标志排序的等距抽样,实质上相同于简单随机抽样,二者只是抽样形式不同而已,完全无损于随机原则,它们在估计精度上也是一致的。15ppt课件(二)按有关标志排序 n即各单元的排列顺序与所研究的内容是有关的,用来对总体单元规定排列次序的辅
8、助标志,与调查标志具有共同性质或密切关系。n这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。n利用这些辅助标志排序,有利于提高等距抽样的抽样效果。16ppt课件(三)根据各单元原有的自然位置进行排序n例如:学生按学号抽样,入户调查根据街道门牌号按一定间隔抽取等。n这种自然状态的排列有时与调查标志有一定的联系,但又不完完一致,这主要是为了抽样方便。17ppt课件四、系统抽样的特点n优点:n1.简便易行,容易确定样本单元n等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。n在某些场合下甚至
9、可以不用抽样框。例如若要对公路旁的树木进行病虫害调查,确定每20棵数检查一棵,只要在初始被检树确定后,每隔20棵检查一棵即行,根本不需要在事先对公路旁的所有树木进行编号,或者不需要知道抽样框即所有树木的棵数。n在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。18ppt课件n2.样本单元在总体中分布比较均匀样本单元在总体中分布比较均匀,有有 利于提利于提高估计精度高估计精度.n将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确。1
10、9ppt课件n缺点:n1.如果单元 的排列存在周期性的变化,而抽样者对此缺乏了解或缺乏处理的经验,抽取出样本的代表性就可能很差可能很高。这时要慎重地选择K。n如:调查某航空公司每月班机旅客人数(淡季、旺如:调查某航空公司每月班机旅客人数(淡季、旺季)季)k=12n2.系统抽样的方差估计较复杂,一般系统抽样没有设计意义下的无偏估计量,并且在很多实际应用中所采用的系统抽样都不是严格的概率抽样,这就给系统抽样方差的估计带来很大的困难.20ppt课件五、系统抽样、整群抽样和分层系统抽样、整群抽样和分层抽样的关系抽样的关系n系统抽样可以看成是一种特殊的整群抽样,也可以看成是一种分层抽样。n为了看清其中的
11、关系,我们以一般的等距抽样为例,将总体中的N(=nk)个单元按k个一组排成表,共有k行n列。n等距抽样,即将总体个单元排列成k行n 列的矩阵,在从k之间随机地产生一个随机数r,则取第r行的全体单元作为样本21ppt课件 系统抽样的总体单元系统抽样的总体单元12jn平均1Y1Yk+1Y(j-1)k+1 Y(n-1)k+12Y2Yk+2Y(j-1)k+2 Y(n-1)k+2rYrYk+rY(j-1)k+rY(n-1)k+rkYkY2kYjkYnk1y2yryky22ppt课件n如果将表的行看作群,实际上相当于将总体划分为 k群,系统抽样相当于从这 k个群中随机地抽出一个大小为n的群实行整群抽样,这
12、是最简单的整群抽样.n因此,在讨论传统抽样的参数估计时,很多场合将引用整群抽样的一些现成结果.系统抽样与整群抽样参数的对照23ppt课件n如果将表的列看作层,那么系统抽样又是一种分层抽样:在每层中抽取一个单元,不过这个单元在每个层中的位置是相同的,因此不是分层随机抽样.24ppt课件 系统抽样的总体单元按行列重新编号12jn群平均1Y11Y12Y1jY1n2Y21Y22Y2jY2n:rYr1Yr2YrjYrn:KYk1Yk2YkjYkn层平均1Y2YjYnyYkYrY2Y1Y25ppt课件第二节第二节 等概率系统抽样估计量等概率系统抽样估计量n一、符号说明n二、估计量n三、估计量方差的不同表示
13、形式26ppt课件一、符号说明 第r行第j列的单元指标值:Yrj Yrj=Y(j-1)k+r ,r=1,2,k;j=1,2,n 总体单元数:N 样本单元数:n 系统样本平均数:系统样本均值估计量:njrjryny11syy27ppt课件 层均值:,j=1,2,n 总体方差:系统样本(群)内方差:jy2S2112)()1(1krnjrrjwsyyynkS2)()(YyEYyYyErjrurjwsy样本(群)内相关系数:层内方差:211.2)()1(1njkrjrjwstyyknS同一系统样本内对层均值离差的相关系数:2.)()(jrjurujrjwstyyEyyyyE28ppt课件二、估计量设起
14、始值为r,则相应系统样本的平均数为:总体均值 的估计量为:njrjnjrjrYnyny1111Ynjrjrsyynyy1129ppt课件性质性质1 当当 N=nk 时时,有有 k 个可能样本个可能样本:是无偏估计量是无偏估计量.当当 ,采用直线等距方法时采用直线等距方法时,是有偏的是有偏的.但但 N和和n均比较大时均比较大时,其偏倚不会很其偏倚不会很大大,可以忽略不计可以忽略不计.若采用循环等距抽样若采用循环等距抽样,是无偏的是无偏的.syyYynkykyEkrnjrjkrrsy11111)(nkN syysyy30ppt课件三、估计量方差的不同表示形式三、估计量方差的不同表示形式n如前所述,
15、如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。n若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法。31ppt课件krrsysyYykYyEyV122)(1)()(为方便起见,假定 N=nk,因此系统样本的平均数 是总体均值的无偏估计,它的方差按定义为:syy32ppt课件性质性质2 用样本用样本(群群)内方差内方差 表示系统抽表示系统抽样估计量的方差样估计量的方差:2wsyS22)1()1()(wsysySNnkSNNyV2112)(11krnjrjYyNS式中:为总
16、体方差。2112)()1(1krnjrrjwsyyynkS为系统样本(群)内方差33ppt课件Ysrsy221)(SnfSNnnNyVsrs如果从总体中直接抽取样本量为n的简单随机样本,则总体均值 的估计量 的方差为:)(1)()(22SSnnyVyVwsysysrs比较等距抽样方差和简单随机抽样方差:34ppt课件抽样法抽样效果相同系统抽样法与简单随机等于总体方差时,时,即等距样本内方差当抽样法;简单随机抽样优于系统总体方差时,即等距样本内方差小于当机抽样;系统抽样法优于简单随总体方差时,即等距样本内方差大于当222222,SSSSSSwsywsywsy可见:35ppt课件性质3系统抽样可看
17、做一种特殊的整群抽样,系统抽样估计量的方差可以用群内相关系数 表示:wsysynNNnSyV)1(1)1()(2)()()1)(1(2)()(122YyYySNnYyEYyYyErukrnujrjrjrurjwsywsy式中:可见:系统样本(群)内正相关正相关越大,也即系统样本内单元越相似,差别越小,则估计量的方差越大,这个结论与上面结论一致。36ppt课件性质4系统抽样可看做一种特殊的分层抽样,系统抽样的估计量的方差可以用层内方差 和同一等距样本内单元对层均值的相关系数 表示:wstSwstwstsynNnNnSyV)1(1)()(2wst式中:211.2)()1(1njkrjrjwstyy
18、knS为层内方差)(2NnNnSwst恰为比例分配分层随机抽样的方差kiijjyky1.1为第j层的平均值37ppt课件2.)()(jrjurujrjwstyyEyyyyE为同一系统样本内对层均值离差的相关系数.)()()1)(1(2.1.2urukrnujjrjwstyyyySknn38ppt课件比较系统抽样方差 和比例分配的分层随机抽样方差 ,)(syyV)(styVwststsywststnyVyVNnNnSyV)1(1)()()()(2于分层随机抽样。时,系统抽样的精度高当同;单位的分层随机抽样相各层随机抽取一个时,系统抽样的精度与于分层随机抽样;时,系统抽样的精度低当000wstws
19、twst可见:39ppt课件【例【例7.27.2】n设某个总体N=32个单元,总体单元排列显然有稳定上升的趋势.我们要产生一个样本量为4的等距样本,将总体单元排列如下表,k=8,n=4,每一列都是一个等距样本,共8个等距样本.40ppt课件n N=32,k=8,n=4等距样本数据层 等距样本编号层均值123456781113345673.7527881112 14 16 1611.5317 18202024 24 25 27 21.875427 28303134 34 36 3832.25总数52 55616574 77 83 88_显然,层内具有正相关,由性质4可知,系统抽样的精度低于分层随
20、机抽样。41ppt课件n层内方差与总方差分别为:5.11)()1(1211.2njkrjrjwstyyknS523.129)(111122krnjrjYyNS42ppt课件452.9)(1)()(122krrsysyYykYyEyV516.23243245.11)()(2NnNnSyVwstst333.2845232.12932432)(2SNnnNyVsrs因此:本例中,分层随机抽样和等距抽样比简单随机抽样更有效,而分层随机抽样比等距抽样更有效。实际上,将总体单元按大小顺序排列的目的就是为了增大系统样本内方差,从而必然提高精度。43ppt课件【例【例7.37.3】n利用例7.2的数据,但将第
21、二层和第四层的观测值次序颠倒,数据如下:层 等距样本编号层均值123456781113345673.75216 1614121188711.5317 18202024 24 25 27 21.875438 36343431 30 28 2732.25总数72 71716970 67 67 68_44ppt课件202.0)(1)()(122krrsysyYykYyEyV此时,等距抽样均值估计的方差为:516.23243245.11)()(2NnNnSyVwstst333.2845232.12932432)(2SNnnNyVsrs而分层随机抽样和简单随机抽样均值估计的方差不变:可见:本例中,改变数
22、据顺序后,等距抽样比简单随机抽样和分层随机抽样更有效。45ppt课件n上述例子说明:n相对于分层随机抽样和简单随机抽样来说,系统抽样的效率很大程度上取决于总体性质。n即使是相同的总体数据,对于不同的单元排列顺序,就有不同的样本(群)内方差和相关系数,从面系统抽样估计量的方差也不同。n因此,要有效地应用系统抽样,必须先了解总体的特征。46ppt课件第三节第三节 不同特征总体的系统抽样不同特征总体的系统抽样一一.随机次序排列的总体随机次序排列的总体总体单元按无关标志排列,如居民家计调总体单元按无关标志排列,如居民家计调查按居民姓氏次序排列的总体单位。查按居民姓氏次序排列的总体单位。47ppt课件n
23、对于一个有限总体对于一个有限总体,简单随机抽样的方差是确定简单随机抽样的方差是确定的的,系统抽样的方差则取决于单元的排列顺序系统抽样的方差则取决于单元的排列顺序.n对于特定的排列,系统抽样的方差可能比相应的对于特定的排列,系统抽样的方差可能比相应的简单随机抽样的方差大,也可能比它小。简单随机抽样的方差大,也可能比它小。N个总个总体单元总共有体单元总共有N!种不同的排列,从而有种不同的排列,从而有N!个个系统抽样的方差。系统抽样的方差。n但可以证明这但可以证明这N!个系统抽样方差的平均数恰好个系统抽样方差的平均数恰好等于简单随机抽样的方差。等于简单随机抽样的方差。n在这个意义下,我们说当总体单元
24、按随机顺序排在这个意义下,我们说当总体单元按随机顺序排列时,系统抽样的效果等价于简单随机抽样。列时,系统抽样的效果等价于简单随机抽样。48ppt课件n当总体单元按无关标志排列时,可以采用简单随机抽样的方差作为系统抽样的方差估计:221)()(SnfSNnnNyVyVsrssy49ppt课件n二.线性趋势的总体n(一)线性趋势的总体n当总体按指标值从小到大顺序列时,由于样本(群)内方差增加而使系统抽样的精度有显著的提高。n在实际问题中,当然不可能按指标值的大小 排列,但是常可以找到某个与指标值相关的奕量,若单元按这个变量大小排列,则可收到同样的效果。50ppt课件n假定单元指标Yi值是单元序号
25、i的线性函数,即Yi=a+bi(i=1,2,N)iiYbaYi)()和(、stsrssyyVyVyV)()12)(1(61)1(21112211NNNiYNNiYNiNiiNiNii现比较当Y i=i时,有51ppt课件总体均值总体均值总体方差总体方差)1(21NY)1(121)(11)(11122122NNYNYNYYNSNiiNii52ppt课件)1)(1(1212NkSnNnNyVsrs)()1(121)1(121)(22knkkNnnNSNnnNyVwst)1(121)(1)(221kYykyVkrrsy)()(srssystyVyVyV)(53ppt课件二.对线性趋势总体的系统抽样法
26、的改进n针对实践中经常出现的线性趋势总体,有必要对系统抽样进行改进,从而提高系统抽样的精度,使系统抽样法有可能达到比分层随机抽样更高的效果。n改进的方法有两类:n一是抽样方法的改进,如中心位置抽样法,对称系统抽样法;n二是估计方法的改进,如首尾校正法.n 54ppt课件n1.抽样方法的改进n(1)中心位置抽样法(中位样本法)n 由麦多Madow(1953)提出,即初始样本不是随机抽选,而是直接取第一段的 k个单元中处于中间位置的单元.如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。n【例】从【例】从200200名学生中抽名学生中抽1010名学生作为样名学生作为样
27、本本,k=N/n=200/10=20,k=N/n=200/10=20,若起始样本是若起始样本是10,10,则其则其余的依次为余的依次为30,50,70.90,110,130,150,170,190.30,50,70.90,110,130,150,170,190.55ppt课件n评价:n优点:中心位置抽样法抽到的样本单元都位于层的中心位置,从而最大限度地减了方差。n缺点:当总体单元顺序和k确定以后,样本也随之确定,无随机可言,这与概率抽样的要求相悖。n因此,对一个项目偶尔为之尚可,但若要多次抽样估计就不能用这种方法。56ppt课件n(2)对称(平衡)系统抽样n 既希望克服中位数方法的缺乏随机性,
28、又希望避免有些系统样本估计量过大的偏倚,并希望保留传统抽样的特点,这三种要求很容易启发我们采用一种“对称系统抽样法”.n对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。n由于具体的方法不同,对称等距抽样又有几种类型。57ppt课件A.A.塞蒂塞蒂SethiSethi对称系统抽样对称系统抽样(1965):(1965):-层内对称系统抽样层内对称系统抽样n 设N=nK,n为偶数。n 首先:将总体按顺序划分为n/2组(以每一组为层),每组由2k个单元组成。n其次:在第一组中以随机方法确定两个初始单元,方法是在1
29、k范围内产生一个随机数r,则单元r与单元2k-r+1即为起始单元。这两个单元在层中的位置是对称的。n 最后,在其余各层中与上述两个起始单元相同位置的单元都是样本单元,例如,在第二个抽样间隔所抽两个样本单元号码为r+2K及2(2k)-r+1,依次类推。n 也就是说n/2对对称的样本单元的编号为:12,2,1,0 1)1(2,2njrkjjkr58ppt课件n【例】上例中【例】上例中,N=200,n=10N=200,n=10为偶数:若起为偶数:若起始样本是始样本是3,3,则抽取的样本为则抽取的样本为n3 3,38,43,78,83,118,123,158,163,198.38,43,78,83,1
30、18,123,158,163,198.59ppt课件n当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第r+(n-1)K个单元。n=200,n=5,k=40,则抽取的样本为:3,78,83,123,163.【例】【例】60ppt课件n实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。n所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。61ppt课件nB.辛方(Singn)对称系统抽样(1968)
31、:n -总体对称系统抽样n仍设N=nK。当n为偶数时n首先,在1k范围内产生随机数r作为起始单元,同时,另一起始单元为距另一端点距离为r的单元,即编号为N-r+1的单元。这两个单元相对总体是对称的。n然后,与第二个抽样间隔中r+K对称的是倒数第二个抽样间隔的(N-K)-r+1;如此,一直抽到中间两个抽样间隔为止。n因此,全部n/2对样本单元的编号为:12,2,1,0 1)(,njrjkNjkr62ppt课件 从300名学生中抽取15位作为样本,即N=300,n=15,k=300/15=20,设起始单元数为,则样本单元位数依次是3,298,23,278,43,258,83,218,103,198
32、,123,178,143.【例】【例】63ppt课件n当n为奇数时,式中的j由0变到(n-1)/2-1为止。然后,再加上中间一个抽样间隔中的第r+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)64ppt课件2.首尾校正法首尾校正法(两端修正法)抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,通过对首尾两个单元赋予不同于其他单元的权数,从而降低对线性趋势总体的系统抽样的估计偏倚()耶茨Yates首尾校正法首尾校正法 条件:条件:nk 方法:方法:对首尾两个样本单元赋予不同于其他单元的权数,采用加权平均计算样本均值,从而提高精度65ppt
33、课件n设起始样本单元的编号为r,则n首样本单元的权数为:n尾样本单元的权数为:n其他n-2个样本单元的权数为:knkrnw)1(21211knkrnwn)1(21211,.,2,1,1njnwj66ppt课件首尾校正法修正后的总体均值估计量:首尾校正法修正后的总体均值估计量:当当i 是是i 的线性函数时,首尾校正法的的线性函数时,首尾校正法的均值估计量是完全无偏的,完全不受初均值估计量是完全无偏的,完全不受初始值的影响始值的影响njrjjrywy167ppt课件knbnxnkrbaknrbanxbranxjkrbanywynjnjrjjr)1()21()1()()(1101权数公式的推导如下:
34、令第一样本观测值的权为:)1(1xn最末一个样本观测值的权为:)1(1xn则:为使:)1(21NbaYyr则可解得:knkrnx)1(2)12(68ppt课件n例:若总体单元指标值按其顺序为1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,抽取一个n=3的系统样本,用耶茨首尾校正法估计总体均值 .解:N=15,n=3,k=5。不妨假设随机抽取的起始值r=1,则样本观测值为1,11,21。若不加校正,总体均值的估计为:11)21111(311 yysy此估计值比实际总体均值 小很多。若采用耶茨的首尾校正法,的估计值为:Y15YY156.33114.031522)15
35、2(31 2111522)152(31 131Yy从而校正后的估计值完全与估计目标量的真值相等。69ppt课件(2)贝尔豪斯Bellhouse和拉奥Rao(1975)首尾校正法首尾校正法条件:采用循环等距抽样法抽样保证n为常数然后按照总体单元原有的顺序确定首尾单元总体单元原有的顺序确定首尾单元,对其赋予不同于其他单元的权数nkN 70ppt课件首样本单元的权数为:knNknrnw)1(2)1()1(211尾样本单元的权数为:其他n-2个样本单元的权数为:knNknrnwn)1(2)1()1(211,.,2,1,1njnwjn如果初始单元编号r 较小,满足则所有n个样本单元都不经过单元,相应的权
36、数如下:,)1(Nknr71ppt课件如果初始单元编号r 较大,满足 则有样本单元越过单元,假设越过单元的样本单元有个,相应的权数如下:,)1(Nknr2n)(22)1()1(2121kNnNnNknrnw首样本单元的权数为:尾样本单元的权数为:)(22)1()1(212kNnNnNknrnwn其他n-2个样本单元的权数为:1,.,2,1,1njnwj72ppt课件【例【例7.4】总体有】总体有23个单位,拟抽取个单位,拟抽取n=5,则则与之最近的整数与之最近的整数k=5然后在总体中随机抽然后在总体中随机抽取一个单位作为起点,假设抽中取一个单位作为起点,假设抽中r=19,样样本单元的顺序编号分
37、别为:本单元的顺序编号分别为:19,1,6,11,16 首样本单元为首样本单元为y1,尾单元为尾单元为y19.求相应单元的权数求相应单元的权数73ppt课件首样本单元y1的权数为:1222.0)(22)1()1(2121kNnNnNknrnw尾样本单元的权数为:2778.0)(22)1()1(212kNnNnNknrnwn其他3个样本单元的权数为:0.2解:解:n2=,=23,n=5,k=5,r=1974ppt课件三周期波动的总体三周期波动的总体周期波动是指总体单元指标值按其顺序呈周期性变周期波动是指总体单元指标值按其顺序呈周期性变化化75ppt课件n一般对含有周期影响的总体,如果已经掌握了其
38、周期结构,合理选择系统抽样间距k,使样本包含周期中许多有代表性的指标值,可以大缩小估计量的方差,采用系统抽样的效果很好,n但对总体的周期结构不了解,则简单随机抽样与分层随机抽样的效果可能会更好76ppt课件第四节系统抽样的方差估计第四节系统抽样的方差估计n一.等概系统抽样的方差估计(一)系统样本来自随机排列总体nisyiyynnNnNsnfv1221)(11177ppt课件(二)系统样本分层随机抽取 如果把系统样本看成从各层抽取两个单位的分层随机抽样,可采用下列方法:n1.从第二个样本单元开始,每个样本单元与前一个样本单元组成一对,共n-1对,第 i对样本单元的方差估计为 ,因此对n-1个 进
39、行平均,再乘以 ,得 的估计:21)(21iiyy21)(21iiyynf1)(syyV211111212)()1(2)()1(211niiiniiiyyNnnnNyynnfv78ppt课件2.设n为偶数,将样本单元按顺序两两分成一组,共n/2组,第i对样本单元的方差估计为 ,将这n/2个方差估计值进行平均,再乘以 ,从而得到2122)(21iiyynf121212222121223)()(2121niiiniiiyyNnnNyynnfv79ppt课件(三三)系统样本来自线性趋势总体系统样本来自线性趋势总体iiebiaY),.2,1(Ni 0)(,)(,0)(22jiiieeEeEeE进行Ya
40、tes首尾校正后:)1()1(212knyyknkryYrr80ppt课件n其抽样方差无偏估计为:当n 较大时,可忽略.但当线性模型存在异方差时,不再是无偏估计.212212224)2(6)2()1(2)12(11niiiinyyyknkrnnkkv)(Yv81ppt课件(四)样本量为n的系统样本分成m 个子样本独立抽样(交叉子样本法,随机组法)n将样本量为n的系统样本分成m个子样本独立抽取,每个仍用系统(等距)抽样,样本量为 ,抽样间距为 ,每个子样本的起始值独立抽取。n记第a个子样本的均值为 ,则总体均值的估计为:mnn,mkk maaymY11ay)(YV的一个无偏估计量为:maaYym
41、mv125)()1(182ppt课件(五)各种估计量的比较及适用场合n上面介绍的系统抽样的几种方差估计量各不相同,对不同总体类型有不同的表现。n当总体单元排列是随机时,按简单随机抽样的方差估计v1 最为适用,且计算也最为简单。n基于相邻样本观测值的差分导出的v2与v3适用范围很广,随机排列、线性趋势及周期变化的总体都能使用,效果也不错,因此,若不清楚总体单元排列的规律,是首先的两个方差估计量。当样本量比较少时,尤以v2更为适用。n对于线性趋势总体,v2与v3 给出的方差估计更为接近实际,而v1则常常高估了方差。n基于交叉子样本的方差估计v5,虽然也适用于各种类型总体,但实际操作并不方便,且当m
42、不大时,效果也不是很好。83ppt课件二、不等概率系统抽样n(一)PS系统抽样n系统抽样中每个单元入样概率也可以是不等的。对于按一定顺序排列的N个总体单元,一般的不等概系统抽样定义如下:n令 是一组入样概率,且 n不等概系统抽样的一般方法是:先在0,1区间内随机抽取一随机数r,则满足以下条件中的第i0,i1,i2 in-1个单元即为抽中的样本单元:),.,2,1(Nii.1nNii1.,2,1,0,111nkkrkrkkijjijj当 时,抽样是严格不放回的。1i84ppt课件n(二)估计量及其方差与其他不放回的不等概率抽样一样,不等概率系统抽样对总体总和Y的估计采用霍维茨汤普森估计量:nii
43、iHTyY1对于PS系统抽样,又有:niiiHTzynY11是无偏的,其方差可表达为(此时n是固定的):2111121)(21)(NiNjjjiiijjijiNiNjjijiijiNiiiHTYYYYYYVHTY85ppt课件n(二)不等概系统抽样的方差估计对于一般的n,ij 的计算极为复杂,且有可能为0,其方差估计式并不适合于系统样本,因而必须采用别的方式。第一种考虑:将不放回的PS系统样本作为放回的PPS样本处理可得到如下方差估计形式:niHTiiniHTiiYnynnYzynnv12216)()1(1)()1(186ppt课件第二种考虑:因为实际抽样是不放回的,因此应考虑乘以有限总体修正
44、系数1-f,由于这里的单元实际上是不平等的,因此f 不是简单的等于n/N,可以使用 f 的如下估计:niinf1121167)()1(1)1(niHTiiniiYnynnnvfv方差:对于随机排列的总体,v7的效果很好。87ppt课件2121212222921118)(1)()1(21niiiiiniiiiinynynfvnynynnfv第三种考虑:用相邻样本单元差值的平方和 表示方差此处用 代替等概率情形的yi,得到:iiny对于线性趋势的总体,这两个方差估计量特别适用。v8 相对更适用样本量较小的情况.88ppt课件4.将样本量为 n的系统样本随机分成 m 个子样本,每个子样本样本量为 ,记第a个子样本对总和的HT估计为:mnn mnilalanymnY1maHTaYYmmv1210)()1(1方差:与等概系统抽样相似,v10的效果不太理想,一般不推荐使用.89ppt课件 Thank you very much!90ppt课件
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。