1、本章要点抽样误差、常用的非概率抽样方法、抽样设计、抽样框、常用的概率抽样方法、对于多阶段抽样和整群抽样中样本规模、随机变动问题的处理方法、样本规模与样本的代表性第二章 抽样设计第一节 抽样概述第二节 总体与抽样框第三节 概率抽样第四节 抽样误差与样本规模第一节 抽样概述抽样的概念 非概率抽样方法一一二二第一节 抽样概述三三概率抽样设计要点(一)抽样的概念抽样是指根据某种既定规则从一个总体(population)中选取一组元素(element)的过程,由此产生的元素集合称为样本。(sample)也就是说,在抽样的专业化表述中,每一个具体的研究对象被称为元素,全体研究对象被称为总体,样本则代表一部
2、分研究对象,它可以是个人、家庭、学校、医院、地块、交易事件,也可以是文章、杂志,甚至是歌曲。一一(一)抽样的概念一一抽样方法非概率抽样(non probability sampling):主要是依据研究者的主观意愿、判断或是否方便等因素来选取对象概率抽样(probability sampling):主要是按照随机原则来选取对象,完全不带研究者的主观因素。(二)非概率抽样方法二二在现实中有时无法界定总体,因此无法进行概率抽样。在这种情况下,经常会采用非概率抽样,即放弃随机原则,依据研究者的主观意愿、判断或是否方便等因素来抽取样本。非概率抽样的成本较低,操作较方便,但无法预先估计抽样误差,因此很难
3、对总体情况做出可靠的推断。非概率抽样方法4雪球抽样雪球抽样二二1方便抽样方便抽样2配额抽样配额抽样3判断抽样判断抽样二二方便抽样方便抽样(convenience sampling)又称偶遇抽样,是指研究者使用对自己最为便利的方法来选取样本。这种方法很容易产生系统误差,样本代表性很差。因此,在使用时要特别小心,总体的情况越复杂,方便抽样的效果就越差。二二配额抽样配额抽样(quota sampling)首先要根据某些参数值,确定不同总体类别中的样本配额比例,然后按比例在各类别中进行方便抽样。案例:研究者想要用配额抽样方法,抽取一个40人规模的样本。他首先决定用性别和年龄作为决定样本配额的参数值,通
4、过查阅相关资料,了解到总体中男女各占50,30岁以下、3060岁之间和60岁以上的比例分别为25、50和25。实际操作中,可以依据参数值,建立相应样本配额矩阵或表格,然后按矩阵中的配额进行方便抽样。(如表2-1所示)二二配额抽样二二配额抽样首先,为了不偏离总体,配额矩阵中的数字必须十分准确,要做到这一点,就必须掌握总体的最新资料,但这并不容易做到。(例:盖洛普采用配额抽样在1948年,未能正确地预测出杜鲁门会当选总统)其次,尽管配额方法是一种改进,但最后抽样仍由访问员根据方便原则执行,他们从某些特定的矩阵格子中选择样本时,有很大的随意性。二二判断抽样判断抽样(purposives sampli
5、ng)又称立意抽样,是指研究者根据研究目的或专家判断来选取样本。在这种抽样中,样本是否能满足研究目的的要求,是否能正确反映总体情况,很大程度上依赖于研究者的主观判断,因此,对研究者个人的研究素质有较高的要求。二二判断抽样三种场景研究者用判断抽样来选研究者用判断抽样来选取某种特殊个案类型,取某种特殊个案类型,以便进行深入探究以便进行深入探究研究者用判断抽样研究者用判断抽样来选取难以接近的来选取难以接近的特殊人群特殊人群研究者用判断抽样来研究者用判断抽样来选择特别能提供信息选择特别能提供信息的独特个案的独特个案判断抽样二二雪球抽样雪球抽样(snowball sampling)也称网络抽样,是一种根
6、据已有研究对象的介绍,不断辨识和找出其他研究对象的累积抽样方法。雪球抽样特别适合用来对成员难以找到的总体进行抽样。(如城市中的散工、无家可归的流浪者和吸毒者)也可以用雪球抽样对具有一定网络联系的总体进行抽样。雪球抽样理想的结果是“雪球”滚到了大于所需样本规模的人群,这时可在某个时点中止“雪球”的滚动。(三)概率抽样设计要点三三抽样的目的是用较少的费用得到较高的估计精度。而抽样设计则是根据这一目的要求,预先制定出抽样工作具体的内容和步骤。编制抽样框选择抽样方法估计抽样误差确定样本规模(三)概率抽样设计要点三三编制抽样框:研究者进行概率抽样,必须先找到一份近似涵盖所有总体元素的清单,然后从中抽取部
7、分元素,这份元素清单被称为抽样框(sampling frame)选择抽样方法估计抽样误差:由参数值(parameter)描述的总体情况或特征是未知的,而抽样调查的一个主要目的就是通过由抽样获得的统计值(statistic)来估计未知的总体参数值。统计值与参数值之间的差异被称为抽样误差(samplingerror)确定样本规模:由于样本规模的大小直接影响到抽样变异性,因此抽样设计需要事先估计有效样本规模。抽样方法不同,所需的有效样本规模也不同。第二节 总体与抽样框定义总体 编制抽样框一一二二第二节 总体与抽样框只有对总体构成及边界有一个清晰的认识,才能最大限度地使抽样框与总体保持一致。具体说来,
8、总体还可以进一步划分为目标总体和抽样总体明确分析单位,即要搞清楚调查研究所关注的是个人、家庭住户、集体住户,还是其他类型的居住单位。通常“个人”一词是无须定义的,但家庭户和集体户是需要给出定义的。定义总体边界,首先要对总体涉及的地理或行政边界加以说明。其次,还需要对被调查对象进行必要的说明,包括合格的被调查对象的年龄、居住类型等一一例如,有关家庭去年总收入或耐用消费品的调查,最好以家庭户为单位。与农民工有关的调查,就不能将集体户排除在外。而针对食品安全的态度调查,则以个人为单位比较合适,因为即使在同一家庭中,不同的成员也会因为年龄和性别的不同而产生态度差异(一)定义总体名单抽样框:把抽样总体中
9、所有能找到的调查对象名单排列起来,构成名单抽样框。区域抽样框:由区域或面积构成其中,抽样框中的总体元素又被称为抽样单位,有时抽样单位与分析单位是相同的。但在较大范围的多阶段抽样中,可能有多个层次的抽样单位。二二这时有两种抽样方法:一是抽出区域后对其中的所有单位进行调查,即整群抽样;二是抽出区域后对区域内的单位再抽样,即多阶段抽样;(二)(二)编制抽样框第三节 概率抽样简单随机抽样一一第三节 概率抽样 系统抽样二二三三分层抽样四四整群抽样五五不等概论抽样五五六六多阶段抽样(一)简单随机抽样一一简单随机抽(simple random sampling)也称纯随机抽样,是严格按照随机化原则从含有N个
10、单位的总体中抽取n个单位组成样本(Nn),在抽样过程中,总体的每个单位都有同等的机会入选样本,而且每个单位的抽取都是相互独立的。抽签法抽签法当总体数目不大时,采用抽签法。随机数法随机数法当总体单位很多时,采用随机数法。具体操作可以利用随机数表、随机数骰子、计算机产生的伪随机数等进行抽样。(参见本书附录)(二)系统抽样二二实际抽样中经常采用的是系统抽样(systematic sampling),又称机械抽样,即将N个总体单位按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则抽取其他n个样本单位。(二)系统抽样二二在系统抽样中,等间距抽取是最常用的规则,故系统抽样经常被称为等距
11、抽样。由于抽样使用的是抽样间距(sampling interval),而不是随机数,故等距抽样是一种准随机(quasi random)抽样方法。整数抽样间距非整数抽样间距总体单位的排列循环等距抽样调整直线等距抽样思考:当单位的排列存在周期性的变化时。代表性如何?(三)分层抽样三三分层抽样(stratified sampling)也称类型抽样,是先将总体N个单位,按某种特征划分成若干个子总体,称为层,然后在每个层中分别独立地进行抽样,最后,将抽出的子样本合起来构成总体的样本。分层抽样遵循的逻辑并不复杂:如果单位之间差异很大,那就对它们进行分组,使得各组内的差异变小,这样在各组内进行抽样就会提高精
12、度,增加样本的代表性。对总体进行分层需要考虑以下几个问题三三样本规模在各层的分配:最常见的样本规模分配方式是按比例分配,即各层的子样本单位在总样本中所占的比例,与各层单位在总体中所占的比例完全相同,按比例分配是自加权的,这时样本结构与总体结构完全一样层的划分 使用什么样的分层变量?划分多少层?分层抽取样本的方法(四)整群抽样四四整群抽样(cluster sampling)是先将总体划分成若干个群(视为初级单位),每个群包含若干个次级单位,然后以一定方式从总体中抽取一部分群,并由中选群中的所有次级单位构成总体的样本。(四)整群抽样四四1.群的性质群的性质 划分原则:异质的群,同质的层划分原则:异
13、质的群,同质的层2.规模不等的群规模不等的群为了保证样本单位满足等概率原则,可以采取相应措施来控制样本规模的变动。一方面可以按群的大小进行分层,然后对各个层使用相同的抽样比;另一方面,可以重新组合大小不等的自然群,形成一些新的规模相差不大的人工群,进而使得样本规模约等于常数。五五代码法代码法拉希里法拉希里法不等概率抽样(sampling with unequal probabilities)是指在抽样过程中,总体每个抽样单位有一个被抽中的概率值,这些概率值可能不相等,即不同的总体抽样单位入样的可能性可以是大小不等的。不等概率抽样分为放回和不放回两种类型,这里只讨论放回类型中,样本规模固定,且每
14、个抽样单位被抽中的概率与单位的大小或规模成比例的不等概率抽样,简称PPS抽样。不等概率抽样的实施有两种方法。(五)不等概率抽样当总体抽样单位的规模很大时,使用代码法抽样会很麻烦,这时可以使用拉希里法。五五代码法案例:设总体为某高校,抽样单位由N个院系组成,每个院系编号、规模Mi(i,N)及代码数请参见表-中的数字,现利用代码法抽取n个院系的样本。具体抽样时,先赋予每个院系或抽样单位与Mi相等的代码值,再将单位Mi值累加,并根据累加值对应每个Mi设定一个代码区间。接下来即可以采用随机数表法(也可使用等距抽样方法)抽取三个院系。在代码区间1,2184中产生的第一个随机数为628,第二、三个随机数分
15、别为1305和1874,它们所对应的4、7和10号院系被抽中。如果使用等距抽样方法,则先要算出抽样间距kNn21843728,然后在1728之间抽取一个随机数100,则代码r100,rk828,rk1556 所对应的院系入样,其序号分别为2、5、8。相比之下,等距抽样的操作比较简便。另外,将群按某种与调查变量有关的变量排序后,使用等距抽样可取得隐含分层效果,故PPS抽样中一般采用等距抽样五五(六)多阶段抽样六六使用背景:首先,在很多情况下,无法获得抽样所需要的总体元素名单(抽样框)。其次,样本分布过于分散,实地调查的成本极其昂贵。分层多阶段等概率抽样多阶段PPS抽样规模测量值分层多阶段等概率抽
16、样六六在分层多阶段等概率抽样中,需要先将总体中规模不在分层多阶段等概率抽样中,需要先将总体中规模不等的群按规模(或重要性)分层,然后在不同阶段对等的群按规模(或重要性)分层,然后在不同阶段对不同的层使用不同的抽样比。不同的层使用不同的抽样比。多阶段PPS抽样多阶段PPS抽样的关键是在第一阶段抽取PSU 时,要先放弃等概率抽样条件,采用PPS抽样方法,即赋予规模不等的群与其规模(或辅助变量)成比例的入样概率。这样一来,规模大的群以大概率入样,规模小的群以小概率入样。由于抽取PSU的过程是不等概率抽样,因此如果要保证总抽样比不变,就需要以一个固定的样本规模从抽中D的PSU 内抽取样本单位。因为如果
17、抽取的单位规模对每个PSU 都一样,那单位入样的概率就会与群的规模成反比。这样大概率抽取群,小概率抽取样本单位,一大一小相互抵消,就保证了总体单位抽取的等概率性。与此同时,由于不论PSU 大小,都抽取固定规模的样本单位,因此也控制了样本规模的变动。六六第四节 抽样误差与样本规模简单随机抽样的抽样误差一一第四节 概率抽样 简单随机抽样的样本规模二二五五(一)简单随机抽样的抽样误差一一放回简单随机抽样:根据中心极限定理,在放回抽样条件下,如果样本规模为狀,总体标准差为,则样本平均值犕的抽样分布的标准差,即标准误差SE(standard error)。不放回简单随机抽样:不放回抽样主要用于总体较小时
18、,如果N较大(n/N0.05),则校正因子可以忽略。另外,由于(n/N),所以放回抽样的抽样误差总是大于不放回抽样的。标准误差的意义:在社会调查中进行统计推论经常会用到以下数值。如下表(二)简单随机抽样的样本规模二二影响样本规模的因素:在一定精确度要求下,总体越大,则样本也要越大。笼统地讲,这个推论并没错,但问题是一个占总体比例的样本,是否抽样精度一定会比占的样本高出倍,即增大样本带来的绩效如何。一般说来,总体较小,增大抽样比率,对抽样精度会有较大的改善。但有研究表明,对于较大的总体,在给定精度的条件下,总体规模与样本规模之间,是一种图-所显示的非线性关系,样本增大速度远远低于总体增大速度。换
19、句话说,当总体规模达到一定程度时,如果总体规模继续增加,样本占总体比例与抽样精度之间,并不是一种正向的线性关系,样本增大并不会带来精度的线性增长。样本规模的估算影响样本规模的因素二二复习思考题1.为什么要进行抽样?2.为什么说“街头拦人”不是随机抽样?3.判断抽样比较适用于哪些场合?4.目标总体与抽样总体之间有哪些差异?5.简单随机抽样中,有哪几种方法可以产生随机数?彼此之间有何差异?6.为什么说等距抽样是一种准随机抽样方法?7.为什么系统抽样的代表性与总体单位的排列顺序有关?8.为什么在分层抽样中,对各层的样本规模要进行非比例分配?9.在分层抽样中,层的数目要受到哪些因素的限制?10.群的划
20、分原则与分层原则有什么不同之处?11.抽样是如何保证大小不等的群中的元素以相等概率入样的?12.总体规模与样本规模之间是一种什么关系?推荐阅读书目1.柯惠新,黄京华,沈浩.调查研究中的统计分析法.北京:北京广播学院出版社,19922.李沛良.社会研究的统计应用.北京:社会科学文献出版社,20013.美扎加(Ronald Czaja),布莱尔(Johnny Blair).抽样调查设计导论.重庆:重庆大学出版社,2007参考文献.风笑天.现代社会调查方法.武汉:华中科技大学出版社,.美福勒(FloydJ.Fowler,Jr.).调查研究方法.重庆:重庆大学出版社,2004.郭志刚,郝虹生,杜亚军,曲海波.社会调查研究的量化方法.北京:中国人民大学出版社,1989.美亨利(G.T.Henry).实用抽样方法.重庆:重庆大学出版社,2008.美基什(L.Kish).抽样调查.北京:中国统计出版社,1997.金勇进,蒋妍等.抽样技术.北京:中国人民大学出版社,2002.柯惠新,黄京华,沈浩.调查研究中的统计分析法.北京:北京广播学院出版社,1992