1、第十一章第十一章 抽样方法抽样方法抽样概述抽样概述常用的抽样方法常用的抽样方法 概率抽样概率抽样 非概率抽样非概率抽样 1234第一节第一节 抽样概述抽样概述 一、抽样的重要性一、抽样的重要性n由于研究对象的总体太大或受研究经费、人力和时间的限制,全面调查常常难以做到。n为了以较低的成本获得较准确的研究结果,全面调查很多情况下也是不必要的。n抽样就是从研究总体中选取一部分代表性样本的方法。二、调查研究分类二、调查研究分类n按调查设计的对象分:按调查设计的对象分:n普查n抽样调查 n典型调查 n按调查涉及的时间分:按调查涉及的时间分:n按调查时间的顺序为:n回顾性调查 n现况调查 n前瞻性调查
2、n从抽取样本的方式分:从抽取样本的方式分:n概率抽样调查n非概率抽样调查三、抽样的基本术语三、抽样的基本术语1总体(总体(population)n总体是指所研究对象的全体。组成总体的每个单位称为个体。n总体有研究总体和调查总体之分。n总体还可分为有限总体和无限总体。2样本(样本(sample)n样本与总体相对应,样本是从总体中抽取的一部分元素的集合,是总体中某些单位的子集。三、抽样的基本术语三、抽样的基本术语3.抽样(抽样(sampling)抽样是指从总体抽取部分个体的过程。根据抽样原则的不同,有不同的抽样方法。4.抽样单位(抽样单位(sampling unit)抽样单位是指被抽取样本中的一个
3、或是一组元素,是收集信息的基本单位。总体中的每个个体只属于一个单位。抽样单位和构成总体的元素有时相同,有时不同。三、抽样的基本术语三、抽样的基本术语5样本含量(样本含量(sample size)n样本含量是指调查抽取的样本所包含观察单位的数目。6.抽样框(抽样框(sampling frame)n抽样框又称做抽样范围,它指的是抽样过程中所包含的所有抽样单位的名单。三、抽样的基本术语三、抽样的基本术语7.参数值(参数值(parameter)n关于总体中某一变量的描述指标。8.统计量值(统计量值(statistic)n关于样本中某一变量的描述指标。9.抽样误差(抽样误差(sampling error
4、)n抽样误差是指样本统计值与被推断的总体参数值之差。三、抽样的基本术语三、抽样的基本术语10置信水平(置信水平(confidence level)n也称置信度,是指总体参数值落在样本统计值某一区间内的概率。置信水平反映的是样本统计量的精确度。在样本量相同的情况下,置信水平越高,置信区间越宽。11.置信区间(置信区间(confidence interval,CI)n是指在一定范围的置信水平下,样本统计值与总体参数值之间的误差范围。四、抽样的过程四、抽样的过程 1.界定总体界定总体 要明确总体的范围、内容和时间。调查研究内容的不同,对总体的限定也会有所不同。2.制定抽样框制定抽样框 根据界定的总体
5、范围,收集总体中全部抽样单位的名单,列出名册或排序编号,以确定总体的抽样范围和结构。3.选择抽样方法,确定抽样的精确性程度与样本选择抽样方法,确定抽样的精确性程度与样本规模规模四、抽样的过程四、抽样的过程4.样本量的估算样本量的估算(1)样本量估算的意义 样本含量过大或过小都有其弊端,确定合适的样本规模是抽样设计中的一项重要内容。(2)样本量估算的依据n总体中个体的变异程度n精度n置信程度(3)样本量的估计方法 常用的有经验法、查表法和计算法。四、抽样的过程四、抽样的过程5.实际抽取样本实际抽取样本 在前述步骤的基础上,严格按照所选定的抽样方法和确定的样本量大小,从抽样框中抽取相应的抽样单位,
6、构成调查样本。6.评估样本质量评估样本质量 主要对样本的代表性和偏差等进行评估,评估的主要标准是样本的准确性和精确性。第二节第二节 常用的抽样方法常用的抽样方法一、抽样方法的分类一、抽样方法的分类1.概率抽样(概率抽样(probability sampling)概率抽样又称随机抽样,是按照概率论和数理统计的原理从调查研究的总体中,根据随机原则进行抽样,排除人的主观因素,组成总体的每个单位都有被抽中的概率(非零概率)。n等概率抽样n单纯随机抽样n系统抽样n分层抽样n整群抽样n多阶段抽样n按规模成比例抽样n不等概率抽样 一、抽样方法的分类一、抽样方法的分类2.非概率抽样(非概率抽样(Non-pro
7、bability sampling)非概率抽样又称非随机抽样,主要是依据研究者的主观意愿、判断或是否方便等进行的抽样(非随机的),使得组成总体的很大部分单位没有被抽中的机会(零概率),因此调查很容易出现倾向性偏差。n偶遇抽样n立意抽样 n配额抽样n滚雪球抽样n同伴推动抽样法概率抽样和非概率抽样方法的比较概率抽样和非概率抽样方法的比较概率抽样概率抽样非概率抽样非概率抽样抽样原则抽样原则根据随机原则进行抽样,组成总体的每个单位都有被抽中的概率,客观性强非随机抽出样本,主观性强作用作用以部分推断总体研究总体的局部现象误差的估计误差的估计能计算和判断抽样误差不能计算和判断抽样误差优点优点科学规范,抽取
8、的样本具有一定的代表性,可以从调查结果推断总体省钱、省事、灵活方便;可以根据某些样本特征对样本进行控制,适用于小群体缺点缺点费时、费钱、不够灵活方便;操作比较复杂不够科学规范,有选择偏差,不能保证样本的代表性,不能推断总体二、概率抽样二、概率抽样单纯随机抽样单纯随机抽样1.抽样方法:抽样方法:具体做法是将调查总体的全部观察单位编号,按照抽签法或随机数法随机抽取部分观察单位组成样本。(1)抽签法抽签法 把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。(2)随机数法)随机数法 利用随机数字表、随机数骰子或计算
9、机产生的随机数进行抽样。二、概率抽样二、概率抽样单纯随机抽样单纯随机抽样n优点:优点:操作简单,是最简单的抽样技术,均数(或率)及标准误的计算简便,有标准的统计公式。n缺点:缺点:总体较大时,难于对总体中的个体一一编号。二、概率抽样二、概率抽样单纯随机抽样单纯随机抽样2.单纯随机抽样的样本量的估算方法:单纯随机抽样的样本量的估算方法:(1)连续型变量总体均数估计的样本量 其中:为相对误差,为变异系数,即总体标准差与总体均数之比22/VZn二、概率抽样二、概率抽样单纯随机抽样单纯随机抽样(2)01变量总体概率估计的样本量 采用以下公式进行样本量的计算:其中:为相对误差,为概率P的变异系数:PPZ
10、n222/)1(VPppV)1(二、概率抽样二、概率抽样系统抽样系统抽样 又称机械抽样或等距抽样,先将总体的全部观察单位按与研究现象无关的特征顺序排列,并编号,根据需要的样本含量大小,按照事先规定的某种规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本含量的要求计算出抽选间隔,然后随机确定起点,每隔相同的间隔机械地依次抽取一个个观察单位组成样本。二、概率抽样二、概率抽样系统抽样系统抽样1.抽样方法:抽样方法:(1)先将总体从1N相继编号,并按以下公式计算抽样距离:抽样距离k=N/n(2)确定抽样起点。(3)将抽样起点作为样本的第一个单位,接着取ik、i2k,直至抽够n个单位为止。二、
11、概率抽样二、概率抽样系统抽样系统抽样 例如:例如:在1000户居民中随机抽取200户作样本,抽样距离为50,随机确定起点为门牌号10,即按10、60、110、160、的门牌号抽取所需观察单位组成样本。二、概率抽样二、概率抽样系统抽样系统抽样 优点:优点:易于理解,简便易行;抽出的单位在总体中是均匀分布的,且抽取的样本数可少于单纯随机抽样。缺点:缺点:是当总体的观察单位按顺序有周期趋势或单调增(或减)趋势时,容易出现周期性偏差,降低样本的代表性。此外,未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率偏低。二、概率抽样二、概率抽样分层抽样分层抽样 先将总体全部观察单位按某种特征分为同质的、
12、互不交叉的层(或类型),再从每层(或类型)中独立抽取一定数量的观察单位,将各层次取出的观察单位合在一起组成样本。分层的标准有三种:分层的标准有三种:1.以以调查所要分析和研究的主要变量或与其高度相关的变量作为分层的标准;2.以增加层内的同质性和层间的异质性、突出总体内在结构的变量为分层变量;3.以那些有明显分层区分的变量作为分层变量。二、概率抽样二、概率抽样分层抽样分层抽样各层样本数的确定方法:各层样本数的确定方法:1.分层定比分层定比 即按比例分层抽样,根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。各层的样本数与该层总体数的比值相等。2.奈曼法奈曼法 即各层应抽取的样
13、本数与该层的总体数及其标准差的乘积成正比。3非比例分层抽样非比例分层抽样 非比例抽样又称分层最佳抽样,是根据各层基本单位标准差的大小,来确定各层样本数目的抽样方法。二、概率抽样二、概率抽样分层抽样分层抽样分层抽样的样本量的估算方法:分层抽样的样本量的估算方法:(1)连续型变量总体均数估计的样本量)连续型变量总体均数估计的样本量 当各层的抽样比例相等时:或将总样本量按比例分配到各层,权重为各层的相对大小:NnNniiNNWhiiNNnnWniii二、概率抽样二、概率抽样分层抽样分层抽样(2)01变量总体概率估计的样本量 其中:为相对误差,为概率P的变异系数:PPZn222/)1(PppV)1(二
14、、概率抽样二、概率抽样整群抽样整群抽样 整群抽样是先将调查总体按一定标准划分成若干群或集体,然后以群或集体为单位按随机的原则从总体中抽取若干群或集体,并对抽中群的所有单位都进行调查。“群”的大小有一定的相对性,可以是县、乡、镇、村、区等自然区划,也可以是人为划分的一定人群。划分群时,每群的单位数可以相等,也可以不等,但一般相差不要太大。二、概率抽样二、概率抽样整群抽样整群抽样整群抽样的步骤:整群抽样的步骤:n确定分群的标准;n将总体按确定的标准分为i个互不重叠的群;n根据各样本量,确定应该抽取的群数;n采用单纯随机抽样、系统抽样和分层抽样的方法,从i群中抽取确定数量的个体或单元,并对抽中群的所
15、有单位都进行调查。二、概率抽样二、概率抽样整群抽样整群抽样 优点:优点:简便易行,便于组织,节省费用,容易控制调查质量。缺点:缺点:样本分布比较集中,代表性相对较差。在样本例数一定时,其抽样误差大于单纯随机抽样。二、概率抽样二、概率抽样整群抽样整群抽样整群抽样的样本量的估算方法:整群抽样的样本量的估算方法:可按单纯随机抽样的计算公式来估算样本量。对于均数或总和的估计,变异系数反映的是群与群间的变异性。其中,是以群为单位X的观察值之间的方差,是以群为单位的均数。2xxxxV二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 按规模成比例抽样PPS是一种使用辅助信息,使得每个单位均有按其规模
16、大小成比例的被抽中概率的一种抽样方式。其特点是规模大的被抽取的机会大,总体中每个个体被抽中的概率与该个体的规模成正比。其具体做法是,对规模大小不等的子群采用不等概率抽样,大子群中样本抽选的概率大,而小子群中样本抽选的概率小。例如例如:在进行某县村民的慢性病调查时,由于村子人口数的差异较大,为使抽取的村子具有较好的代表性,一般应抽取人口数较大的村子进行调查。此时可根据PPS抽样方法抽取村子,使得人口数多的村子被抽取的机会大。二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 具体操作步骤如下:具体操作步骤如下:以某县为例,全县人口数100000人,共90个村子,采用PPS抽取30个村子进行
17、调查。将全县各乡(镇、街道)每个乡内的行政村(居委会)依次排序并列出各村人口数。编制“村级抽样单位选定表”,列出各备选抽样单位(村)的人口数和累积人口数。二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 表表2 某县村级抽样单位选定表某县村级抽样单位选定表村子编号村名人口数累积人口数选定抽样单位11000100021500250013110036004200056002514007000621009100901000100000二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 计算组距计算组距 组距=累积人口数/30组=100000/30=3333 确定第确定第1个被抽样单位个
18、被抽样单位 根据计算的组距为3333,可从随机数表00013333之间随机选择一个4位数,例如随机数1005,小于表中编号2的那个村的累积人口数,且大于前一组的累积人口数,说明该数含于编号2组中,因此编号2的那个村即定为第1个被抽样单位。二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 确定第确定第230个被抽样单位个被抽样单位 用随机数+组距(N1),可确定第N个被抽样单位(N为230)。如随机数1005+组距3333(2-1)=4338,该数含于编号4组中。故编号4的那个村为第2个抽样单位,余类同。确定调查户确定调查户二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 优点:
19、优点:1.使用了辅助信息,减少抽样误差,可以提高抽样方案的统计效率;2.总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。缺点:缺点:1.对辅助信息要求较高,方差的估计较复杂;2.如果研究指标与规模无直接关系时,不合适采取这种方法。二、概率抽样二、概率抽样按规模成比例抽样按规模成比例抽样 二、概率抽样二、概率抽样多阶段抽样多阶段抽样 多阶段抽样也叫分段抽样或多级抽样,把抽样过程分成若干个阶段进行。总 体一级抽样二级抽样三、非概率抽样三、非概率抽样偶遇抽样偶遇抽样 又称为便利抽样(convenience sampling)或自然抽样,指调查者根据实际情况使用对自己最为便利的方式来选取样本
20、。抽样是随意的、完全按调查者的意愿选取。偶遇抽样基本理论依据是,认为被调查总体的每个单位都是相同的,因此把谁选为样本进行调查,其调查结果都是一样的。三、非概率抽样三、非概率抽样偶遇抽样偶遇抽样适用范围:适用范围:1.适用于同质总体;2.可以在探索性研究中使用;3.适用于非正式的探测性调查,或调查前的准备工作。三、非概率抽样三、非概率抽样偶遇抽样偶遇抽样 例如:例如:为了调查某市的公交车服务情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。三、非概率抽样三、非概率抽样偶遇抽样偶遇抽样 优点:优点:方便、灵活、省钱,简便易行,能及时取得所需资料。缺点:缺点:样本的代表性差,
21、有很大的偶然性,结果不够可靠,不能用偶遇抽样得到的样本来推断总体。三、非概率抽样三、非概率抽样判断抽样判断抽样 又称立意抽样法、目的抽样法,指根据调查人员对总体的了解和经验,从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。判断抽样法要求调查人员对自己的研究领域十分熟悉,对调查总体比较了解。判断抽样的样本代表性如何,完全凭调查者本身的知识、经验和判断能力而定。三、非概率抽样三、非概率抽样判断抽样判断抽样 判断抽样有两种做法:判断抽样有两种做法:n由专家判断而有目的地抽取他认为“有代表性的样本”。一般选取在调查总体占多数的单位中挑选出来的样本,或在调查总体中挑选出来的能代表平均水平
22、的样本。n利用统计判断来选取样本,即利用调查总体的全面统计资料,按照主观设定的某一标准来选取样本。三、非概率抽样三、非概率抽样判断抽样判断抽样 适用范围:适用范围:总体的构成单位差异较大而样本数又很小,同时设计调查者对总体的有关特征具有相当的了解的情况。如果判断准确,这种方法有可能取得具有较好代表性的样本,但这种方法受主观因素影响较大。三、非概率抽样三、非概率抽样判断抽样判断抽样 优点优点:挑选样本简便、及时,操作成本低。因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要。缺点缺点:该类抽样结果受调查人员的倾向性影响大,一旦出现主观判断偏差,则易引起抽样偏差;不能直接对调查总体
23、进行推断。三、非概率抽样三、非概率抽样定额抽样定额抽样 定额抽样又称配额抽样,是指调查人员将调查总体按某种特征分类或分层,将总体分为若干类,按一定比例在各类中分配样本单位数额,在配额内任意抽选样本的抽样方式。其抽样时并不遵循随机的原则。三、非概率抽样三、非概率抽样定额抽样定额抽样 适用范围:适用范围:适用于调查者对总体的特征具有一定的了解而样本数较多的情况。三、非概率抽样三、非概率抽样定额抽样定额抽样 优点:优点:费用低,易于实施,能满足总体比例的要求。缺点:缺点:定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,容易掩盖不可忽略的偏差。三、非概率抽样三、非概率抽样定额抽样定
24、额抽样 例如例如:某高校有5000名学生,其中男生占30,女生占70;文科学生和理科学生各占20和80;一年级、二年级、三年级、四年级学生分别占30、30、20和20。现采用定额抽样方法按照上述三个变量抽取一个规模为1000人的样本。三、非概率抽样三、非概率抽样定额抽样定额抽样 依据总体的构成和样本规模,我们可得到下列定额表:男生(300)女生(700)文科(60)理科(240)文科(140)理科(560)年级人数一二三四一二三四一二三四一二三四181812127272484842422828168168112112三、非概率抽样三、非概率抽样定额抽样定额抽样 定额抽样和分层抽样的区别:定额抽
25、样和分层抽样的区别:n 相同点:相同点:定额抽样和分层抽样都是事先对总体中所有单位按其属性、特征分类;例如按性别、年龄、文化程度等分类。然后按各个类别来分配样本数额。n区别:区别:分层抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。三、非概率抽样三、非概率抽样滚雪球抽样滚雪球抽样 滚雪球抽样以少量样本为基础,先随机选择一定数量的被访者作为种子(seeds),并对其实施访问,再根据他们提供的线索选择此后的调查对象,逐渐扩大样本的规模,如同滚雪球一样,可以找到越来越多具有相同性质的群体成员,直至找出足够的样本。三、非概率抽样三、非概率抽样滚雪球抽样滚雪球抽样 例如
26、例如:对吸毒人员的调查。可通过当地居委会找到几个吸毒人员进行调查,再通过他们介绍其同伴或朋友,从而逐渐扩大调查的样本规模。三、非概率抽样三、非概率抽样滚雪球抽样滚雪球抽样 适用范围:适用范围:此法适用于对调查总体不甚清楚的情况,常用于探索性的实地研究,特别适用于对小群体关系的研究。三、非概率抽样三、非概率抽样滚雪球抽样滚雪球抽样 优点:优点:可以根据某些样本特征对样本进行控制,适用寻找一些在总体中十分稀少的人物。缺点:缺点:滚雪球抽样初始种子的选择并不能做到随机选择,存在偏倚,不能保证样本的代表性。其次,调查倾向于一些愿意合作的调查对象,如果初始对象是一些志愿者,造成的偏倚会更严重。三、非概率
27、抽样三、非概率抽样同伴推动抽样同伴推动抽样 同伴推动抽样(RDS法)与经典的滚雪球法相似,主要是对难以接近人群和隐蔽人群的调查研究所采用的抽样方法。RDS法不需要随机选择最初的参与者(种子),也不要求参与者提供他们所介绍的同伴的个人信息,只要动员同伴加入研究即可。三、非概率抽样三、非概率抽样同伴推动抽样同伴推动抽样RDS 法的实施步骤:法的实施步骤:1.准备阶段准备阶段 对调查人群展开初步了解,如人群的规模、特征、活动区域和场所,便于下一步工作的开展。2.定义目标人群定义目标人群 开始调查前应明确界定调查人群,对其性别、年龄范围、行为特征等给出明确定义。三、非概率抽样三、非概率抽样同伴推动抽样
28、同伴推动抽样3.种子的选取种子的选取 种子的选取要考虑种子在调查人群中的社会地位、知名度、社交能力、沟通能力等。4.确定样本含量确定样本含量 RDS 法是一种近似概率抽样,可采用概率抽样的样本含量估计方法进行估算。在估计样本量时,也可以借鉴其他针对同类人群的研究结果。三、非概率抽样三、非概率抽样同伴推动抽样同伴推动抽样5.发放联系卡发放联系卡6.调查研究阶段调查研究阶段 由种子开始,研究者对每个参与者进行访谈。为了促进样本的收集,在每次访谈结束后,均给予参与者一定的报酬。参与者每介绍一个合格的研究对象加入研究,将再次获得一定的报酬。这样每个参与者都能得到两次报酬,称之为双重激励机制。三、非概率
29、抽样三、非概率抽样同伴推动抽样同伴推动抽样7.资料收集和分析资料收集和分析 资料收集包括参与者的个人基本信息(如性别、年龄、文化程度等)、参与者介绍的同伴数量、参与者与介绍人的关系等。RDS 法收集的资料有用于管理和数据分析的专门软件进行分析,一般采用 Heckathorn等开发的RDSA T 软件。三、非概率抽样三、非概率抽样同伴推动抽样同伴推动抽样优点:优点:(1)RDS 法调查费用低、工作量较小、现场易于操作;(2)RDS采取双重激励机制,能提高招募的效率;即使种子数量很少也可以产生足够大的样本量,降低了志愿者效应引起的偏倚;三、非概率抽样三、非概率抽样同伴推动抽样同伴推动抽样(3)RD
30、S 法要求由同伴招募调查对象,可能调查到调查人群中那些相对隐匿的对象,可保护调查人群的隐私,减少了招募过程中拒绝参加的比例;(4)作为一种近似概率抽样方法,RDS 能够由收集到的样本信息估计出近似的人群构成,可以对抽样的总体作出点估计和区间估计。三、非概率抽样三、非概率抽样同伴推动抽样同伴推动抽样缺点:缺点:(1)预抽样的人群理论上必须足够大才能应用同伴推动抽样;(2)调查人群之间必须存在已有的社会网络关系,但组内成员间在社交和地域上的相似性将会影响到参与者从社会关系网中抽取同伴的方式;(3)联系卡发出后调查对象参加调查的时间难以控制;(4)没有考虑到测量误差。思考题思考题1.概率抽样与非概率抽样的区别是什么?其适用范围是什么?2.常用的概率抽样方法有哪些?各有什么优缺点?3.常用的非概率抽样方法有哪些?各有什么优缺点?