1、第五讲第五讲 抽样设计抽样设计目目 录录o抽样概述o非概率抽样方法o概率抽样的原理与程序o概率抽样方法o户内抽样与PPS抽样o样本容量与抽样误差第一节第一节 抽样概述抽样概述o一、抽样在调查研究中的作用。一、抽样在调查研究中的作用。1现实生活中有些研究总体是不可能进行全面调查的,只可能调查其中的一部分。2节约人力、物力。3对其他调查方法所得到的资料的可信性的检验,尤其是对普查资料的修正与补充,必须进行抽样调查。o二、抽样调查的优点。二、抽样调查的优点。调查费用较低、速度快、应用范围广、可获得内容丰富的资料、准确度高。三、抽样调查中的相关概念三、抽样调查中的相关概念o1.总体。Populatio
2、n,所有研究对象的集合。如某中国养老研究中,将60岁及以上的人作为自己的研究对象,此时中国城乡60岁及以上老人就是该研究的总体。o2.样本。sample,从总体中根据某种规则抽取出来的,代表总体的那部分单位的集合。或称子总体。o3.抽样。sampling,从总体中按照某种规则抽取样本的过程。三、抽样调查中的相关概念三、抽样调查中的相关概念o4.抽样单位。sampling unit,是抽样过程中将总体划分为不同的组成单位,然后从各个组成单位中再抽取样本。则这些单位可称之为抽样单位。一般对于复杂总体的抽样包括多级抽样单位,如初级、二级、三级抽样单位。o5.抽样框。sampling frame,每一
3、级抽样单位的名单集合。三、抽样调查中的相关概念三、抽样调查中的相关概念o6.总体参数。Parameter,总体中某一特征的综合描述,如总体均值;方差、标准差;总体比例等;o7.样本统计量。Statistical variable,总体中某一特征的估计量(变量),如样本均值;方差、标准差、样本比例等;o8.统计值。Statistic,样本统计量在某一次抽样样本中的观察值。o9.抽样误差。sampling error,统计值与总体参数之间的差异。10.总体与样本的关系总体与样本的关系四、抽样类型四、抽样类型抽样技术抽样技术非概率抽样非概率抽样概率抽样概率抽样偶遇抽样偶遇抽样判断抽样判断抽样配额抽样
4、配额抽样滚雪球抽样滚雪球抽样简单随机抽样简单随机抽样系统抽样系统抽样分层抽样分层抽样整群抽样整群抽样多级抽样多级抽样其他抽样技术其他抽样技术按比例按比例不按比例不按比例第二节第二节 非概率抽样方法非概率抽样方法o1.偶遇抽样。又称做方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近的、最容易找到的人作为对象。o其优点就在于方便省力,速度快,可以用于那些需要迅速了解到信息的调查。但是样本的代表性差,带有很大的偶然性。o在路口拦住过往行人进行调查;在图书馆阅览室对当时正在阅读的读者进行调查;在商店门口、展览大厅、电影院等公众场所向进出往来
5、的顾客、观众进行的调查;利用报刊杂志向读者进行调查;老师以他所教的班级的学生作为调查样本的调查等等。2.判断抽样判断抽样o又称立意抽样,它是研究者根据研究的目标和自己主观的分析来选择和确定研究对象的方法。这种抽样首先要确定抽样标准。o案例:我们要对学生抗议活动中的学生领袖进行研究。许多学生领袖是很容易找到的,但是却不大可能对所有的学生领袖的样本进行研究。为了对所有的或大多数样本进行研究,就必须根据研究目的来搜集资料,所运用的抽样方法就是判断抽样法。3.配额抽样配额抽样o也称定额抽样。研究者依据那些可能影响研究变量的因素对总体分层,并找出具有各不同特征的成员在总体中所占的比例,然后选择对象,使样
6、本在各方面的比例尽量接近总体。o如下:在总样本量为200人时,各部分人数?34岁以下35岁以上合计¥10,000以下21%27%48%¥10,101以上12%40%52%合计33%67%100%4.滚雪球抽样滚雪球抽样o也叫顺藤摸瓜法。是先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。当调查总体中的个体信息不充分时,常采用这种方法。o例如,某研究部门在调查某市劳务市场中的保姆问题时,先访问了7名保姆,然后请她们再提供其他保姆名单,逐步扩大到近百人。通过对这些保姆的调查,对保姆的来源地、从事工作的性质等状况就有了较全面的掌握。还有对政府工作人员心理素质的测试、
7、家用健身器的应用状况、老人问题调查等等。5.空间抽样空间抽样o是针对一个变动的总体,如游行队伍、集会等进行抽样的方法,这种总体虽然是变动的,但在空间上是有限的。o具体做法如下:同时派出若干名经过训练的调查人员,排成一排均匀地分布在群体的一侧,每个调查者以它所面对的人为第一个调查对象。然后按一定的步数间隔穿过聚集的群体,每一间隔停顿下来时碰到的人均为调查对象。当然,还可采用其他的方式进行。6.非概率抽样的优缺点非概率抽样的优缺点 o优点:非概率抽样操作方便、省钱省力,统计上也远较概率抽样简单,而且若能对调查总体和调查对象有较好的了解,抽样也可获得相当的成功。o缺点:非概率抽样不是按照概率均等的原
8、则,而是根据人们的主观经验或其它条件来抽取样本。因而,其样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计。第三节第三节 概率抽样的原理与程序概率抽样的原理与程序o一、概率抽样的原理。一、概率抽样的原理。1.抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一过程的目标,并且可以对这种勾画的准确程度作出估计。2.随机抽取是这一过程的关键。所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本。使样本成为总体的缩影。o放回抽样与不放回抽样。放回抽样是指抽取一个单位后,在抽选下一个单位时把前一个已被抽中的单位放回总体中再进行抽
9、取;不放回抽样则是将已抽中的单位不放回总体,因而每个单位最多只能被抽中一次。二、抽样的程序二、抽样的程序o1.界定总体。对从中抽取样本的总体范围与界限作明确的界定。o2.收集总体中全部抽样单位名单,并通过名单进行统一编号来建立起供抽样使用的抽样框。o3.4.略。o5.评估样本。对样本的质量代表性和偏差等进行初步的检查:将得到的反映总体的某些重要特征与样本的同类指标作比较。1.界定总体界定总体2.制定抽样框制定抽样框3.设计抽样方法设计抽样方法4.决定样本容量决定样本容量5.评估样本评估样本三、抽样设计的原则三、抽样设计的原则o1目的性原则。目的性原则是指在进行抽样方案设计时,要以课题研究的总体
10、方案和研究的目标为依据。o2可测性原则。可测性原则指的是抽样设计能够从样本自身计算出有效的统计值或者抽样变动的近似值。o3可行性原则。可行性原则是指研究者所设计的抽样方案必须在实践上切实可行。o4经济性原则。这一原则指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等等。第四节第四节 概率抽样方法概率抽样方法o概率抽样方法主要包括以下几种类型:o简单随机抽样o系统抽样o分层抽样o整群抽样o多阶段抽样一、简单随机抽样一、简单随机抽样o简单随机抽样又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(Nn)。有
11、两种常用方法:o抽签法:先将研究总体中的每一个单位统一编号,使每一个单位都有一个号,然后将每一个号作成一个卡号并且混合均匀,最后从中随机抽取卡片,直到抽到额定的数目为止。o随机数字表法:其具体步骤如下是先取得一份总体所有元素的名单,将总体中所有元素一一按顺序编号,根据总体规模是几位数来确定从随机数表中选几位数码;然后以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;根据样本规模的要求选择出足够的数码个数;依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。二、系统抽样二、系统抽样o1系统抽样又称等距抽样或机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一
12、固定的间隔抽取个体的号码来组成样本的方法。o2系统抽样的具体步骤是:(1)将总体的所有个体前后排列起来。(2)计算抽样距离。抽样距离是由总体大小和样本大小决定的,假设总体所含个体数为N,样本所含个体数为n,则抽样距离应为K=N/n。(3)在头K个个体中,用完全随机的方式抽取一个个体,设其所在位置的序号是k。(4)自k开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为k,k+K,k+2K,直到k+(n-1)K。3.系统抽样的特点及注意事项系统抽样的特点及注意事项o系统抽样不需多次使用随机数字表抽取个体,而只需按间隔等距抽样即可,因而是实践中最常用的抽样方式之一。o系统抽样的另一个优点
13、是样本在总体中的分布更均匀,故而抽样误差小于或至多等于简单随机抽样,即较其更准确。o注意!系统抽样的一个重要前提条件是:总体中样本个体的排列,应该是随机的,即不存在某种规则的分布。三、分层抽样三、分层抽样o1含义。含义。又称类型抽样,它是先将总体中的所有单位按某种特征或标志划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。o2分层抽样的使用条件是:分层抽样的使用条件是:(1)被抽取的总体是异质的,一个变量或多个变量可能影响调查结果。如,大学生的性别、年级、籍贯可能影响对婚恋的态度。(2)对所研究的总体有详细地名
14、单。o流程图:总体层子总体样本3.分层的原则分层的原则o1)根据研究问题的变量;o2)保证各层内部同质性强;o3)以那些已有明显层次区分的变量作为分层变量。4.分层抽样实例分层抽样实例o1)等比例分层抽样)等比例分层抽样 某地共有居民20000户,按经济收入高低进行分类,其中高收入的居民为4000户,占总体的20%;中等收入为12000户,占总体的60%;低收入为4000户,占总体的20%。要从中抽取200户,进行购买力调查,则各类型应抽取的样本单位为:o经济收入高的样本单位数目为:200*20%=40户o经济收入中的样本单位数目为:200*60%=120户o经济收入低的样本单位数目为:200
15、*20%=40户2)不等比例抽样)不等比例抽样o它不是按各层中单位数占总体单位的比例分配样本单位,而是根据其他因素(如各层平均数或成数标准差的大小),调整各层的样本单位数。o仍以上例为主,各层样本标准差高收入为300元,中收入为200元,低收入为100元。得到,高收入的样本数为60户,中等收入为120户,低收入为20户。5.分层抽样的优点分层抽样的优点o1)当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。o2)在不增加样本规模的前提下降低抽样误差,提高抽样精度,从而提高总体参数估计值的精度。o3)便于了解总体内不同层次的情况。6.分层抽样分层抽样VS.配额抽样配额抽样o二者虽然
16、都依据某些特征对总体进行分层,但二者的目的不同,抽样方法也不同。o定额抽样对总体分类的目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。o分层抽样进行分层,一方面是要提高各层间的异质性与同层中的同质性,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小。而其抽样的方法则是完全根据概率原则,排除主观因素,客观地。等概率地到各层中进行抽样,这与定额抽样中那种“按事先规定地条件,有目的地寻找”的做法是完全不同的。四、整群抽样四、整群抽样o抽样单位不是单个的个
17、体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有个体构成的样本。o小群体通常是自然群,即由行政或地域划分的群,如学校、企业、省市或村镇、居委会等。o群的划分原则:群内差异尽可能大,群间差异尽可能小,此原则刚好和分层抽样相反。o群是规模不等的。o用于不知总体的名单情况。五、多阶段抽样五、多阶段抽样o1多阶段抽样又称多级抽样或分段抽样,它是按抽样单位的隶属关系或层次关系,把抽样过程分为几个阶段进行。在社会研究中,当总体的规模特别大,或者总体分布的范围特别广泛时,研究者一般采取多阶段抽样的方法来抽取样本。o2多阶段抽样的具体做法是:先从总体中随机抽取若干大群,
18、然后再从这几个大群内抽取几个小群,这样一层层抽下来,直至抽到最基本的抽样个体为止。3.实例实例o为了调查本市青年工人的状况,采用多阶段抽样。o首先,以企业为单位抽样,即以全市所有企业为抽样框,从中随机抽取一部分企业;其次,在抽中的企业中,以车间为抽样单位,即从全部车间中抽取若干车间;最后,再在抽中的车间内抽取青年工人。o在一般社会调查中,常见的阶段包括:市/县区/乡街道/村居委会家庭户个体第五节第五节 户内抽样与户内抽样与PPS抽样抽样o一、户内抽样。在家庭户内抽取一位符合条件的样本。一般采用KISH抽样法。oKISH表的具体用法如下:(1)确定该户符合调查要求的人口数。(2)按照年龄从大到小
19、,先男后女的原则,把符合条件的家庭成员按顺序写在表的相应位置上。(3)确定样本户的编号。通常是问卷编号的末位。(4)样本编号末位数所在列,和家庭成员人口数所在行对应的数为该户成员年龄由大到小排列的编号,此编号所对应的人为抽样样本。二、二、Pps抽样抽样o多阶段抽样暗含一个假设:即每一阶段抽样时,其元素的规模是相同的,因而客体被抽中的概率相等。但在现实中,规模不可能相同,概率不等。o在社会研究中,存在一种常用的不等概率抽样方法,为“概率与规模大小成比例的抽样”(Sampling with Probability Proportional to Size)PPS抽样。o其原理:以阶段性的不等概率换
20、取最终的总体的等概率。第六节第六节 样本容量与抽样误差样本容量与抽样误差o一、样本容量一、样本容量。又称样本规模,它指的是样本中所含个案的多少。确定样本容量也是每一项具体的社会研究所必须解决的问题之一。统计学中通常以30为界,把样本分为大样本和小样本。二、影响样本容量的因素二、影响样本容量的因素o1总体的规模o2抽样的准确性o3总体的异质性程度,总体的方差越大,则抽样误差越大;反之,抽样误差越小。o4研究者所拥有的经费、人力和时间三、抽样误差三、抽样误差o抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。减少抽样误差可以从以下几个方面着手:o1要准确选定抽样方法。o2要正确确定样本的数目。o3要加强对抽样调查的组织领导,提高抽样调查工作的质量。o4以科学的态度对待抽样。