1、第第23章章 概率抽样方法概率抽样方法学习目标 掌握简单随机抽样及SAS程序;掌握系统(机械、等距)抽样及SAS程序;掌握分层抽样及SAS程序;掌握整群抽样及SAS程序。概述 抽样调查可以分为两类,即概率抽样和非概率抽样。概率抽样是按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。概述 现代被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是
2、一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。概述 概率抽样的原则,就是总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好的按总体内在结构中所蕴含的各种随机事件的概率来构成样本,使样本成为总体的缩影。概述 抽样调查按抽样的组织形式划分,有以下几种主要方法:简单随机抽样:按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(Nn)。系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后
3、按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。概述 K(抽样距离)=N(总体规模)/n(样本规模)前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。概述分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。分层抽样是把异质性较
4、强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。概述 分层标准为:以调查所要分析和研究的主要变量或相关的变量作为分层的标准。以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。以那些有明显分层区分的变量作为分层变量。概述 分层的比例问题:按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进
5、行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。概述整群抽样:抽样的单位不是单个的个体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本。对小群体的抽取可采用简单随机抽样、系统抽样和分层抽样的方法。优点:简便易行、节省费用,特别是在总体抽样框难以确定的情况下非常适合。缺点:样本分布比较集中、代表性相对较差。一般来说,类别相对较多、每一类中个体相对较少的做法效果较好。概述多阶抽样(分段抽样):按照元素的隶属关系后层次关系,把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时。二重抽样(又称两相抽
6、样):就是先抽取一个容量比较大的初始样本,用初始样本估计总体的某些参数或某些必要的信息作为分层的比例或再次抽样的标志,然后将抽出的初始大样本作为“总体”,从中抽取容量合适的样本进行比较详细的调查。特点是,适合用于对总体信息了解比较少的调查。概述比率抽样(PPS抽样):就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。概述 在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。比如,城市居民的收支调查,是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合起来使用。在现实的
7、商业性的市场调查中也有非概率抽样的应用。如,配额抽样、随意抽样、志愿者抽样、判断抽样、修正的概率抽样和滚雪球抽样等等,由于这些抽样方法容易出现偏差,所以只在对共性特别强的群体的商业性调查中应用。简单随机抽样及SAS程序 SAS系统中利用SURVEYSELECT过程步进行简单随机抽样。SURVEYSELECT过程的语法格式如下:PROCSURVEYSELECTDATA=OUT=METHOD=SAMPSIZE=SAMPRATE=REP=SEED=NOPRINT;IDvariable;RUN;简单随机抽样及SAS程序 DATA语句指定要分析的数据集名及一些选项;OUT选择项指定输出结果的SAS数据集
8、名,用来保存抽样输出的结果;METHOD选择项指定抽样方法,其中SRS(simplerandomsampling)为简单随机抽样,SYS(systemrandomsampling)为系统随机抽样,等等;SAMPSIZE选择项指定需要抽样的样本量;简单随机抽样及SAS程序 REP选择项指定可以重复抽样的次数;SAMPRATE选择项指定抽样的比例;SEED选择项指定产生随机随机数字的初始数,缺省是0或负值;NOPRINT选择项指定不对输出结果进行打印;ID语句指定数据集中需要包含的变量指标。系统(机械、等距)抽样及SAS程序 把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样
9、本。第一个样本采用简单随机抽样的办法抽取。在SURVEYSELECT过程步中,只需要将METHOD选择项设定为SYS(systematicrandomsampling)即可,通过CONTROL语句设定某个变量作为抽样距离参考变量,即抽样之前按照CONTROL变量对原始样本进行排序,然后按照规定的样本量确定抽样距离,随机选取第一个样本并进行系统抽样。整群抽样及SAS程序 整群抽样抽样的单位不是单个的个体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本。把“成群的个体”当作个体来看待,那么整群抽样与简单随机抽样的原理就是一样的。多阶抽样及SA
10、S程序 是将总体分成若干小的群体,但并不在每一小的群体中抽取一个样本,而是将这些小群体称为第一性抽样单元,将它们看作个体进行抽样,然后,再对抽中的第一性抽样单元中的个体抽样,这样的抽样当然可以不止二阶而是多阶的,先抽第一性样单元,再在第一性样单元钟抽第二性样单元,再在第二性样单元中抽第三性样单元,如此直至最基层的个体。多阶抽样及SAS程序 当总体中个体数量太大,或其他技术上的原因,无法直接对个体编号时,可以采用多阶抽样,先按第一性单元编号,抽取若干个,再在抽得的第一性单元内编号,抽取下一级单元。多阶抽样会使现场观测的样本单元比较集中,有利于节省调查费用。多阶抽样的SAS程序也是以简单随机抽样和
11、系统性抽样为基础的,只是每一次抽样过程编写一个SAS程序而已,即需要编写多个SAS程序以进行多次抽样。本章小节 现代被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。本章小节 概率抽样的原则,就是总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好的按总体内在结构中所蕴含的各种随机事件的概率来构成样本,使样本成为总体的缩影。
12、本章小节 简单随机抽样:按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(Nn);系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取;分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本;本章小节 整群抽样:抽样的单位不是单个的个体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本。对小群体的抽取可采用简单随机抽样、系统抽样和分层抽样的方法;多阶抽样(分段抽样):按照元素的隶属关系后层次关系,把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时。