1、社会调查研究方法目目 录录 第一节抽样理论基础 第二节随 机 抽 样 第三节非随机抽样 第四节抽样误差和样本规模 学习目标学习目标了解抽样调查的含义、特点和意义。熟悉抽样的程序。掌握简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样等随机抽样的组织方式。掌握方便抽样、判断抽样、配额抽样和滚雪球抽样等非随机抽样的组织方式。熟悉抽样误差的含义、影响抽样误差的因素。掌握抽样平均误差的概念和计算。熟悉样本规模的含义及影响样本规模的因素。掌握确定样本规模的计算方法。我国的社会保障统计调查主要依靠统计报表制度来获得有关数据。一般认为,社会保障统计指标体系可以包括社会保障业务统计指标、社会保障基金支出风
2、险因素统计指标以及社会保障效果评价指标三大类指标。虽然统计报表制度对社会保障机构业务核算资料的统计汇总是有效的,可以在最短的时间内,以最快捷和最规范的方式得到每一决策层面所需要的数据信息。但统计报表制度也存在着局限性。案例导入我国社会保障领域能否开展抽样调查首先,社会保障基金支出风险因素的统计调查对象范围极为广泛,若采用统计报表的全面调查方式则要求各级机构配备足够的人员、设备与经费;由于经济活跃造成调查对象流动性大,对其进行逐一调查是不现实的;而且统计报表制度无法收集社会保障主观评价指标的相关数据。其次,统计报表制度的灵活性差,表式变动周期很长,难于适应社会保障理论的发展,从而使得统计报表制度
3、涵盖的资料很不全面。再者统计报表制度的信息流程经历环节多,被人为因素干扰和加工出错的可能性很大,其原始数据往往因为基层统计工作人员的素质不高、对社会保障有关指标的内涵和外延的把握不准,而导致其质量难以保证。鉴于上述统计报表制度的局限性,在对社会保障基金支出风险因素统计指标和主观评价指标的调查中使用抽样调查技术是十分必要的。抽样调查比全面调查更节约人力和费用、缩短了调查周期,可获得许多全面调查所无法获得的信息,经过科学设计、精心组织的抽样调查可以取得精确度很高的结果;另外,统计部门采用抽样调查方法,还可减少搜集报表资料的中间环节,从而有利于消除统计误差和人为干扰现象,并可以检验报表数据的准确性。
4、抽样调查的前提条件是有可以利用的抽样框。而我国现有的统计调查体系,如工农业普查、人口普查及社会保障统计报表制度为开展调查提供了众多基础单位的资料,便于建立社会保障抽样调查的抽样框;同时还为其提供了各种分组资料和辅助信息,对提高抽样估计精度有很大的帮助。因此,在社会保障统计调查领域采用抽样调查技术是可行的。有学者还提出了具体的抽样方案:在社会保障抽样调查中可以结合使用多阶段抽样、整群抽样及分层抽样技术。与社会保障领域的统计调查工作者一样,在很多情形下,社会调查研究者希望对某一社会现象的总体进行描述和研究,如果对这些总体中的每个个体进行调查,虽然是最为全面的,但却是不现实的。因此,调查研究者只需要
5、调查总体中的一部分单位就能够把握总体的情况就成为一种经济而有效的调查手段。经过长期的探索和实践,社会调查研究者充分地借助了在概率论和数理统计基础上发展起来的抽样理论和方法,使自己的研究能适应当代社会高异质性、高变动性、高流动性的现实。本章将对抽样的理论基础、随机抽样、非随机抽样、抽样误差和样本规模的确定进行详细介绍。抽样调查的含义与特点 一、抽样调查的含义可以有广义和狭义两种理解。按照广义的理解,凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查。广义的抽样调查可分为非随机抽样和随机抽样两种。非随机抽样就是由调查研究者根据自己的认识和判断,选取若干个有代表性的单位,根据这些单位
6、进行观察的结果来推断全体,如民意测验等。随机抽样则是根据大数定律的要求,在抽取调查单位时,保证总体中各个单位都有同等的机会被抽中。由于推断统计的理论和方法完全是建立在随机抽样的基础上的,所以一般所讲的抽样调查大多数是指这种随机抽样,即狭义的抽样调查。严格意义上的抽样调查就是:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体做出数量上的推断分析。与普查等其他统计调查方法相比,抽样调查的特点体现在以下4个方面:1.抽样调查按随机原则抽取调查单位所谓随机原则就是在抽样时完全不受人的主观意志的影响,排除主观意识的干扰,使总体中的每个单位或每
7、个抽样单位都有相等的机会被抽中。抽样时只有遵循随机原则,才能保证样本与总体有相似的结构,或者说有相似的分布,从而使样本能较好地代表总体,对估计的精确度和可靠程度进行数理推断。按随机原则抽样是抽样调查科学性的先决条件,也是其与其他非全面调查(如重点调查和典型调查)的主要区别之一。2.抽样调查用部分单位的指标数值推断和估计总体指标数值抽样调查是一种非全面调查,但其目的在于推断总体,即以样本数据估计总体数量特征,从而达到对总体的认识。这与其他统计调查明显不同:普查也可以认识总体,但它是全面调查,调查总体包含所有的单位。重点调查和典型调查虽然是非全面调查,但由于抽样并非按照随机原则,样本对总体缺少代表
8、性,因此它们一般不能用来推断总体。相比之下,抽样调查既能有非全面调查省时、省力、快捷的优点,又能满足对总体全面情况认识的要求。3.抽样调查的误差可以事先计算并加以控制在抽样调查中,用样本指标去估计相应的总体指标是有误差的,这一点与其他的非全面调查并没有什么区别。抽样调查的结果必然存在抽样误差,这是由抽样方法本身所决定的。但不同的是,抽样调查的误差可以事先计算出来,并且可以通过扩充样本容量、采用更适当的抽样组织方式等一系列措施来控制其误差范围,同时还可以保证抽样调查的结果达到所要求的可靠程度,这是任何其他估算方法所办不到的。4.抽样调查的结果可能比全面调查更准确理解这一特点必须从统计误差的来源说
9、起。统计误差是指统计调查的资料结果与客观实际数量之间的差别。统计误差有两个来源:一是登记误差;二是代表性误差。所谓登记误差是指在调查登记、汇总计算过程中发生的误差,这种误差是应该设法避免的。所谓代表性误差是指用部分单位的统计数字为代表,去推断总体的全面数字时所产生的误差,只要是非全面的调查,这种误差就一定会发生,不可避免。进一步说,代表性误差又分为两类:一类是系统性误差;另一类是随机误差。系统性误差,即由于违反抽样调查的随机原则而产生的代表性误差,如在抽选样本单位时带有主观色彩而产生的系统性的偏差。系统性误差可以通过严格遵循随机的原则抽选样本单位得以消除。随机误差则是由于抽样的随机性或偶然性产
10、生的代表性误差,这是抽样调查本身所固有的、无法避免的误差。虽然随机误差无法消除,但可利用数理统计的原理精确地计算,并通过抽样设计程序加以控制。全面调查只可能有登记误差而没有代表性误差。抽样调查则两种误差全可能存在。但是,当全面调查的登记误差大于抽样调查的登记误差和代表性误差之和时,抽样调查的结果反而比全面调查更准确。抽样调查的意义 二、在现代社会中,由于人们越来越讲究科学,越来越讲究定量,抽样调查的作用也就越来越显著。从其适用性来看,抽样调查的意义主要反映在以下5点:1.抽样调查在某些情况下可替代全面调查有些总体从理论上讲可以进行全面调查,但实际上办不到或不必要,这时可以采用抽样调查。例如,要
11、开展民意调查就不大可能进行普遍调查,只能根据定的抽样方式随机抽取一部分人进行抽样调查,来推论和说明该地区群众对实施某一政策的态度。对于同质性较强、差异不大的研究总体,没有必要进行普遍调查就能了解全面情况时,可以采取抽样调查。当人力、财力、物力和时间等不允许开展全面调查,但又要了解总体的一般情况,且允许误差可以放宽时,就应当开展抽样调查。现在许多研究课题由于人力、物力和财力有限,要在较大范围内开展普遍调查是有难处的。例如,某地为加强环境保护,加强水质监测,考察该地区河水中某种污染物质是否超标。显然对该地区的河水进行全部检验是不可能的,只能从河水中按照一定地点定时取样检验,根据检验结果推断整个地区
12、河水中污染物是否超标。1984年11月,罗纳德里根以59%比41%的优势当选为美国新一任总统。在正式投票选举的前夕,一些政治民意测验机构就已经根据他们抽样的结果预言了里根的胜利。表9-1就是美国的一些全国性的民意测验机构在当年10月底和11月初所做出的预测结果。经典案例美国总统选举中的民意测验从表9-1中可以看出,尽管各种民意测验的结果并不相同,但是,它们都正确地预言了谁将获胜,其预言的结果基本上都紧紧围绕在实际投票结果的周围。难以想象的是,在将近1亿的美国选民中,它的调查对象还不到2 000人。这就是抽样所具有的力量和效率。2.抽样调查可以对全面调查的资料进行验证和修正由于全面调查面广、量大
13、,容易受多种主观和客观因素的影响,在调查登记和汇总整理过程中容易发生差错。所以特别是在进行各种普查以后,都有必要通过抽样调查进行复查,对普查资料的可靠性、精确性做出正确的估计,对普查总数进行修正,以便得出更为精确、更接近实际的数字。有的普遍调查需要花费较多的人力、物力、财力,通常要若干年才能进行一次。但是在上一次普遍调查完成后而下一次普遍调查尚未开展的期间内,许多资料就会变得陈旧,这时,就需要通过抽样调查进行补充和修正。3.抽样调查可以解决破坏性试验的问题有些事物在测量或试验时有破坏性,因而不可能进行全面调查。例如,灯泡耐用时间试验,电视机抗震能力试验,罐头食品的卫生检查,人体白细胞数量的化验
14、等,都是有破坏性的,不可能进行全面调查,而只能使用抽样调查的方法。又如,某水泥厂加强产品质量控制和管理,需考察水泥标号是否达到规定标准,其方法是将水泥做成试块进行耐压试验。由于这种试验是一种破坏性试验,显然不能把全部水泥都做成试块,只能从全部水泥中抽取一部分进行试验。4.抽样调查可以用于工业生产过程中的质量控制抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产过程是否正常,及时提供有关信息,便于采取措施,预防废品的发生。5.抽样调查可以用来对某种总体的假设进行检验利用推断统计的原理,可以对某些总体的假设进行检验,来判别这
15、种假设的真伪,以决定行动的取舍。例如,新教学法的采用、新工艺和新技术的改革、新医疗方法的使用等是否收到明显的效果,须对未知的或不完全知道的总体做出一些假设,然后利用抽样调查的方法根据实验数据对所做的假设进行检验,最终做出判断。总之,抽样调查是一种科学实用的方法,目前它越来越多地应用于社会经济现象数量方面的研究。随着抽样理论的发展、抽样技术的完善、社会调查研究人员的业务水平的提高,抽样调查在社会经济统计中的应用将会更加普及。虽然抽样调查具有上述重要的作用,但是抽样调查也有其自身的短处。例如,它只能提供说明整个总体情况的统计资料,而不能提供说明总体各部分状况的详细的统计资料,另外,抽样调查也很难提
16、供各种详细分类的统计资料。因此,抽样调查和全面调查是不能互相代替的,它们在认识上的作用是相辅相成的。抽样的程序 三、抽样的程序分为定义总体、制定抽样框、选定抽样方法、确定样本规模、制订抽样计划、选择样本单位6个步骤,如图9-1所示。图9-1 抽样程序(一)定义总体总体(population)也称全及总体,是指由具有某种特定性质的许多个别事物组成的整体,也就是所要调查研究的现象的全体。组成总体的每个个别事物叫总体单位,总体单位数通常用N表示。例如,某高校有两万名在校学生,现对该校的所有在校学生进行一次抽样调查,则该高校的两万名学生就构成这次调查的总体。再如,要研究某城市国有企业中层管理退休人员的
17、生活水平,则该城市国有企业的全部中层管理退休人员就构成了调查的总体。界定总体就是在具体抽样前对从中抽取样本的总体的范围与界限做出明确的界定。这是由抽样调查的目的所决定的。因为抽样调查虽然只对总体中的一部分对象实施调查,但其目的却是要描述和认识总体的状况和特征,发现总体中存在的规律性,因此必须事先明确总体的范围。另外,这样做也是达到良好的抽样效果的前提条件。如果不清楚明确地界定总体的范围与界限.那么即使采用严格的抽样方法,也可能只会抽出对总体严重缺乏代表性的样本来。(二)制定抽样框这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使
18、用的抽样框。当调查目标确定后,所要研究的对象(总体)也就随之确定了;确定了总体,理论上的抽样范围也就被确定下来。但是,实际进行抽样的总体范围与目标总体有时是不一致的。例如,要对某超市的顾客满意度进行调查研究,总体就是该超市的所有顾客。可是,要想找到这个超市的所有顾客并从中抽样在现实工作中却很难做到,有时甚至是不可能完成的任务。所以,有了总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框。抽样框(sampling frame)又称抽样结构,是包括全部抽样单位的名单框架,也就是对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。抽样框会直接影响到抽样的
19、随机性和抽样调查的效果。1.名录抽样框名录抽样框,即列出全部总体单位的名录一览表。名录抽样框可取自各种不同的来源。各级政府机构因各自的管理目的都保存一些名录,它们是设计抽样框最有效的资料来源。这类名录抽样框有:生命统计登记,即总体中所有关于出生和死亡的记录(由当地公安局收集);商业注册,即所有正在经营的公司及企业的名录(由工商行政管理部门收集);使用各种行政来源构造抽样框时必须考虑成本、覆盖范围、更新速度、信息来源的稳定性、定义、质量、合法且正式的关系、文档保存等因素。2.区域抽样框区域抽样框,即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。下列两种情况适合采用区域抽样框:一是调查
20、具有地理性质;二是没有合适的名录抽样框,需要借助区域抽样框来构造名录抽样框。例如,某项调查需在某个城市抽取住户,但没有该城市最新的住户名录。此时,统计调查机构可以用区域抽样框抽取地理区域,如街区,然后由调查者列出每个被抽中街区中的全部住户名单。这种方法将对住户的抽样集中于数量有限的区域,从而可以较为经济地进行调查。3.时间表抽样框时间表抽样框,即将全部总体单位按时间顺序排列,把总体的时间过程分为若干小的时间单位,以此时间单位为抽样单位。例如,对流水线上连续24小时生产的产品进行质量抽查时,以每10分钟为一个抽样单位,可将全部产品分为144个抽样单位并按时间顺序排列。设计出了抽样框后,便可根据一
21、定的抽样方法来抽选必要数目的样本单位。若没有抽样框,则不能计算样本单位入样的概率,从而也就无法进行概率选样。在抽样框中,应该包括下列项目中的一部分或全部项目:识别资料,用来识别抽样框中某个单元的项目,如姓名、身份证号等;联系资料,用来寻找某一单元的项目,如电话号码;分类资料,用于分类抽选的项目,如性别;维护资料,某项调查研究需重复进行时所要求的项目,如附加的资料、变更的资料;连接资料,将抽样框中的单位与其他最新数据来源连接起来、对抽样框进行更新的项目,如年份。前两个项目是进行抽样调查所必需的,后三个项目则有助于提高调查的效率和质量。(三)选定抽样方法对于各种不同研究目的、不同调查范围、不同调查
22、对象和不同客观条件的社会调查研究来说,所适用的抽样方法也不一样。这就需要在具体实施抽样之前,依据研究的目的要求、各种抽样方法的优、缺点及其他有关因素来决定具体抽样方法的选取。抽样方法有很多,概括而言,主要是在3个方面进行选择:随机与非随机抽样;具体的抽样组织方式;重复抽样与不重复抽样。1.随机抽样和非随机抽样如前所述,随机抽样是指按照随机原则从总体中抽取部分单位作为样本的抽样方法。其特点是:总体中的每一个单位都有已知的概率或可能性入样;每一个被抽中入样的单位都是在没有人为因素的作用下根据随机原则选定的。非随机抽样则是指不按照随机原则抽取样本单位的方法。其特点为简单、灵活、省费用,但可能会存在较
23、严重的选择误差。因为调查者在选择样本单位时有较大的灵活性,所以他们往往避难就易,比如倾向于选择那些看起来比较容易接触的人,这样就会使调查研究结果存在较大的偏差。(1)收集信息的目的。(2)对抽样误差的容忍度。(3)总体单位之间的变异程度。2.具体的抽样组织方式随机抽样和非随机抽样各自又有多种具体的抽样组织方式。如图9-2所示,随机抽样的主要组织方式有简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样;非随机抽样的主要组织方式有方便抽样、判断抽样、配额抽样和滚雪球抽样。图9-2 主要的抽样方法 3.重复抽样与不重复抽样所谓重复抽样(又称放回抽样)是指从总体中随机抽选一个样本单位以后,登记完毕
24、再把它放回去,下一次仍从全及总体中抽选。每次都从N个总体单位中抽选,同一单位有多次重复中选的可能。所谓不重复抽样(又称不放回抽样)是指从总体中随机抽选一个样本单位后,不再放回去,下次抽选是从剩下的总体单位中随机抽取。每个总体单位只有被抽中一次的可能,不会被重复抽选出来。经过连续n次不重复抽选单位构成样本,实质上相当于一次性同时从总体中抽中n个单位构成样本。在实际抽样中大多采用不重复抽样。样本单位被抽选的概率受到重复抽样和不重复抽样的影响。不仅如此,重复抽样和不重复抽样条件下抽样误差的大小及抽样平均误差的计算公式也是不同的。在其他条件一样的情况下,不重复抽样的抽样误差比重复抽样的小。(四)确定样
25、本规模样本规模又称为样本容量(简称样本量),是指样本中包含样本单位的数目。应用非随机抽样,样本容量的大小由研究人员根据经验和主观判断决定;应用随机抽样,样本容量的大小则要使用数理统计的方法根据决策对于信息准确性和可靠程度的要求计算得出。本章第四节将专门讲解随机抽样时影响样本规模大小的主要因素及确定样本规模的计算问题。(五)制订抽样计划抽样计划需要详细说明如何做出和执行抽样的每一项决定。除了逐个说明前面四个步骤的有关问题外,还要对抽样的具体实施步骤加以规定和说明。例如,当进行人员访问的问卷调查时,如果调查对象不在家该怎么办?能否找人替代?如果能,替代者应该具有什么特性?如果不能,是否需要再访?如
26、果需要再访,什么时间比较合适?对于这一类问题,抽样计划都应该给予具体规定。制定抽样计划时,要尽量设想到可能出现的各种特殊情况,统一规定解决问题的办法,这样可以使调查研究人员有据可依,减少抽样误差。(六)选择样本单位这是抽样程序的最后一步,这一步完全由调查者完成。选择样本单位的工作量很大,所需费用最多,会遇到许多特殊情况,对于人员访问的问卷调查更是如此。虽然抽样计划对样本单位的选择做了细节上的规定,但调查者并非总是按照计划执行的。他们有时图方便或出于其他方面的考虑,可能会擅自改变计划,从而给调查结果带来误差。能否取得真实可靠的数据,很大程度上取决于这一步的工作质量。一般情况下,样本的抽出并非抽样
27、过程的结束。抽样程序实际上还应包括样本抽出后对样本进行的评估工作。所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的失误。评估样本的基本方法是将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比,若两者之间的差别很小,则可认为样本的质量较高、代表性较大,反之,若两者之间的差别十分明显,那么样本的质量和代表性就一定不会很高。例如,如果我们从一所有20 000名学生的大学中抽取1 000名学生作为样本,同时,我们从学校有关部门得到下列统计资料:全校男生占学生总数67%,女生占33%;本省学生占学生总数74%,外省学生
28、占26%。那么,我们可以对抽出的1 000名学生进行这两方面情况的统计。假定样本得到的结果为:男生占69%,女生占31%;本省学生占73%,外省学生占27%。两相对比,不难发现两者之间的差距很小,它在一定程度上说明样本的质量和代表性较高。从这样的样本中得到的结果就能较好地反映和体现总体的情况。当然,用来进行对比的指标越多越好,各种指标对比的结果越接近越好。作为抽样调查的一种主要抽样方法,随机抽样常用的抽样组织方式有简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样。简单随机抽样 一、简单随机抽样(simple random sampling)也称为纯随机抽样,是对总体不做任何分类、分层、分
29、群或排队处理,而是完全按照随机的原则,从总体中抽出若干个体组成一个随机样本的抽样方式。简单随机抽样需要保证总体的每个单位都有同等的机会入选样本,而且每个单位的抽取都是相互独立的。简单随机抽样是最基本的抽样方式,其他各种抽样方式都是以简单随机抽样为基础产生的。简单随机抽样分为重复抽样和不重复抽样两种方式。在实施简单随机抽样时,通常采用的方法是抽签法和随机数表法。1.抽签法抽签法是为所有的总体单位编制签号,并把签号写在纸片(或球)上,掺和均匀后从中抽选,如暗箱摸球开奖等。当总体数目N不大时,可以采用抽签法。具体操作方法是先用均质材料做成N个签,给每个签编一个号码,将这N个签充分混合,然后一次抽出n
30、个签;或者每次抽取一个但不放回,再抽另一个直至抽满n个签为止。这抽出的n个签上的号码就是入样的单位号码。2.随机数表法虽然抽签法非常简单,但当N很大时,编制签号的工作量也很大,而且这些签也很难混合均匀,这时最常用的方法是利用随机数表。随机数表是由09的数字组成的表,表中的数字是随机抽取的,排列的顺序也是随机的。下图是随机数表的一部分(见图9-3)。图9-3 随机数表(部分)【例例9-19-1】(2)决定从每个数组中选择哪几位数字。要从随机数表的数组中产生3位数,可以有以下几种情况:选择从左到右的前3位数字;选择中间的3位数字;选择从左到右的后3位数字。这里的关键是要预先约定好规则,然后一直按此
31、规则行事。本例从方便考虑,选择数组从左到右的前3位数字。(3)确定在表中选择数字的顺序。选择数字时遵循的顺序可以随意确定,如可以顺着每一列自上而下或自下而上;也可以顺着每一行从左到右或从右到左;还可以顺着对角线方向。例如,本例选择顺着每一列自上而下的选取方式,一列选完后,从右边的一列继续自上而下选取;一页选完后,从下一页的第一个列继续自上而下选取,直到选够随机数为止。(4)确定开始选择的数组起点。可以闭上眼睛用笔随意在随机数表上戳一下,戳中的那个数组就是开始的数组。例如,本例随意戳中的数组是图9-3中随机数表第2列第3行的5650267107,从左到右前3位数为565,这样编号为565的人就被
32、选入样本了。(5)处理大于总体规模或重复的随机数。按自上而下的顺序,会选到969,但由于总体一共是900人,故编号没有969,一个简单的处理办法是跳过(舍去)这个数,接着选取下一个随机数385;再往下选,号码分别为495,572,169选完第一页后,接着从第二页继续选,一直选够80个为止。如果在选择过程中碰巧选中了两个相同的随机数,则应跳过(舍去)第二次选中的数。由于许多统计软件都有产生随机数的程序,因此利用计算机产生随机数是一种方便、快捷的方法。但必须指出的是,由统计软件产生的随机数是伪随机数,在通常情况下有循环周期,故一般无法保证其随机性。尽管有些统计软件产生的伪随机数有较长的循环周期,但
33、为了保证抽样的随机性,在有条件的情况下,最好还是使用随机数表或随机数骰子来产生随机数。从理论上来说,简单随机抽样符合抽样调查的随机原则,有关抽样调查的基本原则和方法,都是在简单随机抽样的基础上建立的,它是抽样调查的基本形式。但在实际应用中却有一定的局限性。例如,当全及总体的编号量N极大时,就要事先对每个单位一一加以编号,这是几乎不可能完成的。特别是对于正在连续大量生产的工业产品进行质量抽查时,就无法对全部产品进行编号抽样。基于以上原因,一般在全及总体单位数并不太大,而且总体单位之间差异较小的情况下,简单随机抽样方式才变得简便易行。分层抽样 二、分层抽样(stratified sampling)
34、又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。例如,在某地区高科技企业中抽取样本时,可以先把总体中的各高科技企业按年销售额分为高、中、低三大类;然后采用简单随机抽样或系统抽样的方法,分别从这三大类的企业中抽取子样本;最后将这三个子样本合起来构成全体高科技企业的样本。在实际运用分层抽样的方法时,需要考虑以下2个方面的问题:1.分层的标准同一个总体可以按照不同的标准进行分层。在实际抽样中,通常采用的标准有以下3条:(1)以所要分
35、析和研究的主要变量或相关的变量作为分层的标准。比如,要研究居民的消费状况和消费趋向,可以以居民家庭人均收入作为分层标准;又如,要了解不同职业的人员对社会经济改革的看法,就可以以人们的职业作为分层的标准。(2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。例如,在工厂对职工进行调查,可以以工作性质作为分层标准,将全厂职工分为干部、工人、技术人员、勤杂人员等几类来进行抽样。(3)以那些已有明显层次区分的变量作为分层变量。例如,性别、年龄、文化程度、职业等经常被用作分层的标准。又如学生按年级、专业、学校类型分层,城市按人口规模分层等。2.分层的比例分层抽样中有按比例和
36、不按比例分层抽样两种方法。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位总数间的比例来抽取子样本的方法。例如,某厂有工人500人,按性别分层后,有男工400人、女工100人。两类工人人数与总体人数的比例分别为0.8与0.2。因此,若要抽取一个40人的样本,就要按照各性别的人数占总人数的比例分别从400名男工中随机抽取32人,从100名女工中随机抽取8人。这样,样本中男、女工人之比才与总体中男女工人之比完全相同。【例例9-29-2】采取按比例分层抽样的方法,可以确保得到一个与总体结构完全一样的样本。但是在有些情况下,又不宜采用这种方法。例如,有时总体中有的类型或层次的单位数目太少,若以
37、按比例分层抽样的方法抽样,则有的层次在样本中的单位数太少,影响样本的代表性,这时往往要采取不按比例分层抽样的方法,即在单位数较少的类型或层次中多抽一些,而从单位数较多的类型或层次中少抽一些。再如,有的类型方差小,而有的类型方差大,可在方差大的类型中多抽一些,方差小的类型中少抽一些。分层抽样的一个优点就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。总体的同质性程度越高,样本就越容易反映和代表总体的特征和面貌;而总体的异质性程度越高,样本对总体的反映和代表就越困难,对抽样的要求也越高。采用分层抽样的最基本目的,正在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到
38、更好的抽样效果。换言之,通过分层,使得各层内总体单位之间的变异程度变小,从而使各个层内的方差变小(比总体的方差要小)。因此,在样本规模相同时,分层抽样的抽样误差往往比简单随机抽样的抽样误差要小。分层抽样方法的另一个优点是非常便于调查者了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究或进行比较。系统抽样 三、系统抽样是实际抽样中经常采用的一种方式。系统抽样(systematic sampling)又称机械抽样,即将N个总体单位按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则抽取其他n-1个样本单位。系统抽样是独立于简单随机抽样的另一种随机抽样方法,其效果与简单随
39、机抽样相近,但操作起来却容易得多。在系统抽样中,等间距抽取是最常用的方法,故系统抽样经常被称为等距抽样。常用的等距抽样方法包括直线等距抽样和循环等距抽样,二者的区别在于总体规模N是否为样本规模n的整数倍。(一)整数抽样间距的系统抽样当N是n的整数倍,即抽样间距k=Nn是整数时,可使用直线等距抽样,即在算出抽样间距后,先在1k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。抽中单位的号码分别为不难看出,直线等距抽样实际上是将N个单位排列成n行k列的矩阵,再从1k列之间随机地产生一个随机数r,则取第r列的全体单位作为样本。这时每一列被选中的概率是相等的,因此总体中每
40、个单位入样的概率也是相等的。(二)非整数抽样间距的系统抽样当N不是n的整数倍,即抽样间距k=Nn不是整数时,不难看出,这时上述矩阵有些列有n个单位,有些列不足n个单位,若再利用直线等距抽样就无法保证每个总体单位以相等的概率入样,为了使样本均值为无偏估计,可以采用以下2种方法进行抽样:1.循环等距抽样使用循环等距抽样,即先将N个总体单位首尾相接排成一个封闭圆,抽样间距k取最接近Nn的整数,再从1N中随机抽取一个随机起点作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。由于随机起点是1N中的任意一个,因此每个总体单位入样的概率是相等的。2.调整直线等距抽样使用调整直线等距抽样,要先将非整
41、数的抽样间距k的小数点后移1位,使其成为整数k,然后在10k之间选定一个整数的随机起点r;接下来再将r的小数点移回来,成为非整数的随机起点r。由r开始每隔k个单位抽出一个单位,直到抽出n个单位。抽中号码分别为:r,rk,r(n1)k,接下来再将这些号码的小数部分略去,便相应地得到入样单位的号码。(三)总体单位的排列一般说来,以简单随机抽样为基础的概率抽样,在抽取样本之前都需要对总体单位进行编号,如果总体单位很多,则工作量较大。而使用系统抽样则无须对总体单位编号,所需要的只是将总体单位按顺序排列。不过并非所有的排列顺序都能满足系统抽样的要求。例如,当单位的排列存在周期性的变化时,样本的代表性就可
42、能很差。与系统抽样有关的单位排列大致有以下3种情况:1.总体单位随机排列按无关标志排队即可使总体单位随机排列。所谓无关标志排队就是排队的标志与所研究的变量没有直接关系。例如,调查个人收入,总体单位是按姓氏笔画排列的,收入与姓氏笔画通常是没有必然联系的,这种按照无关标志排列的总体单位,可以视为是随机排列的。这种总体单位按随机顺序排列的系统抽样称为无序系统抽样,其效果等价于简单随机抽样。2.总体单位线性趋势排列总体单位线性趋势排列,即总体单位按有关标志排队。所谓有关标志排队就是排队的标志与所研究的变量线性相关。例如,调查家庭消费情况时,家庭是按总收入多少排列的,通常消费与收入是相关的,故该总体的各
43、个单位是按线性趋势排列的。对于线性趋势总体进行系统抽样称为有序系统抽样,其效果优于简单随机抽样,但不如分层抽样效果好。因为分层抽样在n个层中的抽样是随机的,避免了系统抽样在n次抽样中单位偏大或偏小的弊病。3.总体单位周期排列总体单位周期排列,即总体单位变量值按其顺序呈周期性变化。对于周期排列的总体,系统抽样的估计效果与抽样间距及单位变量值的变化周期有关。当抽样间距等于周期倍数时,抽到的任意一个样本单位都有相同的取值,相当于从总体中随机抽取了一个单位,这时样本的代表性最差。当抽样间距等于半周期倍数时,大部分情况下,样本会依次重复取两个高低不等的值,系统抽样会得到无偏的均值估计,样本的代表性会有所
44、改善。而抽样间距如果不等于周期倍数或半周期倍数,那么在掌握了总体周期结构的基础上,选择合适的抽样间距,就可以抽到周期排列总体中的大部分变量值,得到代表性较好的样本。不过如果对总体的周期结构没有把握时,要么重新排列总体,打乱总体排列的周期性;要么最好放弃系统抽样,改用简单随机抽样和分层随机抽样。整群抽样 四、整群抽样(cluster sampling)也叫集团抽样,它是将总体全部单位分为若干部分(每一部分称为一个群体,简称群),然后按随机原则从中抽取一部分群体,抽中群体的所有单位构成样本。整群抽样对抽中群体内的所有单位进行全面调查,而未抽中群体的单位一概不进行调查。例如,居民家计调查或人口抽样调
45、查常常以一个城市(或街道)的所有住户或所有人口为一群,并对抽中的住户或人口进行全面调查。又如,要从某天8小时内生产的产品中抽取1/12进行质量检查,可按5分钟内生产的产品为一群,将全天产品分为96群,再从中随机抽1/12进行调查。前几种抽样的组织方式都是从总体中逐个地抽取调查单位的,而整群抽样则是整群地抽取样本单位。所以,整群抽样只需对各群体进行编号,而不需要对各总体单位编号,这就大大简化了抽样组织工作。并且,由于样本单位比较集中,便于集中力量去调查,也利于组织和管理。总之,整群抽样是一种简单、方便又节省人力、物力、财力和时间的抽样组织方式,在实践中应用十分广泛。但也应注意到,因为整群抽样对选
46、中的群内的单位实行全面调查,其样本的代表性取决于抽中群体对全部群体的代表性。显然,群体之间的差异越大,样本代表性越差;反之,群体之间的差异越小,样本代表性越好。假设各群体之间没有差异(即各个群体的内部结构完全相同),则样本必然能够完全代表总体,即抽样误差为0。可见,整群抽样的抽样误差取决于群体间差异程度的大小,而不受各群体内部差异程度的影响。一般而言,在其他条件相同的情况下,整群抽样的误差大于简单随机抽样的抽样误差。整群抽样对群体的划分可以是人为的,也可以是自然形成的。例如,高校中学生分成班级、企业职工分成班组、企业生产的产品进行分装等。自然形成的群体则往往大小不等,如按地区、街道等划分居民群
47、体等。当群体大小相等或接近时,样本群体的抽取和参数估计都比较简单,当群体大小悬殊时,宜采用与群体规模成比例的不等概率的抽样方法来抽取样本群体,其参数估计的公式也会有所不同。因此,为了方便起见,划分群体时应使各群体所含的总体单位数尽可能接近或相等。多阶段抽样 五、在整群抽样中,如果被抽中的群内含有太多的次级单元,则对所有抽中的群进行普查工作量就太大了。特别是当群内次级单元彼此差异不大时,就没有必要全部调查。这时可以考虑对被抽到的群中的次级单元再进行一次抽样,然后对第二次抽到的单元进行调查,这就是二阶段抽样(two stage sampling)。依此类推,如果不断地对抽到的单元进行再次抽样,就会
48、形成三阶段、四阶段乃至更多阶段的抽样。在多阶段抽样中,最初从总体中抽出的群被称为初级抽样单位(primary sampling unit,PSU),如果PSU的规模相等,用简单随机抽样或等距抽样方法直接进行第二阶段的抽样,这时第二级单位是等概率入样的,而且样本规模是常数。这个原则也适用于更多阶段的抽样。问题是如果群的规模不等,多阶段抽样也存在与整群抽样类似的样本规模随机变动问题。多阶段抽样样本中规模随机变动的问题很大程度上是由于要保持抽样的等概率条件,即保持总抽样比不变产生的。如果不考虑等概率条件,则可以使样本规模保持不变。也就是说,要么保持样本的等概率条件,接受一个规模不确定的样本;要么保持
49、样本规模不变,放弃样本等概率条件。由于不等概率样本需要进行复杂的加权处理,故实践中用得更多的是前一种方式,即保持总抽样比不变。具体处理方法包括分层多阶段等概率抽样和PPS抽样。1.分层多阶段等概率抽样在分层多阶段等概率抽样中,需要先将总体中规模不等的群按规模(或重要性)分层,然后在不同阶段对不同的层使用不同的抽样比。以两阶段抽样为例,假设将总体分为大群、中群、小群三个层。第一阶段抽群时,大、中、小三个层的抽样比fa依次递减;第二阶段抽单位时,大、中、小三个层的抽样比fb依次递增。为保证样本单位等概率入样,即总的抽样比f保持不变,可使f=fafb保持不变,则可以进行如表9-2所示的样本设计。这里
50、fa=1意味着该层中的所有群都入选。例如,在全国抽样中可将北京、上海、天津、重庆这四个直辖市构成一个层,设定抽样比为1,即让这几个城市直接入样。fb=1意味着在这个群内的所有单位都入样。不难看出,只要保持各阶段抽样比的积为常数,各阶段抽样比就会有很大的变动余地,而且还可以扩展到三阶段以上的抽样。2.PPS抽样在PPS抽样中,第一阶段抽样即抽取PSU的阶段,要先放弃等概率抽样条件,采用概率与规模成比例(probability proportional to size,PPS)的抽样方法,即赋予规模不等的群与其规模成比例的入样概率。这样一来,规模大的群以大概率入样,规模小的群以小概率入样。因为如果