1、第第 四章四章 抽抽 样样 抽样使我们能从总体具有代表性的部分样本中获取数据,抽样使我们能从总体具有代表性的部分样本中获取数据,从而可以得到关于整个总体的有效结论。从而可以得到关于整个总体的有效结论。英英 托尼托尼普罗科特普罗科特.1开篇案例 我们知道,近几十年来,美国总统大选前夕,总有一些民意测验机构喜欢对总统选择投票的结果进行预测。1936年美国总统选举前夕,盖洛普民意测验所仅仅调查了3000人,就成功地预测了民主党人罗斯福将当选为美国的新一任总统。1984年这家民意测验机构又一次成功地预测了罗纳得里根将以59%比41%的优势战胜蒙代尔而当选为美国的新一任总统。这一预测结果与实际投票结果(
2、59%:41%)相一致。而当时盖洛普民意测验所在将近1亿美国选民中,调查的对象还不到2000人。.2案例2004年美国大选主要民调样本数调查机构调查机构样本量样本量福克斯新闻福克斯新闻 1200 1200 盖洛普盖洛普 1573 1573 全国广播公司全国广播公司/华尔街日报华尔街日报 1014 1014 哥伦比亚广播公司哥伦比亚广播公司/纽约时报纽约时报 939 939 美国广播公司美国广播公司/华盛顿邮报华盛顿邮报 939 939 新闻周刊新闻周刊 882882.351.3448.3148.3120042004年美国总统大选一周前民调结果年美国总统大选一周前民调结果.4抽样与我们的生活抽样
3、与我们的生活v生活中充满了抽样 冬泳之前,用脚尖试探一下水温;做菜时,用勺子舀起一些试试味道浓了还是淡了;在书店挑选一本营销调研的书籍,随手拿起一本,翻看其中几页以决定是否购买;体检时抽一试管的血看看身体血液情况;.5为什么需要抽样?为什么需要抽样?v一些实验本质上是破坏性的v物理上不具备考察总体所有项目的可能性v对总体每一项目逐一考察费用过高v对总体每一项目逐一考察相当耗时v样本结论充分性.6抽样方法论抽样方法论v抽样过程就是使用少量项目或者总体的一部分得出关于整个总体的结论v样本(sample)是一个更大的总体的子集或一部分v抽样的目的在于帮助我们对总体的一些未知特征进行估计.7抽样的有关
4、术语抽样的有关术语抽样的基本程序抽样的基本程序抽样类型(方法)抽样类型(方法)样本规模与抽样误差样本规模与抽样误差1234.8一、抽样的有关术语1 1、总体总体(PopulationPopulation)(此指调查总体)(在社会调查中用)(此指调查总体)(在社会调查中用N N表示)表示)通常与构成的元素共同定义,总体是构成它的所有元素的集合,而元通常与构成的元素共同定义,总体是构成它的所有元素的集合,而元素则是构成总体的基本单位。素则是构成总体的基本单位。(1)(1)研究总体:是在理论上明确界定的个体(分析单位)集合体。(是理论研究总体:是在理论上明确界定的个体(分析单位)集合体。(是理论上的
5、总体)上的总体)(2)(2)调查总体:是研究者实际抽样样本的个体(分析单位)的集合体。(是调查总体:是研究者实际抽样样本的个体(分析单位)的集合体。(是实际操作中的总体)实际操作中的总体)二者不同:研究总体是我们概念上的,而调查总体是我们实际抽取样二者不同:研究总体是我们概念上的,而调查总体是我们实际抽取样本的集合。二者关系:调查总体应当无限趋近直至等于本的集合。二者关系:调查总体应当无限趋近直至等于研究总体。研究总体。如:开展对某省大学生择业倾向调查时,该省所有在校大学生的集合就是研如:开展对某省大学生择业倾向调查时,该省所有在校大学生的集合就是研究总体,每个在校大学生就是构成总体的元素。该
6、省所有在册大学生则究总体,每个在校大学生就是构成总体的元素。该省所有在册大学生则构成调查总体。构成调查总体。2 2、样本样本(SampleSample)(社会调查中用)(社会调查中用n n表示)表示)是从调查总体中按一定方式抽取出来的那一部分代表的集合体。是从调查总体中按一定方式抽取出来的那一部分代表的集合体。.93.3.抽样(抽样(SamplingSampling)是一种选择调查对象的程序与方法,即从总体中选取一部分代表的过程,是一种选择调查对象的程序与方法,即从总体中选取一部分代表的过程,也即从总体中按一定方式选择或抽取样本的过程。也即从总体中按一定方式选择或抽取样本的过程。如:从某省总数
7、为如:从某省总数为1010万人的大学生总体中按照一定方式抽取出万人的大学生总体中按照一定方式抽取出10001000名大名大学生进行调查,这学生进行调查,这10001000名大学生就是构成总体的一个样本。(名大学生就是构成总体的一个样本。(从一个总体中从一个总体中可以抽取出若干个不同的样本可以抽取出若干个不同的样本)4.4.抽样单位抽样单位(Sampling Unit)(Sampling Unit)一次直接的抽样所使用的基本单位。抽样单位和构成总体的元素有时相一次直接的抽样所使用的基本单位。抽样单位和构成总体的元素有时相同,有时不同。同,有时不同。5.5.抽样框抽样框(Sampling Fram
8、eSampling Frame)也称抽样范围,指抽取样本的所有抽样单位的名单。也称抽样范围,指抽取样本的所有抽样单位的名单。如:从某所大学全体学生中直接抽取如:从某所大学全体学生中直接抽取200200名学生作为样本名学生作为样本该校全体学生的名单该校全体学生的名单 从某一所大学所有班级中抽取从某一所大学所有班级中抽取3 3个班级作为样本个班级作为样本该校所有班级的名单该校所有班级的名单.106.6.参数值参数值(Parameter)(Parameter)也称总体值,是关于总体中某一变量的综合描述。也称总体值,是关于总体中某一变量的综合描述。如:某厂职工的平均收入、平均年龄如:某厂职工的平均收入
9、、平均年龄7.7.统计值统计值(StatisticStatistic)也称样本值,是关于样本中某一变量的综合描述。也称样本值,是关于样本中某一变量的综合描述。如:某厂职工中抽取出一部分,得到的平均收入、平均年龄如:某厂职工中抽取出一部分,得到的平均收入、平均年龄参数值与统计值之间的区别与联系:参数值与统计值之间的区别与联系:(1)(1)参数值是确定不变的、唯一的,并且通常是未知的。参数值是确定不变的、唯一的,并且通常是未知的。(2)(2)统计值则是变化的,即对于同一个总体来说,不同样本所得到的统计值统计值则是变化的,即对于同一个总体来说,不同样本所得到的统计值常常是有差别的;对于某一个特定的样
10、本来说,统计值是已知的,是可以常常是有差别的;对于某一个特定的样本来说,统计值是已知的,是可以通过计算得到的。通过计算得到的。(3)(3)联系:通过样本统计值可以推算总体参数值,从而达到调查部分以认识联系:通过样本统计值可以推算总体参数值,从而达到调查部分以认识总体的目的。这就是抽样调查的作用所在。总体的目的。这就是抽样调查的作用所在。.118.8.抽样误差抽样误差(Sampling ErrorSampling Error)是指在用样本统计值去推估总体参数值时所存在的偏差。它是由是指在用样本统计值去推估总体参数值时所存在的偏差。它是由抽样本身的随机性引起的,是不可避免的。但是抽样误差的大小抽样
11、本身的随机性引起的,是不可避免的。但是抽样误差的大小是控制的。是控制的。抽样误差的意义:是衡量样本代表性好坏的标准,抽样误差越小,抽样误差的意义:是衡量样本代表性好坏的标准,抽样误差越小,说明样本的代表性越好,反之,则越不好。说明样本的代表性越好,反之,则越不好。.129.9.置信水平与置信区间置信水平与置信区间(1 1)置信水平()置信水平(Confidence LevelConfidence Level)也称置信度,指的是总体参数值落在样本统计值某一区间内的概率。也称置信度,指的是总体参数值落在样本统计值某一区间内的概率。(2 2)置信区间()置信区间(Confidence Interva
12、lConfidence Interval)是指在一定范围的置信水平下,样本统计值与总体参数值之间的误差范围是指在一定范围的置信水平下,样本统计值与总体参数值之间的误差范围(3 3)置信水平与)置信水平与置信区间的关系的关系置信水平反映的是抽样的可靠性程度,置信区间反映的是抽样的精确性程置信水平反映的是抽样的可靠性程度,置信区间反映的是抽样的精确性程度。度。在其他条件不变的情况下,置信水平越高,置信区间越大;置信水平越低,在其他条件不变的情况下,置信水平越高,置信区间越大;置信水平越低,置信区间越小。对抽样的可靠性程度要求越高,抽样的精确性程度将越低;置信区间越小。对抽样的可靠性程度要求越高,抽
13、样的精确性程度将越低;对抽样的可靠性程度要求越低,则抽样的精确性程度将越高。对抽样的可靠性程度要求越低,则抽样的精确性程度将越高。.13抽样的有关术语抽样的有关术语抽样的基本程序抽样的基本程序抽样类型(方法)抽样类型(方法)样本规模与抽样误差样本规模与抽样误差1234.14二、抽样的基本程序二、抽样的基本程序(一)界定总体(一)界定总体 即在具体抽样前,对从中抽取样本的总体范围作出明确的即在具体抽样前,对从中抽取样本的总体范围作出明确的界定。界定。为什么要对总体进行界定?为什么要对总体进行界定?原因之一:是由抽样调查的目的决定的,其目的是调查部原因之一:是由抽样调查的目的决定的,其目的是调查部
14、分以反映总体。分以反映总体。原因之二:界定总体是达到良好的抽样效果的前提条件。原因之二:界定总体是达到良好的抽样效果的前提条件。例如:例如:19361936年美国总统大选前年美国总统大选前文学文摘文学文摘杂志的抽样杂志的抽样 .15思考思考 美国的美国的文学文摘文学文摘是一本是一本18901890年年19381938年间在美国发行颇为流年间在美国发行颇为流行的新闻杂志。行的新闻杂志。19201920年、年、19241924、19281928、19321932年的美国总统大选前都作年的美国总统大选前都作出了准确的预测。出了准确的预测。19361936,文学文摘文学文摘进行了一次最具雄心的民意测进
15、行了一次最具雄心的民意测验活动:选票寄给了从电话簿与车牌登记单中挑选出来的验活动:选票寄给了从电话簿与车牌登记单中挑选出来的10001000万人。万人。收到了收到了200200万人以上的回应;结果显示,有万人以上的回应;结果显示,有57%57%人支持共产党候选人阿人支持共产党候选人阿尔夫尔夫兰登,而当时在任的美国总统富兰克林兰登,而当时在任的美国总统富兰克林罗斯福的支持率为罗斯福的支持率为43%43%。两个星期以后全民选举的结果出来了,罗斯福以历史上最大的优两个星期以后全民选举的结果出来了,罗斯福以历史上最大的优势势61%61%的得票率获得第二届任期。的得票率获得第二届任期。v 思考:为什么思
16、考:为什么文学文摘文学文摘的预测会失败?的预测会失败?.16(二)选择抽样的具体方法,确定抽样的精确性程度与样本(二)选择抽样的具体方法,确定抽样的精确性程度与样本规模规模如何确定抽样的精确性和样本规模(待)如何确定抽样的精确性和样本规模(待)(三)制作抽样框(回顾什么是抽样框)(三)制作抽样框(回顾什么是抽样框)当采用一次性抽样时,应依据已经明确界定的总体范围,当采用一次性抽样时,应依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并对名单按随机原则进收集总体中全部抽样单位的名单,并对名单按随机原则进行统一编号,建立起供抽样使用的抽样框。行统一编号,建立起供抽样使用的抽样框。例如:我
17、们要在浙江工业大学进行一项该校学生职业观的例如:我们要在浙江工业大学进行一项该校学生职业观的抽样调查。抽样调查。注意:当采取多级抽样时,则需制作多个抽样框。注意:当采取多级抽样时,则需制作多个抽样框。例如:为了了解某市小学生的学习情况,需要从全市例如:为了了解某市小学生的学习情况,需要从全市500500所小学中抽取所小学中抽取500500名小学生调查。名小学生调查。.17准确的抽样框原则:准确的抽样框原则:1 1、完整性、完整性2 2、不重复性、不重复性 例如:例如:在城市居民户的抽样中,会经常出现一户有多处住房的在城市居民户的抽样中,会经常出现一户有多处住房的情况,这样很容易把一户重复列入抽
18、样框,使得他们在抽情况,这样很容易把一户重复列入抽样框,使得他们在抽样中的中选概率高于其他居民,相反,许多城市居民居住样中的中选概率高于其他居民,相反,许多城市居民居住条件比较差,很多居民同住在一个门牌号中,因此很容易条件比较差,很多居民同住在一个门牌号中,因此很容易遗漏。两种情况均违背了随机抽样的等概率原则。遗漏。两种情况均违背了随机抽样的等概率原则。.18(四)实际抽取样本(四)实际抽取样本 即在前进几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽即在前进几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个抽样单位,构成调查样本。取一个个抽样单位,构成调查样本。(五)评
19、估样本质量(五)评估样本质量 所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于前面步骤中的失误而使样本偏差太大,进而导致量,其目的是防止由于前面步骤中的失误而使样本偏差太大,进而导致整个调查的失误。整个调查的失误。评估样本的基本方法评估样本的基本方法:将可得到的反映总体中某些重要特征及其分布的资:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较好;反
20、之,若二者之间的差别十分明显,认为样本的质量较高,代表性较好;反之,若二者之间的差别十分明显,则表明样本的质量和代表性不可能高。因而需要对前面的抽样步骤进行则表明样本的质量和代表性不可能高。因而需要对前面的抽样步骤进行检查、修正,直到抽出质量较高、代表性较好的样本为止。检查、修正,直到抽出质量较高、代表性较好的样本为止。.19例如:例如:从我校从我校30003000名学生中抽取名学生中抽取300300名学生作为样本。同时,名学生作为样本。同时,我们从学校教务处或学生处得到下列统计资料:全校我们从学校教务处或学生处得到下列统计资料:全校男生男生占学生总数的占学生总数的53%53%,女生占,女生占
21、47%47%;本市学生占本市学生占40%40%,外省学,外省学生占生占60%60%。那么,我们可以对抽出的。那么,我们可以对抽出的300300名学生进行这两方名学生进行这两方面分布情况的统计。假定样本统计得到的结果是:面分布情况的统计。假定样本统计得到的结果是:男生占男生占52%52%,女生占女生占48%48%;本市学生占本市学生占41%41%,外省学生占外省学生占59%59%。两相对。两相对比,可以发现二者之间的差距很小,这就在一定程度上说比,可以发现二者之间的差距很小,这就在一定程度上说明,样本的质量较高,代表性较好,从这样的样本中得到明,样本的质量较高,代表性较好,从这样的样本中得到的结
22、果往往能较好地反映和体现总体的情况。的结果往往能较好地反映和体现总体的情况。.20抽样的有关术语抽样的有关术语抽样的基本程序抽样的基本程序抽样类型(方法)抽样类型(方法)样本规模与抽样误差样本规模与抽样误差1234.21三、抽样类型 根据调查总体中每一个个体有无同等的机会入选样本,根据调查总体中每一个个体有无同等的机会入选样本,可以将抽样分为概率抽样与非概率抽样两大类。可以将抽样分为概率抽样与非概率抽样两大类。概率抽样概率抽样是依据概率论的原理,按照是依据概率论的原理,按照等概率原则等概率原则进行进行的抽样,因而它能够避免抽样过程中的人为误差,保证样的抽样,因而它能够避免抽样过程中的人为误差,
23、保证样本的代表性。此法在社会调查最常用。本的代表性。此法在社会调查最常用。非概率抽样非概率抽样主要是依据研究者的主观意愿、主观判断主要是依据研究者的主观意愿、主观判断或是否方便等因素来抽取调查对象,它或是否方便等因素来抽取调查对象,它不考虑抽样中是否不考虑抽样中是否等概率等概率,因而往往产生较大的误差,难以保证样本的代表,因而往往产生较大的误差,难以保证样本的代表性。此法在社会调查中用得较少。性。此法在社会调查中用得较少。.22根据抽取调查对象的具体方式的不同,又可分将概率抽样与非概率抽样分为若干小类,具体分类如下图所示。简单随机 系统抽样 概率抽样 分层抽样 整群抽样抽样方法 多段抽样 偶遇
24、抽样 非概率抽样 判断抽样 定额抽样 雪球抽样 probability sample Non-probability sample sample.23(一)概率抽样1 1、简单随机抽样(、简单随机抽样(Simple Random Sampling)概念:它是按等概率原则直接从含有概念:它是按等概率原则直接从含有N N个个体的总体中抽取个个体的总体中抽取n n个个体组成样本个个体组成样本(N nN n)。其典型就是抽签。)。其典型就是抽签。方法:一是抽签;二是利用随机数表来抽样。方法:一是抽签;二是利用随机数表来抽样。利用随机数表进行抽样的具体步骤是:利用随机数表进行抽样的具体步骤是:(1 1)
25、先取得一份调查总体所有个体的名单(即抽样框);)先取得一份调查总体所有个体的名单(即抽样框);(2 2)将总体中所有个体一一按顺序编号;)将总体中所有个体一一按顺序编号;(3 3)根据总体规模是几位数来确定从随机数表中选几位数码;)根据总体规模是几位数来确定从随机数表中选几位数码;(4 4)以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;)以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;(5 5)根据样本规模的要求选择出足够的数码个数;)根据样本规模的要求选择出足够的数码个数;(6 6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的个体。这)依据从随机数表中选出
26、的数码,到抽样框中去找出它所对应的个体。这些个案的集合就构成样本。些个案的集合就构成样本。适用范围:总体单位数目和所需样本数目都比较少。适用范围:总体单位数目和所需样本数目都比较少。例:某总体共例:某总体共60006000人,现需要从中抽取人,现需要从中抽取300300名作为样本进行调查,运用随机数名作为样本进行调查,运用随机数表法。表法。.242 2、系统抽样(、系统抽样(Systematic Sampling)概念:是把总体中的个体进行随机编号并排序,再计算出某种间隔,然后概念:是把总体中的个体进行随机编号并排序,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。按这一
27、固定的间隔抽取个体的号码来组成样本的方法。具体步骤:具体步骤:(1 1)给总体中的每一个个体随机编上号码并按号码排序,即制作抽样框;)给总体中的每一个个体随机编上号码并按号码排序,即制作抽样框;(2 2)计算出抽样间距,公式为:)计算出抽样间距,公式为:K=N/nK=N/n(K K抽样间隔,抽样间隔,N N总体规模,总体规模,n n样本规模);样本规模);(3 3)在最前面的)在最前面的K K个个体中,随机抽取一个个体,并记号其编号(假定为个个体中,随机抽取一个个体,并记号其编号(假定为A A),作为随机起点;),作为随机起点;(4 4)在抽样框中,自)在抽样框中,自A A开始,每隔开始,每隔
28、K K个个体抽取一个个体,即所抽取个体的个个体抽取一个个体,即所抽取个体的编号分别为编号分别为A A,A AK K,A A2K2K,A A(n n1 1)K K;(5 5)将这)将这n n个个体合起来,就构成了该总体的一个样本。个个体合起来,就构成了该总体的一个样本。.25v 例如:例如:某学院共有某学院共有1 1000000名学生,要抽取一个容量为名学生,要抽取一个容量为100100的大学生的大学生样本,使用系统抽样的方法如何抽取。样本,使用系统抽样的方法如何抽取。v 课堂练习:课堂练习:现要对某一产品的口味进行测试,需要从调查总体的现要对某一产品的口味进行测试,需要从调查总体的150150
29、人中抽取人中抽取1212人进行测试,请使用系统抽样的方法抽取样本。人进行测试,请使用系统抽样的方法抽取样本。?思考:如果总体的个体数不能被样本容量整除时,如何处思考:如果总体的个体数不能被样本容量整除时,如何处理?理?.26001011021031091002012022032092003013023033093004014024034094005015025035095006016026.096007017027097008018028098009019029099010020030100.27注意:一般不选用系统抽样方法的情况。注意:一般不选用系统抽样方法的情况。(1 1)在总体的名单中,
30、个体的排列具有次序上的先)在总体的名单中,个体的排列具有次序上的先后和等级上的高低的时候。后和等级上的高低的时候。(2 2)在总体名单中,个体的排列上有与抽样间隔相)在总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。对应的周期性分布的情况。适用范围:总体数量不大,个体排列无次序性和适用范围:总体数量不大,个体排列无次序性和周期性。周期性。.283 3、分层抽样、分层抽样(Stratified Sampling)概念:是先将总体中的所有个体按概念:是先将总体中的所有个体按某种特征或标志划分为若干类型,某种特征或标志划分为若干类型,然后再在各类型中采用简单随机抽然后再在各类型中采用简
31、单随机抽样或系统抽样的方法抽取一个子样样或系统抽样的方法抽取一个子样本,最后将这些子样本合起来构成本,最后将这些子样本合起来构成总体的一个样本。总体的一个样本。其中,其中,N N为总体,为总体,N Ni i为子总体,为子总体,n n为样本,为样本,n ni i为子样本为子样本.29具体步骤:具体步骤:(1 1)确定分类标准,如性别、年龄、地区等。)确定分类标准,如性别、年龄、地区等。(2 2)按确定的标准将总体单位分为若干类型。)按确定的标准将总体单位分为若干类型。(3 3)计算各类型单位数量占总体单位数量的比重。)计算各类型单位数量占总体单位数量的比重。设设总体单位数为总体单位数为N N,各
32、类型单位数为,各类型单位数为NiNi,各类型各类型单位数占总体单位数占总体单位数的单位数的比重为比重为RiRi。公式:公式:Ri=Ni/N Ri=Ni/N(4 4)根据)根据RiRi计算出各类型中应抽取样本单位的数量。计算出各类型中应抽取样本单位的数量。设各类型的样本单位数为设各类型的样本单位数为nini,所需抽取的样本总数为,所需抽取的样本总数为n n。公式:公式:ni=n ni=nRiRi(5 5)按简单随机抽样或系统抽样方法从各类型中按比例抽取样)按简单随机抽样或系统抽样方法从各类型中按比例抽取样本。本。.30分类分类随机随机抽样抽样总体总体样本样本子群子群.31例如:某省例如:某省10
33、001000个乡,其中山区乡个乡,其中山区乡500500个,丘陵乡个,丘陵乡300300个,平原乡个,平原乡200200个,现个,现在要抽取在要抽取100100个乡进行调查,如何运用分层抽样来抽取样本?个乡进行调查,如何运用分层抽样来抽取样本?解:设山区解:设山区i=1,i=1,丘陵丘陵i=2,i=2,平原平原i=3i=3 R1=N1/N R1=N1/N100100=500/1000=500/1000100100=50=50 R2=N2/N R2=N2/N100100=300/1000=300/1000100100=30=30 R3=N3/N R3=N3/N100100=200/1000=20
34、0/1000100100=20=20 n1=R1n1=R1n=50n=50100=50100=50 n2=R2 n2=R2n=30n=30100=30100=30 n3=R3 n3=R3n=20n=20100=20100=20 即从即从500500个山区乡中抽取个山区乡中抽取5050个,从个,从300300个丘陵乡中抽取个丘陵乡中抽取3030个,从个,从200200个平原乡个平原乡中抽取中抽取2020个。其中各阶段均使用简单随机抽样的方法进行。个。其中各阶段均使用简单随机抽样的方法进行。.32课堂练习:课堂练习:某地共有居民某地共有居民2000020000户,其中高收入居民户,其中高收入居民4
35、0004000户,户,中等收入居民中等收入居民1200012000户,低收入居民户,低收入居民40004000户,现要从户,现要从中抽取中抽取500500户做购买力调查,如何运用分层抽样抽取户做购买力调查,如何运用分层抽样抽取样本?样本?.33优点:优点:(1 1)可以在不增加样本规模的前提下,降低抽样误差,提高抽样的精度。)可以在不增加样本规模的前提下,降低抽样误差,提高抽样的精度。(2 2)便于了解总体内不同层次的情况,便于对总体中不同层次和类别进行单独)便于了解总体内不同层次的情况,便于对总体中不同层次和类别进行单独研究,或进行比较。研究,或进行比较。注意:注意:(1 1)分层标准:)分
36、层标准:A.A.以调查所要分析和研究的主要变量或相关的变量作为分层标准;以调查所要分析和研究的主要变量或相关的变量作为分层标准;B.B.以保证各层内部同质性强,各层之间异质性强、突出总体内在结构的变量作以保证各层内部同质性强,各层之间异质性强、突出总体内在结构的变量作为分层标准;为分层标准;C.C.以那些已有明显层次区分的变量作为分层变量。以那些已有明显层次区分的变量作为分层变量。.34(2)(2)分层比例:分层比例:A.A.按比例分层按比例分层B.B.不按比例分层不按比例分层在用样本资料去推断总体时,要调整样在用样本资料去推断总体时,要调整样本中各层的比例,使数据资料恢复到总体中各层实际的比
37、本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。例结构。例如:例如:某厂有工人某厂有工人600600人,按性别分层则有男工人,按性别分层则有男工500500人,女工人,女工100100人,现要抽取人,现要抽取6060人作为样本进行调查,分别按比例分层和人作为样本进行调查,分别按比例分层和不按比例分层抽样。不按比例分层抽样。适用范围:总体单位数量较多,单位之间差异性较大适用范围:总体单位数量较多,单位之间差异性较大。.354 4、整群抽样(、整群抽样(Cluster Sampling)思考:思考:某高中有某高中有80008000名学生,分为名学生,分为200200个班级,每班有个班级,
38、每班有4040名学名学生,现在要从中抽取生,现在要从中抽取400400名学生调查本校学生消费情况,名学生调查本校学生消费情况,问:使用简单随机抽样方法和系统抽样方法分别如何抽取问:使用简单随机抽样方法和系统抽样方法分别如何抽取样本?除了使用以上方法,还能怎样抽取样本?样本?除了使用以上方法,还能怎样抽取样本?.36概念:是从总体中随机抽取一些小群体,概念:是从总体中随机抽取一些小群体,然后由所抽出的若干个小群体内的所有然后由所抽出的若干个小群体内的所有元素构成调查的一个样本。元素构成调查的一个样本。其中,其中,N N为总体,为总体,NiNi为子总体,为子总体,n n为样本为样本.37划分划分子
39、群子群随机随机抽样抽样.38整群抽样与前几种抽样方法的最大区别在于,它的抽样单位整群抽样与前几种抽样方法的最大区别在于,它的抽样单位不是单个的个体,而是不是单个的个体,而是成群的个体成群的个体。具体步骤:具体步骤:1 1、将总体各单位按一定标准划分为若干群体。、将总体各单位按一定标准划分为若干群体。2 2、以群为单位,从整体中抽取部分群(数量确定)、以群为单位,从整体中抽取部分群(数量确定)3 3、将这些群中的、将这些群中的所有个体所有个体合起来,形成总体的一个样本。合起来,形成总体的一个样本。.39特点:特点:(1 1)优点:可简化抽样的过程,降低调查中收集资料的费用,同)优点:可简化抽样的
40、过程,降低调查中收集资料的费用,同时还能相对地扩大抽样的应用范围。时还能相对地扩大抽样的应用范围。(2 2)缺点:是样本的分布面不广,样本对总体的代表性相对较差。)缺点:是样本的分布面不广,样本对总体的代表性相对较差。(解释:在(解释:在9595的置信度下,置信区间为的置信度下,置信区间为33这一范围,简单这一范围,简单随机抽样随机抽样500500个个体,整群抽样个个体,整群抽样800800个个体。)个个体。)整群抽样的应用范围较广,在简单随机抽样与系统抽样中,都要整群抽样的应用范围较广,在简单随机抽样与系统抽样中,都要求有一份总体所有成员的名单,即抽样框。但在实际调查过程中,求有一份总体所有
41、成员的名单,即抽样框。但在实际调查过程中,这样的名单往往难获得,此时可采用整群抽样来解决问题。这样的名单往往难获得,此时可采用整群抽样来解决问题。适用范围:总体规模较大,各群体之间差异性不大,而群体内部适用范围:总体规模较大,各群体之间差异性不大,而群体内部个体之间差异性较大。个体之间差异性较大。.40思考:分层抽样与整群抽样的适用范围有何不同?为思考:分层抽样与整群抽样的适用范围有何不同?为什么?什么?当群间同质性高,群内异质性高时,适合于采用整群抽样的方法当群间同质性高,群内异质性高时,适合于采用整群抽样的方法当群间异质性高,群内同质性高时,则适于采用分层抽样的方法当群间异质性高,群内同质
42、性高时,则适于采用分层抽样的方法.41课堂练习:某中学有某中学有48004800名学生,分为名学生,分为4 4个年级,个年级,8080个班,现在要抽取个班,现在要抽取480480名学生进行学生身体名学生进行学生身体健康状况调查,运用简单随机抽样、系统健康状况调查,运用简单随机抽样、系统抽样、分层抽样和整群抽样的方法分别如抽样、分层抽样和整群抽样的方法分别如何抽取样本?何抽取样本?.425 5、多段抽样(、多段抽样(Multi-stage sampling)按抽样单位的隶属关系或层次关系,把抽样分为几个阶段来按抽样单位的隶属关系或层次关系,把抽样分为几个阶段来进行。进行。例如:从全市例如:从全市
43、300300所小学抽取所小学抽取300300名小学生调查,可以分为几名小学生调查,可以分为几个阶段来进行?每个阶段的抽样单位分别是什么?个阶段来进行?每个阶段的抽样单位分别是什么?优点:简化抽样过程。优点:简化抽样过程。缺点:抽样误差大。缺点:抽样误差大。在同等条件下,减少多段抽样误差的方法在同等条件下,减少多段抽样误差的方法是:是:适当增加开头阶段的样本数而相对减少后面阶段的样本数。适当增加开头阶段的样本数而相对减少后面阶段的样本数。.43 例如:某地有例如:某地有2.42.4万名教师,他们分布在全市万名教师,他们分布在全市1010个区的个区的200200所学校里,现在要抽取一个所学校里,现
44、在要抽取一个由由12001200名教师组成的样本,按照三级抽样的方法,有以下几种抽样方案:名教师组成的样本,按照三级抽样的方法,有以下几种抽样方案:?思考:思考:1 1、哪一种方案最节省人力和经费?、哪一种方案最节省人力和经费?2 2、哪一种方案得到的样本精确度最高?、哪一种方案得到的样本精确度最高?3 3、考虑到实际情况,你在抽样中会选择哪种方案?为什么?、考虑到实际情况,你在抽样中会选择哪种方案?为什么?第一阶段第一阶段第二阶段第二阶段第三阶段第三阶段方案方案1 11010个区个区每个区抽每个区抽4 4所学校所学校 每所学校抽每所学校抽3030名教师名教师 方案方案2 21010个区个区每
45、个区抽每个区抽2020所学校所学校 每所学校抽每所学校抽6 6名教师名教师 方案方案3 3从从1010个区中抽个区中抽5 5个区个区 每个区抽每个区抽1212所学校所学校 每所学校抽每所学校抽2020名教师名教师 方案方案4 4从从1010个区中抽个区中抽3 3个区个区 每个区抽每个区抽1010所学校所学校 每所学校抽每所学校抽4040名教师名教师 方案方案5 5从从1010个区中抽个区中抽1 1个区个区 每个区抽每个区抽1212所学校所学校 每所学校抽每所学校抽100100名教名教师师 .44n 假设我们的总体是全国所有城市的集合,我们要抽取一个规模为40个城市的样本。n 若按简单随机抽样或
46、系统抽样的方法,则首先需要弄到一份全国城市的名单,然后根据随机数表或通过计算抽样间距直接从抽样框中抽取城市;n 若按分层抽样的方法,则可以先按城市规模将总体分为特大城市、大城市、中等城市和小城市四类,然后分别从每一类中抽取若干城市,并将这些城市合起来构成样本;n 如果采用整群抽样的方法,则可以以省(自治区,直辖市)为抽样单位,从全国31个省(自治区、直辖市)中随机抽取三至五个省(自治区、直辖市),再以所抽中的这些省(自治区、直辖市)中所包含的全部城市的集合作为样本。几种抽样方法的比较几种抽样方法的比较.45五种概率抽样方法的图示比较简单随机抽样简单随机抽样.46五种概率抽样方法的图示比较不按比
47、例分层不按比例分层按比例分层按比例分层.47五种概率抽样方法的图示比较整群抽样整群抽样.48五种概率抽样方法的图示比较系统抽样系统抽样.49五种概率抽样方法的图示比较多段抽样多段抽样.506 6、PPSPPS抽样抽样 当元素的大小不同,或者元素在总体中的地位不同时,我们需要采用不等概率抽样的方法。比如,从全市几百家企业中抽取20家企业进行调查时,一个有着数万职工的大型企业与一个只有一二百人的小企业所占的地位,显然是很不一样的。如果此时仍然采用等概率抽样的方法,则样本的代表性和精度都会比较差。而如果采用不等概率抽样的方法,使大的企业入选样本的概率大一些,小企业入选样本的概率小一些,这样就可以大大
48、提高估计的精度。社会研究中最重要、也最常用的一种不等概率抽样叫做“概率与元素的规模大小成比例的抽样”(sampling with probability proportionate to size),简称PPS抽样。.51v 假设要从全市100家企业,总共20万名职工中,抽取1000名职工进行调查。已知最大的企业多达16000名职工,而最小的企业则只有200名职工。v 如果我们采取多段抽样的方法,先从100家企业中随机抽取若干家企业,比如说抽取20家;然后再从这20家企业中分别抽取50名职工(5020=1000)构成样本。v 第一阶段:入选概率是相同的,即都为20100=20%v 第二阶段:规
49、模大的企业中每个职工被抽中的概率则为20%(5016000)=0.0625%;规模小的企业中每个职工被抽中的概率为20%(50200)=5%.52v采用PPS的方法:先将各个元素(即企业)排列起来,然后写出它们的规模、计算它们的规模在总体规模中所占的比例;将它们的比例累计起来,并根据比例的累计数依次写出每一元素所对应的选择号码范围,然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本,最后再从所选样本中进行第二阶段抽样(即从每个被抽中的元素中抽取50名职工)。.53用用PPSPPS方法抽取第一阶段样本举例方法抽取第一阶段样本举例序号规模所占比例累计选择号码范围所选号
50、码入样元素企业1企业2企业3企业4企业5企业6企业7企业8企业9企业10企业98企业99企业1003000200016000200120060008006001400420040018006001.5%1%8%0.1%0.6%3%0.4%0.3%0.7%2.1%0.2%0.9%0.3%1.5%2.5%10.5%10.6%11.2%14.2%14.6%14.9%15.6%17.7%98.8%99.7%100%000-014015-024025-104105106-111112-141142-145146-148149-155156-176978-987988-996997-999012048、0