1、第三讲:抽样1问题问题1 1 江西省今年高考考生达35.5万,为了调查了解这些考生数学试题的得分情况,将他们所有的考试卷加以统计,那将是十分麻烦的,怎样才能既科学又客观地了解这些考生数学试题的得分情况呢?问题问题2 2 现有某灯泡厂生产的灯泡10000只,怎样才能了解这批灯泡的使用寿命呢?数理统计的核心问题:数理统计的核心问题:如何根据样本的情况对总体的情况作出一种推断。2(一)概率抽样 简单随机抽样系统抽样分层抽样整群抽样多段抽样3简单随机抽样014又称纯随机抽样,它是按等概率原则直接从含有N个元素 的总体中抽取n个元素组成样本(Nn)。最基本形式。1.定义:不放回抽样;逐个进行抽取;个体数
2、有限;等概率抽样:每次抽取一个个体时任一个体被抽到的概率为1/N;在整个抽样过程中各个个体被抽到的概率为n/N2.特点:一.简单随机抽样1)抽签法;2)随机数表法。3.常用方法:确定样本抽签均匀搅拌制签编号1)抽签法例:某系共有学生300人,系学生会打算采用简单随机抽样的方法,从中抽取出60人进行调查。为了保证抽样的科学性,他们先从系办公室得到一份全系学生的名单,然后给名单中的每个学生都编上号(从001到300)。抽样框编好后,他们又用300张小纸条分别写上001,002,300。他们把这300张写好不同号码的小纸条放在一个盒子里,搅乱后,随便摸出60张小纸条。然后,他们按这60张小纸条上的号
3、码找到总体名单上所对应的60位同学。这60位同学就构成了他们本次的样本。一、简单随机抽样3.常用方法:优点:简单易学.适用范围:总体元素不多时.步骤抽取取数选数编号2)随机数表法利用随机数表抽样的具体步骤:(1)先取得一份总体所有元素的名单(抽样框);(2)将总体中所有元素一一按顺序编号;(3)根据总体规模是几位数来确定从随机量表中选几位数;(4)以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;(5)根据总体规模的要求选择出足够的数码个数;(6)依据从随机数表中选出的数码,到抽样框中找出它所对应的元素。一、简单随机抽样3.常用方法:适用范围:总体元素很多时.编号2)随机数表法一、简
4、单随机抽样3.常用方法:使用举例一、简单随机抽样3.常用方法:2)随机数表法随机数表中的数码选用的数码不选原因84329909061053873020942741004101390225079361404310135986604263219126839420582507272565117609060041250726831176后4位大于3000后4位大于3000后4位大于3000与所选第3个数重 从3000总体中抽取100人作为样本 1 取得总体名单;2 从1到3000编号;3 从随机数表中选择4位数;具体选法是从随机数表中的任意一行和任意一列的某一个四位数开始,按照从左到右,或者从上到下的
5、顺序,以3000为标准,对随机数表中依次出现的每个4位数进行取舍:选出3000以内的,直至选够100个。1.是概率抽样的理想类型,简便易学 2.抽样框不需要其他信息就能直接抽样。1.在总体多的情况下,工作量大,费时多且费用太高。2.样本都有相同机会被抽到,因此抽出来的样本有可能不能很好代表总体。优点:缺点:一、简单随机抽样4.优缺点:系统抽样0211系统抽样又称等距抽样或机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。1.定义:基本和简单随机抽样一样,计算公式也一样需要完整的样本框,直接从总体中抽取个体二、系统抽样给总体中的每一个
6、个体按顺序编号,即制定出抽样框。1计算出抽样间距。计算方法是用总体的规模除以样本的规模。假设总体规模为N,样本规模为n,那么抽样间距K就由下列公式导出:K=N/n(2在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号A,称为随机起点。3在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个个体编号分别为A,A+K,A+2K,A+(n-1)K。4将这n个个体合起来,就构成了该总体的一个样本。52.具体步骤:二、系统抽样3.举例:为了了为了了解参加某种知识解参加某种知识竞赛的竞赛的10001000名学名学生的成绩,应采生的成绩,应采用什么样的抽样用什么样的抽样方法恰当
7、?方法恰当?1324随机将这1000名学生编号为1,2,3,1 0 0 0(比如可以利用准考证号)。将总体按编号顺序平均分成50部分,可得抽样间距为:K=1000/50=20,每部分包含20个个体。在第一部分的个体编号1,2,20中,利用简单随机抽样抽取一个号码,比如是18.以18为起始号,每间隔20抽取一个号码,这样就得到一个容量为50的样本:18,38,58,,978,998.二、系统抽样4.优缺点:2)缺点:系统抽样有一个十分重要的前提条件,就是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差。1)优点:操作
8、简便,实施时不容易出差错。二、系统抽样例:在一项有关二战士兵的经典研究中,研究人员从名册中每隔10个士兵抽出一个来进行研究。然而士兵的名册是以下列组织方式来编排的:首先是中士,接着是下士,其后才是二等兵;用一班一班的方式进行编排,每班10个人。因此名册中每隔10个就是中士。如此系统抽样可能会得到一个完全是中士的样本,也可能会得到一个完全不含中士的样本。分层抽样0316分层抽样又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次;然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本;最后,将这些子样本合起来构成总体的样本。1.
9、定义:例如:从一个企业抽取职工样本。先将职工划分成工人、干部、技术人员三种类型分别用简单随机抽样或系统抽样方法在各类型中抽取子样本将三个子样本合在一起,就构成了该企业的全体职工的样本。三.分层抽样2.优点三.分层抽样1)在不增加样本规模的情况下降低抽样误差,即提高抽样信度。注意前提是,所分的类有意义,即每个类内部数据的变异程度小,而类与类之间变异程度大。2)非常便于了解总体内不同层次的情况。比如:在中国妇女社会地位调查中,将城市和乡镇分为两个类,以便于了解各自情况,并可以比较。以所要分析和研究的主要变量或相关变量作为分层的标准。以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作
10、为分层变量。以那些已有明显层次区分的变量作为分层变量。三.分层抽样3.运用:考虑两个问题:1)分层的标准问题。通常采用的原则有:l按比例分层抽样指按各种类型或层次中的单位数目同总体单位数目间的比例来抽样,以确保得到一个与总体结构相同的样本。比如:某厂有工人600名,男工500人,女工100人。两类工人占总人数的比率分别为5/6和1/6。因此若要按比例抽取60人,应该分别从男工 中 抽 取 5/6*6 0=5 0 人,从 女 工 中 抽 取1/6*60=10人。这样样本就有非常好的代表性。有些情况又不宜采用比例抽样。在总体类型或层次的单位数目太少时,往往采取不按比例抽样的方法,以便于对不同层次的
11、子总体进行专门研究或进行比较。比如:从500男工中抽取30人,从100女工中抽取30人,则可以对两类进行比较,不会影响推论统计时的条件。但用样本资料来推断总体时,需要先对各层数据资料加权处理,通过调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。三.分层抽样3.运用:考虑两个问题:2)分层的比例问题。适用于总体由差异明显的几部分组成的情况;按比例确定每层抽取的个数;抽取时采用系统抽样或简单随机抽样;等概率抽样;样本具有良好的代表性4.特点:1)分层;2)定抽样比;3)确定各层抽样的数目;4)抽取个体5.步骤:三.分层抽样类别类别各自特点各自特点相互联系相互联系适用范围适用范围简单
12、随机简单随机抽样抽样系统系统抽样抽样分层分层抽样抽样共同点共同点从总体中逐个抽取将总体均分成几部分,按事先确定的规则在各部分抽取将总体分成几层,分层进行抽取在起始部分抽样时采用简单随机抽样各层抽样时采用简单随机抽样或系统抽样总体中的个体数较少总体中的个体数较多总体由差异明显的几部分组成等可能抽取;不放回抽样;三种抽样方法的比较整群抽样0423整群抽样是从总体中随机抽取一些小的群体,然后由所抽中的若干个小群体内的所有元素构成调查的样本。即只要该群被选中,该群中的所用成员都进入随后的子样本。对小群体的抽样可以采用简单随机抽样、系统抽样或分层抽样。举例:某大学共有100个班,每班都是30名同学,总共
13、3000名学生,现在要抽取300名。先从100个班中抽取10个班,则这10个班的全部学生就构成了样本。抽样单位 不是单个的个体,而是成群的个体。2.特点:1.定义:四、整群抽样3.优缺点:2)缺点:样本分布不广、样本对总体的代表性差1)优点:简便易行、节省费用。四、整群抽样例:研究某市10万户家庭生活状况,抽取1000户。若要获得全市家庭的抽样框几乎是不可能的,因此无法进行简单随机抽样和系统抽样。但整群抽样则轻而易举。假设全市有200个居委会,每个居委会有500户左右家庭。我们只要有这200个居委会的名单,按上述两种方法之一,抽取两个居委会,然后该两个居委会的所有家庭构成样本。1若子群内部差异
14、较大,子群间差异较小-整群抽样2若子群内部差异较小,子群间差异较大-分层抽样。四、整群抽样4.运用:要与分层抽样的方法相区别。当总体由若干个自然界限或区分的子群(或类别、层次)所组成时 多段抽样0527多段抽样又称多级抽样、分段抽样。它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。1.定义:在社会研究中,当总体规模特别大时,或者总体范围分布非常广时,一般都要采用多段抽样。具体做法:先从总体中抽几个大组,再在抽中的几个大组中抽取几个小组,这样一层层抽下来,直到抽到基本的抽样元素为止。五.多段抽样研究某市青年工人情况。先以全市的企业名单为抽样框,抽取一部分企业;然后在抽中的企业里,
15、以车间为抽样单位,抽取若干个车间;最后再在抽中的车间里抽取青年工人。在每个阶段都要采用简单随机抽样或系统抽样或分层抽样的方法进行。注意:运用多段抽样方法时要注意在类别和个体之间保持合适的比例。2.举例:五.多段抽样l研究总体是全国城市的独生子女。为了在有限的财力、人力及时间的情况下保证样本的代表性,研究者选择了以湖北省为代表。因为无论是在地理条件、社会经济文化发展水平,还是人口规模、家庭结构方面,湖北省都处于全国中等水平。l在湖北省的范围内采取多段分层整群抽样的方式抽取样本。首先抽取城市。按城市的规模,分别选取了武汉市、黄石市、沙市市、仙桃市、云梦县城关镇这五个市镇作为调查点。第二步抽取学校。
16、在各个城市中,先请该市教育部门的同志按照重点、一般、较差的标准,各推荐1-3所小学。然后,研究者采取简单随机抽样的方式,从给出的各类小学中各抽一所小学。第三步抽取年级。在每个城市所抽中的三所小学中,按随机抽样的方法,分别抽取高年级(4-6年级)和低年级(1-3年级)各一个。第四步抽取班级。在每个抽中的年级中,随机抽取一个整班。根据上述抽样程序,总共抽取5个市镇15所小学1-6年级30个班的学生1342人。3.实例:风笑天的独生子女研究(1988年)五.多段抽样4.优缺点适用于总体范围特别大,对象的层次特别多的社会研究。由于它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行
17、。由于每级抽样时都会产生误差,故这种抽样方法的误差较大。五.多段抽样优点缺点当研究者以家庭作为分析单位,以入户访谈的方法收集资料,试图研究城乡家庭的结构、关系、生活方式或其他内容时,往往采用多段抽样的方法从某一市县中抽取区,再从区中抽取街道,从街道中抽取居委会,然后从居委会中抽取家庭户,最后从家庭户中抽取一位成年人作为访谈对象。从所抽中的每户家庭中抽取一个成年人,构成访谈对象的抽样过程。户内抽样1.定义:研究者先将调查表分为(编号为)A、B1、B2、C、D、E1、E2、F八种,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。同时印制若干套(
18、一套八种)“选择表”发给调查员,每人一套。2.Kish选择法:户内抽样“选择表”的形式:A式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上111111B1式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上111122户内抽样“选择表”的形式:C式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上112233B2式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上111222户内抽样“选择表”的形式:D式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上122344E1式选择表家庭中18岁以上人口数被抽中的人的序号为12
19、3456或以上123335户内抽样“选择表”的形式:E2式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上122455F式选择表家庭中18岁以上人口数被抽中的人的序号为123456或以上123456010213调查员对每户家庭中的成年人进行排序和编号:男性在前、女性在后;年纪大的在前,年龄小的在后,即最年长的男性排第一,次年长的男性排第二,以此类推;最年长的女性排在最年幼的男性后面,其他女性也按年龄从大到小排列。最终得到一个家庭内成人排序表。按照调查表的编号找出标号相同的那种“选择表”,根据家庭人口数目从“选择表”中查出该个体的序号,最后对这一序号的那个家庭成员进行访谈。具体做
20、法:户内抽样随机确定一年中的某一天为标准日,通常抽取每个月的第一天;与Kish方法类似,了解所抽中户的户中18岁以上的人口数,以及每人的生日;计算出每个人的生日距离标准日期的天数距离标准日期最近的人即为调查对象。3.户内随机抽人法生日法:户内抽样4.基本原理3.目的2.定义1.前提多段抽样中,其实暗含了了一个假定:即每一个阶段抽样时,其元素的规模是相同的。只有这样才能使每一个个体都有相同的入选机会。但实际上,多段抽样中面临着的各个阶段元素规模并不一样。如每个街道规模包含的居委会户数不同。使得每个元素被抽中的概率实际上不同。PPS抽样是一种“概率与元素的规模大小成比例的抽样”,简称PPS抽样。克
21、服多段抽样中存在的由于单位的规模不同而带来的不同单位中个体被抽中的概率不同。根据每一群的规模分配样本,用阶段性的不等概率换取最终的、总体的等概率。PPSPPS抽样在第一阶段,每个群按照其规模(其所含元素的数量)而被给予大小不等的概率。规模大的群体比小的群体有更大的概率。在抽样的第二个阶段,从每个抽中的群中都抽取同样多的元素。通过这样两个阶段上的不等概率,使得总体中的每一个元素最终都有同样被抽中的概率。可以用公式来说明PPS抽样的原理:每一个元素被抽中的概率=所抽取的群数(群的规模/总体规模)(平均每个群中所要抽取的元素/群的规模)5.基本方法:PPSPPS抽样某市有23个区共714万人,欲从中
22、抽取1000人的样本。首先将区作为初级抽样单位,每个区人数不等,将每区人数的号码范围列出,东区是1-120000号,西区120000-290000号,南区是-,一直排到7140000号。从这714万个号码中用随机数表确定10个号码,这10个号码落入的区即为调查区。如抽中340000号,它落在南区,则南区为调查区。从这10个调查区中,每一区随机选取100人构成样本。这样做,人数多的地区在第一次抽样时被抽中的几率高,但在第二次抽样时不管人数多少均抽取100人,所以每个人抽中的几率都相等。东区张三被抽中的概率=126.举例:PPSPPS抽样(二)非概率抽样 偶遇抽样判断抽样定额抽样雪球抽样42非概率
23、抽样不是按照概率均等的原则,而是根据人们的主观经验或其它条件来提取样本。因而,样本的代表性较小,误差有时相当大。这种方法一般只是探索性研究中采用。431.定义:偶遇抽样又称方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那样离得最近的、最容易找到的人作为调查对象。“街头拦人”法即为一例。马路旁等车的人图书馆2.优缺点:优点:方便省力。缺点:不能保证总体中每一个成员都有同等的被抽中的概率,样本的代表性差,有很大的偶然性。一、偶遇抽样判断抽样又称主观抽样、立意抽样,它是调查者根据研究目标和自己主观的分析来选择和确定调查对象的方法。两层含义:(1
24、)主观判断;(2)有目的的选择样本。可以充分发挥研究人员的主观能动作用。样本的代表性难以判断。多用于总体规模小、涉及范围窄或时间、人力等条件有限而难以进行大规模抽样的情况。研究者专找那些偏离总体平均水平者作为调查对象,探寻有意义的变量和范围,研究是什么使他们发生偏离。2.优点:3.缺点:4.举例:1.定义:二、判断抽样2.适用:设计调查者对总体的有关特征具有一定的了解而样本数较多的情况4.缺点:容易掩盖不可忽略的偏差。1.定义:又叫配额抽样,与分层抽样中的按比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样,样本中各层(类)所占的比例与他们在总体中所占
25、的比例一样,但不同的是,分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。3.优点:(1)定额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);(2)费用不高,易于实施,能满足总体比例的要求三、定额抽样某高校4000名学生,男生60%,女生40%;文理科各50%,一、二、三、四年级40%、30%、20%和10%。以性别、年级、专业三个变量实施定额抽样,样本规模为100。得到定额表:5.举例:三、定额抽样男生(60人)女生(40人)文科(30人)理科(30人)文科(20人)理科(20人)年级一 二 三 四一 二 三 四一 二 三 四一
26、 二 三 四人数12 9 6 312 9 6 38 6 4 28 6 4 21.定义一种极特殊的抽样方法。经常用于实地研究的非概率抽样方法。每个被访问的人都可能被要求介绍其他的人来参与访谈。所谓滚雪球,就是根据既有研究对象的建议找出其他研究对象的累积过程。3.优点调查费用大大减少,然而这种成本的节约是以调查质量的降低为代价的。4.缺点(1)可能产生偏误,不能保证代表性。(2)如果被调查者不愿意提供人员来接受调查,那么这种方法就会受阻。2.举例1 如果想要了解一个社区长期以来招募人手的方式,可以先访问新近招募来的人员,询问他们是由谁介绍进这个组织的。然后再访问被提到的人,询问他们是由谁介绍加入的。2 研究一个组织松散的政治团体时,可以向一位组织成员询问,看他认为谁是这一组织中最有影响力的人。然后再对这些人进行访问,询问他们谁最有影响力。3 退休老人生活。在早晨锻炼的公园、街道,或在菜场。四、雪球抽样2017Your content to play here,or through your copy,paste in this box,and select only the text.Your content to play here,or through your copy,paste in this box,and select only the text.49