1、第六章第六章 抽样抽样第一节 抽样的意义与作用第二节 概率抽样的原理与程序第三节 概率抽样方法第四节 户内抽样与PPS抽样第五节 非概率抽样方法第六节 样本规模与抽样误差第一节第一节 抽样意义与作用抽样意义与作用一、抽样的概念(1)总体(population):构成它的所有元素的集合,用“N”表示。(2)元素(element):构成总体的最基本单位。(3)样本(sample):从总体中按一定的方式抽取出来的一部分元素的集合,即总体的一个子集。用“n”表示 一、抽样的概念(4)抽样(sampling):按一定的方式从总体中选择、抽取样本的过程。(5)抽样单位(sampling unit)一次直接
2、抽样所使用的基本单位。抽样单位与构成总体的元素相同抽样单位与构成总体的元素相同:从某高校从某高校3000030000名大学生中一次直接抽取名大学生中一次直接抽取600600名作为样本名作为样本抽样单位与构成总体的元素不同抽样单位与构成总体的元素不同:从某高校一次直接抽取从某高校一次直接抽取2020个班,以这个班,以这2020个班的全部学生作为样本个班的全部学生作为样本一、抽样的概念(6)抽样框(sampling frame):又称作抽样范围,一次直接抽样时总体所有抽样单位的名单。(7)参数值(parameter):也称总体值,关于总体某一变量的综合描述。(8)统计值(statistic):又称
3、样本值,关于样本中某一变量的综合描述。字母表示不同 样本统计值与总体参数值的关系 一一对应:M p s 调研目的就是由统计值估计、推断参数值 参数值不变、唯一、未知,统计值则反之 二、抽样的作用 是实现由部分认识总体的关键环节。是架在研究者有限的时间、人力、经费与研究对象的庞大、广阔、复杂二者之间的一座桥梁!二、抽样的作用 总总 体体 样样 本本推推 论论抽抽 样样统计值统计值参数值参数值(点值估计)(点值估计)(区间估计)(区间估计)三、抽样的类型抽样方法抽样方法概率概率抽样抽样非概率非概率抽样抽样简单随机抽样简单随机抽样系统抽样系统抽样分层抽样分层抽样整群抽样整群抽样多段抽样多段抽样偶遇抽
4、样偶遇抽样判断抽样判断抽样定额抽样定额抽样第二节第二节 概率抽样的原理与程序概率抽样的原理与程序同质性异质性概率抽样:概率抽样:保证总体中的每一个个体都有保证总体中的每一个个体都有同等同等且独立且独立的机会入选样本。的机会入选样本。一、概率抽样的基本原理二、抽样分布样本容量从样本容量从1到到5正态分布正态分布三、抽样的一般程序界定总体界定总体 制定抽样框制定抽样框 决定抽样方案决定抽样方案 实际抽取样本实际抽取样本 评估样本质量评估样本质量 范围与界限范围与界限抽样单位名单抽样单位名单抽样方法、样本规模等抽样方法、样本规模等预先抽样、即时抽样预先抽样、即时抽样指标对比、加权指标对比、加权四、抽
5、样设计的原则 目的性原则:以课题研究的总体方案和研究的 目标为依据。可测性原则:能够从样本自身计算出有效的 估计值 或者抽样变动的近似值。可行性原则:必须在实践上切实可行。经济性原则:与研究的可得资源相适应。第三节第三节 概率抽样方法概率抽样方法 按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(Nn).常用方法:抽签法随机数表法一、简单随机抽样 抽签法编号写纸条放入容器搅拌抽取一、简单随机抽样 随机数表法抽样抽样框框随机数随机数选取选取抽取对抽取对应样本应样本确定位确定位数数抽取足抽取足够数够数编号编号二、系统抽样 先把总体的单位编码排序后,再计算出某种间隔,然后按这一固定间隔抽取
6、个体号码组成样本的方法。系统抽样系统抽样抽样框与编号抽样框与编号计算抽样间距计算抽样间距K K1-K1-K号中随机抽号中随机抽取取1 1个元素个元素A A样本样本:A+(n-1)KA+(n-1)K001011021031091002012022032092003013023033093004014024034094005015025035095006016026.096007017027097008018028098009019029099010020030100K=N/n注意注意:(1)总体名单有排列)总体名单有排列顺序顺序;(2)总体中个体排列的)总体中个体排列的周期性分布周期性分布。三、
7、分层抽样 先将总体的所有元素按某种特征或标志划分成若干层次或类型,然后再在各个层次或类型中采用简单随机抽样或系统抽样的方法抽取一个个子样本,最后把这些子样本合起来构成总体的样本。分层抽样优点:降低抽样误差提高精度 便于理解总体不同层次分层分层随机抽取随机抽取分层抽样的运用(1)分层的标准a:以分析的主要变量或相关变量b:保证各层内部同质性强,各层之间异质性强突出总体内在结构的变量作为分层变量。c:以那些已有明显层次区分的变量作为分层变量(2)分层的比例a:按比例分层抽样b:不按比例分层抽样按比例分层抽样学生 1200 女生1000 (5/6)男生200 (1/6)100人20人抽 样(120人
8、)样本 1205/61/6 分层按各种类型或层次中单位数目同总体单位数目间的比例来抽取子样本的方法。可以确保得到一个与总体结构完全一样的样本。不按比例分层抽样学生 1200 分层女生1000(5/6)男生200(1/6)抽 样(120人)60人60人1/21/2样本 120 注意:当用样本统计值推断总体时,必须对样本中各层的比例进行加权处理,使其恢复到总体中各层的比例结构。四、整群抽样它是从总体中随机抽取一些小的群体,然后由抽出的若干个小群内的所有元素构成调查的样本的方法。整群抽样不同子群不同子群子群抽取子群抽取优点:简便易行,节省费用 扩大抽样应用范围缺点:样本分布不广,代表性相对较差适用对
9、象:总体的不同子群之间差别不大,而每个子群内部差异较大 五、多段抽样按抽样元素的隶属、层级关系把抽样过程分为几个阶段进行:先从总体中随机抽取几个大群,然后再从这几个大群内随机抽取几个小群,这样一级级抽下去直到抽到最基本的元素为止。运用注意:类别和个体之间保持平衡比如说要在某市抽1000名中学生作调查。可抽20所学校,每所学校抽50名学生;也可只抽5所学校,每所学校抽200名学生。如何选择呢?如何确定每一级抽样的单位数目呢?考虑的因素有三个方面:一是各个抽样阶段中的子总体异质性程度;二是各层子总体的人数;三是研究者所拥有的人力和经费。优点:无需总体名单,各段抽样单位数较少缺点:总的抽样误差较大适
10、用对象:总体对象多,分布范围广一、户内抽样 Kish抽样法调查表按比例分类按照选择表确定对象入户对户内成人按先男后女先长后幼顺序编号同时获得样本家庭和个人资料同时获得样本家庭和个人资料 实际调查中的简化方法:生日法第四节第四节 户内抽样与户内抽样与PPS抽样抽样二、PPS抽样 多段抽样因为群规模大小不同导致非等概率假设一小城市有100000户居民,分属200个居委会。如果从总体中抽取1000户居民构成样本,我们可能先从200个居委会中随机抽取20个居委会;然后,在所抽取的20个居委会中,每个居委会随机抽取50户居民。这样,我们总共抽到1000户居民。当居委会的规模大小不一样时,还能保证随机抽样
11、的等概率原则吗?甲居委会有800户居民,第一阶段抽中的概率为20/200;第二阶段被抽中的概率为50/800;甲居委会居民户被抽中的概率为 20/200 50/800=1/160 乙居委会只有200户居民,第一阶段抽中的概率为20/200;第二阶段被抽中的概率50/200;乙居委会居民户被抽中的概率为 20/200 50/200=1/40二、PPS抽样 在社会调查中,有一种常用的不等概率抽样方法,叫做“概率与元素的规模大小成比例的抽样”(sampling with probability proportional to size,简称PPS抽样)。其原理可以通俗地理解成以阶段性的(或暂时)不等
12、概率换取最终的、总体的等概率。二、PPS抽样 我们还可以用下列公式来说明PPS抽样的这种原理:每一个元素被抽中的概率=所抽取的群数(群的规模/总体的规模)(平均每个群体中所要抽取的元素/群的规模)甲:概率=20(800/100000)(50/800)=1/100乙:概率=20(200/100000)(50/200)=1/100二、PPS抽样二、PPS抽样局限:局限:需需要知道每要知道每一个群的一个群的规模规模一、偶遇抽样碰到谁就选谁的简便方法并不具有随机性又称方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或仅仅选择那些离得最近的、最容易找到的人作为调查
13、对象。第五节第五节 非概率抽样非概率抽样二、判断抽样 研究者对总体情况熟悉,经验丰富,有理论修养研究者对总体情况熟悉,经验丰富,有理论修养 研究者主观能动性强研究者主观能动性强 样本代表性难判断样本代表性难判断又称立意抽样:研究者根据研究目标和自己的主观分析来选择和确定调查对象的方法三、定额抽样研究者要尽可能地依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例,采用偶遇或判断抽样的方法去选择调查对象,使样本中的成员在上述各种因素、各种特征方面的构成和在样本的比例尽量接近总体情形。一、定额抽样200样本量的定额抽样
14、实例:性别/年龄/收入高收入中收入低收入总计男女男女男女18-34岁446610104035-44岁779914146045-60岁66101019197061+33557730合计202030305050200总计4060100比较:比较:定额抽样定额抽样 VS分层抽样分层抽样 随机性随机性第六节第六节 样本规模与抽样误差样本规模与抽样误差一、样本规模(sample size)样本容量,指样本中所含个案的多少。统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)。社会调查中样本规模至少不能少于100个个案样本规模的计算简单随机抽样简单随机抽样中样本规模的计算
15、中样本规模的计算 推论总体均值推论总体均值:222etn224etn max2)1(2epptn推论总体成数:推论总体成数:置信水平对应的临界值总体的标准差允许的抽样误差总体的百分比 95%置信水平下不同抽样误差所要求的样本规模 允许误差(e%)样本规模 允许误差(e%)样本规模 1.0 10000 6.0 277 1.5 4500 6.5 237 2.0 2500 7.0 204 2.5 1600 7.5 178 3.0 1100 8.0 156 3.5 816 8.5 138 4.0 625 9.0 123 4.5 494 9.5 110 5.0 400 10.0 100 5.5 330二、影响样本规模确定的因素 总体的规模 推断的把握性与精确性要求 总体的异质性程度 调查者所拥有的经费、人力和时间三、样本规模与抽样误差抽样误差(sampling error)用样本统计值去估计总体参数值时所出现的误差,是由于抽样本身的随机性所引起的误差。小样本小样本增加样本增加样本抽样误差减少抽样误差减少大样本大样本增加样本增加样本抽样误差抽样误差减少很小减少很小 非抽样误差非抽样误差