1、抽样技术抽样技术Sampling Technique2国家统计局:全年居民人均可支配收入国家统计局:全年居民人均可支配收入2016720167元元 n国家统计局国家统计局1 1月月2020日公布,日公布,20152015年全国居民人均年全国居民人均可支配收入可支配收入2196621966元,比上年名义增长元,比上年名义增长8.9%8.9%,扣,扣除价格因素实际增长除价格因素实际增长7.4%7.4%。n其中,其中,城镇居民人均可支配收入城镇居民人均可支配收入3119531195元元,扣除,扣除价格因素实际增长价格因素实际增长6.6%6.6%;农村居民人均可支配收农村居民人均可支配收入入11422
2、11422元,元,扣除价格因素实际增长扣除价格因素实际增长7.5%7.5%。n20152015年全国居民收入年全国居民收入基尼系数为基尼系数为0.4620.462,实现七,实现七连降。连降。n该数据是来自于该数据是来自于城乡一体化住户调查城乡一体化住户调查,由全国,由全国抽选出的抽选出的16501650个县(市、区)的个县(市、区)的1616万住户万住户的连续的连续1212个月的记账数据,汇总计算得出。个月的记账数据,汇总计算得出。3 调查显示:调查显示:83.2%的被调查居民对家庭幸福感标准化评分的被调查居民对家庭幸福感标准化评分超过超过6分,分,41.9%的家庭超过的家庭超过7分,全国平均
3、水平为分,全国平均水平为6.90分,分,这意味着大多数家庭感觉幸福。城镇居民感觉幸福的家庭比例这意味着大多数家庭感觉幸福。城镇居民感觉幸福的家庭比例为为82.4%,这一比例在农村为,这一比例在农村为83.8%,稍高于城镇。,稍高于城镇。此次调查由中国人口宣传教育中心、瞭望周刊社、中国社此次调查由中国人口宣传教育中心、瞭望周刊社、中国社科院人口与劳动经济研究所共同举办。在历时科院人口与劳动经济研究所共同举办。在历时7个月的调查中,个月的调查中,调查组通过科学抽样在全国范围内调查组通过科学抽样在全国范围内抽取了北京、浙江、安徽、抽取了北京、浙江、安徽、甘肃、河南、四川、辽宁等甘肃、河南、四川、辽宁
4、等7个省个省(直辖市直辖市)的的21个县级单位个县级单位作作为全国概率抽样样本点为全国概率抽样样本点,采用,采用“敲门入户敲门入户”方式进行现场调查。方式进行现场调查。 其间,其间,700多名调查员行程多名调查员行程2万余公里,走访了万余公里,走访了123个村和社个村和社区,采集区,采集总样本量总样本量6000份份。其中获得。其中获得18周岁及以上成年人有周岁及以上成年人有效问卷效问卷5604份,占总样本量的份,占总样本量的93.40%。调查称农村家庭幸福比例高于城镇调查称农村家庭幸福比例高于城镇 4040后最幸福后最幸福 4n琅琊榜琅琊榜于于9月月19日登陆北京、东方两大卫视,并日登陆北京、
5、东方两大卫视,并同步网络平台播出。在电视剧和网络平台收视率均取同步网络平台播出。在电视剧和网络平台收视率均取得耀眼成绩。得耀眼成绩。n仅仅10月月14日一天,日一天,琅琊榜琅琊榜就创下了高达就创下了高达3亿亿3千万千万次的网上点击和次的网上点击和1.085%的收视率,在中国五十个主的收视率,在中国五十个主要城市收视排行榜排名第一位。要城市收视排行榜排名第一位。5中央电视台中央电视台“索福瑞索福瑞”调查公司在全国调查公司在全国1111亿电视观亿电视观众中,采用科学的众中,采用科学的概率抽样方法概率抽样方法抽取了抽取了6 6万个样本万个样本户,覆盖全国户,覆盖全国200200多个市县。多个市县。采
6、用的是目前国际上最新的收视调查手段采用的是目前国际上最新的收视调查手段测量测量仪法:在样本户电视机上安装测量仪仪法:在样本户电视机上安装测量仪。样本户家每个。样本户家每个人在遥控器上都有自己的按钮。谁看了什么节目,测人在遥控器上都有自己的按钮。谁看了什么节目,测量仪把信息储存起来通过电话线传送到总部的中心计量仪把信息储存起来通过电话线传送到总部的中心计算机算机 。调查结果的调查结果的可信度在可信度在95%95%以上,误差在以上,误差在3%3%以下以下 。收视率调查收视率调查6n以上数据都来自于以上数据都来自于抽样调查抽样调查!7统计调查分为两大类:统计调查分为两大类:8n有句谚语说:有句谚语说
7、:“ 你不必吃完整头牛,才知道你不必吃完整头牛,才知道肉是老的。肉是老的。” 这就是抽样的精髓:这就是抽样的精髓: 从检查一部分来得知全体。从检查一部分来得知全体。抽样调查是一种抽样调查是一种非全面统计调查非全面统计调查。9在各种调查方法中,在各种调查方法中,抽样调查是当今最主要的抽样调查是当今最主要的统计调查方法。统计调查方法。广泛应用于社会、经济的各个广泛应用于社会、经济的各个领域,抽样理论和方法已成为现代统计学的重领域,抽样理论和方法已成为现代统计学的重要组成部分,成为其中发展最快,最为活跃的要组成部分,成为其中发展最快,最为活跃的一个分支。一个分支。10n自从自从1895年挪威首任中央
8、统计局局长年挪威首任中央统计局局长 凯尔凯尔 在第五在第五届国际统计学会会议上提出届国际统计学会会议上提出“代表性调查代表性调查”的抽样的抽样方法以来,经过方法以来,经过100多年的理论探讨和实践积累,抽多年的理论探讨和实践积累,抽样技术已成为一门日臻完善的科学。样技术已成为一门日臻完善的科学。 抽样技术已经有一百多年的历史了!抽样技术已经有一百多年的历史了! 11n从抽样技术诞生以来,它已经在世界各国得从抽样技术诞生以来,它已经在世界各国得到广泛应用,极大提高了人们开展统计调查到广泛应用,极大提高了人们开展统计调查的水平和认识自然、认识社会的能力。的水平和认识自然、认识社会的能力。 抽样技术
9、在世界各国都被广泛应用!抽样技术在世界各国都被广泛应用! 12抽样技术被誉为抽样技术被誉为20世纪最伟大的科技成就之一!世纪最伟大的科技成就之一!抽样技术是抽样技术是现代统计学科体系现代统计学科体系的重要组成部分!的重要组成部分!13141234576本本 学学 期期 主主 要要 内内 容容15关于成绩关于成绩16第一章第一章 抽样技术概述抽样技术概述17本章要点本章要点 本章对抽样技术的涵义、作用、产生历本章对抽样技术的涵义、作用、产生历史和实际应用等作简要介绍,为以后各章的史和实际应用等作简要介绍,为以后各章的学习奠定基础。具体要求:学习奠定基础。具体要求: 正确理解抽样技术的正确理解抽样
10、技术的科学涵义科学涵义、基本、基本分类和分类和特点特点,对抽样调查的基本,对抽样调查的基本程序程序和和作用作用有初步的认识;有初步的认识; 对抽样技术产生与发展的对抽样技术产生与发展的历史历史有一般有一般的了解;的了解; 对抽样技术的对抽样技术的实际应用实际应用有大致的认识。有大致的认识。 18 第一节第一节 什么是抽样技术什么是抽样技术 19一、抽样技术的涵义一、抽样技术的涵义n什么是抽样技术?什么是抽样技术?n就是从统计调查总体中抽取样本进行调就是从统计调查总体中抽取样本进行调查,获取数据,然后对总体数量特征作查,获取数据,然后对总体数量特征作出推断的技术。出推断的技术。运用抽样技术所进行
11、的调查称为运用抽样技术所进行的调查称为抽样调查抽样调查。 从广义上说,一切非全面的统计调查都是抽从广义上说,一切非全面的统计调查都是抽样调查。样调查。PopulationSample20n在抽样调查中,抽样技术的运用主要有两个在抽样调查中,抽样技术的运用主要有两个方面:方面:抽取样本和估计总体抽取样本和估计总体。我国在每逢我国在每逢5的年份开展的年份开展全国全国1%人口抽样调查人口抽样调查工作。工作。调查以全国为总体,以各省、自治区、直辖市为次总调查以全国为总体,以各省、自治区、直辖市为次总体,最终样本单位为调查小区。体,最终样本单位为调查小区。 2015年全国年全国1%人口抽样调查在我国境内
12、抽取约人口抽样调查在我国境内抽取约6万个调查小区,覆盖人口约万个调查小区,覆盖人口约1400万人,根据此样本万人,根据此样本情况来推断全国人口总数以及人口总体的基本情况。情况来推断全国人口总数以及人口总体的基本情况。21二、抽样的类型二、抽样的类型n根据样本抽取的方式不同,抽样可以分为两根据样本抽取的方式不同,抽样可以分为两类:类:非概率抽样和概率抽样非概率抽样和概率抽样。 22(一)非概率抽样(一)非概率抽样n非概率抽样非概率抽样,也称,也称非随机抽样非随机抽样,是一种不按照,是一种不按照随机原则、随机原则、总体中各单位被抽中概率事先未知总体中各单位被抽中概率事先未知或难以确定或难以确定的抽
13、样,样本的抽取主要根据人们的抽样,样本的抽取主要根据人们的的主观判断或简便性原则主观判断或简便性原则来进行。来进行。23非概率抽样的形式:非概率抽样的形式:随意抽样随意抽样判断抽样判断抽样定额抽样定额抽样流动总体抽样流动总体抽样241随意抽样随意抽样n也称也称任意抽样任意抽样,即抽样者随意地或任意地(通常,即抽样者随意地或任意地(通常是遵循是遵循简便性原则简便性原则)从总体中抽取样本。)从总体中抽取样本。(convenience sampling)例如:例如:实验人员从笼子里抓取最靠近笼门的小白鼠;实验人员从笼子里抓取最靠近笼门的小白鼠;节目主持人从一大堆观众来信中随手拿出若干节目主持人从一大
14、堆观众来信中随手拿出若干来信;来信;在街头向过往行人进行调查在街头向过往行人进行调查;样本由自愿参加调查的人组成;样本由自愿参加调查的人组成;随意调查的优点:简便易行,成本低随意调查的优点:简便易行,成本低缺点:调查范围难以涵盖所有总体单位,样本代缺点:调查范围难以涵盖所有总体单位,样本代表性差表性差252判断抽样判断抽样 也称也称代表性抽样代表性抽样,即抽样者根据自己的知识、经,即抽样者根据自己的知识、经验和判断从总体中挑选出验和判断从总体中挑选出“典型的典型的”或或“有代表性有代表性”的单位来组成样本。的单位来组成样本。最具有共性的个体,最具有共性的个体,具有平均水平或一般特具有平均水平或
15、一般特征的个体征的个体(judgment sampling)例如:从所在区域抽取例如:从所在区域抽取几家几家“规模中等、生产经营规模中等、生产经营比较稳定比较稳定”的企业的企业来了解企业的能源消费状况;来了解企业的能源消费状况;从社区中抽取从社区中抽取若干若干“收入中等收入中等”的住户的住户来了解居民来了解居民日常收支情况;日常收支情况;从全班学生中抽选从全班学生中抽选几位成绩中等的学生几位成绩中等的学生了解学生的了解学生的学习时间、学习习惯等。学习时间、学习习惯等。26n1 1、18021802年年,法国著名数学家拉普拉斯法国著名数学家拉普拉斯在全国挑选在全国挑选了了3030个县,对连续三年
16、内出生的人数进行了调查,个县,对连续三年内出生的人数进行了调查,并据此推算全国人口数。并据此推算全国人口数。这是有完整记载的最早这是有完整记载的最早的抽样调查。的抽样调查。重要的历史记载重要的历史记载n2 2、 18951895年,年,挪威首任中央统计局局长挪威首任中央统计局局长凯尔凯尔在第五在第五届国际统计学会会议上,届国际统计学会会议上,正式提出用正式提出用“代表性调查代表性调查”来取代普查的建议,来取代普查的建议,首次引入了抽样的概念。首次引入了抽样的概念。这是这是抽样技术诞生的标志!抽样技术诞生的标志! 27判断抽样的缺点:判断抽样的缺点:难以判断所选单位是否具有代表性,没有统一的客难
17、以判断所选单位是否具有代表性,没有统一的客观标准观标准283定额抽样定额抽样即抽样者按照规定的定额抽取一个在某些特征上即抽样者按照规定的定额抽取一个在某些特征上与总与总体结构大致成比例体结构大致成比例的样本。的样本。先对总体按一定标志分类,先对总体按一定标志分类,并按比例分配每类并按比例分配每类应调查单位的定额,应调查单位的定额,然后在每类中进行然后在每类中进行判断抽判断抽样。样。(quota sampling)这种抽样最先由这种抽样最先由美国盖洛普咨询公司美国盖洛普咨询公司发明使发明使用,用,目的是增进判断抽样的样本代表性目的是增进判断抽样的样本代表性。在市场调查、民意测验方面广泛应用在市场
18、调查、民意测验方面广泛应用29民意调查创始人盖洛普民意调查创始人盖洛普n现代民意调查的创始人是乔治现代民意调查的创始人是乔治盖洛普盖洛普,他于,他于19011901年出生于美国俄亥俄州,年出生于美国俄亥俄州,19831983年以年以8282岁高龄去世。岁高龄去世。他创立的许多民意调查方法和方式到今天仍被人们他创立的许多民意调查方法和方式到今天仍被人们应用。应用。在在1936年的美国总统选举中,著名的年的美国总统选举中,著名的文学摘要文学摘要周周刊向刊向1000万美国人发卷调查,得出了令人惊愕的结论:万美国人发卷调查,得出了令人惊愕的结论:福兰克林福兰克林罗斯福将被共和党对手阿尔夫罗斯福将被共和
19、党对手阿尔夫兰登击败。然兰登击败。然而选举结果却是罗斯福赢得了压倒多数的胜利。而选举结果却是罗斯福赢得了压倒多数的胜利。30而而盖洛普咨询公司盖洛普咨询公司采用一种新型的抽样方法,即采用一种新型的抽样方法,即定定额抽样调查额抽样调查,正确地预言了罗斯福的胜利。,正确地预言了罗斯福的胜利。盖洛普根据盖洛普根据年龄、性别、教育程度、职业、经济收年龄、性别、教育程度、职业、经济收入、宗教信仰等标准入、宗教信仰等标准先对调查对象分类,总样本量先对调查对象分类,总样本量确定以后,确定以后,再按上述比例分配各类型的样本单位数。再按上述比例分配各类型的样本单位数。由于样本结构合理、代表性较高,因而较为准确地
20、由于样本结构合理、代表性较高,因而较为准确地预测到罗斯福在大选中的投票率。从此赢得威望,预测到罗斯福在大选中的投票率。从此赢得威望,成为美国甚至世界上最负盛名的民意调查机构。成为美国甚至世界上最负盛名的民意调查机构。31优点:增进判断抽样的样本代表性优点:增进判断抽样的样本代表性缺点:难以判断所选单位是否具有代表性,没有统一的缺点:难以判断所选单位是否具有代表性,没有统一的 客观标准客观标准由于选取单位数量少,取得资料快,调查效率高,由于选取单位数量少,取得资料快,调查效率高,特别特别适用于了解新情况、解决新问题的调查。适用于了解新情况、解决新问题的调查。 适用情况适用情况324流动总体抽样流
21、动总体抽样(sampling of mobile population)也称也称“捕获捕获标记标记再捕获再捕获” 抽样,即抽样者先抽样,即抽样者先从总体从总体( (例如水库中的鱼例如水库中的鱼) ) 获取部分单位获取部分单位( (例如例如300300条条鱼鱼) ) ,加以标记后放回总体,过一段时间后再获取部分,加以标记后放回总体,过一段时间后再获取部分单位单位( (例如例如10001000条鱼条鱼) ) ,然后根据再获取单位中有标记然后根据再获取单位中有标记单位的比例来推算总体的数量单位的比例来推算总体的数量。33难以计算和控制抽样误差,难以保证推断的难以计算和控制抽样误差,难以保证推断的准确
22、性和可靠性。准确性和可靠性。非概率抽样的缺点非概率抽样的缺点34(二)概率抽样(二)概率抽样n也称也称随机抽样随机抽样,是一种,是一种以概率论和随机原则为以概率论和随机原则为依据依据来抽取样本的抽样,是使总体中的来抽取样本的抽样,是使总体中的每个单每个单位位都有一个都有一个事先已知的、非零概率事先已知的、非零概率被抽中的抽被抽中的抽样。样。总体各单位被抽中的概率可以通过总体各单位被抽中的概率可以通过样本设计样本设计来来规定,通过某种规定,通过某种随机化操作随机化操作来实现。来实现。例:从全班例:从全班100名学生中选出名学生中选出10人作为代表参加座谈会,人作为代表参加座谈会,将每个学生的姓名
23、写在将每个学生的姓名写在同样质地、同样大小的纸条上同样质地、同样大小的纸条上,投,投入一个纸箱中入一个纸箱中充分混合均匀充分混合均匀。然后从纸箱中一张接一张共。然后从纸箱中一张接一张共抽出抽出10张纸条,所对应的张纸条,所对应的10名学生被抽中。名学生被抽中。35概率抽样从抽样概率抽样从抽样组织形式组织形式上看,可分为以下上看,可分为以下五种:五种:简单随机抽样简单随机抽样分层抽样分层抽样等距抽样等距抽样整群抽样整群抽样多阶段抽样多阶段抽样36总体总体N样本样本n例:从全班例:从全班100名学生中选出名学生中选出10人作为代表参加座谈会,人作为代表参加座谈会,将每个学生的姓名写在同样质地、同样
24、大小的纸条上,投将每个学生的姓名写在同样质地、同样大小的纸条上,投入一个纸箱中充分混合均匀。然后从纸箱中一张接一张共入一个纸箱中充分混合均匀。然后从纸箱中一张接一张共抽出抽出10张纸条。张纸条。这这10张纸条和其他任何张纸条和其他任何10张纸条,被抽张纸条,被抽中的机会都一样。中的机会都一样。37一所大学有一所大学有2000位男教师和位男教师和500位女教师,学校主管部门想从中位女教师,学校主管部门想从中抽取一个随机样本,听取他们的意见。主管部门从已经排好顺序抽取一个随机样本,听取他们的意见。主管部门从已经排好顺序的的男教师名单和女教师名单中分别用随机数表抽选男教师名单和女教师名单中分别用随机
25、数表抽选了了200位男教位男教师和师和50位女教师作为代表。位女教师作为代表。总体总体N样本样本n38(总体单位按某一标志排序)(总体单位按某一标志排序)某宿舍楼共有某宿舍楼共有100100个房间,现要从中随机抽选个房间,现要从中随机抽选4 4个房间检查卫生情况。个房间检查卫生情况。100/4=25100/4=25。首先从头。首先从头2525间房间中抽签选中一间。这样,样本包括选出间房间中抽签选中一间。这样,样本包括选出的这间以及这间之后的第的这间以及这间之后的第2525、第、第5050及第及第7575间,其间隔都为间,其间隔都为2525。39ABCDEFGHIJKLMNOPLHPD某地区质检
26、部门要对当日运到该地的蒙牛液态奶进行质量检查。该批某地区质检部门要对当日运到该地的蒙牛液态奶进行质量检查。该批牛奶为小纸箱包装,每箱内装牛奶为小纸箱包装,每箱内装20袋。为不影响产品的正常销售,袋。为不影响产品的正常销售,检检查人员从查人员从2000箱中随机抽选了箱中随机抽选了20箱,这箱,这20箱中的箱中的400袋液态奶被取袋液态奶被取出作为样本出作为样本进行检查。进行检查。样本样本40411. .样本的抽取遵循样本的抽取遵循随机原则随机原则。概率抽样的特点:概率抽样的特点:所谓随机原则,就是样本的抽取排除了人的主观随所谓随机原则,就是样本的抽取排除了人的主观随意性或目的性,调查对象总体中的
27、意性或目的性,调查对象总体中的每个单位都按照每个单位都按照一定的、事先已知的概率被抽选一定的、事先已知的概率被抽选,也就是说总体中的也就是说总体中的任何一个单位任何一个单位都有机会都有机会被抽中被抽中。每个总体单位的入样概每个总体单位的入样概率事先已知或可以计算率事先已知或可以计算42随机抽样有以下性质:随机抽样有以下性质:n(1)对于特定的总体和特定的抽样方法,对于特定的总体和特定的抽样方法,所有可能所有可能的样本的样本是可以确定的是可以确定的。例:从例:从1 1、2 2、3 3中用中用简单随机抽样简单随机抽样方式方式重复重复抽取抽取2 2个数字组成新的数,可以组成多少个数。个数字组成新的数
28、,可以组成多少个数。 1111,1212,1313; 2121,2222,2323; 3131,3232,333343n(2)每个可能样本被抽取的每个可能样本被抽取的概率是已知概率是已知的的。例:从例:从1 1、2 2、3 3中用中用简单随机抽样简单随机抽样方式方式重复重复抽取抽取2 2个数字组成新的数,共个数字组成新的数,共9 9个可能的样本。个可能的样本。 1111,1212,1313; 2121,2222,2323; 3131,3232,3333每个样本被抽中的概率都每个样本被抽中的概率都是是1/944n(3)用一种随机方法抽选样本时,)用一种随机方法抽选样本时,每个可能每个可能的样本都
29、有一个适当的被抽中的概率的样本都有一个适当的被抽中的概率;n(4)根据样本估计总体时,)根据样本估计总体时,一个样本只能得一个样本只能得到唯一估计值。到唯一估计值。452. 可以运用可以运用概率估计概率估计的方法的方法对总体数量特征进行推断对总体数量特征进行推断,包括对总体数量特征(或总体目标量)进行包括对总体数量特征(或总体目标量)进行估计或估计或作出作出假设检验假设检验 。3. 抽样误差可以计算并加以控制抽样误差可以计算并加以控制。 根据抽样分布计算的根据抽样分布计算的抽样标准误差抽样标准误差可以反映抽样可以反映抽样误差的一般水平。误差的一般水平。概率抽样的特点概率抽样的特点46由于概率抽
30、样更科学,更具有优越性,因此由于概率抽样更科学,更具有优越性,因此通常所说的、狭义上的抽样就是指概率抽样通常所说的、狭义上的抽样就是指概率抽样,狭义上的抽样技术就是指概率抽样技术。狭义上的抽样技术就是指概率抽样技术。47之一:之一:随机与随意的区别随机与随意的区别 需要强调的两点需要强调的两点“随机随机”有科学的含义,有科学的含义,其结果可以用概率来描述其结果可以用概率来描述“随意随意” 更多地带有人的主观更多地带有人的主观性,结果难以用概率来表示性,结果难以用概率来表示VS根本的区别在于:根本的区别在于:能否确保总体中的每个单位有事先可以能否确保总体中的每个单位有事先可以计算和确定的、非零的
31、概率被抽中计算和确定的、非零的概率被抽中48思考:思考:na.电视节目主持人在节目现场、在观众的监督下从电视节目主持人在节目现场、在观众的监督下从放在玻璃缸中的观众来信中抽出放在玻璃缸中的观众来信中抽出5封来信,来确定获封来信,来确定获奖观众。这是随机抽取吗?为什么?如果是,概率奖观众。这是随机抽取吗?为什么?如果是,概率如何确定?如果不是,应该怎么做?如何确定?如果不是,应该怎么做?nb. 为调查工商大学在校生生活消费情况,于用餐时为调查工商大学在校生生活消费情况,于用餐时间在食堂门口对路过的学生发放问卷进行调查,这间在食堂门口对路过的学生发放问卷进行调查,这是概率抽样吗?为什么?是概率抽样
32、吗?为什么?49n美国专栏作家蓝德丝美国专栏作家蓝德丝在杂志上刊登了一个问题在杂志上刊登了一个问题,询问已有孩,询问已有孩子的读者:子的读者: “如果可以重来一次,你会要孩子吗?如果可以重来一次,你会要孩子吗?”她收到她收到了了近近10,000份答复,几乎有份答复,几乎有70%说:说:“不要!不要!”,同时附上,同时附上了很多令人心碎的故事,他们的孩子是如何折磨父母了很多令人心碎的故事,他们的孩子是如何折磨父母的的 n这个这个调查的对象是该杂志的父母读者调查的对象是该杂志的父母读者,方法是在杂志上刊登,方法是在杂志上刊登问卷,得到的样本是一种问卷,得到的样本是一种“自发性的回应样本自发性的回应
33、样本”。n一周之后,美国一周之后,美国每日新闻每日新闻在其全美专业性的电话随机抽在其全美专业性的电话随机抽样调查中样调查中,也询问了同样的问题。这个,也询问了同样的问题。这个随机抽样共调查了随机抽样共调查了1,373位父母位父母(注:美国专业调查机构定期进行的民意调查,(注:美国专业调查机构定期进行的民意调查,样本量一般都是这个水平),其中有样本量一般都是这个水平),其中有91%说:说:“要!要!”案例分析案例分析n随意样本与随机样本的差别有多大?随意样本与随机样本的差别有多大?n对同一个问题进行的两个调查,结果的差别为什么这么大?对同一个问题进行的两个调查,结果的差别为什么这么大?50n在这
34、个实例中,在这个实例中,同样的调查问题,由于调查的总体(对象)同样的调查问题,由于调查的总体(对象)和方法不同,得到的调查结果就截然不同和方法不同,得到的调查结果就截然不同。n随意抽样的样本是有偏差的,它不能代表目标总体的全部单随意抽样的样本是有偏差的,它不能代表目标总体的全部单位,样本的代表性不足。位,样本的代表性不足。n随机抽样的最大优点是总体中的每个单位都有机会进入样本。随机抽样的最大优点是总体中的每个单位都有机会进入样本。n在本例中,随机抽样给了所有父母相同的回答机会!并没有在本例中,随机抽样给了所有父母相同的回答机会!并没有特别照顾那些因为被孩子气昏了而写信给蓝德丝的父母!特别照顾那
35、些因为被孩子气昏了而写信给蓝德丝的父母!51之二:之二:概率抽样概率抽样不同于不同于等概率抽样等概率抽样概率抽样概率抽样是指总体中的各单位都有是指总体中的各单位都有非零的概率非零的概率被抽中,各被抽中,各单位被抽中的单位被抽中的概率可以相等,也可以不相等概率可以相等,也可以不相等。如果各单位被抽中的概率相等,如果各单位被抽中的概率相等, 称为称为等概率抽样等概率抽样;如果各单位被抽中的概率不相等,称为如果各单位被抽中的概率不相等,称为不等概率抽样不等概率抽样。需要强调的两点需要强调的两点52二、抽样调查的基本程序二、抽样调查的基本程序设计抽样方案设计抽样方案编制抽样框和设计调查表编制抽样框和设
36、计调查表试抽样调查试抽样调查完整的抽样调查过程大致包括以下七个基本步骤:完整的抽样调查过程大致包括以下七个基本步骤:抽样调查的指导纲领抽样调查的指导纲领和总体思路和总体思路一个完善的抽样框是一个完善的抽样框是保证抽样的保证抽样的随机性和对总体推断有效性随机性和对总体推断有效性的的重要条件,能有效重要条件,能有效预防预防非抽样误差非抽样误差中的抽样框偏差中的抽样框偏差调查表是把调查内容具体化、调查表是把调查内容具体化、用以收集个体资料的用以收集个体资料的工具工具抽取一个小样本试调查,检验抽取一个小样本试调查,检验抽样方案和抽样框、调查表抽样方案和抽样框、调查表53正式抽样调查正式抽样调查数据处理
37、数据处理推断分析推断分析总结评估总结评估抽取样本、获取样本资料抽取样本、获取样本资料要严格遵循随机原则要严格遵循随机原则检查样本资料检查样本资料分类、汇总分类、汇总计算样本统计量和抽样误计算样本统计量和抽样误差差对总体进行估计或对总体进行估计或假设检验假设检验经验总结经验总结质量评估质量评估54 1936年,美国总统选举前,一份颇有名气的杂年,美国总统选举前,一份颇有名气的杂志志文学摘要文学摘要的工作人员做了一次民意测验,调查的工作人员做了一次民意测验,调查共和党的兰登(当时任堪萨斯州州长)和民主党的罗共和党的兰登(当时任堪萨斯州州长)和民主党的罗斯福(当时的总统)谁将当选下一届总统。为了了解
38、斯福(当时的总统)谁将当选下一届总统。为了了解公众意向,调查者从电话号码簿和俱乐部会员名单上公众意向,调查者从电话号码簿和俱乐部会员名单上选取了选取了1000万人调查,收回万人调查,收回240万份调查问卷。通万份调查问卷。通过分析收回的调查表,显示兰登非常受欢迎(两者之过分析收回的调查表,显示兰登非常受欢迎(两者之比比57% 43%),于是该杂志预测兰登将在选举中),于是该杂志预测兰登将在选举中胜出,并大力进行宣传。最后结果却是罗斯福以胜出,并大力进行宣传。最后结果却是罗斯福以62% 38%的巨大优势获胜连任总统,预测失败使的巨大优势获胜连任总统,预测失败使杂志社威信扫地,不久只得关门停刊,被
39、称作杂志社威信扫地,不久只得关门停刊,被称作抽样中抽样中的泰坦尼克事件。请分析失败的原因。的泰坦尼克事件。请分析失败的原因。一个著名案例一个著名案例55n解解 : 预测失败主要有两方面原因,预测失败主要有两方面原因,原因之一是样本不原因之一是样本不是从总体中随机抽选的,样本是从总体中随机抽选的,样本不具代表性不具代表性。在在1936年,年,美国家庭电话尚未普及,大约仅有美国家庭电话尚未普及,大约仅有100万部左右;而且万部左右;而且有条件参加社会俱乐部的人,多数为经济上富有、政有条件参加社会俱乐部的人,多数为经济上富有、政治上保守的选民。当时经济萧条期刚过,贫困与失业治上保守的选民。当时经济萧
40、条期刚过,贫困与失业人数较多。人数较多。“罗斯福新政罗斯福新政”动用行政手段干预市场经动用行政手段干预市场经济,损害了部分富人的利益,但广大的美国人民从中济,损害了部分富人的利益,但广大的美国人民从中得到了好处。该杂志抽取的样本没有很好地反映出各得到了好处。该杂志抽取的样本没有很好地反映出各阶层的利益需要,有失公平性。阶层的利益需要,有失公平性。原因之二是问卷回收原因之二是问卷回收率较小,率较小,一半以上的问卷意见没有得到真实反映。因一半以上的问卷意见没有得到真实反映。因此,预测失败也就不足为奇了。此,预测失败也就不足为奇了。【评析评析】 以上事例说明,在抽样调查中,样本的选择以上事例说明,在
41、抽样调查中,样本的选择至关重要,样本能否代表总体,直接影响着统计结果的至关重要,样本能否代表总体,直接影响着统计结果的可靠性。可靠性。56三、抽样技术的作用三、抽样技术的作用 (一)节省调查费用(一)节省调查费用(二)增强调查的时效性(二)增强调查的时效性(三)有助于提高调查数据的质量(三)有助于提高调查数据的质量所有调查都会存在所有调查都会存在调查性误差调查性误差。实际中。实际中它可能比抽样误差还它可能比抽样误差还要大要大思考:根据样本资料估计的总体数量特征,与普思考:根据样本资料估计的总体数量特征,与普查得到的总体数量特征,哪一个更为准确?查得到的总体数量特征,哪一个更为准确?57n调查性
42、误差调查性误差是由于记录、测量、计算错误,或者有是由于记录、测量、计算错误,或者有意、无意错答、漏答,或者受到人为干扰而造成的意、无意错答、漏答,或者受到人为干扰而造成的调查资料与实际情况不符。调查资料与实际情况不符。n调查范围越大,调查性误差越大。调查范围越大,调查性误差越大。n所以所以普查的调查性误差可能比抽样调查的总误差还普查的调查性误差可能比抽样调查的总误差还要大要大美国人口普查局估计,美国人口普查局估计,2010年人口普查把美国总人口高估了年人口普查把美国总人口高估了3.6万人,或万人,或0.01%。普查漏算了。普查漏算了2.1%的非裔和的非裔和1.5%西班西班牙裔,加起来达牙裔,加
43、起来达150万人。虽然万人。虽然2010年投放更多宣传及加强年投放更多宣传及加强接触少数民族,使普查总成本达到前所未有的接触少数民族,使普查总成本达到前所未有的15亿美元,但亿美元,但是漏报的百分比仍然与是漏报的百分比仍然与2000年相似。年相似。即使有政府强大的资源后盾,普查也不一定真正做到全面调查。即使有政府强大的资源后盾,普查也不一定真正做到全面调查。“普查只能试图把整个总体纳入样本。普查只能试图把整个总体纳入样本。”58(四)承担全面调查难以胜任的调查任务(四)承担全面调查难以胜任的调查任务 如:如: 无限总体无限总体(大气、海洋污染情况调查)(大气、海洋污染情况调查)动态总体动态总体
44、(连续生产的产品性能检验)(连续生产的产品性能检验)范围过大、过于分散的有限总体范围过大、过于分散的有限总体(居民家计调查、(居民家计调查、电视节目收视率,江河水库中的鱼苗、森林)电视节目收视率,江河水库中的鱼苗、森林)不便于或者不必要进行全面调查的现象不便于或者不必要进行全面调查的现象,如破坏性如破坏性检验(显像管的寿命、种子的发芽率等)检验(显像管的寿命、种子的发芽率等)59(六)用以对总体特征的某种假设进行检验,为(六)用以对总体特征的某种假设进行检验,为方案的取舍和决策的决定提供依据。方案的取舍和决策的决定提供依据。 (五)与其它统计调查相互结合,相互补充(五)与其它统计调查相互结合,
45、相互补充抽样调查与普查结合抽样调查与普查结合长短表技术长短表技术抽样调查与重点调查结合抽样调查与重点调查结合目录抽样目录抽样60 思考:思考:试分析以下几种抽样属于何种抽样(概率或非概率):试分析以下几种抽样属于何种抽样(概率或非概率):n在某社区,每隔在某社区,每隔1010户抽取户抽取1 1户进行家计调查。户进行家计调查。n在入户访问中,样本由愿意接受调查者组成。在入户访问中,样本由愿意接受调查者组成。n一卡车刚刚倒下一卡车刚刚倒下1010吨小麦,堆成圆锥状。从最边沿处取一桶吨小麦,堆成圆锥状。从最边沿处取一桶小麦进行淀粉含量调查。小麦进行淀粉含量调查。n从各班选取从各班选取5 5名成绩排名
46、中等的学生进行英语写作能力测试。名成绩排名中等的学生进行英语写作能力测试。n在某网站上发布问卷进行调查。在某网站上发布问卷进行调查。n从钱包中取出排在最前面的一张纸币,凡学号尾数与纸币尾从钱包中取出排在最前面的一张纸币,凡学号尾数与纸币尾数相同的学生被抽中作为样本。数相同的学生被抽中作为样本。61 第三节第三节 抽样技术的应用抽样技术的应用62n 1、用于、用于普查普查中提前估计人口总数和检验普查的质量;中提前估计人口总数和检验普查的质量;n 2、用于两次普查年份之间(逢、用于两次普查年份之间(逢5 5年份)的年份)的1%1%人口抽样人口抽样调查;调查;n 3、用于每年一次的经常性人口变动情况
47、抽样调查。、用于每年一次的经常性人口变动情况抽样调查。一、人口调查一、人口调查人口调查是最早应用抽样技术的领域。人口调查是最早应用抽样技术的领域。抽样技术在我国人口调查中的应用主要有三个方面:抽样技术在我国人口调查中的应用主要有三个方面:63n第六次人口普查采用第六次人口普查采用长短两种普查表长短两种普查表。n普查表普查表短表短表为反映人口基本状况的项目,为反映人口基本状况的项目, 90%90%的户填报短表;的户填报短表;普查表普查表长表长表包括所有短表内容和有关迁移、受教育、经济活包括所有短表内容和有关迁移、受教育、经济活动、婚姻家庭、生育和住房等情况的项目,动、婚姻家庭、生育和住房等情况的
48、项目,由由10%10%的户填报。的户填报。长表户的抽取,由乡镇街道人口普查办公室在长表户的抽取,由乡镇街道人口普查办公室在“住户姓名底住户姓名底册册”上,按照国家统一制定的工作细则上,按照国家统一制定的工作细则随机等距抽选随机等距抽选。人口普查中的抽样调查人口普查中的抽样调查64人口普查中的人口普查中的事后质量抽样调查事后质量抽样调查 人口普查登记和复查工作结束后,在全国范围内再抽取一定人口普查登记和复查工作结束后,在全国范围内再抽取一定数量的样本数量的样本( (或调查小区或调查小区) ),将,将样本区域内的普查表暂时封存,样本区域内的普查表暂时封存,并重新进行一次独立的调查登记并重新进行一次
49、独立的调查登记。 然后打开正式普查登记的普查表,与抽查的普查表进行逐项然后打开正式普查登记的普查表,与抽查的普查表进行逐项比较,以此比较,以此估算出人口普查的总人口完整率、估算出人口普查的总人口完整率、 总人口多报或少报了多少、各项目的登记差错率总人口多报或少报了多少、各项目的登记差错率是多少,是多少, 这就是事后质量抽样调查。这就是事后质量抽样调查。n20102010年普查登记结束后,将全国年普查登记结束后,将全国3131个省个省按照人口流动、人口按照人口流动、人口规模等指标进行分层,采用概率比例方法在全国共规模等指标进行分层,采用概率比例方法在全国共抽取抽取602602个调查小区个调查小区
50、、约约16万人进行事后质量抽查,抽样比为万人进行事后质量抽查,抽样比为0.14。n抽查结果,本次普查的抽查结果,本次普查的人口漏登率为人口漏登率为1.2 。65n目前各国在产业、贸易、金融、居民收入与支出、消目前各国在产业、贸易、金融、居民收入与支出、消费等方面,基本上都通过抽样调查来获取信息。费等方面,基本上都通过抽样调查来获取信息。二、经济调查二、经济调查 经济调查是应用抽样技术最为普遍、也最重要的领域。经济调查是应用抽样技术最为普遍、也最重要的领域。 农村居民生产、生活情况调查,农产量调查,农村居民生产、生活情况调查,农产量调查, 城镇居民生活情况调查,城镇居民生活情况调查, 工业调查,