1、统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分统计学教程 第2章 统计数据收集 2.1 统计数据的来源 2.1.1 统计调查 2.1.2 数据的搜集方法2.2 统计调查设计 2.2.1 统计调查方案设计 2.2.2 问卷设计 2.2.3 敏感问题的随机化处理2.3 统计数据质量 2.3.1 统计数据的误差种类 2.3.2 统计数据的质量标准第2章 统计数据收集 2.1 2.1 统计数据的来源统计数据的来源 统计学教程卢小广2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 从统计数据的观测登记方式和统计数据本身的属性看,统计数据存在着两种不同的
2、来源:一是专门组织的统计调查;二是科学试验、生产实一是专门组织的统计调查;二是科学试验、生产实验和交易活动的观测数据。验和交易活动的观测数据。 从使用者的角度看,统计数据存在两种不同的来源。 一是直接的来源一是直接的来源,使用者所应用是由自己亲自观测登记获得的统计数据,属于第一手的统计数据,称为初级数据; 二是间接的来源二是间接的来源,使用者所应用是由他人观测登记获得的统计数据,属于第二手的统计数据,称为次级数据。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 统计学教程第2章 统计数据收集 从观测登记方式看 从使用者的角度看
3、统计数据的来源科学试验、生产实验和交易活动统计调查、试验、实验和交易活动(直接的统计数据)别人查或登记的数据(间接的统计数据)专门组织的统计调查2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 从统计数据的观测登记方式和统计数据本身的属性看,统计数据存在着两种不同的来源:一是专门组织的统计调查;二是科学试验、生产实一是专门组织的统计调查;二是科学试验、生产实验和交易活动的观测数据。验和交易活动的观测数据。 从使用者的角度看,统计数据存在两种不同的来源。 一是直接的来源一是直接的来源,使用者所应用是由自己亲自观测登记获得的统计数据,属于第一手的统计数据,称为初级数
4、据; 二是间接的来源二是间接的来源,使用者所应用是由他人观测登记获得的统计数据,属于第二手的统计数据,称为次级数据。 任何任何第二手统计数据都是来源于他人观测登记所获得的第一手统计第二手统计数据都是来源于他人观测登记所获得的第一手统计数据。数据。归根到底,归根到底,专门组织的统计调查,科学试验和生产实验的观测数专门组织的统计调查,科学试验和生产实验的观测数据是统计数据的来源所在,是第一性的,决定着统计数据的质量。据是统计数据的来源所在,是第一性的,决定着统计数据的质量。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分2.1.1 统计调查 统计数据调查的主要方法有普查、抽样调查
5、和统计报表。 我国政府统计调查工作是“以必要的周期性以必要的周期性普查普查为基础,经常为基础,经常性的性的抽样调查抽样调查为主体,为主体,重点调查、科学推断重点调查、科学推断等为补充的多种方法等为补充的多种方法综合运用的国家统计调查方法体系。综合运用的国家统计调查方法体系。” 国务院1994年42号文 2.1 2.1 统计数据的来源统计数据的来源 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 1普查 普查(普查(CensusCensus)是为了特定目的而专门组织的一次性或周期性的全面)是为了特定目的而专门组织的一次性或周期性的
6、全面调查,调查在某一标准时间上的社会经济现象的总量。调查,调查在某一标准时间上的社会经济现象的总量。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分总体单位总体单位调查单位调查单位普普 查查 对对全部单位全部单位进进行的调查。行的调查。统计学教程第2章 统计数据收集 2.1 2.1 统计数据的来源统计数据的来源 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 1普查 普查(普查(CensusCensus)是为了特定目的而专门组织的一次性或周期性的全面)是为了特定目的而专门组织的一次性或周期性的全面调查,调查在某一标准时间上的社会经济现象的总
7、量。调查,调查在某一标准时间上的社会经济现象的总量。 普查具有以下特点:(1)普查是一种全面调查。(2)普查是一种一次性或周期性的调查。(3)普查是一种调查在某一标准时间上的社会经济现象总量的调查。 普查的目的:(1)在于搜集那些不能够或不适宜用其它统计调查方式搜集的统计数据,以搞清重要的国情、国力。(2)为经常性的抽样调查提供抽样框和其它辅助数据。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 我国的普查我国的普查 1994年方案 人口 农业 工业 第三产业 基本单位 普查年份 0 7 3 5 1,6 (尾数) 统计学教程第2
8、章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 我国的普查我国的普查 1994年方案 人口 农业 工业 第三产业 基本单位 普查年份 0 7 3 5 1,6 (尾数) 建筑业 2003年方案 人口 农业 经济普查 普查年份 0 6 3,8 (尾数)统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分2抽样调查 抽样调查(抽样调查(Sampling Survey)是根据随机原则和具体的抽样技术)是根据随机原则和具体的抽样技术的要求,从总体中抽取部分个体构成样本,并依据样本信息推断总的要求,从总体中抽取部分个体构成样本,并依据样本信
9、息推断总体数量特征的非全面调查。体数量特征的非全面调查。2.1 2.1 统计数据的来源统计数据的来源 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分总体单位总体单位调查单位调查单位抽样调查抽样调查 按按随机原则抽取随机原则抽取部部分单位进行的调查。分单位进行的调查。统计学教程第2章 统计数据收集 2.1 2.1 统计数据的来源统计数据的来源 2022年6月1日/上午12时5分2抽样调查 抽样调查(抽样调查(Sampling Survey)是根据随机原则和具体的抽样技术)是根据随机原则和具体的抽样技术的要求,从总体中抽取部分个体构成样本,并依据样本信息推断总的要求,从总体中抽
10、取部分个体构成样本,并依据样本信息推断总体数量特征的非全面调查。体数量特征的非全面调查。 (1)抽样调查是一种按照随机原则抽取样本的调查。 (2)抽样调查是一种可以事先估计和控制抽样误差的调查。 (3)抽样调查是一种非全面调查。 (4)抽样调查是一种准确性高的调查。 (5)抽样调查是一种具有广泛适用性的调查。2.1 2.1 统计数据的来源统计数据的来源 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 抽样调查的作用: 抽样调查可以用于破坏性检验场合的调查和推断。 抽样调查可以用于较大规模总体或无限总体的调查和抽样。 抽样调查可以用于检查和补充全面调查数据。 抽样调查可以用于
11、企业的全面质量控制。 自1953年起,我国政府统计部门相继成立了全国农产量调查总队和各省、市、自治区农产量调查队。1982年以后,我国又设立了全国城市抽样调查队和企业调查队,最近又组建全国的抽样调查局系统。已经形成了一个自上而下的全国抽样调查网络体系。 2.1 2.1 统计数据的来源统计数据的来源 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 3统计报表 统计报表(统计报表(Statistical Report FormsStatistical Report Forms)是指按照统一的表式,统一)是指按照统一的表式,统一的报送
12、时间和报送程序,自上而下统一布置,自下而上逐级上报,逐级的报送时间和报送程序,自上而下统一布置,自下而上逐级上报,逐级汇总,提供基本统计数据的统计调查方式。汇总,提供基本统计数据的统计调查方式。 统计报表分为国家正式报表和企业内部报表。国家正式报表是指按照国家有关法规规定,由统计主管部门正式核准的,所有单位和公民都必须依法填写和报送的统计报表。企业内部报表是现代企业管理信息采集和经营决策分析的重要工具之一,由企业按照内部核算要求和填报国家正式报表需要,自行制定,自我管理。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 4重点调查
13、 重点调查是在调查对象中选择一部分重点单位所进行的一种非全面调重点调查是在调查对象中选择一部分重点单位所进行的一种非全面调查。查。 所谓重点单位是指在总体中举足轻重的那些单位,这些单位的数目不能太多,但这些单位的标志值之和却占总体标志总量的绝大比重,通过对这些重点单位的调查,就可以了解总体的基本情况。但是,重点调查不能推断总体。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分总体单位总体单位调查单位调查单位重点调查重点调查 对对重点单位重点单位(个数(个数不多,但其标志量占不多,但其标志量占标志总量比重较大的标志总量比重较大的单位)进行的调查。单位)进行的调查。统计学教程第
14、2章 统计数据收集 2.1 2.1 统计数据的来源统计数据的来源 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 4重点调查 重点调查是在调查对象中选择一部分重点单位所进行的一种非全面调重点调查是在调查对象中选择一部分重点单位所进行的一种非全面调查。查。 所谓重点单位是指在总体中举足轻重的那些单位,这些单位的数目不能太多,但这些单位的标志值之和却占总体标志总量的绝大比重,通过对这些重点单位的调查,就可以了解总体的基本情况。但是,重点调查不能推断总体。 重点调查的应用条件是在总体中必须客观存在这样的重点单位,从而可以通过对总体内少量重点单位的调查,来实现对总体基
15、本情况的了解,达到进行统计调查的目的。 重点调查的意义就在于当总体内客观存在重点单位时,我们能够利用较少的费用和较短的时间,通过对少量重点单位的统计调查,来获得能够反映总体全貌的数量特征的基本资料。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 5典型调查 典型调查就是根据调查目的和调查对象的特点从调查对象中有意识地典型调查就是根据调查目的和调查对象的特点从调查对象中有意识地选取若干有代表性的单位(即典型单位)进行的调查方法。选取若干有代表性的单位(即典型单位)进行的调查方法。统计学教程第2章 统计数据收集 2022年6月1日/
16、上午12时5分总体单位总体单位调查单位调查单位典型调查典型调查 有意识地选择有意识地选择部部分典型单位进行的分典型单位进行的调查。调查。统计学教程第2章 统计数据收集 2.1 2.1 统计数据的来源统计数据的来源 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 5典型调查 典型调查就是根据调查目的和调查对象的特点从调查对象中有意识地典型调查就是根据调查目的和调查对象的特点从调查对象中有意识地选取若干有代表性的单位(即典型单位)进行的调查方法。选取若干有代表性的单位(即典型单位)进行的调查方法。 典型单位根据调查的目的不同,一般有三种不同选取办法。 一是近似地估
17、算总体的数值,可采用“划类选典”方法。 二是了解总体的一般数量表现,可采用“择中选典”方法。 三是研究成功的经验或失败的教训,可采用“优劣选典”方法。 调查单位是根据调查的目的,在对调查对象进行全面分析的基础上有意识地选择出来的。调查资料不能推断总体。 在一定条件下可用“划类选典”和“择中选典”的典型调查的资料补充全面调查的不足。典型调查为非概率抽样,不能计算抽样误差。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 2.1.2 数据的搜集方法 数据的搜集方法一般可以归纳为询问调查和观察实验两大类。1询问调查 询问调查是调查者与被
18、调查者通过某种方式和某种工具进行信息交流,以采集和登记调查数据的方法。可以分为以下几类。(1)访问调查。(2)电话调查。(3)邮寄调查。(4)计算机辅助调查(网络调查)。(5)座谈会调查。2观察和实验(1)观察法。(2)实验法。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.1 2.1 统计数据的来源统计数据的来源 讨论题讨论题 谈一谈你所接触过的统计数据的搜集方法。 统计学教程第2章 统计数据收集 第2章 统计数据收集 2.2 2.2 统计调查设计统计调查设计统计学教程卢小广2022年6月1日/上午12时5分 2.2.1 统计调查方案设计 统计调查是一项复杂细致的系统
19、工程,为了统一认识、统一内容、统一方法、统一步调,必须事先编制一个科学的统计调查方案。 统计调查方案一般包括以下几方面的内容: 1调查任务和目的 2调查对象、调查单位和填报单位 3调查项目和调查指标 4调查时间 5调查方法 6调查误差的控制方法 7调查数据的汇总处理方法 8调查表和调查问卷设计 9制定调查工作的组织实施计划 2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 1调查任务和目的 调查任务和目的是统计调查的依据。 调查目的决定着调查的对象、内容和方法。 以第五次全国人口普查办法为例 第一条 为了科学地制定国民经济和社会发展战
20、略与规划,制定人口政策,统筹安排人民的物质和文化生活,实现人口与资源、环境的协调发展,国务院决定于2000年进行第五次全国人口普查。根据中华人民共和国统计法,制定本办法。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2调查对象、调查单位和填报单位 调查对象和调查单位的确定取决于调查任务和目的。 调查对象与统计总体相联系;调查单位与总体单位相联系。填报单位(又称报告单位)是负责向上级报告调查内容、提交统计资料的单位。 第六条 人口普查的对象是具有中华人民共和国国籍并在中华人民共和国境内常住的人(全体为调查对象,每一公民为调查单位)。
21、 第八条 人口普查以户为单位进行登记。户分为家庭户和集体户。(填报单位)2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分3调查项目和调查指标 调查项目就是调查中所要登记的调查单位的标志及其它有关情况。确定调查项目的依据是事先设计好的统计指标。确定调查项目时应注意的主要问题还有以下几点。 (1)资料搜集的可行性。 (2)项目和指标解释的一致性。 (3)保证项目和指标之间的衔接性。 (4)保证项目和指标动态可比性。 2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 4调查时间 一
22、是调查资料所属的时间。如果所要调查的是时期现象,就要明确规定搜集从什么时间开始到什么时间结束的资料;如果所要调查的是时点现象,就要明确规定统一的标准时点。 二是调查工作的期限。指的是调查工作开始和结束的具体时间要求。 第三条 2000年11月1日零时,为第五次全国人口普查登记的标准时间。 第十九条 人口普查的现场登记工作,从2000年11月1日开始到11月10日以前结束。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 5调查方法 包括普查、抽样调查、统计报表、重点调查、典型调查等方法,根据具体要求和条件采用。 2.2 2.2 统计调
23、查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分6调查误差的控制方法 根据所采用的不同统计调查方法,对于调查中可能出现的误差,相应地采取不同的调查误差控制方法,以提高统计调查资料的质量和可比性。 第二十三条 普查登记的个人资料不得作为行政管理和表彰、处罚的依据。 第二十四条 人口普查机构和各级普查工作人员,对各户申报的情况,必须保守秘密,不得向人口普查机构以外的任何单位和个人提供或者泄露。严禁公开个人和家庭的登记资料。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 第二十六条 普查登记结束后,普
24、查指导员应当组织普查员按照规定的方法进行全面复查,发现差错,经核实后,予以改正。 复查工作在2000年11月15日以前完成。 第二十七条 复查工作完成后,全国抽取千分之零点一五的人口进行事后质量抽查。事后质量抽查由国务院人口普查办公室统一组织进行。抽查人员不得在原来参加普查的普查区进行质量抽查工作。质量抽查工作在2000年11月30日以前完成。事后质量抽查结果只作为评价全国人口普查登记质量的依据,不用于评价地方人口普查的工作质量。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分7调查数据的汇总处理方法 首先是制定调查数据的汇总方法。大
25、多采用分级汇总与超级汇总相结合的方式。 其次是制定调查数据的处理方法。 大型的统计调查可以通过编制专用的调查资料汇总和数据处理软件来保证这一工作的质量和效率。 第三十三条 人口普查机构对普查的几项主要数字,先进行快速汇总。省、自治区、直辖市人民政府人口普查领导小组办公室将汇总结果于2000年12月31日以前报送国务院人口普查办公室。国家统计局和国务院人口普查办公室于2001年1月31日以前发布公报。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 第三十四条 人口普查表经复查后,由编码员在编码指导员的指导下,按照统一规定的标准,集中在
26、县级进行编码。 编码资料经全面复核、验收合格后,方可交付录入。 编码工作于2001年4月30日以前完成。 第三十五条 人口普查表短表、长表,以调查小区为单位分别装入不同的包装袋。死亡人口调查表以普查区为单位装入相应的包装袋。 第三十六条 人口普查资料由人口普查机构负责进行电子计算机数据处理。汇总程序由国务院人口普查办公室统一下发。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分8调查表和调查问卷设计 把确定的调查项目按照一定顺序排列在表格上,就形成了调查表。 第九条 人口普查表分为普查表短表和普查表长表两种形式,普查表由国务院第五次全
27、国人口普查领导小组办公室(以下简称国务院人口普查办公室)设计。普查表长表根据国家规定的办法,抽出百分之十的户填报;普查表短表由其余的户填报。 调查问卷设计主要研究问卷设计,调查资料的数量化处理、调查数据的标准化处理,以及敏感问题的随机化处理等方面的问题。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 人人 口口 普普 查查 表表 本户 省,市 县 乡 镇 村 住址 自治区 市 街道 居委会 街巷 号姓名与户主关系性别出生年月民族常住人口户口登记状 况文化程度行业
28、职业就业状况婚姻状况生育子女总数123456789101112申报人: 普查员: 填报日期: 月 日 户主签名:2022年6月1日/上午12时5分9制定调查工作的组织实施计划 在统计调查实施计划中,除了以上介绍的方面外,还包括调查工作的组织领导机构的设置和职能,调查人员的培训和组织、统计调查的宣传教育、文件印刷、调查经费的管理等内容。 第十五条 各级宣传部门和新闻媒体,在人口普查登记前后,应当积极做好人口普查的宣传工作,动员群众参与人口普查。 第二十八条 人口普查的登记工作,由普查员承担,普查指导员负有对普查员的工作进行指导、检查的责任。基层干部和群众积极分子应当积极协助普查员作好登记工作。
29、第二十九条 普查员和普查指导员应当由具有初中以上文化水平、热心社会公益事业、身体健康、责任心强、能够胜任人口普查工作的人员担任。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.2.2 问卷设计 1问卷结构 问卷结构由问卷的开始,主体和结束三个部分组成。 (1)问卷的开始部分主要包括识别信息,问候语和填写说明三项内容。 (2)问卷的主体部分是调查问卷的核心内容,包括所有封闭性问题及其备择答案,和开放性问题。 (3)问卷的结束部分一般由被调查者的背景数据构成。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集
30、2022年6月1日/上午12时5分 2封闭性问题及备选答案 问卷的主体由若干问题组成,其中主要形式为封闭性问题。封闭性问题及备选答案的设计是问卷设计的核心内容。(1)封闭性问题的表达要准确,内容要完整。一般可以按照6W原则检查。即按照Who(谁),Where(何处),When(何时),Why(为什么),What(是什么),How(如何)六个方面来判断。(2)封闭性问题备择答案要不重不漏。即保证封闭性问题备择答案的完备性和周延性。(3)封闭性问题必须使用中性语言和陈述句式。要力求杜绝任何可能干扰被调查者的价值判断和真实状态的表述,不应包含任何的情绪和倾向,不能使用任何具有感情色彩和价值判断的表述
31、,也不能使用否定句,反问句,感叹句等,可能引发某种暗示和诱导效应的封闭性问题构造方式。2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分(4)封闭性问题的表述要简洁、通俗。为了提高问卷的回答率和数据的准确性,封闭性问题表述要简洁,真正做到一目了然。同时,封闭性问题表述应通俗易懂,尽量避免专业词汇,提高问卷的适用性。(5)封闭性问题的敏感性问题的处理。在一般问卷调查中必须避免任何的敏感性问题,以免造成被调查者顾虑或反感,影响到整个问卷调查的质量。敏感性问题的调查必须通过专门的调查技术,对敏感问题进行随机化处理之后,专项组织进行,方可以取得
32、可信的调查数据。 2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.2 2.2 统计调查设计统计调查设计 3问题排列(1)问题的排列应具有层次性和逻辑性,符合人们思维习惯。前后相继的问题具有内在联系,反映事物的因果关系,和递进的思维层次。(2)“过滤”性问卷设计的问题排列。“过滤”性问卷设计要求问题排列构成逻辑的树状结构。(3)问题的排列应先易后难。将简单、容易、直观的问题放在问卷的前面,提高被调查者的兴趣,使被调查者比较容易地进入答题角色,顺利完成问卷中所有问题的回答。(4)开放性问题的排列。开放性问题属于非标准化问题,其数据需
33、要调查人员事后进行人工分类整理,才能进行数据分析。开放性问题的排列要从属于封闭性问题,有关全局性的开放性问题放在整个问卷主体部分的末尾;相对某类具体封闭性问题的开放性问题,放在这类封闭性问题的末尾。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 We are happy you stopped by our Restaurant. If you have a little time, we will really appreciate it if you will fill out this card. Your comments and suggestions are e
34、xtremely important to us. Thank you! Servers No. _ Excellent Good Satisfactory UnsatisfactoryFood Quality ? ? ? ? Friendly Service ? ? ? ? Prompt Service ? ? ? ? Cleanliness ? ? ? ?2.2 2.2 统计调查设计统计调查设计 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.2 2.2 统计调查设计统计调查设计 2.2.3 敏感问题的随机化处理 所谓敏感问题是指一些涉及个人隐私问题,有关违规违约,
35、违反社会道德规范,影响个人利益和人际关系的一些问题。 敏感问题的随机化处理是使这类调查中的回答在随机状态下进行,调查者无法识别具体被调查者的个体信息,不能得到被调查者对于敏感问题的倾向和回答。但是,可以计算出该总体中对于所调查的敏感问题次数分布的估计量。在敏感问题的随机化处理下,被调查者在其个人真实状况得到完全屏蔽,使被调查者打消了顾虑,能够真实地回答问卷调查中的敏感问题,从而随机化处理的问卷调查可以获得普通调查方法无法取得的敏感问题数据。统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.2 2.2 统计调查设计统计调查设计 敏感问题的随机化处理的基本形式为沃纳(Warn
36、er)于1965年提出的沃纳模型。 沃纳模型在进行调查之前需要准备好N个备择答案,并将这N个备择答案分为“对”和“不对”两类,具体形式可以两类不同的卡片、彩球等。其中“对”的备择答案数目为 个,“不对”的备择答案数目为 个。 被调查者当场随机抽取其中一个,然后针对具体的敏感问题和抽中的备择答案回答“是”或“不是”。由于调查人员不知道被调查者随机抽取的备择答案为“对”还是“不对”,不可能仅凭回答“是”或“不是”得知被调查者的具体情况,以此来保护被调查者的利益,激励被调查者如实回答。ANANN 统计学教程第2章 统计数据收集 2022年6月1日/上午12时5分 2.2 2.2 统计调查设计统计调查
37、设计 设所调查的总体中A类特征人数的比重为A ,非A类特征人数的比重为 1- A ,样本容量为 n,回答“是”的人数为n1 ;随机抽取的备择答案中为“对”的比重为P 。则有,回答“是”的人数比例为 (2.1) 可由(2.1)式解出总体中A类特征人数的比重A的估计量的计算公式 (2.2) PPPPnnAAA1121111211211PPPnnA21P统计学教程第2章 统计数据收集 2022年6月1日/上午12时6分 2.2 2.2 统计调查设计统计调查设计 设所调查的总体中A类特征人数的比重为A ,非A类特征人数的比重为 1- A ,样本容量为 n,回答“是”的人数为n1 ;随机抽取的备择答案中
38、为“对”的比重为P 。则有,回答“是”的人数比例为 (2.1) 可由(2.1)式解出总体中A类特征人数的比重A的估计量的计算公式 (2.2) 讨论题讨论题 你所参与过的或所了解调查活动的调查方案以及调查问卷是怎样设计的?与统计学对于调查方案和调查问卷的设计存在那些差距? PPPPnnAAA1121111211211PPPnnA21P统计学教程第2章 统计数据收集 第2章 统计数据收集 2.3 2.3 统计数据质量统计数据质量统计学教程卢小广2022年6月1日/上午12时6分统计学教程第2章 统计数据收集 2.3 2.3 统计数据质量统计数据质量 2.3.1 统计数据的误差种类 数据的误差是指统
39、计数据与客观事实之间的差距。可以分为登记性误差和代表性误差两类。1登记性误差。 登记性误差是指在调查过程中由于调查者和被调查者的人为原因形成登记性误差是指在调查过程中由于调查者和被调查者的人为原因形成的误差。的误差。例如,调查者的人为原因主要有总体界定错误、调查单位缺失、计量和测量误差、记录失误、抄录错误、汇总差错;被调查者的人为原因主要有有意识地提供虚假数据、无意识地提供有误数据。从理论上说登记性误差属于可以消除的误差。2022年6月1日/上午12时6分中国的人口统计数据:中国的人口统计数据:公元公元2年(汉元始二年)年(汉元始二年) 59594978人人公元公元754年(唐天宝十三载)年(
40、唐天宝十三载) 52880488人人公元公元1122年(宋宣和四年)年(宋宣和四年) 46734784人人公元公元1281年(元至元十八年)年(元至元十八年)58830000人人公元公元1578年(明万历六年)年(明万历六年) 60692856人人公元公元1711年(清康熙五十年)年(清康熙五十年)24621324人人公元公元1741年(清乾隆六年)年(清乾隆六年) 143411559人人公元公元1763年(清乾隆二十八年)年(清乾隆二十八年)204209828人人公元公元1790年(清乾隆五十二年)年(清乾隆五十二年)301487115人人公元公元1835年(清道光十五年)年(清道光十五年)
41、401767053人人“有五六丁之户,仅一人缴纳钱粮,或有有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮九丁、十丁,亦仅二三人缴纳钱粮”康熙五十一年定康熙五十一年定“”30年间增加近年间增加近5倍!倍!统计学教程第2章 统计数据收集 2.3 2.3 统计数据质量统计数据质量 2022年6月1日/上午12时6分 2.3 2.3 统计数据质量统计数据质量 2代表性误差。 代表性误差是指利用样本数据推断总体参数时产生的误差。代表性误差是指利用样本数据推断总体参数时产生的误差。分为随机性误差和系统性误差。(1)随机性误差是由于随机性原因形成的代表性误差,它是服从于某随机性误差是由于随
42、机性原因形成的代表性误差,它是服从于某一概率分布的随机变量。一概率分布的随机变量。随机性误差是不可以消除的误差,只要利用样本数据推断总体参数,就必然存在着随机性误差。随机性误差的取值随着样本容量的增大而减小。(2)系统性误差是由于非随机性原因形成的代表性误差。系统性误差是由于非随机性原因形成的代表性误差。主要原因有抽样框过于陈旧导致的抽样框偏误、非随机样本、无回答问题、辅助数据偏误等。系统性误差属于代表性误差,也是在利用样本数据推断总体参数时产生的误差,但是系统性误差不会随着样本容量的增大而减小,不能通过增大样本容量来实现对系统性误差的控制。 统计学教程第2章 统计数据收集 2022年6月1日
43、/上午12时6分 2.3 2.3 统计数据质量统计数据质量 2代表性误差。 代表性误差是指利用样本数据推断总体参数时产生的误差。代表性误差是指利用样本数据推断总体参数时产生的误差。分为随机性误差和系统性误差。(1)随机性误差是由于随机性原因形成的随机性误差是由于随机性原因形成的代表性代表性误差,它是服从于某误差,它是服从于某一概率分布的随机变量。一概率分布的随机变量。随机性误差是不可以消除的误差,只要利用样本数据推断总体参数,就必然存在着随机性误差。随机性误差的取值随着样本容量的增大而减小。(2)系统性误差是由于非随机性原因形成的系统性误差是由于非随机性原因形成的代表性代表性误差。误差。主要原
44、因有抽样框过于陈旧导致的抽样框偏误、非随机样本、无回答问题、辅助数据偏误等。系统性误差属于代表性误差,也是在利用样本数据推断总体参数时产生的误差,但是系统性误差不会随着样本容量的增大而减小,不能通过增大样本容量来实现对系统性误差的控制。 讨论题讨论题 谈谈你对统计数据误差的认识。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时6分 2.3 2.3 统计数据质量统计数据质量 2.3.2 统计数据的质量标准 统计数据的搜集是统计活动的基础环节,所有统计数据的处理和分析都是在这个基础上进行的。对于统计数据质量的要求,具体可以归纳为统计数据的时效性,准确性、一致性时效性,准确性、一致性
45、三个方面的具体标准。 1统计数据的时效性就是指及时和准时及时和准时获取统计数据。 及时获取统计调查资料就是要在规定的统计调查时间内完成统计调查工作。 准时获取统计调查资料就是要确切地反映出统计调查对象在规定的调查时点上,或规定的调查时段中的数量特征。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时6分 2.3 2.3 统计数据质量统计数据质量 2统计数据的准确性是指确保统计数据的完整性、真实性和精确性完整性、真实性和精确性,最大限度地降低统计数据中的各种偏误。 统计调查的完整性是要保证调查对象中每一个调查单位的标志特征都要包含在统计调查的实际登记资料之中,并且仅出现一次。 统计
46、调查的真实性是要保证每一个调查单位的标志特征都要无偏差、无失真、准确无误地反映在统计调查的登记资料中。 统计调查的精确性是指在抽样调查中,要保证抽样误差有效地控制在规定的许可范围内。 3统计数据的一致性是指统计数据在时间上和空间上的连续性和可时间上和空间上的连续性和可比性比性。 统计调查的一致性就是指统计调查的具体方法、指标设置、调查体系等在时间、空间上的可比性。统计学教程第2章 统计数据收集 第2章 统计数据收集 Excel Excel 应用应用统计学教程卢小广2022年6月1日/上午12时6分 Excel Excel 应用应用 假定在某大学校园对在校本科学生进行一次随机化处理的敏感问题问卷
47、调查,调查问卷中包括了5个敏感问题。 采用随机抽取卡片的方式进行了随机化处理,事先准备好的卡片注有“对”与“不对”两种,其为“对”的卡片占卡片总数的比例为0.4。该次调查一共随机抽取了100个被调查者,针对5个敏感问题和所随机抽取的卡片回答“是”和“不是” ,来表明自己的态度。调查结果回答“是”的人数分别为50,48,44,53,57。 试采用(2.2)式来估计在该大学同学对应每个敏感问题的态度为“对”的总体比例。 即有样本容量 ,回答“是”的人数 分别为50,48,44,53,57;随机抽取备择答案“对”的比重 。请计算每个敏感问题为“对”的总体比例 的估计值。100nin4 . 0Pi统计
48、学教程第2章 统计数据收集 2022年6月1日/上午12时6分结果为:图 2.4 估计量的计算结果Excel Excel 应用应用 题号回答“对”的人数“是”的比例1500.502480.603440.804530.355570.151211211PPPnnA统计学教程第2章 统计数据收集 第2章 统计数据收集 小结与练习小结与练习统计学教程卢小广2022年6月1日/上午12时6分 本章小结本章小结 本章介绍了统计数据来源、统计调查方法、统计调查方案设计、问卷设计技术和统计数据质量等内容。 本章的重点包括普查和抽样调查的特点、统计调查方案设计、问卷设计技术、统计数据误差的种类,和统计数据质量的
49、三点标准等内容。 本章的难点是统计调查方案设计、问卷设计及其敏感问题的随机化处理方法,以及统计数据的误差分析。 统计学教程第2章 统计数据收集 2022年6月1日/上午12时6分 思考与练习思考与练习 1、简述统计数据的两个来源,及其相互关系。 2、简述普查、抽样调查的特点和联系。 3、统计调查方案设计的主要内容。 4、问卷设计的主要内容。 5、数据的登记性误差和代表性误差。 6、什么是统计数据质量的三点标准?统计学教程第2章 统计数据收集 2022年6月1日/上午12时6分 思考与练习思考与练习 1、简述统计数据的两个来源,及其相互关系。 2、简述普查、抽样调查的特点和联系。 3、统计调查方案设计的主要内容。 4、问卷设计的主要内容。 5、数据的登记性误差和代表性误差。 6、什么是统计数据质量的三点标准? “2.2.3 敏感问题的随机化处理”不作要求。 统计学教程第2章 统计数据收集 第2章 统计数据收集 结结 束束统计学教程卢小广
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。