1、统计数据收集PPT课件提出问题我们从哪里获得数据?哪里有我们所需要的数据?如果需要调查,有那么潜在调查者,我们应当向谁调查?选中被调查者以后,我们怎么实施调查?我们所获得的数据都很准确吗?如果不准确,误差是怎么产生的?怎么控制误差以获得较高质量的数据?数据来源数据的间接来源数据的直接来源间接数据的来源2001中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴、统计公报(类别与级别)2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据(证券,会计事务所)3.各类专业期刊、报纸、书籍所提供的资料(国内外期刊)4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流
2、的有关资料(top级会议,学者类和学生类)5.从互联网或图书馆查阅到的相关资料(国内、外数据库)间接数据的特点1.搜集容易,采集成本低2.作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑间接数据的评估1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源(原始数据)1.调查数据通过统计调查方法获得的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学(旗舰)、教
3、育学(多媒体)、社会学、经济学、管理学等 全面调查 全面调查是对考察对象中的所有单位全部进行调查,其主要目的是要取得全面、系统、完整的统计资料,如工业普查、人口普查等。例如设在芝加哥大学的“美国全国民意调查中心”,每两年做一次的“全面社会调查(GSS,General Social Survey)”,是最重要的社会科学抽样调查,它调查的内容包括个人以及家庭背景、经验习惯以及对某些主题的态度和意见。主题从堕胎到战争都有。总体单位总体单位调查单位调查单位全面调查 对对全部单位全部单位进进行的调查。行的调查。1994年方案 人口 农业 工业 第三产业 基本单位 普查年份 0 7 3 5 1,6 (尾数
4、)建筑业 2003年方案 人口 农业 经济普查 普查年份 0 6 3,8 (尾数)我国的普查重点调查重点调查是在考察对象中选择一部分重点单位进行的一种全面调查。所谓重点单位是指在被调查的总体中,少数几个单位的标志总量在总体标志总量中占绝大比重的单位。这些单位在总体中起着举足轻重的作用。重点单位可以是重点企业、重点产区、重点项目等。例如,为了掌握全国钢铁生产情况,可选鞍钢、宝钢、武钢、包钢、首钢、攀刚、马钢等几个大型钢铁企业进行调查,因为这少数几家大型钢铁企业的钢产量占全国钢产量的较大比重,这些大型钢铁企业就是重点企业。这样的调查统计既可以掌握面上的基本情况,又可以节省人力、物力、财力和时间。重
5、点调查的意义就在于当总体内客观存在重点单位时,我们能够利用较少的费用和较短的时间,通过对少量重点单位的统计调查,来获得能够反映总体全貌的数量特征的基本资料。总体单位总体单位调查单位调查单位重点调查 对对重点单位重点单位(个数(个数不多,但其标志量占不多,但其标志量占标志总量比重较大的标志总量比重较大的单位)进行的调查。单位)进行的调查。典型调查典型调查就是在考查对象中有意识地选择若干具有典型意义的单位进行调查。典型调查有两个显著的特点:一是调查单位是有意选择出来的,并具有代表性;二是调查范围小,调查单位少,可对某些专门问题作深入细致的调查。典型单位根据调查的目的不同,一般有三种不同选取办法。一
6、是近似地估算总体的数值,可采用“划类选典”方法。二是了解总体的一般数量表现,可采用“择中选典”方法。三是研究成功的经验或失败的教训,可采用“优劣选典”方法。典型调查的首要问题就是要选择典型单位,如果我们要了解总体的一般数量表现,可以选择中等水平的单位作为调查单位,此种选典方法称为“取中选典”比如我们要了解整个科大学生的一般水平外语水平,那么可以挑选成绩在中等水平的学生作为调查的样本进行分析。再比如如果是要总结经验教训或失败的教训,则应选择先进单位或者落后单位作为典型,做深入细致的调查。这种选典调查称为“优劣选典”。总体单位总体单位调查单位调查单位典型调查 有意识地选择有意识地选择部部分典型单位
7、进行的分典型单位进行的调查。调查。数据调查方法v概率抽样和非概率抽样方法概率抽样和非概率抽样方法v搜集数据的基本方法搜集数据的基本方法v简单随机抽样v分层抽样v系统抽样v多阶段抽样概率抽样方法1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率概率抽样(probability sampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 2.抽取元素的具
8、体方法有重复抽样和不重复抽样3.特点:简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性:当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率要求太高,现实中的数据很难满足简单随机抽样(simple random sampling)1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。比如可以按照教育程度把要访问的人群分成几类,再在每一类中调查和该类成比例数目的人,这样就确保了每一类都有相应比例的代表。2.优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实
9、施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样(stratified sampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难系统抽样(systematic sampling)1.先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将
10、该方法推广,使抽样的段数增多,就称为多阶段抽样2.具有整群抽样的优点,保证样本相对集中,节约调查费用3.需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开4.在大规模的抽样调查中,经常被采用的方法 多阶段抽样(multi-stage sampling)1.相对于概率抽样而言2.抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查3.有方便抽样、自愿样本、滚雪球抽样等方式 非概率抽样(non-probability sampling)1.调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公
11、园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查2.优点:容易实施,调查的成本低3.缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体方便抽样1.被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本2.自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体自愿样本1.先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应2.适合于对稀
12、少群体和特定群体研究3.优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低滚雪球抽样1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体适合研究对象总体的数量特征2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备概率抽样与非概率抽样的比较搜集数据的基本方法搜集数据的基本方法自 填式面 访式电 话式调 查的数据实 验的数据搜 集 数据的基本方法自填式问卷调查1.没有调查员协助的情况下由被调查者自己完成调查问卷问卷递送方法有:调查员分发、邮寄、网络、媒体2
13、.要求调查问卷结构严谨,有清楚的说明(出版社赠书)3.弱点问卷的返回率比较低不适合结构复杂的问卷调查周期比较长 数据搜集过程中出现的问题难于及时采取调改措施 面访式问卷调查1.调查员与被调查者面对面提问、被调查者回答的一种调查方式(老师谈话,police)2.优点可提高调查的回答率可提高调查数据的质量能调节数据搜集所花费的时间3.弱点调查的成本较高(小礼物)调查过程的质量控制有一定难度 (直接取决于调查员)电话式问卷调查1.通过电话向被调查者实施调查(CATI)2.特点速度快,能在短时间内完成调查成本低、问题能及时解决、调查安全性高适合于样本单位十分分散的情况3.局限如果被调查者没有电话,调查
14、将无法实施访问的时间不能太长使用的问卷需要简单被访者不愿意接受调查时,难以说服观察式调查1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料如交通流量的调查暗恋各调查方法的比较自填式 面访式电话式调查时间慢慢中等中等快捷快捷调查费用低低高高低低问卷难度要求容易要求容易可以复杂可以复杂要求容易要求容易调查过程控制简单简单复杂复杂容易容易调查员作用的发挥无法发挥无法发挥充分发挥充分发挥一般发挥一般发挥回答率最低最低较高较高一般一般数据的误差抽抽样样误误差差抽样框误差回答误差无回答误差调查员误差非非抽抽样样误误差差数数据据的的
15、误误差差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差的大小的因素样本量的大小总体的变异性非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差(时滞)、回答误差(理解)、调查员误差(登记)中国的人口统计数据:中国的人口统计数据:公元公元2年(汉元始二年)年(汉元始二年)59594978人人公元公元754年(唐天宝十三载)年(唐天宝十三载)52
16、880488人人公元公元1122年(宋宣和四年)年(宋宣和四年)46734784人人公元公元1281年(元至元十八年)年(元至元十八年)58830000人人公元公元1578年(明万历六年)年(明万历六年)60692856人人公元公元1711年(清康熙五十年)年(清康熙五十年)24621324人人公元公元1741年(清乾隆六年)年(清乾隆六年)143411559人人公元公元1763年(清乾隆二十八年)年(清乾隆二十八年)204209828人人公元公元1790年(清乾隆五十二年)年(清乾隆五十二年)301487115人人公元公元1835年(清道光十五年)年(清道光十五年)401767053人人“有
17、五六丁之户,仅一人缴纳钱粮,或有有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮九丁、十丁,亦仅二三人缴纳钱粮”康熙五十一年定康熙五十一年定“”30年间增加近年间增加近5倍!倍!统计数据质量实例 误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度 统计数据的搜集是统计活动的基础环节,所有统计数据的处理和分析都是在这个基础上进行的。对于统计数据质量的要求,具体可以归纳为统计数据的时效性,准确性、一致性三个方面的具体标准。统计数据的时效性就是指及时和准时获取统计数据。及时获取
18、统计调查资料就是要在规定的统计调查时间内完成统计调查工作。准时获取统计调查资料就是要确切地反映出统计调查对象在规定的调查时点上,或规定的调查时段中的数量特征。(及时有效的数据是top级paper的砝码)统计数据的质量标准2统计数据的准确性是指确保统计数据的完整性、真实性和精确性,最大限度地降低统计数据中的各种偏误。统计调查的完整性是要保证调查对象中每一个调查单位的标志特征都要包含在统计调查的实际登记资料之中,并且仅出现一次。统计调查的真实性是要保证每一个调查单位的标志特征都要无偏差、无失真、准确无误地反映在统计调查的登记资料中。统计调查的精确性是指在抽样调查中,要保证抽样误差有效地控制在规定的
19、许可范围内。3统计数据的一致性是指统计数据在时间上和空间上的连续性和可比性。统计调查的一致性就是指统计调查的具体方法、指标设置、调查体系等在时间、空间上的可比性。(GDP、出口、存贷款)第二节 调查设计2.1 调查方案的结构2.2 调查问卷设计调查方案的结构(survey plan)调查方案的内容调查方案的内容调查目的(objective of survey)1.调查要达到的具体目标2.回答“为什么调查?”3.调查之前必须明确调查对象和调查单位(Respondent and Survey unit)1.调查对象:调查对象:调查研究的总体或调查范围2.调查单位:调查单位:需要对之进行调查的单位。
20、可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)3.回答“向谁调查?”调查项目(Survey items)1.调查的具体内容2.通常表现为表格或问卷3.回答“调查什么?”方案设计中的其他问题1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施细则调查问卷设计什么是问卷?(questionnaires)1.用来搜集调查数据的一种工具2.调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式3.不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分开头部分、甄别部
21、甄别部分分、主体部分主体部分和背景部分背景部分组成 问卷的基本结构问卷的基本结构问卷的基本结构v开开头头v甄甄别别v主主体体v背背景景开头部分(问候语)开头部分(填写说明)填写要求:填写要求:1.请您在所选择答案的题号上画圈请您在所选择答案的题号上画圈2.对只许选择一个答案的问题只能画一个圈;对对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案可选多个答案的问题,请在你认为合适的答案上画圈上画圈3.需填写数字的题目在留出的横线上填写需填写数字的题目在留出的横线上填写4.对于表格中选择答案的题目,在所选的栏目内对于表格中选择答案的题目,在所选的栏目内画勾画勾5.对注
22、明要求您自己填写的内容,请在规定的地对注明要求您自己填写的内容,请在规定的地方填上您的意见方填上您的意见开头部分(问卷的编号)1.用于识别问卷、调查者、被调查者姓名和地址等2.便于校对检查、更正错误 问卷编号001甄别部分1.甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查2.通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的3.可以确定哪些人是合格的被调查者,哪些人不是4.甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要 甄别部分(过滤性问卷)S1请问您或您的家庭有没有在下列行业工作的呢?请问您或您的家
23、庭有没有在下列行业工作的呢?1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问S2请问您的年龄是:请问您的年龄是:120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问 主体部分1.是调查问卷的核心内容2.包括所要调查的全部问题,主要由问题和答案所组成 Q1.您在购买汽车时主要考虑哪些因素?Q2.您认为这款汽车的加速性能怎么样?背景部分1.通常放在问卷的最后,主要是有关被调查者的一些背景资料2.该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析 1.您具
24、体做什么工作?2.您的受教育程度?背景部分 A请请 问问 您您 的的 教教 育育 程程 度?度?没 受 过 正 式 教 育 1 小 学,初 中 2 高 中,职 高,中 专,技 校 3 大 专,大 学 或 以 上 4 B请请 问问 您您 的的 职职 业业 和和 职职 位位 是是 什什 么?么?普 通 职 员,工 人1 部 门 经 理 负 责 人/高 级 管 理 人 员 2 公 司 老 板,厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业,待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明)9 提问项目的设计提问项目的设计1.提问的内容尽可能短 2.用词
25、要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)3.一项提问只包含一项内容 4.避免诱导性提问 5.避免否定形式的提问 6.避免敏感性问题 用词要确切、通俗一项提问只包含一项内容避免诱导性提问避免否定形式的提问回答项目(答案)的设计回答的类型与方法开放性问题开放性问题(自由回答型自由回答型)封闭性问题封闭性问题(选择回答型选择回答型)两项选择法两项选择法多项选择法多项选择法顺序选择法顺序选择法评定尺度法评定尺度法双向列联法双向列联法限制选择型限制选择型多项选择型多项选择型单项选择型单项选择型开放性问
26、题1.对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答2.属于自由回答型3.优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造4.缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难 开放性问题 封闭性问题1.对问题事先设计出了各种可能的答案,由被调查者从中选择2.问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理3.对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全4.问题的答案是选择回答型,所以
27、设计出的答案一定要穷尽和互斥5.回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种 封闭性问题(两项选择法)1.答案只有两项,要求被调查者选择其中之一来回答2.优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便3.缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答 封闭性问题(多项选择法)1.在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答2.根据要求选择的答案多少不同,有以下类型单项选择型:单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:多项选择型:要求被调查者对所给出的问题
28、答案中,选出自己认为合适的答案,数量不受限制限制选择型:限制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制 封闭性问题(单项选择法实例)单项选择型单项选择型封闭性问题(多项选择法实例)多项选择型、限制选择型多项选择型、限制选择型封闭性问题(顺序选择法)1.问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进行一定的限制,也可以不进行限制2.问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量 封闭性问题(评定尺度法)问题答案,由表示不同等级的形容词组成,并按照一
29、定的程度排序,由被调查者依次 选择 封闭性问题(双向列联法)1.将两类不同问题综合到一起,通常用表格来表现2.表的横向是一类问题,纵向是另一类问题3.这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息4.可以节省问卷的篇幅 封闭性问题(双向列联法实例)神龙富康神龙富康捷捷 达达桑塔纳桑塔纳1.耗油量低2.外观大方3.乘坐舒适4.整车价格合理5.驾驶容易6.制动性好7.维修方便8.零配件齐全9.故障率低10.售后服务周到问题顺序的设计问题顺序的设计1.问题的安排应具有逻辑性2.问题的顺序应先易后难3.能引起被调查者兴趣的问题放在前面4.开放性问题放在后面5.版面格式的设计问
30、卷的结构安排要合理,问卷的主体部分要突出、醒目不要编排过密,各问题之间要留出一定的空间外表及内容的印刷要美观 (1)问题的排列应具有层次性和逻辑性,符合人们思维习惯。前后相继的问题具有内在联系,反映事物的因果关系,和递进的思维层次。(2)“过滤”性问卷设计的问题排列。“过滤”性问卷设计要求问题排列构成逻辑的树状结构。(3)问题的排列应先易后难。将简单、容易、直观的问题放在问卷的前面,提高被调查者的兴趣,使被调查者比较容易地进入答题角色,顺利完成问卷中所有问题的回答。(4)开放性问题的排列。开放性问题属于非标准化问题,其数据需要调查人员事后进行人工分类整理,才能进行数据分析。开放性问题的排列要从属于封闭性问题,有关全局性的开放性问题放在整个问卷主体部分的末尾;相对某类具体封闭性问题的开放性问题,放在这类封闭性问题的末尾。问题排列