1、第2章 统计数据的搜集统计数据的搜集第2章统计数据的搜集统计数据的搜集2.1 统计数据的来源2.2 统计学的产生和发展2.3 统计学研究中的基本概念2.4 统计研究中变量的分类2.1 统计数据的来源间接来源和直接来源2.1.1 数据的间接来源 二手资料与所研究的主题相关的资料已经存在,只需要在原有资料基础上加工、整理即可得到研究所需的数据。这类数据通常可以从以下渠道取得:获得渠道:国家宏观经济数据比如GDP、CPI、就业人口、省市地方经济相关数据、世界其他各国人口数、教育、对外贸易等数据进出口数据等等可以通过国家统计局、省市地方统计局、政府机构、国外统计机构、国际组织、专业经济组织、行业协会等
2、网站直接取得或者根据发布的数据加工整理以满足经济社会研究的需要。获得渠道:一些专业性研究所需数据可以从专业性的年鉴、学术杂志、专业报纸、学术研讨会、各类经济信息中心发布的公告取得。国家统计局网站:http:/教育部网站:http:/财政部网站:http:/商务部网站: 上海证券交易所:http:/中国人民银行:http:/中国行业协会商会:http:/www.fctacc.org美国国家统计局http:/www.fedstats.gov美国普查局网站:http:/www.census.gov世界银行:http:/联合国统计司:http:/unstats.un.org 二手数据由于比较容易取得,
3、搜集成本相对较低,在经济研究和经济决策中首先考虑是否有二手资料可用。运用时一定要注意数据的计算口径、范围与所研究问题的差异。弄清楚数据的统计方法,比如是抽样、普查、还是其他问卷方式得到的,数据的统计方法可能影响到数据的可比性;在应用以货币计量的经济数据时,不同时间或区域的价格水平、汇率等也会影响到数据的可比性,必要时需对数据进行甄别和修正。2.1.2 数据的直接来源 当缺少符合研究需要的二手数据时,研究者需要从研究对象中取得一手资料。搜集一手数据数据最基本的形式就是进行统计调查或进行试验活动,统计调查或进行试验就是统计数据的直接来源。统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方
4、法,有计划、有组织地向客观实际搜集资料的过程。通过统计调查得到的数据,一般称为观测数据。试验法是通过有意识地改变或控制某些输入变量,观察其它输出变量的变化。通过对输入变量的控制,观察是否导致了输出变量的改变。在试验中,往往需要将研究对象分为两个组,一个是试验组,一个是对照组,对试验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以分析输入变量对输出变量的影响。运用试验法要注意的是:首先,试验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到试验组或对照组,而不应是经过有意识的挑选的。医学、社会学中可采用类似实验法进行研究。例如,新生儿分开照顾是否能够强化母
5、婴关系?观察数据和试验数据的区别:两个例子添加稀土元素对钢材耐腐蚀性的影响吸烟对健康状况的影响2.2 2.2 统计调查统计调查2.2.1 统计调查方案2.2.2 统计调查的分类2.2.3 常见的抽样组织方式2.2.4 社会调研中的问卷设计2.2.1 统计调查方案 统计调查方案是对统计调查工作的总体安排,一般包括五个内容(5W)1 调查目的(Why)2 调查对象和调查单位(Who)3 调查项目(What)4 调查时间(When)5 调查组织实施(How)2.2.2 统计调查的分类1 按调查对象包括的范围全面调查和非全面调查2 按登记时间是否连续经常性调查与一次性调查 3 按调查的组织方式统计报表
6、制度和专门调查2.2.3 常见的调查组织方式 1 统计报表制度 各级政府统计部门依法实施国家统计调查项目、部门统计调查项目和地方统计调查项目的业务工作方案;关于统计指标、统计表式、统计对象、统计范围、调查方法、调查频率等统计制度方法要素的规范表述和统一规定;2.2.3 常见的调查组织方式 2 普查 普查是针对个国家或者一个地区重要的国情、国力等社会经济现象的总量专门组织的一次性全面调查。普查涉及面广,指标多,工作量大,时间性强。人口普查(逢0)、三次产业普查(逢3)、工业普查(逢5)、农业普查(逢7)普查具有以下几个特点:1)普查通常是一次性的或周期性的2)规定统一的标准时点3)规定统一的普查
7、期限4)规定普查的项目和指标5)普查的数据一般比较准确,规范化程度也较高6)普查的使用范围比较窄,只能调查一些最基本及特定的现象。2.2.3 常见的调查组织方式 3 抽样调查 抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法,样本中包含的单位数n称作样本容量样本容量。1)简单随机抽样 也称为纯随机抽样,是指对总体不进行任何形式的分组,直接从单位数为N的总体中随机抽取n个单位作为样本,使每个总体单位被抽中的概率相等的一种抽样方式。随机抽取并不是“随意”,要保证总体中的任何一个单位有相同的几率进入样本,通常有些基本方法
8、,一般在确定了样本容量后,采取抽签或随机数表的方法抽取。与抽样相关的几个概念抽样框和抽样框误差1936年美国总统选举,兰顿和罗斯福抽样方式重置抽样与非重置抽样抽样多少样本容量样本取得随机数表nNm Nnmr 2)等距离抽样 等距抽样是将总体单位排序后按等距离的方式抽取样本。比如从总体单位数为N的总体中抽取n个作为样本,我们按顺序排列后将总体分为n组,每一组单位数:m=N/n 第一组取得第r个,以后r+m,r+2m,.r+(n-1)m进入样本 例:从229个学生中取得20个作为样本 3)分层抽样 分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随
9、机抽取样品(个体)的方法。这种方法的优点是,样本的代表性比较好,抽样误差比较小。4)整群抽样 整群抽样是先将总体单元分为若干个群,然后随机地选择部分群体作为抽样样本,调查样本群中的所有单元,整群抽样可以按照自然分群或按照需要分群。2.2.4社会调研中的问卷设计 调查研究往往需要根据自填式问卷或者结构式访问的方法取得数据资料,广泛用于社会生活状况调查、社会问题调查、市场调查、民意调查、公共安全舆情调查、学术研究等各个方面。问卷(questionnaire)是获取调查数据最重要工具之一。1 问卷的结构 问卷是一份精心设计的表格,用以测量人们的行为、态度和社会特征等属性。尽管不同研究领域的问卷差异很
10、大,但从基本格式上来看,问卷包含问卷说明、问题及答案、编码几个部分。敬的女士/先生:您好!感谢您花费宝贵的时间和精力来填写这份问卷!我们是省地方税务局“员工心理状态、感受和履职状”课题组人员,为切实了解地税系统公务员队伍的职业心态、职业行为与工作效率之间的关系,提高公务员队伍工作的有效性,特通过问卷向您咨询有关问题,调查结果仅作研究之用,希望您能提供真实的想法。此问卷共分五个部分,为了保证调查的质量,请根据你在工作中的实际感受对下列问题进行相应选择。本问卷采用匿名方式,答案没有对错之分,问卷的发放、收回、分析、保管均有课题组负责。再次谢谢您的支持与配合!祝您工作愉快!省地方税务局 2 问题及答
11、案 开放式问题:是指对问题的回答未提供任何具体的备选答案,由被调查者根据自己的想法自由作出回答,属于自由回答型。封闭式问题:是指对问题事先设计出了各种可能的备选答案,由被调查者从中选择。答案设置的方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种开放式问题例如:您认为在人员选聘中存在的主要问题是什么?-。封闭式两项(二选一)选择法:要求被调查者选择其中之一来回答。优点是被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便。例如:您的性别:A.女 B.男。封闭式单项选择型:例如:您的受教育程度:A.大专及以下 B.本科 C.硕士(含MBA)D.博士及以上 封
12、闭式多项选择型 例如:您工作中最乐于接受的奖励方式是:(可多选)A.口头表扬 B.物质奖励 C.带薪休假 D.岗位轮换封闭式限制选择型例如:吸引您选择中华牙膏因素主要是(亲选择你认为最重要的两项):A.价格 B.香型 C.使用功效 D.包装 E.销售渠道 F.促销 封闭式顺序选择法 您在购买这种牌子的电视机时,主要是考虑哪些因素?A产品的品牌 B价格合理 C售后服务 D外形美观 E维修方便 请按您认为的重要程度排序:封闭式评定尺度法 评定尺度法问题的答案,由表示不同等级的形容词组成,并按照一定的程度排序,由被调查者依次选择,有三分法、五分法、十分法等。例如:你工作中的压力和不愉快很多来自部门合
13、作:A.非常认可 B.比较认可 C.一般认可 D.不太认可 E.很不认可封闭式双向列联法 双向列联法采用交叉表的形式将两个问题综合到一起,这种问题结构能提供单一问题不能提供的信息,如你选择三种品牌轿车主要基于哪些方面的考虑。神龙富康 捷 达 桑塔纳1.耗油量低 2.外观大方3.乘坐舒适4.整车价格合理5.驾驶容易6.制动性好7.维修方便8.零配件齐全9.故障率低10.售后服务周到 3 问卷设计的原则和注意事项 1)问题描述简单明了,范围清晰,同时易于理解 2)问题应当让被调查者有确定的理解 3)一个提问只包含一个内容 4)避免使用诱导性问题 5)注意回避个人隐私 4 问卷设计的步骤 问卷设计一
14、般需要经过四个阶段:探索性阶段、设计问卷初稿阶段、试用分析阶段、修改定稿阶段2.3 数据的误差2.3.1 抽样误差2.3.2 非抽样误差2.3.3 误差控制2.3.1 抽样误差 抽样误差(sampling error)是由于抽样的随机性而产生的误差。实际的抽样误差 抽样的平均误差 影响抽样误差大小的因素:样本容量的大小 总体的离散程度2.3.2 非抽样误差 非抽样误差(non-sampling error):除抽样误差之外,由其它因素引起的样本观察值与总体真值之间的差异。抽样误差是一种随机误差,只存在于概率抽样中。非抽样误差,可存在于概率抽样、非概率抽样,也可存在于全面调查中。非抽样误差通常产
15、生于下面几种情形:1抽样框误差2回答误差3无回答误差4测量误差 1 抽样框误差 抽样框是指抽样的范围,抽样框应该穷尽所有总体单位。在概率抽样中,样本的选取就是在确定了抽样框后,根据概率的原则等可能的选取样本单位。例:从某校抽取100名学生了解其每周花在课外阅读的时间。2 回答误差 回答误差是由于调查者的回答与总体真实情形存在差异而产生的,一般存在三种情况:被调查者对问题的理解偏差 被调查者的记忆误差 被调查者有意识的回避问题或者给出与真实情形不符的回答。3 无回答误差 无回答误差就是没有取得被调查者对于问卷的回答。产生无回答误差的情形一般有三种:被调查者主观上不愿回答 也可能是被调查者客观上由于工作忙等原因而无暇回答问卷(问卷回收率问题)也可能是调查问卷在回收过程中丢失而产生的。4 测量误差 测量误差是由于在调查过程中由于测量工具、测量环境等因素产生的误差。在通过试验取得统计数据时,对于数据的测量往往会存在误差。对于社会经济问题采用观察法得到数据时,也要通过调查者自身测量或者观察,在测量或者观察工作量比较大的时候,很难保证测量不出现误差。2.3.3 数据误差控制1 科学设计调查方案2 加强培训,提高抽样调查队伍的整体素质3 重视对调查员的挑选和管理4 采用多种途径,减少被调查者误差5 做好调查资料的汇总工作,防止汇总误差