1、工作任务五工作任务五 调查数据处理和分析调查数据处理和分析l学习目标学习目标 l1.知识目标l(1)理解数据处理的涵义;l(2)了解调查数据的审查的内容、方法和基本步骤;l(3)掌握市场调查缺失数据的处理技术和方法;l(4)了解数据分析的的涵义、特点和原则;l(5)掌握数据分析的方法。l2.技能目标l(1)会调查数据的编码、录入与汇总;l(2)会运用统计表,统计图表达调查数据信息;l(3)会运用总量、相对和动态指标对调查数据进行分析;l(4)会运用集中趋势分析技术对调查数据进行分析;l(5)会运用离中趋势分析技术对调查数据进行分析。5.1数据处理数据处理l5.1.1数据处理概述数据处理概述l1
2、.数据处理的含义l数据处理,又称数据资料整理,是指将调查所得的原始资料按照调查目的和调查任务的要求,运用科学的方法进行加工整理,使之条理化、系统化,并能反映调查现象总体特征的综合资料的工作过程。 l2.数据处理的内容l主要有以下几个方面:对调查所得原始资料进行审查;缺失数据的处理;调查数据的排序、分类、编码、录入、汇总;将整理后的数据绘制成图表。5.1.2调查数据的审查调查数据的审查l1.数据审查的内容数据审查的内容l(1)数据资料的完整性l(2)数据资料的准确性l(3)数据资料的及时性l(4)数据资料的一致性5.1.2调查数据的审查调查数据的审查l2.数据资料准确性的审查方法数据资料准确性的
3、审查方法l(1)经验判断,即根据已有的经验,判断数据的真实性和准确性 。 l(3)计算审核,即根据调查项目有关指标之间存在的数量关系,检查所接受资料数据的正确性,审查过程中,主要看各个数字在计算方法和计算结果上有无错误。l(2)逻辑检查,就是根据调查项目之间的内在联系和实际情况,对数据进行逻辑判断,看其是否有违背常理或者前后矛盾的地方。5.1.3有问题问卷的处置有问题问卷的处置l1.无效问卷l(1)回答不完全。如果一份问卷中至少有三分之一的问题没有回答,这份问卷应视为无效问卷。l(2)调查对象不符合要求。如有的调查中规定某类的人员不能成为调查对象,如果问卷是由这类人员作答,就是无效问卷。l(3
4、)答案选择高度一致,即回答没有什么变化。如,不管什么问题都选择第一个答案。l(4)截止日期后收回的问卷,即这些问卷其回答的可靠性很低,提供的极有可能是虚假信息。虚假信息的危害非常大,甚至比缺乏信息带来的还要大,所以这些问卷要全部作废。5.1.3有问题问卷的处置有问题问卷的处置l2.不满意的问卷l(1)模糊不清。可能由于调查员记录的原因,把“”画在两个答案之间。l(2)前后不一致或有明显错误的。如一个年龄为20岁的被访者职称是教授;一个月收入低于1 000元的被访者却拥有一处豪宅等。l(3)模棱两可。要求单项选择的闭式问题却选择了多个答案。l(4)不符合作答要求。比如跳答或不按要求回答。5.1.
5、3有问题问卷的处置有问题问卷的处置l3.有问题问卷的处理方法l(1)退回问卷重新调查l(2)放弃不用l(3)视为缺失数据的处理,如果不满意问卷数量所占比例较少,而且涉及的变量不是关键变量,在无法退回问卷做重新调查时,可以按缺失数据的处理方式进行处理。5.1.3缺失数据的处理缺失数据的处理l1.推理插补l推理插补,是对缺失或不一致的数据通过推断来确定。这种推理一般是根据数据资料中其他回答项的数据推理得来的。l例如,一个三项数值的和是100,其中的两项分别是30和40,剩下的一项数值可以推算出是30。其数据间的逻辑关系是,第三项数值是三项数值之和与已知两项数值之差。5.1.3缺失数据的处理缺失数据
6、的处理l2.均值插补l均值插补,是对缺失或不一致的数据用数列的均值来代替的插补方法。l(1)当原数列没有明显升降趋势和季节波动时,用整个数列的平均值插补缺项。l(2)当原数列各期增(减)量大体相同时,可以用前期数据加平均增(减)量来插补缺项。5.1.3缺失数据的处理缺失数据的处理l2.均值插补l均值插补,是对缺失或不一致的数据用数列的均值来代替的插补方法。l(1)当原数列没有明显升降趋势和季节波动时,用整个数列的平均值插补缺项l(2)当原数列各期增(减)量大体相同时,可以用前期数据加平均增(减)量来插补缺项。5.1.3缺失数据的处理缺失数据的处理l3.比例插补,是根据事物之间的比例关系推算所缺
7、数据的插补方法。l4.热平台插补l热平台插补是使用相似类型被调查者的已有记录的信息(供者)来代替一个缺失的或的或不一致的数据(受者)。热平台插补有序贯热平台插补和随机热平台插补两种基本类型。5.1.4调查数据资料的排序调查数据资料的排序l调查数据资料的排序是指把收集到的数据资料按照某一数量标志或指标数值的大小顺序重新排列。一般来说,录入数据清单的数据资料是无序的,不能反映现象的本质和规律性,为了使用方便,通常要将收集到的所有数据资料进行排序。5.1.5 数据资料的分类(分组)l审核后的数据资料只有进行分类(分组)和汇总,才能为市场分析提供系统化和条理化的综合指标数据,这也是保证数据资料客观准确
8、的重要条件。 l1、分组的类型l1)按品质标志分组l2)按数量标志分组l3)简单分组l4)复合分组5.1.5 数据资料的分类(分组)l2、分组(分类)的步骤l第一,选择恰当的分组标志l第二,确定分组形式l第三,确定组距和组数l第四,确定组限与组中值组数最小变量值最大变量值组距=组中值=2下限上限 缺下限的开口组组中值=2邻组组距上限缺上限的开口组组中值=2邻组组距下限 5.1.6调查数据的编码、录入调查数据的编码、录入l1.调查数据的编码l(1)编码的含义l利用计算机对调查资料进行加工整理时,需要对调查项目进行编码,以保证计算机对录入信息的高效处理。所谓编码,就是将调查表中的各个项目进行编号,
9、将其所承载的信息转化为符号或数字代码,通过计算机语言对调查资料进行进行分类汇总和统计分析。 5.1.6调查数据的编码、录入调查数据的编码、录入l(2)编码的作用l1)减少数据录入和分析的工作量,节省费用和时间,提高工作效率。l2)将定性数据转化为定量数据,把整个问卷的信息转化为规范标准的数据库,进而可以利用统计软件,采用统计分析方法进行定量分析。l3)减少误差。量化的数据简单易懂,不像文字资料容易丢失重要信息,在编码过程中,还可以利用编码修正回答误差,替代缺失值,因此编码有助于减少调查误差。5.1.6调查数据的编码、录入调查数据的编码、录入l(3)几种常见的编码方法l对甄别条件的设定、甄别质量
10、的控制和主持人的主持水平要求高;l所取得的信息是方向性的,不易精确地进行定量分析,不能将结论推及总体;l有些涉及隐私、保密等问题,不容易当众询问;l由于受时间的限制,需在有限时间内完成规定的内容,容易造成无法深入讨论。 5.1.6调查数据的编码、录入调查数据的编码、录入l1)顺序编码法l顺序编码法又称系列编码法,是指用一个标准对信息资料进行分类,并按照一定的顺序用连续的数据或字母进行编码的方式。l例如,一项对家庭年收入的调查项目,把不同年收入的家庭划分为以下五个档次。l20000元及以下 (1)l2000040000元 (2)l4000060000元 (3)l6000080000元 (4)l8
11、0000元及以上 (5)5.1.6调查数据的编码、录入调查数据的编码、录入l2)分组编码法l分组编码法又称区间编码法,是根据调查事物的特性和信息资料分类及其处理的要求,将具有一定位数的代码单元分成若干个组,每一个组的数字均代表一定的意义。l分组编码法编码简单,便于计算机处理,但位数过多,容易造成系统维护上的困难。5.1.6调查数据的编码、录入调查数据的编码、录入个人基本情况的调查个人基本情况的调查性别居住地家庭人口数月收入水平回答编码回答编码回答编码回答编码 男 1大城市 1单身 13000元以下 1 女 2中小城市 2两人 230006000元 2县镇 3三口之家 360009000元 3农
12、村 4四人及以上 4900012000元 412000元以上 5若某被调查者的信息是:女性,居住地某大城市,单身,月收入30006000元,信息码是2112。5.1.6调查数据的编码、录入调查数据的编码、录入l3)信息组码编码法l信息组码编码法,是指把调查信息资料区分成一定的组,每个组给予一定的组码进行编码的方法。l 某地市场商品价格变动情况的调查,调查组码分类如下:l级别名称码l百货组0125l食品组2650l服装组5170l家电组7180l其他组811005.1.6调查数据的编码、录入调查数据的编码、录入l4)表意式文字编码法l表意式文字编码法,又称助记编码法,是用数字、文字、符号等表明编
13、码对象的属性,并依此方式进行信息资料编码的方法。l例如,用210BXJ表示容量为210升的进口电冰箱,其中210为暗箱容量,BX表示冰箱,J表示进口。l这种编码方法表现直观,易于理解,便于记忆。5.1.6调查数据的编码、录入调查数据的编码、录入l2.调查数据的录入调查数据的录入l(1)数据录入的含义l数据录入,是将经过编码的数据资料输入到计算机存储设备中的过程。市场调查发达的国家在数据采集中常常采用计算机辅助电话调查(CATI)、计算机辅助面访(CAPI)等调查方式,计算机录入工作在调查访问时就完成了。 5.1.6调查数据的编码、录入调查数据的编码、录入l(2)数据录入质量的检查l1)数据库软
14、件自动检查法l通过数据库结构的编辑,可以对录入的过程进行逻辑检查,避免数据录入过程中出现某种类型的逻辑错误。l2)重复输入数据l重复输入数据的核查方式主要有双机录入或三机录入。双机录入,是指将同一份问卷,分别由两个录入人员在计算机上进行两次录入,将两次录入的结果逐一进行比较,相同的部分被认定为没有错误,不同部分立即检查问卷进行核对,及时修正错误;5.1.6数据资料的显示数据资料的显示l1.统计表统计表l(1)统计表的结构l统计表从结构形式上看,一般由表号、总标题、横行标题、纵栏标题和数字资料等几个部分组成。l(2)统计表的种类l统计表根据制表的方式不同,可分为简单表和交叉表。5.1.6数据资料
15、的显示数据资料的显示l2.统计图统计图l(1)条形图 5.1.6数据资料的显示数据资料的显示l(2)折线图 5.1.6数据资料的显示数据资料的显示l(3)圆形图 5.2调查数据的分析调查数据的分析 l 1.数据分析的的涵义l调查数据分析,是根据研究的目的和要求,运用科学的方法和手段,对调查数据进行定性和定量分析,揭示现象的本质和规律,为决策和管理提供咨询服务的过程。数据分析所采用的主要是一些统计分析技术。 5.2调查数据的分析调查数据的分析 l2.调查数据分析的特点l(1)数据分析过程要定性分析和定量分析相结合l(2)数据的定量分析以统计分析方法为主l(3)数据分析不能孤立于被调查研究的现象独
16、立地进行l(4)数据分析过程是一次认识上的质的飞跃5.2调查数据的分析调查数据的分析l3. 调查数据分析的基本原则l(1)科学性原则是指在数据分析中,应该根据调查数据的属性和特点、调查数据的来源渠道、调查研究的任务和目的,选择科学合理的分析方法进行分析。l(2)客观性原则是指在数据分析中,必须遵守实事求是原则,充分了解研究对象的各种实际情况,尊重调查数据事实,保证分析结果的公正与客观。l(3)目的性原则是指数据分析必须围绕调查研究的任务和目的来进行,其分析的结果必须能够满足调查研究的需要。l(4)系统性原则是指数据分析要将所研究的现象进行分解,然后对各种复杂的联系进行分析和综合。5.2.2总量
17、指标分析总量指标分析l总量指标的计算方法有直接计算法、推算与估算法。l(1)直接计量法是指对研究的现象进行直接读数、点数或测量后,将总量数值计算出来的方法。l(2)推算与估算法l1)因素关系推算法。因素关系推算法是指利用社会经济现象的各个影响因素之间的关系,根据已知因素来推算未知因素的方法。l2)比例关系推算法。比例关系推算法是指利用各种相关现象的比例关系进行推算的一种方法。l 3)平稳关系推算法。平稳关系推算法是指利用各种平稳关系来推算未知指标的方法。5.2.3 相对指标分析相对指标分析l(1)结构相对指标 结构相对指标是在对总体进行分组的基础上,各组数值与总体数值对比得到的相对数。用来反映
18、社会经济现象总体内部的构成情况,说明总体内各部分在总体中的地位。结构相对指标通常用百分数表示,其计算公式为:总体的全部数值总体各部分(各组)数值结构相对指标= 100%5.2.3 相对指标分析相对指标分析l(2)比例相对指标l比例相对指标又称比例相对数,是在同一时间内同一经济现象的总体内部不同部分指标数值之间的比例关系,用来表示总体内部各组成部分的构成比例。比例相对指标可用百分数或系数来表示,也可用1:m:n的连比形式表示,其计算公式为:总体中另一部分(组)数值总体中某一部分(组)数值比例相对指标=5.2.3 相对指标分析相对指标分析l(3)比较相对指标l比较相对指标是把同一时间内同类经济现象
19、的指标在不同空间状态下的数值对比构成的相对指标。它可以反映同类事物在不同国家、不同地区或不同单位之间的差异程度,一般用百分数、系数或倍数表示。计算公式为: 另一地区(单位)的同类指标数值某一地区(单位)的某类指标数值比较相对指标=5.2.3 相对指标分析相对指标分析l(4)强度相对指标。强度相对指标是由两个性质不同但又有联系的总量指标进行对比的比值,用来反映社会现象之强度、密度、普及程度。其计算公式为:的总量指标数值另一有联系而性质不同某一总量指标数值强度相对指标5.2.4 动态指标分析动态指标分析 20042008 20042008年我国城镇人均纯收入年我国城镇人均纯收入年 份2004年20
20、05年2006年2007年2008年人均纯收入(元)942210493117591378615781环比发展速度(%)111.4112.1117.2114.5定基发展速度(%)100111.4124.8146.3167.5环比增长速度(%)11.412.117.214.5定基增长速度(%)11.424.846.367.5增长1%绝对值(元)94.2104.9117.6137.95.2.5 数据的集中趋势分析数据的集中趋势分析l(1)众数。l众数是总体中各单位在某一标志上出现次数最多的变量值。大学生每周上网次数的调查表大学生每周上网次数的调查表上网次数被访问者一次18二次20三次21四次33五次
21、15六次13七次10合 计1305.2.5 数据的集中趋势分析数据的集中趋势分析l(2)中位数。l中位数是将总体各单位的变量值按大小顺序排列,处于中间位置的那个变量值。 21n中位数的位置5.2.5 数据的集中趋势分析数据的集中趋势分析l案例案例5-13 某项对消费者每月去大型超市购物次数的调查,20个被调查者每月去大型超市的次数按顺序排列是:0,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,5,5,6,7,则中位数是多少? l 解:5 .102120中位数的位置这说明中位数的位置在第10位和第11位中间,因此,中位数应是第10个数与第11个数的算术平均数。即等于35.2.5 数
22、据的集中趋势分析数据的集中趋势分析l(3)算术平均数 l1)简单算术平均数,是在未分组的资料条件下计算简单算术平均数,其公式为:nxnxxxxxn3215.2.5 数据的集中趋势分析数据的集中趋势分析l2)加权算术平均数,在资料已分组并得出次数分布资料时,要计算加权算术平均数,其公式为:fxfffffxfxfxxnnn.2122115.2.5 数据的集中趋势分析数据的集中趋势分析fxxf 2010 2010年某院校大学生生活费用支出情况年某院校大学生生活费用支出情况学生人数组中值生活费用支出 元 人数乘组中值 500以下2940011 600 5007007760046 200 7009002
23、780021 600 9001100以上24100024 0001100以上13120015 600合 计170119 000 ).(700170119000元fxfx5.2.6 数据的离中趋势分析数据的离中趋势分析l(1)极差l极差是数据中最变量大值和最变量小值之差。其基本公式为:l 极差=最变量大值最变量小值l案例案例5-16 某高校有8位学生,他们每月的生活费支出分别是: 500、550、600、650、700、750、800、850元则他们生活费支出的极差:l极差=850500=350(元)l极差受最变量大值和最变量小值的影响,如果因特殊原因出现特别大或特别小的数值,极差就不能确切反映
24、各数据真实的变异程度。5.2.6 数据的离中趋势分析数据的离中趋势分析l(2)平均差l平均差,即平均离差。它是将各变量值与平均数离差绝对值的总和除以离差的项数。计算公式分为简单和加权两种。l1)对于未分组资料,采用简单式计算,其公式为:l nxxDA5.2.6 数据的离中趋势分析数据的离中趋势分析l2)对于分组资料,采用加权式计算,其公式为:l l l 为各组单位数(次数)。fffxxDA5.2.6 数据的离中趋势分析数据的离中趋势分析fxxx f20102010年某院校大学生生活费用支出情况年某院校大学生生活费用支出情况生活费用支出 元 500以下2940030087005007007760
25、010077007009002780010027009001100以上24100030072001100以上1312005006500合 计17032800 xx 生活费用支出 元 500以下2940030087005007007760010077007009002780010027009001100以上24100030072001100以上1312005006500合 计1703280094.19217032800ffxxDA5.2.6 数据的离中趋势分析数据的离中趋势分析l(3)平均差系数l平均差系数是将平均差除以相应的平均指标得到的数值。计算公式为:l平均差系数= %100 xDA5.2.6 数据的离中趋势分析数据的离中趋势分析l(4)均方差(标准差)l1)对于未分组资料,采用简单式计算,其公式为:nxx2)( 2)对于分组资料,采用加权式计算,其公式为:ffxx2)(式中,表示标准差。 5.2.6 数据的离中趋势分析数据的离中趋势分析l(5)均方差系数均方差系数是均方差与相应的平均数对比而得出的相对数值。其计算公式为:%100 xV式中,V表示均方差系数5.2.6 数据的离中趋势分析数据的离中趋势分析x标准差系数计算表标准差系数计算表甲组70144乙组15707%6 .20%100704 .14%100 xV甲%13.47%1001507. 7%100 xV乙甲组:乙组: