1、1 第六章第六章 调查材料与数据分析调查材料与数据分析第一节第一节 调查资料的整理调查资料的整理第二节第二节 调查资料的分析调查资料的分析n 学习目标:学习目标:n1.理解调查材料分析的意义和作用,熟悉材料理解调查材料分析的意义和作用,熟悉材料分析的基本原理与方法;分析的基本原理与方法;n2.掌握数据分析的技术与方法,了解大数据技掌握数据分析的技术与方法,了解大数据技术基本内容以及作用;术基本内容以及作用;n3.明确数据分析的意义和过程,熟知数据分析明确数据分析的意义和过程,熟知数据分析的基本方法和手段。的基本方法和手段。23 6.1调查材料处理概述 所谓市场调查资料的所谓市场调查资料的处理,
2、就是指运用科,就是指运用科学的方法,对调查所获得的各种原始资料进行学的方法,对调查所获得的各种原始资料进行审核、分类处理和加工综合,使之系统化和条审核、分类处理和加工综合,使之系统化和条理化,从而以集中、简明的方式反映调查对象理化,从而以集中、简明的方式反映调查对象总体情况的工作过程。总体情况的工作过程。4 二、二、调查资料整理的内容调查资料整理的内容 1、调查资料的处理(整理):、调查资料的处理(整理): 包括审核、分类、汇总和制图表。 2、数据管理:、数据管理: 包括资料的输入、传输、存贮、更新与输出。56.1.1材料编辑与编码1材料编辑编辑是对资料进行筛选,即发现并剔除搜集起来的营销研究
3、资料中的“水份”,选用真正有价值的资料,编辑通常分实地编辑和办公室编辑两步进行。(1)实地编辑实地编辑是初步编辑,其主要任务是发现资料中非常明显的遗漏和错误,帮助控制和管理实地调查队伍,及时调整调查方向、程序,帮助消除误解及有关特殊问题的处理。实地编辑对资料检查的项目主要有以下几项:完整性;清楚性;内容的一致性;明确性,即答案的意义是否明确和单位的统一性。(2)办公室编辑办公室编辑在实地编辑之后实施,其主要任务是更完整、确切地审查和校正弄回的全部资料。 6 2、编、编 码码 编码就是给每一个问题及答案分配一编码就是给每一个问题及答案分配一个代号,通常是一个数字、字母或特殊的个代号,通常是一个数
4、字、字母或特殊的符号。将问卷信息转化为统一设计的计算符号。将问卷信息转化为统一设计的计算机可识别的代码,以便于对其进行数据整机可识别的代码,以便于对其进行数据整理和分析。理和分析。 作作 用:用:(1 1)减少数据录入和分析的工作量)减少数据录入和分析的工作量(2 2)将定性数据转化为定量数据)将定性数据转化为定量数据(3 3)减少误差)减少误差7 安安莫勒的编码与数据录入经验之谈莫勒的编码与数据录入经验之谈n安安莫勒是亚特兰大莫勒是亚特兰大SDRSDR公司的数据录入员。公司的数据录入员。2020年来,年来,在管理项目数据录入方面积累了丰富的经验,他认在管理项目数据录入方面积累了丰富的经验,他
5、认为要在客户预算允许的范围内如期完成调研工作,为要在客户预算允许的范围内如期完成调研工作,重要的是避免问卷中出现过多的开放型问题,这些重要的是避免问卷中出现过多的开放型问题,这些问题的答案不能直接输入数字代码,解决的办法是问题的答案不能直接输入数字代码,解决的办法是根据项目分类设计编码,或将反馈内容原样录入电根据项目分类设计编码,或将反馈内容原样录入电脑。脑。莫勒说:莫勒说:“编码是数据录入过程中耗资最大且编码是数据录入过程中耗资最大且最主要的部分最主要的部分”。n “我们读同一文本,对它的编码可能不同。我们读同一文本,对它的编码可能不同。如如果有太多的答案需要编码,分析过程就会令人厌烦,果有
6、太多的答案需要编码,分析过程就会令人厌烦,而且理解详尽答案的花费将是非常之高的而且理解详尽答案的花费将是非常之高的”。8封闭式问题的编码步骤:封闭式问题的编码步骤:n第一,找出问题中的第一,找出问题中的关键词关键词。n第二,用第二,用适当的符号适当的符号代表关键词,通常用代表关键词,通常用拼音或英拼音或英文缩写文缩写作为编码,这样便于识别;对单选题,只用作为编码,这样便于识别;对单选题,只用一个编码,如果是多选题,它的每一个选项都应该一个编码,如果是多选题,它的每一个选项都应该有一个编码,这时可在统一的符号后加上序号作为有一个编码,这时可在统一的符号后加上序号作为各个选项的编码。各个选项的编码
7、。n第三,确定第三,确定编码的取值范围编码的取值范围。单选题编码的取值就。单选题编码的取值就是各选项的序号;多选题编码的取值就是是各选项的序号;多选题编码的取值就是0或或1(选(选中为中为1,未选中为,未选中为0),),确定编码的取值范围有利于确定编码的取值范围有利于检查编码值的输入是否正确。检查编码值的输入是否正确。n第四,检查编码第四,检查编码是否雷同是否雷同,一张调查问卷或调查表,一张调查问卷或调查表中的每一编码都应该是唯一的。中的每一编码都应该是唯一的。n第五,编出编码表,它可与调查问题进行第五,编出编码表,它可与调查问题进行对照对照,以,以免遗漏,也有利于统计汇总免遗漏,也有利于统计
8、汇总 。910 编码的主要方法编码的主要方法(1 1)顺序编码法)顺序编码法(2 2)分组编码法)分组编码法(3 3)信息组码编码法)信息组码编码法 (4) (4) 助忆编码法助忆编码法 (5)(5) 缩写编码法缩写编码法11n顺序编码法:顺序编码法:又称系列编码法,用一个标准对信息又称系列编码法,用一个标准对信息资料分类,按一定顺序用连续数字或字母进行编码;资料分类,按一定顺序用连续数字或字母进行编码;简洁明了,易于管理。简洁明了,易于管理。 例如:您的性别:男例如:您的性别:男 女女 编码:编码:XB(1、2)n分组编码法:分组编码法:又称区间编码法,把一定位数的代码又称区间编码法,把一定
9、位数的代码单元分成若干个组,每一组数字代表一定意义;使单元分成若干个组,每一组数字代表一定意义;使用相当广泛,容易记忆,处理较方便,有时位数过用相当广泛,容易记忆,处理较方便,有时位数过多,会造成系统维护困难。多,会造成系统维护困难。 例如:例如:1242表示?表示?12n信息组码编码法信息组码编码法 例如:百货组从例如:百货组从1-20、食品组从、食品组从20-40n表意式文字编码法表意式文字编码法(又叫助忆编码法):又叫助忆编码法):指用数字、文字、符号等来表明编码对指用数字、文字、符号等来表明编码对象的属性。象的属性。 例如:例如:20TVC表示表示20英寸彩色电视机英寸彩色电视机n缩写
10、编码法缩写编码法 例如:例如:KG表示千克表示千克n6.1.2 材料的列表材料的列表n 把调查资料按照一定的目的,用表格的形式把调查资料按照一定的目的,用表格的形式展现出来,即是资料的列表。列表的基本方展现出来,即是资料的列表。列表的基本方法就是计数变量值的出现次数。如果仅计数法就是计数变量值的出现次数。如果仅计数一个变量的不同数值的出现次数,这种列表一个变量的不同数值的出现次数,这种列表就是单向列表。如果同时计数两个或多个变就是单向列表。如果同时计数两个或多个变量的不同数值联合出现的次数,这种列表就量的不同数值联合出现的次数,这种列表就是交叉列表。是交叉列表。13n1单因素列表单因素列表n最
11、基本的单因素列表是单向频次表。最基本的单因素列表是单向频次表。n(1)关于百分比的基数)关于百分比的基数n在使用单向频次表时需要解决的一个问题是选择百分比的基数。有三种在使用单向频次表时需要解决的一个问题是选择百分比的基数。有三种选择:选择:n全部被调查者人数。如果有全部被调查者人数。如果有300人参加了某项调查,并决定利用所有参人参加了某项调查,并决定利用所有参加者作为计算百分比的基数,每张单向频次表的百分比都将以加者作为计算百分比的基数,每张单向频次表的百分比都将以300作为基作为基数。数。n需回答具体问题的人数。在大部分问卷中,不是所有的人都回答全部需回答具体问题的人数。在大部分问卷中,
12、不是所有的人都回答全部的问题。例如一项调查的问题的问题。例如一项调查的问题4也许会问调查者是否有狗或猫,其中回答也许会问调查者是否有狗或猫,其中回答有的有有的有200人,而问题人,而问题5和和6是专门问这是专门问这200人的。在这种情况,用人的。在这种情况,用200作为作为计算百分比的基数较为恰当。计算百分比的基数较为恰当。n做出回答的人数。在单向频次表中计算百分比的另外一个基数是回答做出回答的人数。在单向频次表中计算百分比的另外一个基数是回答了特定问题的人数。如了特定问题的人数。如300人问及某个特定问题,但人问及某个特定问题,但28人表示人表示“不知道不知道”或没有回答,则要以或没有回答,
13、则要以272作为百分比的基数。作为百分比的基数。14n2多因素列表多因素列表n 交叉分组表是分析的下一步骤,它们是一交叉分组表是分析的下一步骤,它们是一种易理解且有效的分析工具。许多市场调查,种易理解且有效的分析工具。许多市场调查,或许可说是绝大多数,在分析上都只进行到或许可说是绝大多数,在分析上都只进行到交叉分组表。这种方法的基本思想是,结合交叉分组表。这种方法的基本思想是,结合对其他问题的回答来考对某一问题的答案。对其他问题的回答来考对某一问题的答案。用交叉分组表列出的频次和百分比,而且百用交叉分组表列出的频次和百分比,而且百分比是以列为基数统计的分比是以列为基数统计的15n6.1.3 资
14、料的分析与解释资料的分析与解释n(1)分析的概念)分析的概念n 分析是以某种有意义的形式或次序把收集的资料分析是以某种有意义的形式或次序把收集的资料重新展现出来。重新展现出来。n(2)解释的概念)解释的概念n 解释是在资料分析的基础上找出信息之间或手中解释是在资料分析的基础上找出信息之间或手中信息与其它已知信息的联系。信息与其它已知信息的联系。n(3)分析与解释之间的相互依赖性)分析与解释之间的相互依赖性n资料的分析与解释是相互联系,相互依赖的。无论资料的分析与解释是相互联系,相互依赖的。无论是资料的分析还是资料的解释,任何一个方面的工是资料的分析还是资料的解释,任何一个方面的工作开展得不到位
15、,都会影响到研究结果的有效性以作开展得不到位,都会影响到研究结果的有效性以及对资料的充分利用。及对资料的充分利用。16n资料概述资料概述 n一是要理解归纳的和演绎的推理方法;一是要理解归纳的和演绎的推理方法;n二是要保证形成结论时的客观性。二是要保证形成结论时的客观性。17n6.2.数据处理的基本概念数据处理的基本概念n1.市场调查数据处理的对象市场调查数据处理的对象n 市场调查数据包括数值的和非数值的数据,对这些数据进市场调查数据包括数值的和非数值的数据,对这些数据进行分析和加工的技术过程就是数据处理的核心内容。包括对行分析和加工的技术过程就是数据处理的核心内容。包括对各种原始数据的分析、整
16、理、计算、编辑等的加工和处理。各种原始数据的分析、整理、计算、编辑等的加工和处理。市场调查数据分析是狭义概念,比一般数据分析含义要窄一市场调查数据分析是狭义概念,比一般数据分析含义要窄一些。些。n2.市场调查数据处理的范围市场调查数据处理的范围n 随着计算机的日益普及,在随着计算机的日益普及,在计算机应用领域中,数值手工领域中,数值手工计算所占比重很小,通过计算机数据处理进行计算所占比重很小,通过计算机数据处理进行信息管理已成已成为主要的应用方式。为主要的应用方式。 n3.数据编码数据编码n 对数据进行编码在计算机的管理中非常重要,可以方便地对数据进行编码在计算机的管理中非常重要,可以方便地进
17、行信息分类、校核、合计、进行信息分类、校核、合计、检索等操作。等操作。18n数据处理的一般过程数据处理的一般过程n 市场调查材料数据处理包括:对不合格问卷市场调查材料数据处理包括:对不合格问卷的处理;返回现场工作;确定缺失程度;废的处理;返回现场工作;确定缺失程度;废弃不合格问卷;甄别不真实信息资料,消除弃不合格问卷;甄别不真实信息资料,消除欺骗、误传、虚构、添加、拼凑、混淆、夸欺骗、误传、虚构、添加、拼凑、混淆、夸张、偏颇、孤证、回避等假象。张、偏颇、孤证、回避等假象。19n5.鉴别分类编码合并比较筛选;鉴别分类编码合并比较筛选;n 信息资料鉴别的具体方法;分析判断法;核信息资料鉴别的具体方
18、法;分析判断法;核对法;比较法;佐证法对法;比较法;佐证法20n(1)直方图直方图n用用直方形的宽度和高度直方形的宽度和高度来表示次数分布的图形。来表示次数分布的图形。绘制直方图时,绘制直方图时,横轴表示各组组限横轴表示各组组限,纵轴表示次纵轴表示次数数(一般标在左方)和比率(或频率,一般标在(一般标在左方)和比率(或频率,一般标在右方)。右方)。n(2)折线图折线图n折线图可以在直方图的基础上,用折线将各组折线图可以在直方图的基础上,用折线将各组次次数高度的坐标数高度的坐标连接而成,也可以用组中值与次数连接而成,也可以用组中值与次数求坐标点连接而成求坐标点连接而成n(3)曲线图曲线图n用平滑
19、曲线连接各组用平滑曲线连接各组次数坐标点次数坐标点即得分布曲线。即得分布曲线。2122直方图直方图6.3.1. 直方图 直方图是处理分析数据的一种传统方式,它是由美国早期管理学家甘特设计使用的。23直方图直方图24折线图折线图25曲线图曲线图 折线图是在直方图的基础上连接各条形折线图是在直方图的基础上连接各条形顶边的顶边的中点中点成折线图。如下图红笔围成的,成折线图。如下图红笔围成的,即为次数分配曲线图即为次数分配曲线图 :直方图与折线图直方图与折线图27(4)散点图、趋势图)散点图、趋势图28饼图饼图 Pie293031数据表示中的错误数据表示中的错误Errors in Presenting
20、 Data1. 使用使用花哨花哨(Junk)图表图表2. 数据比较时没有可靠数据比较时没有可靠的相对基准的相对基准3. 压缩纵轴压缩纵轴Compressing the Vertical Axis4. 纵轴上无零点纵轴上无零点No Zero Point on the Vertical Axis32压缩纵轴压缩纵轴Compressing Vertical Axis季度销售季度销售季度销售季度销售不准确的表示不准确的表示025501季季2季季3季季 4季季$01002001季季 2季季3季季 4季季$准确的表示准确的表示33花哨花哨图表图表Chart Junk不准确的表示不准确的表示准确的表示准确的
21、表示1960: $1.001970: $1.601980: $3.101990: $3.80最低工资最低工资0241960197019801990$34纵轴无零点纵轴无零点No Zero Point on Vertical Axis月销售量月销售量月销售量月销售量不准确的表示不准确的表示0204060一一 三三 五五 七七 九九 十一十一$36394245一一 三三 五五 七七 九九 十一十一$准确的表示准确的表示n6.3.3.集中趋势法集中趋势法n 集中趋势(集中趋势(central tendency)在统计学中是)在统计学中是指一组数据向某一中心值靠拢的程度,它反指一组数据向某一中心值靠拢
22、的程度,它反映了一组以中心点为参照的数据离散程度。映了一组以中心点为参照的数据离散程度。n1.集中趋势概念集中趋势概念n 集中趋势测度就是寻找数据水平的代表值集中趋势测度就是寻找数据水平的代表值或中心值,低层数据的集中趋势测度值适用或中心值,低层数据的集中趋势测度值适用于高层次的测量数据,能够揭示总体中众多于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心,反之,高层个观察值所围绕与集中的中心,反之,高层次数据的集中趋度值并不适用于低层次的测次数据的集中趋度值并不适用于低层次的测量数据测定方法。量数据测定方法。35n2.具体方法具体方法n 取得集中趋势代表值的方法有两种:取得集中
23、趋势代表值的方法有两种:数值平均数和和位置平均数。n 1)数值平均数)数值平均数n从总体各单位变量值中抽象出具有一般水平的量,这个量不从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水是各个单位的具体变量值,但又要反映总体各单位的一般水平,这种平均数称为平,这种平均数称为数值平均数。数值平均数有。数值平均数有算术平均数、调和平均数、几何平均数等形式。等形式。n(1)算术平均数:算术平均数就是观察值的总和除以观察)算术平均数:算术平均数就是观察值的总和除以观察值个数的商,是集中趋势测定中最重要的一种,它是所有平值个数的商,是集中趋势测定中最重
24、要的一种,它是所有平均数中应用最广泛的平均数。算术平均数分为简单算术平均均数中应用最广泛的平均数。算术平均数分为简单算术平均数和加权算术平均数。数和加权算术平均数。n(2)调和平均数:调和平均数可以看成是变量:调和平均数可以看成是变量的倒数的的倒数的算术平均数的倒数,故有时也被称为的倒数,故有时也被称为“倒数平均数倒数平均数”。调和平。调和平均数分为简单调和平均数和均数分为简单调和平均数和加权调和平均数36n6.3.数据误差的处理数据误差的处理n 显著性差异显著性差异(significant difference),是一个,是一个统计学名词。它是统计学(统计学名词。它是统计学(Statisti
25、cs)上对数)上对数据差异性的评价。据差异性的评价。n6.2.1显著性差异基本原理显著性差异基本原理n当数据之间具有了显著性差异,就说明参与当数据之间具有了显著性差异,就说明参与比对的数据不是来自于同一比对的数据不是来自于同一总体,而是来自,而是来自于具有差异的两个不同总体,这种差异可能于具有差异的两个不同总体,这种差异可能因参与比对的数据是来自不同实验对象的,因参与比对的数据是来自不同实验对象的,37n6.2.26.2.2显著性差异分析基本方法显著性差异分析基本方法n 显著性差异分析就是要对数据进行模型化梳理,找出数据之间的关显著性差异分析就是要对数据进行模型化梳理,找出数据之间的关系,研究
26、数据变化规律。其研究重点就是进行离散度分析系,研究数据变化规律。其研究重点就是进行离散度分析n1.极差n最直接也是最简单的最直接也是最简单的方法,即最大值最小值(也就是极差)来评价一,即最大值最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,组数据的离散度。这一方法在日常生活中最为常见,n2.离均差平方和n由于误差的不可控性,因此只由两个数据来由于误差的不可控性,因此只由两个数据来n3.3.方差方差n由于离均差的平方和与样本个数有关,由于离均差的平方和与样本个数有关,n4.4.标准差标准差n标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度标准差是反映一组数
27、据离散程度最常用的一种量化形式,是表示精确度的重要指标的重要指标38n6.3 大数据分析大数据分析n1.大数据的核心大数据的核心n 对于大数据,我们不在于掌握庞大的数据信息,而在于对对于大数据,我们不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。简言之,如果把大数这些含有意义的数据进行专业化处理。简言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的对数据的“加工能力加工能力”,通过,通过“加工加工”实现数据的实现数据的“增值增值”。2大数据分析的作用大数据分析的作用n 大数据需要特殊的技术,以有效
28、地处理大量的容忍经过时大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的、互联网和可扩展的存储系统。39n3.大数据的价值大数据的价值n大数据并不在大数据并不在“大大”,而在于,而在于“有用有用”。价值含量、挖掘成。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。模数据是成为赢得竞争的关键。大
29、数据的价值体现在以下几个方面:大数据的价值体现在以下几个方面:n对大量消费者提供产品或服务的企业可以利用大数据进行精对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;准营销;n2) 做小而美模式的中长尾企业可以利用大数据做服务转型;做小而美模式的中长尾企业可以利用大数据做服务转型;n3) 面临互联网压力之下必须转型的传统企业需要与时俱进充面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。分利用大数据的价值。40n6.3.2大数据分析技术大数据分析技术n大数据分析是指对规模巨大的大数据分析是指对规模巨大的数据进行分析,进行分析,它充分;利用它充分;利用数据仓库、数据
30、安全、数据分、数据分析、析、数据挖掘等技术,挖掘大数据的等技术,挖掘大数据的商业价值。n 1.前端展现。随着 web 技术的蓬勃发展,前端的展示、交互越来越复杂,在用户的访问、操作过程中产生了大量的数据。由此,前端的数据分析也变得尤为重要。41n 2.数据仓库。是为数据仓库。是为企业所有级别的决策制定过程,提供所所有级别的决策制定过程,提供所有类型数据平台支持的战略有类型数据平台支持的战略集合。它是单个数据存储,出于。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控
31、制提供指导业务流程改进、监视时间、成本、质量以及控制。n3.数据集市。数据集市也叫数据市场,是一个从操作的数据数据集市。数据集市也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。据的仓库。42n大数据分析的基本技术支撑大数据分析的基本技术支撑 从技术支撑架构的角度来看,大数据分析是从技术支撑架构的角度来看,大数据分析是一个软件技术框架(一个软件技术框架(Framework),主要包),主要包括以下能力:括以下能力:1) 能够处理特别巨大的数据集(能够处理特别巨大的数据集(Volume););2) 提
32、供极快的数据插入操作(提供极快的数据插入操作(Velocity););3) 能够操作多种数据类型(能够操作多种数据类型(Variety););4) 要支持实时数据分析和历史数据分析;要支持实时数据分析和历史数据分析;5) 提供多种数据分析方法提供多种数据分析方法/模型;模型;6) 使用分布式并行处理机制(使用分布式并行处理机制(Volume & Velocity)。)。43n 本本 章章 小小 结结 理解数据分析的意义和作用,离差分析包理解数据分析的意义和作用,离差分析包括;极差、离差均值分析、方差、标准差以括;极差、离差均值分析、方差、标准差以及协方差等等。对大数据而言,数据分析是及协方差等
33、等。对大数据而言,数据分析是利用现代信息技术手段,包括数据前端分析、利用现代信息技术手段,包括数据前端分析、数据库分析和数据集市等技术。数据库分析和数据集市等技术。n 4445三、三、调查资料整理的程序调查资料整理的程序46问问卷卷审审核核编编码码数据处理图表制作调查问卷整理程序调查问卷整理程序录录入入47 实地审核实地审核 一般方式:一般方式: 复查和回访复查和回访 审核分为审核分为两个层面两个层面 资料审核资料审核 主要内容包括:主要内容包括:资料的时效性资料的时效性准准资料的完整性资料的完整性缺缺资料的正确性资料的正确性误误 1、审、审 核核48 调查资料审核的主要内容调查资料审核的主要
34、内容 (1)时效性)时效性 指所填资料是否是最新资料。 (2)完整性)完整性 看是否有缺损问卷;是否都填写齐全;是否有答案模糊不清的问卷。 (3)正确性)正确性 指审核访谈是否按适当的方式进行,访问员有没有作假行为,调查口径、计算方法等是否符合要求等。49 调查资料审核的主要方法调查资料审核的主要方法 经验判断法经验判断法 例如:如果被调查者年龄填写为132岁,根据经验判断,其填写肯定有误。 逻辑检查法逻辑检查法 例 如:某消费者在前面说“不知道”某调味品,后面却说“每天都在使用”,显然前后矛盾。 计算审核法计算审核法 例如:在家庭收支结构中,家庭总收入远小于总支出和储蓄之和,那肯定有错。50
35、 对不合格答案的的处理办法对不合格答案的的处理办法n第一,第一,退回退回实施现场获取较好的数据。实施现场获取较好的数据。n第二,按第二,按缺失值缺失值处理(前提是退回实施现场处理(前提是退回实施现场的做法无法实现)。的做法无法实现)。n第三,整个第三,整个问卷作废问卷作废(前提是不满意问卷的(前提是不满意问卷的比例很小不足比例很小不足10%;样本量很大;不满意的;样本量很大;不满意的问卷与满意的问卷间没有明显的判别问卷与满意的问卷间没有明显的判别 每份不每份不满意的问卷中,不满意答案的比例很大)。满意的问卷中,不满意答案的比例很大)。 51 注意:下列问卷一般是不能接受的注意:下列问卷一般是不
36、能接受的n第一,所回收的问卷是明显不完整,如第一,所回收的问卷是明显不完整,如缺一缺一页或多页页或多页。第二,问卷从整体或部分看回答。第二,问卷从整体或部分看回答不完全。第三,调查员没有理解访问指南而不完全。第三,调查员没有理解访问指南而误导被访问者回答,结果离题太远,如没有误导被访问者回答,结果离题太远,如没有要求要求跳答跳答。第四,。第四,同一项目的回答,答案几同一项目的回答,答案几乎没有变化乎没有变化;第五,;第五,问卷回收超过规定的截问卷回收超过规定的截止日期。止日期。第六,回答问题的第六,回答问题的被访问者不符合被访问者不符合要求要求。第七,答案字迹模糊不清,无法辨认。第七,答案字迹
37、模糊不清,无法辨认。第八,对开放性的问题回答模棱两可,难以第八,对开放性的问题回答模棱两可,难以清楚表达调查意图。清楚表达调查意图。 52 3、 录录 入入 录入就是由录入员将问卷按照确定录入就是由录入员将问卷按照确定好的编码输入到计算机,目前主要采用好的编码输入到计算机,目前主要采用键盘输入法。键盘输入法。 控制录入质量的方法:控制录入质量的方法:(1 1)重复录入)重复录入(2 2)预算控制)预算控制(3 3)平衡检测)平衡检测53 4、 数据处理数据处理处理方法:处理方法:(1 1)自行直接人工处理)自行直接人工处理(2 2)委托专业机构处理)委托专业机构处理常用软件:常用软件:(1 1
38、)ExcellExcell(2 2)SPSSSPSS(Statistics Package for The (Statistics Package for The Social ScienceSocial Science“社会科学统计软件社会科学统计软件”) )54 5、统计表与统计图、统计表与统计图n 统计表:把统计数据按统计表:把统计数据按一定的顺一定的顺序序排列在排列在表格上表格上,就形成了统计,就形成了统计表。它清楚地、有条理地显示统表。它清楚地、有条理地显示统计资料,直观地反映统计分布特计资料,直观地反映统计分布特征,是征,是统计分析统计分析的一种的一种重要工具重要工具。55统计表的
39、结构统计表的结构n1)从)从表式表式上看上看n表格包括表格包括总标题总标题、横行标题横行标题、纵栏标题纵栏标题和和指标数指标数值值四个部分。如表四个部分。如表1所示:所示:n2)从)从内容内容上看上看n统计表由统计表由主词栏主词栏和和宾词栏宾词栏两个部分组成。两个部分组成。n主词栏是统计表所要说明的主词栏是统计表所要说明的总体及其组成部分总体及其组成部分;宾词栏是统计表用来宾词栏是统计表用来说明总体数量特征的各个统说明总体数量特征的各个统计指标计指标。n此外,统计表还有补充资料、此外,统计表还有补充资料、注解注解、资料来源资料来源、填表单位、填表人等。填表单位、填表人等。56 20172017
40、年某月某公司各企业劳动生产率年某月某公司各企业劳动生产率 分组分组总产值总产值(万元万元)职工人数职工人数(人人)劳动生产率劳动生产率(元元/人人)P123大型大型中型中型小型小型合计合计横横行行标标题题 主词主词宾词宾词数据资料数据资料( (指标数值指标数值) )纵栏标题纵栏标题总标题总标题例如:例如:57n统计表的设计应注意事项:统计表的设计应注意事项:n1.线条的绘制。线条的绘制。表的表的上下端应以粗线绘制上下端应以粗线绘制,表内纵横线以细线绘制。表格的表内纵横线以细线绘制。表格的左右两端左右两端一般不划线,采用一般不划线,采用“开口式开口式”。n2.合计栏的设置。合计栏的设置。 n3.
41、标题设计。标题设计。以简练而又准确的文字表述统以简练而又准确的文字表述统计资料的内容、资料所属的计资料的内容、资料所属的空间和时间空间和时间范范围。围。 58n4.指标数值的填写指标数值的填写。n当当缺某项数字资料时缺某项数字资料时,可用符号,可用符号“”表示;表示;不应不应有数字时用有数字时用符号符号“”表示。表示。n5.计量单位计量单位。n统计表必须注明数字资料的计量单位。当全表只统计表必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在有一种计量单位时,可以把它写在表头的右上方表头的右上方。如果表中各格的指标数值计量单位不同,可在横如果表中各格的指标数值计量单位不同,可在横
42、行标题后添一列计量单位。行标题后添一列计量单位。n6.注解或资料来源。注解或资料来源。n在统计表下,应在统计表下,应注明资料来源注明资料来源。59 交叉列表分析技术交叉列表分析技术n 交叉列表分析是同时将两个或交叉列表分析是同时将两个或两个以上具有有限类目数和确定值两个以上具有有限类目数和确定值的变量,按照一定顺序对应排列在的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相一张表中,从中分析变量之间的相关关系,得出科学结论的技术。关关系,得出科学结论的技术。 60低收入低收入有有25215696504没有没有156240300696列合计列合计408396396120061 三变量交
43、叉列表分析技术三变量交叉列表分析技术n 讨论的三变量交叉列表分析就讨论的三变量交叉列表分析就是在双变量分析的基础上,加入第是在双变量分析的基础上,加入第三个变量做进一步分析,可以补充三个变量做进一步分析,可以补充说明原有两变量分析的结果说明原有两变量分析的结果, ,使之使之更准确全面。更准确全面。62 三变量交叉列表分析的作用三变量交叉列表分析的作用其作用表现在:其作用表现在:(1 1)更精确反映原有二变量之间的联系;)更精确反映原有二变量之间的联系;(2 2)揭示原有的两个变量之间的不相关,也)揭示原有的两个变量之间的不相关,也就是说三变量交叉列表分析结果显示了两者就是说三变量交叉列表分析结
44、果显示了两者之间的相关性是之间的相关性是虚假虚假的;的;(3 3)加入第三个变量后,可能显示原有两变)加入第三个变量后,可能显示原有两变量之间被量之间被隐含隐含的关系;的关系;(4 4)可能说明原有两变量之间的联系没有改)可能说明原有两变量之间的联系没有改变。变。63拥有情况拥有情况受教育程度受教育程度大专以上大专以上大专以下大专以下收入水平收入水平收入水平收入水平高收入高收入中等收入中等收入低收入低收入高收入高收入中等收入中等收入低收入低收入有有65%63%60%40%34%20%没有没有35%37%40%60%66%80%列合计列合计100%100%100%100%100%100%个案数个案数200196196208200200