1、调查问卷调查问卷的整理与录入的整理与录入一、问卷的整理一、问卷的整理二、问卷的录入二、问卷的录入三、问卷的分析三、问卷的分析问卷整理程序问卷整理程序审审 核核编编码码数据处理图表制作录录入入分分组组 第一节第一节 问卷的整理程序问卷的整理程序审核分为审核分为两个层面两个层面 实地审核实地审核 一般方式:一般方式: 复查和回访复查和回访 资料审核资料审核 主要内容包括:主要内容包括:资料的时效性资料的时效性准准资料的完整性资料的完整性缺缺资料的正确性资料的正确性误误 1、审 核 调查资料审核的主要内容 (1)完备性)完备性 (2)完整性)完整性 (3)正确性)正确性 (4)时效性)时效性 (5)
2、真伪性)真伪性1 1、完备性、完备性 即检查收回的问卷或调查表的份数是否齐全,是否达到即检查收回的问卷或调查表的份数是否齐全,是否达到了调查方案设计的样本量的要求。如果调查问卷或调查表份了调查方案设计的样本量的要求。如果调查问卷或调查表份数不够,应查明原因,采取补救措施,如重新拜访或更换调数不够,应查明原因,采取补救措施,如重新拜访或更换调查对象。查对象。2 2、完整性、完整性 即检查审核问卷或调查表填答的项目是否完整。即检查审核问卷或调查表填答的项目是否完整。 不完整的答卷有三种情形:不完整的答卷有三种情形: (1 1)大面积的无回答,或者相当多的问题无回答,对此)大面积的无回答,或者相当多
3、的问题无回答,对此应作废卷处理;应作废卷处理; (2 2)个别问题无回答,)个别问题无回答,应视为有效调查问卷应视为有效调查问卷,所留空白,所留空白待后续工作采取待后续工作采取补救措施,补救措施,或将它直接归入或将它直接归入“暂未决定暂未决定”、“其他答案其他答案”的类别中;的类别中; (3 3)有相当多的调查问卷对同一问题无回答,仍作为有)有相当多的调查问卷对同一问题无回答,仍作为有效调查问卷,对此项提问可作删除处理。效调查问卷,对此项提问可作删除处理。3 3、准确性、准确性 即检查问卷或调查表中的项目是否存在填答错误,即检查问卷或调查表中的项目是否存在填答错误,一般也有三种情形:一般也有三
4、种情形: (1 1)逻辑性错误,表现为某些答案明显地不符合事)逻辑性错误,表现为某些答案明显地不符合事实,或者前后不一致。对这类错误能够用电话核实的可进实,或者前后不一致。对这类错误能够用电话核实的可进行更正,无法核实的按行更正,无法核实的按“不详值不详值”对待;对待; (2 2)答非所问的答案,一旦发现应通过电话询问进)答非所问的答案,一旦发现应通过电话询问进行纠正,或按行纠正,或按“不详值不详值”对待;对待; (3 3)乏兴回答的错误,如所有问题都选择同一固定)乏兴回答的错误,如所有问题都选择同一固定编号答案,或者一笔带过若干个问题。如这种乏兴回答仅编号答案,或者一笔带过若干个问题。如这种
5、乏兴回答仅属个别问卷,应彻底抛弃,如这类回答的问卷有一定的数属个别问卷,应彻底抛弃,如这类回答的问卷有一定的数目,且集中出现在同一类问题群上,应把这些问卷作为一目,且集中出现在同一类问题群上,应把这些问卷作为一个独立的子样本看待,在资料分析时给予适当的注意。个独立的子样本看待,在资料分析时给予适当的注意。4 4、时效性、时效性 主要是对调查问卷或调查表的访问时间、有关数据主要是对调查问卷或调查表的访问时间、有关数据的时间属性进行检查,以评价调查数据是否符合时效性的时间属性进行检查,以评价调查数据是否符合时效性的要求。的要求。 一般地,访问员应在规定的时间内完成所有样本单一般地,访问员应在规定的
6、时间内完成所有样本单位的访问,如延迟了访问,则应作出不同情况的处理:位的访问,如延迟了访问,则应作出不同情况的处理:如延迟访问对调查结果没有什么影响,则问卷仍是合格如延迟访问对调查结果没有什么影响,则问卷仍是合格的;若延迟访问影响到数据的时间属性不一致时,则应的;若延迟访问影响到数据的时间属性不一致时,则应废弃这样的调查表或问卷。废弃这样的调查表或问卷。5 5、真伪性、真伪性 主要是对调查表或问卷的真实性进行检验,评价访主要是对调查表或问卷的真实性进行检验,评价访问员是否存在伪造问卷或调查表的行为。问员是否存在伪造问卷或调查表的行为。 一般采用抽样检查的方法进行核实,即从回收的全一般采用抽样检
7、查的方法进行核实,即从回收的全部问卷或调查表中随机抽取一部分,然后用电话或派人部问卷或调查表中随机抽取一部分,然后用电话或派人上门与被调查者联系,核实访问员是否到访,以及访问上门与被调查者联系,核实访问员是否到访,以及访问的时间、地点等。如果发现问卷或调查表是伪造的,应的时间、地点等。如果发现问卷或调查表是伪造的,应作废弃处理,并要派员重访。作废弃处理,并要派员重访。 调查资料审核的主要方法 经验判断法经验判断法 例如:如果被调查者年龄填写为132岁,根据经验判断,其填写肯定有误。 逻辑检查法逻辑检查法 例 如:某消费者在前面说“不知道”某调味品,后面却说“每天都在使用”,显然前后矛盾。 计算
8、审核法计算审核法 例如:在家庭收支结构中,家庭总收入远小于总支出和储蓄之和,那肯定有错。案例案例 错误的数据不如没有数据错误的数据不如没有数据国内一家知名的电视机生产企业,国内一家知名的电视机生产企业,20042004年初设立了年初设立了2020多人的多人的市场研究部门,开展了同样的调研问卷,完全相同结构的抽市场研究部门,开展了同样的调研问卷,完全相同结构的抽样,两组数据结论却差异巨大。正是因为这次调查,部门被样,两组数据结论却差异巨大。正是因为这次调查,部门被注销、人员被全部裁减。注销、人员被全部裁减。 问题:列举您会选择的电视机品牌?问题:列举您会选择的电视机品牌? 其中一组的结论是:有其
9、中一组的结论是:有15%15%的消费者选择本企业的电视机的消费者选择本企业的电视机;另一组的得出的结论却是:;另一组的得出的结论却是:36%36%的消费者表示本企业的的消费者表示本企业的产品将成为其购买的首选。巨大的差异让公司高层非常恼产品将成为其购买的首选。巨大的差异让公司高层非常恼火,为什么完全相同的调查抽样,会有如此矛盾的结果呢火,为什么完全相同的调查抽样,会有如此矛盾的结果呢?公司决定聘请专业的调研公司来进行调研诊断,找出问?公司决定聘请专业的调研公司来进行调研诊断,找出问题的真相。题的真相。 普瑞辛格的执行小组受聘和参与调查执行的访问员进行普瑞辛格的执行小组受聘和参与调查执行的访问员
10、进行交流,并很快提交了简短的诊断结论:第二组在进行调查执交流,并很快提交了简短的诊断结论:第二组在进行调查执行过程中存在误导行为。调研期间,第二组的成员佩带了公行过程中存在误导行为。调研期间,第二组的成员佩带了公司统一发放的领带,而在领带上有本公司的标志,其标志足司统一发放的领带,而在领带上有本公司的标志,其标志足以让被访问者猜测出调研的主办方;其次,第二组在调查过以让被访问者猜测出调研的主办方;其次,第二组在调查过程中,把选项的记录板程中,把选项的记录板( (无提示问题无提示问题) )向被访问者出示,而本向被访问者出示,而本企业的名字处在侯选题板的第一位。以上两个细节,向被访企业的名字处在侯
11、选题板的第一位。以上两个细节,向被访问者泄露了调研的主办方信息,影响了消费者的客观选择。问者泄露了调研的主办方信息,影响了消费者的客观选择。 这家企业的老总训斥调研部门的主管:这家企业的老总训斥调研部门的主管:“如果按照你的如果按照你的数据,我要增加一倍的生产计划,最后的损失恐怕不止千万数据,我要增加一倍的生产计划,最后的损失恐怕不止千万。”问题:本案例对你有何启示?问题:本案例对你有何启示?分析提示:市场调查是直接指导营销实践的大事,对错是分析提示:市场调查是直接指导营销实践的大事,对错是非可以得到市场验证,只是人们往往忽视了市场调查本身非可以得到市场验证,只是人们往往忽视了市场调查本身带来
12、的风险。一句带来的风险。一句“错误的数据不如没有数据错误的数据不如没有数据”,包含了,包含了众多中国企业家对数据的恐慌和无奈。众多中国企业家对数据的恐慌和无奈。缺失数据的处理缺失数据的处理1 1)无效问卷)无效问卷2 2)不满意的问卷)不满意的问卷 3 3)不满意问卷的处理方法)不满意问卷的处理方法 1 1)无效问卷)无效问卷(1)1)回答不完全回答不完全 (2)2)调查对象不符合要求调查对象不符合要求 (3)3)答案选择高度一致答案选择高度一致 (4)4)截止日期后收回的问卷截止日期后收回的问卷 2)2)不满意的问卷不满意的问卷 (1 1)模糊不清)模糊不清 (2 2)前后不一致或有明显错误
13、的)前后不一致或有明显错误的 (3 3)模棱两可)模棱两可 (4 4)不符合作答要求)不符合作答要求 3 3)不满意问卷的处理方法)不满意问卷的处理方法 (1 1)重新调查)重新调查 (2 2)填充)填充 找一个中间值代替找一个中间值代替 用一个逻辑答案代替用一个逻辑答案代替 删除处理删除处理 (3 3)空缺)空缺 文字资料文字资料 分组分组 2、分 组 数字资料数字资料一、文字资料的分类一、文字资料的分类 对于调研问卷中的开放式问题,很多回答都是文字资料,对对于调研问卷中的开放式问题,很多回答都是文字资料,对于这些文字资料我们需要根据其资料的性质、内容或特征把相于这些文字资料我们需要根据其资
14、料的性质、内容或特征把相异的资料挑出来,把相同或相近的资料归为一类,这样才能进异的资料挑出来,把相同或相近的资料归为一类,这样才能进行后期的数据分析。行后期的数据分析。(1 1)穷举原则。穷举即不遗漏,就是说分类时每一条资料都)穷举原则。穷举即不遗漏,就是说分类时每一条资料都要有归属。分类的结果必须将所有的总类全部包括进去,没有要有归属。分类的结果必须将所有的总类全部包括进去,没有遗漏。遗漏。(2 2)相斥原则。相斥即不重复,就是说在一种分组中每一条)相斥原则。相斥即不重复,就是说在一种分组中每一条资料只能归属为一类中,而不能既归于这类又归于那类,以至资料只能归属为一类中,而不能既归于这类又归
15、于那类,以至于在不同类别中重复出现。即类与类要相互排斥。于在不同类别中重复出现。即类与类要相互排斥。对开放式问题的答案整理程序:对开放式问题的答案整理程序: 1 1、集中所有同一个开放式问题的全部文字性答案,通过阅读、集中所有同一个开放式问题的全部文字性答案,通过阅读、思考和分析,把握被调查者的思想认识。、思考和分析,把握被调查者的思想认识。2 2、将被调查者的全部文字性答案,按照其思想认识不同归纳、将被调查者的全部文字性答案,按照其思想认识不同归纳为若干类型,并计算各种类型出现的频数后,制成全部答案为若干类型,并计算各种类型出现的频数后,制成全部答案分布表。分布表。3 3、对全部答案分布表中
16、的答案进行挑选归并,确定可以接受、对全部答案分布表中的答案进行挑选归并,确定可以接受的分组数。一般来说,在符合调研项目的前提下,保留频数的分组数。一般来说,在符合调研项目的前提下,保留频数多的答案,然后把频数很少的答案尽可能归并成含义相近的多的答案,然后把频数很少的答案尽可能归并成含义相近的几组,应根据调研的目的和答案类型的多少而确定,一般来几组,应根据调研的目的和答案类型的多少而确定,一般来说应控制在说应控制在1010组之内。组之内。4 4、为确定的分组,选择正式的描述词汇或短语。不同组别的、为确定的分组,选择正式的描述词汇或短语。不同组别的描述词汇或短语应体现质的差别,力求中肯、精炼、概括
17、。描述词汇或短语应体现质的差别,力求中肯、精炼、概括。5 5、根据分类归纳的结果,制成正式的答案分布表。、根据分类归纳的结果,制成正式的答案分布表。例:在一项关于居民空调购买行为的调研问卷中,设置了例:在一项关于居民空调购买行为的调研问卷中,设置了“你对静音空调这个产品概念有何看法?你对静音空调这个产品概念有何看法?”的的开放式问项开放式问项,通,通过对被调查者的回答分类归纳如下:过对被调查者的回答分类归纳如下: 被调查者对被调查者对“静音空调静音空调”的看法分布的看法分布看法分类看法分类 答案人数答案人数 比重(比重(% %)符合环保要求符合环保要求 325 18.25325 18.25符合
18、发展趋势符合发展趋势 286 14.30286 14.30符合消费需求符合消费需求 316 15.8316 15.8希望尽快推出希望尽快推出 198 9.9198 9.9有可能实现有可能实现 312 15.6312 15.6不可能实现不可能实现 350 17.5350 17.5难以评价难以评价 213 10.65213 10.65合计合计 2000 100.002000 100.00二、数字资料的二、数字资料的分组分组 对于问卷中的数字资料大多数在设计问卷时已经分好组对于问卷中的数字资料大多数在设计问卷时已经分好组了,如问卷中的封闭式问题。了,如问卷中的封闭式问题。 但是,但是,开放式开放式问
19、题如问题如“您购买的小灵通价格是您购买的小灵通价格是( )( )元元”,那么,我们在问卷调查完之后就还要对数字资料进行分组。那么,我们在问卷调查完之后就还要对数字资料进行分组。 数字资料有在问卷设计的时候就分组的,也有调查结束后数字资料有在问卷设计的时候就分组的,也有调查结束后再分组的,不管怎样,数字资料分组的原理都是一样的,我们再分组的,不管怎样,数字资料分组的原理都是一样的,我们都需要按照一定的步骤进行。都需要按照一定的步骤进行。数字资料分组的步骤数字资料分组的步骤1 1、分组标志的选择、分组标志的选择 数据资料分组的关键是选择分组标志。分组标志是说数据资料分组的关键是选择分组标志。分组标
20、志是说明总体特征的名称,可以分为品质标志和数量标志。明总体特征的名称,可以分为品质标志和数量标志。 定性:定性: 品质标志品质标志表示事物的质的特征,是不能用数值表示事物的质的特征,是不能用数值直接表示的属性,如人的性别、民族等。直接表示的属性,如人的性别、民族等。 定量:定量: 数量标志数量标志表示事物的量的特征,是可以用数值表示事物的量的特征,是可以用数值直接表示的,如人的年龄、收入等。直接表示的,如人的年龄、收入等。 分组标志就是分组的依据或标准,分组标志一经选定分组标志就是分组的依据或标准,分组标志一经选定,各组的性质界限和数量界限也就确定了。,各组的性质界限和数量界限也就确定了。2
21、2、组数和组距的确定、组数和组距的确定(1 1)组数和组距如何确定。当全距确定时,组距大则组数小,)组数和组距如何确定。当全距确定时,组距大则组数小,组距小则组数多。如果分组过多,组距必小,则不易观察数列分组距小则组数多。如果分组过多,组距必小,则不易观察数列分布的规律性。如果分组过少,组距必大,会使组中值缺乏代表性布的规律性。如果分组过少,组距必大,会使组中值缺乏代表性。各组组中值应对本组有良好的代表性。组距的确定一般可以请。各组组中值应对本组有良好的代表性。组距的确定一般可以请专家或以经验法确定。组数一般常分为专家或以经验法确定。组数一般常分为10101515组。组。调查的数据资料最大值减
22、去最小值,就是全距。调查的数据资料最大值减去最小值,就是全距。 组距组距= =全距全距组数组数 确定组距应遵循下列确定组距应遵循下列3 3个原则:个原则: 必须把原始资料全部变量值都包括在所分组内,不能必须把原始资料全部变量值都包括在所分组内,不能有任何遗漏;有任何遗漏; 组距尽可能取整数,不要小数;组距尽可能取整数,不要小数; 各组的组距尽可能相等,少用不等距分组,因为等距各组的组距尽可能相等,少用不等距分组,因为等距分组便于后阶段的分析。分组便于后阶段的分析。 按照经验确定组数按照经验确定组数观测值数目观测值数目 组数组数少于少于50 4750 4750200 7950200 792005
23、00 910200500 9105001000 10115001000 101110005000 111310005000 1113500050000 1317500050000 1317多于多于50000 172050000 1720(2 2)组距应否相等。为了便于分析研究原则上次数分布)组距应否相等。为了便于分析研究原则上次数分布中各组的组距应相等,即尽量编制中各组的组距应相等,即尽量编制等距数列等距数列。(3 3)组距的位置如何确定。为便于分析研究,一般采用)组距的位置如何确定。为便于分析研究,一般采用整齐而惯用的数字为组限。整齐而惯用的数字为组限。特别是习惯于采用特别是习惯于采用5 5
24、或或1010的倍的倍数表示组限数表示组限。 每组的最大值为组的上限,每组的最小值为组的下限。每组的最大值为组的上限,每组的最小值为组的下限。 划分组限时,各组频数的计量划分组限时,各组频数的计量不能重复不能重复,每一总体单位,每一总体单位只能计数只能计数1 1次。恰好重叠在组限上的变量值一般归入下限次。恰好重叠在组限上的变量值一般归入下限的的1 1组,即遵循组,即遵循“上限不在内上限不在内”原则。原则。(4 4)组限如何表示。组限的表示应以变量值本身的性质而定。如果是)组限如何表示。组限的表示应以变量值本身的性质而定。如果是间断数列,且数值变动范围小,则可以把每个变量值为一组,叫单项式间断数列
25、,且数值变动范围小,则可以把每个变量值为一组,叫单项式分组,见表分组,见表5-15-1。如果是连续数列,且数值变动范围较大,可将变量值。如果是连续数列,且数值变动范围较大,可将变量值划分为几个区间,每个区间为一组,叫组距式分组,见表划分为几个区间,每个区间为一组,叫组距式分组,见表5-25-2。5-15-2第二节第二节 基于基于epidataepidata的问卷录入的问卷录入1 1、将、将wordword格式中的问卷拷贝到格式中的问卷拷贝到epidataepidata中,中,注意格式的调整;注意格式的调整;2 2、有一些题目(尤其是多选题)无法确定格、有一些题目(尤其是多选题)无法确定格式,或
26、者不便于后面分析的,就拆分成单式,或者不便于后面分析的,就拆分成单选题,如第选题,如第9 9题;题;2 2、在每一个选项后面输入、在每一个选项后面输入“字段编辑器字段编辑器”,选择本题答案的格式,如数字、文本、日选择本题答案的格式,如数字、文本、日期、其他;期、其他;1 1、生成、生成recrec文件;文件;2 2、建立、建立chkchk文件:文件:chkchk文件是对每一个输入的文件是对每一个输入的答案进行限制,防止在纸质版转换为电子答案进行限制,防止在纸质版转换为电子版时出现常识性的错误。版时出现常识性的错误。开始数据录入开始数据录入注意事项:注意事项:1 1、如果前面有、如果前面有chk
27、chk文件,则有一些答案填写的限制文件,则有一些答案填写的限制,比如填写的数字范围的限制、是否需要跳转、,比如填写的数字范围的限制、是否需要跳转、是否是必填项等等是否是必填项等等2 2、可以录入多份问卷,当一份录完以后,保存,就、可以录入多份问卷,当一份录完以后,保存,就可以直接录入第二份问卷,每一份问卷会在左下可以直接录入第二份问卷,每一份问卷会在左下角显示。角显示。其他功能其他功能1 1、纵向追加记录、纵向追加记录/ /横向合并功能横向合并功能2 2、数据一致性检验:双录入时、数据一致性检验:双录入时EpdidataEpdidata教程教程第三节第三节 问卷资料的分析问卷资料的分析(一)基
28、础数据分析(一)基础数据分析 通过通过频数分布频数分布、表列表列、图表图表对整理后的调查资料对整理后的调查资料进行一些基本的数据分析,使之能清晰明了地反进行一些基本的数据分析,使之能清晰明了地反映调查总体属性的分布态势和相互关系,有助于映调查总体属性的分布态势和相互关系,有助于后续分析和预测后续分析和预测 1. 1. 频数分布频数分布调查有关单个变量的信息了解对一个变量选择不同取值的调查对象的数量不同取值的出现频率以百分比形式展现3.您通常喝什么类型的酒您通常喝什么类型的酒?白酒【】葡萄酒【】香槟酒【】啤酒【】其他【】白酒【】葡萄酒【】香槟酒【】啤酒【】其他【】通常饮用酒类的频数分度变量值标签
29、变量值频数百分比有效百分比累计百分比白酒11020.020.820.8葡萄酒2816.016.737.5香槟酒324.04.241.7啤酒42754.056.297.9其他512.02.1100缺省924.0缺省合计50100100集中趋势指标差异性指标分布形态指标 集中趋势指标集中趋势指标 用于描述分布的中心用于描述分布的中心 包括:均值(平均数)、中位数、众数包括:均值(平均数)、中位数、众数均值即平均数,是最常用的统计量数据应具有一定的集中趋势,大部分答案应分布在均值附近算术平均: 加权平均:均值nXXnii/1niiniiinXnX11/出现最频繁的数值,表示分布中的高峰众数所有数据按
30、升序或降序排列后位置居中的数值若样本数为偶数,则中位数为居中的两个数值的均值中位数是定序数据的集中趋势指标中位数中位数比平均数更能反映大众的真实情况【小笑话】如果比尔盖茨和十几个穷光蛋在一个房间里,这个房间里十几个人的平均收入就都超过亿元。这是因为比尔盖茨和穷光蛋的收入差距过大,导致平均数值缺乏实际参考意义。但如果用中位数来衡量,中位数为0,就知道这房间里起码有一半人是穷光蛋差异性指标用于描述样本值偏离分布中心的趋势包括:极差(全距)、方差或标准差、变异系数反映数据的分散程度,即样本最大值与最小值之差可结合中位数评价样本值的代表性,受奇异值影响公式:全距=XmaxXmin极差离差:样本值和均值
31、之差方差:离均差平方的均值 标准差:方差的平方根方差或标准差越大,说明数据点分布越分散,数据间差异越大方差和标准差nXXnii/)(212标准差与平均数的比值如果两组数据的度量单位和平均数相同,可用标准差来比较两组数据的离散程度;如果度量单位和平均数不同,就只能用变异系数比较变异系数分布形状指标了解数据分布的形态包括:偏度、峰度数据分布可能是对称的,也可能不对称对称分布中,位于中心两侧的数据值一样多,均值、中位数、众数相等,对于均值的正负偏差相等;非对称分布则不等偏度指中心一侧的均值偏差趋势比另一侧大偏度测量频数分布曲线相对平滑或突起程度的指标正态分布峰度为0,峰度为正,曲线比正态分布突出,反
32、之平缓峰度 2. 2. 表列表列单向表列交叉表列只计数一个变量的不同数值出现次数的,称为单向表列离散型变量,或变量数值较少、变动幅度不大且总体单位数不多的情况适合编制单相表列同时计数两个或多个变量的不同数值联合出现次数的,称为交叉表列综合分析相互联系的多个变量之间的变动关系市场调查中最频繁、最广泛的方法之一 双向交叉表列双向交叉表列 复杂交叉表列的基础,描述当有两个变量同时产生影复杂交叉表列的基础,描述当有两个变量同时产生影响作用时,频数分布的状况,也称列联表响作用时,频数分布的状况,也称列联表经营年限与业务增长之间的关系表业务增长经营年限行总计小于5年510年10年以上速度慢45345513
33、4速度快525327132列总计978782266经营年限小于5年和510年之间的企业经营业务的增长速度快于经营年限超过10年的企业按经营年限计算的经营业务增长速度业务增长经营年限小于5年510年10年以上速度慢46.4%39.1%67.1%速度快53.6%60.9%32.9%列总计100%100%100%经营年限小于5年的企业中的53.6%和经营年限在510年的企业中的60.9%增长速度快,而10年以上的企业中只有32.9%增长速度快,说明当经营年限超过一定界限时,经营业务的增长速度反而可能下降p 计算百分数可以按列计算,也可以按行计算p 原则:以自变量为基准计算百分数p 上表中经营年限为自
34、变量,增长速度为因变量,以自变量为基准就是按列计算如果按行计算,可得下表。表中显示,增长速度慢的企业中有33.5%经营少于10年,25.4%经营了510年,41.0%经营了10年以上,说明增长慢使企业经营了很长时间,这种结果没有实际意义按经营业务增长速度计算的经营年限业务增长经营年限行总计小于5年510年10年以上速度慢33.6%25.4%41.0%100%速度快39.4%40.1%20.5%100% 三向交叉表列三向交叉表列 在双向交叉表列中添加第三个变量在双向交叉表列中添加第三个变量婚姻状态与时装购买状况婚姻现状已婚未婚时装购买状况高31%52%低69%48%列总计100%100%被调查总
35、数700300自变量:婚姻状况,因变量:时装购买状况结论:未婚者比已婚者购买更多的时装婚姻状态、性别与时装购买状况性别男性女性婚姻现状已婚未婚已婚未婚时装购买状况高35%40%25%60%低65%60%75%40%列总计100%100%100%100%被调查总数400120300180自变量:性别、婚姻状况,因变量:时装购买状况结论:婚姻状况对时装购买的作用更多的表现在女性身上,男性中已婚和未婚者购买时装的差异不大加入第三个变量后,原双向交叉表列分析的结果可能会:p 更精确地反映原有两个变量之间的联系p 可能发现原双向表列显示的两者之间的关系是假的p 可能使原双变量之间不相关的结论变为存在某些
36、关系p 可能显示原有联系没有改变性别与驾车事故比率调查事项男性女性从未出过事故56%68%至少有一次事故44%32%被调查总数70806950男性比女性更容易出事故?性别、驾驶里程与驾车事故比率调查事项男性驾驶英里数女性驾驶英里数大于10000小于10000大于10000小于10000从未出过事故48%75%48%75%至少有一次事故52%25%52%25%被调查总数5010207019155035事故发生率多少与驾驶里程有关,与性别无关,前一张表中之所以男性事故比率高于女性,是因为男性的驾驶里程普遍多余女性 3. 3. 图表图表统计图是以圆点的多少、直线的长短、曲线的起伏、条形长短、柱状高低
37、、圆饼面积等图形来陈示调研数据统计图的制作:手工制作和计算机制作统计图的种类:折线图、条形图、直方图、圆面图、饼图、环行图、动态曲线图、散点图等 折线图折线图 直方图直方图 条形图条形图 饼图饼图7.5.27.5.2、非数量资料与定性分析非数量资料与定性分析 常用的定性分析方法常用的定性分析方法定性分析的概念和原则定性分析的概念和原则 定性分析是对不能量化的定性分析是对不能量化的现象进行系统化的理性认识的现象进行系统化的理性认识的分析,理论依据是哲学观点、分析,理论依据是哲学观点、逻辑判断及推理,其结论是对逻辑判断及推理,其结论是对事物的本质、趋势和规律的性事物的本质、趋势和规律的性质方便的认
38、识。质方便的认识。定量分析方法定量分析方法 定量分析:定量分析:是从事物数量方面的特征入手,运用一定的数据处是从事物数量方面的特征入手,运用一定的数据处理技术进行数量分析,从而挖掘出数量中所含的事物本身的特理技术进行数量分析,从而挖掘出数量中所含的事物本身的特性及其规律性的分析方法。性及其规律性的分析方法。 定量分析包括:定量分析包括: (1 1)描述性统计分析:统计分组、集中趋势分析、离散程度)描述性统计分析:统计分组、集中趋势分析、离散程度分析、相对程度分析、指数分析。分析、相对程度分析、指数分析。 (2 2)推断性统计分析:参数估计、假设检验、回归分析等)推断性统计分析:参数估计、假设检
39、验、回归分析等 (3 3)不确定分析方法)不确定分析方法模糊分析模糊分析 统计分组统计分组 次数(频数):分布在各组的单位数叫次次数(频数):分布在各组的单位数叫次数或频数。数或频数。统计分组与次数分布(频数)统计分组与次数分布(频数)集中趋势分析集中趋势分析 数据的集中趋势分析:数据的集中趋势分析: 主要是对数据规律性的集中特征进行分析。主要是对数据规律性的集中特征进行分析。 集中趋势分析的对象:集中趋势分析的对象: (1 1)平均数:数据之和除以个数之和所得的数值)平均数:数据之和除以个数之和所得的数值 (2 2)众数:在一组数据中出现频数最高的数值)众数:在一组数据中出现频数最高的数值
40、(3 3)中位数:按大小排列的一组数据中央位置的数值。)中位数:按大小排列的一组数据中央位置的数值。 思考:思考:该班同学的平均年龄是多少?中该班同学的平均年龄是多少?中位数和众数各是多少?位数和众数各是多少?16岁17岁18岁19岁20岁110人20人25人2人相对程度分析相对程度分析 相对程度分析:相对程度分析: 是反映现象之间数量关系的重要手段,它通过对比的方法反是反映现象之间数量关系的重要手段,它通过对比的方法反映现象之间的关联程度,表明现象的发展过程。映现象之间的关联程度,表明现象的发展过程。 常用的相对程度分析指标:常用的相对程度分析指标:(1 1)结构相对指标:总体中男女生比例)
41、结构相对指标:总体中男女生比例(2 2)比较相对指标:两个企业劳动生产率的比较)比较相对指标:两个企业劳动生产率的比较(3 3)比例相对指标:如恩格尔系数)比例相对指标:如恩格尔系数(4 4)强度相对指标:人口密度、人均产量等。)强度相对指标:人口密度、人均产量等。离散分析离散分析 数据的离散趋势分析:数据的离散趋势分析: 集中趋势反映的是数据的一般水平,而离散分集中趋势反映的是数据的一般水平,而离散分析则是对数据差异程度的分析。析则是对数据差异程度的分析。 集中离散分析的对象:集中离散分析的对象: (1 1)极差)极差 (2 2)平均差)平均差 (3 3)方差与标准差)方差与标准差 (4 4
42、)离散系数)离散系数 动态数列的概念动态数列的概念 概念:概念: 把反映某现象的同一指标,在不同时间上的指标值把反映某现象的同一指标,在不同时间上的指标值,按时间(如年、季、月、日等)先后顺序编排所排,按时间(如年、季、月、日等)先后顺序编排所排列的数列,称为动态数列或时间数列的每一行有序数列的数列,称为动态数列或时间数列的每一行有序数值,就是一个动态数列。值,就是一个动态数列。 作用:作用: 我国近几年职工人数及工资额的变化我国近几年职工人数及工资额的变化年年 份份19961996199719971998199819991999年末职工人数(万人)年末职工人数(万人)职工工资总额(亿元)职工工资总额(亿元)国有单位工资(亿元)国有单位工资(亿元)占工资总额的比重(占工资总额的比重(% %)职工年平均货币工资(元)职工年平均货币工资(元)