1、市场调研与分析项目五 市场调研数据的分析第1页,共131页。模块一 拟定统计分析计划第2页,共131页。一、教学目标 最终目标:能拟定调研数据统计分析计划最终目标:能拟定调研数据统计分析计划。促成目标:促成目标:能根据调研数据的特点,能根据调研数据的特点,选择合适的分析方法选择合适的分析方法。第3页,共131页。拟定统计分析计划。拟定统计分析计划。二、工作任务第4页,共131页。1、利用先进的分析工具对调查结果进行描述性统计分析;2、根据项目目标、调查内容,结合数据分析结果,对项目进行交叉分析;3、根据需要界定是否需要追加调查工作;4、综合客户实际情况,对项目研究结果进行综合分析,提交调查报告
2、。三、拟定统计分析计划的步骤第5页,共131页。拟定统计分析计划的步骤(1)单变量描述性统计分析(2)双变量列联分析(3)是否需要追加调查(4)研究结果的综合分析第6页,共131页。宁波市现代化和谐社区群众满意宁波市现代化和谐社区群众满意度调研报告度调研报告第7页,共131页。五、项目任务 根据实地调研数据录入电脑所形成数根据实地调研数据录入电脑所形成数据库,针对调研得到的原始数据拟定调研据库,针对调研得到的原始数据拟定调研分析计划。分析计划。第8页,共131页。模块二 利用Excel和SPSS进行单变量描述性统计分析 第9页,共131页。一、教学目标 最终目标:能分析市场调研数据。最终目标:
3、能分析市场调研数据。促成目标:促成目标:能能利用利用EXCELEXCEL、SPSSSPSS进行进行单变量描述单变量描述性统计分析。性统计分析。第10页,共131页。利用利用EXCELEXCEL、SPSSSPSS进行进行单变量单变量描述性统计分析。描述性统计分析。二、工作任务第11页,共131页。三、单变量描述性统计分析的步骤(1)总量指标计算分析(2)相对指标计算分析(3)平均指标计算分析(4)变异指标计算分析第12页,共131页。密苏里州,圣路易斯密苏里州,圣路易斯 华盛顿大学医疗中心的华盛顿大学医疗中心的BarnesBarnes医院,建于医院,建于19141914年,是为圣路易斯及其邻近地
4、区的居民提供医疗年,是为圣路易斯及其邻近地区的居民提供医疗服务的主要医院,该医院被公认为美国最好的医服务的主要医院,该医院被公认为美国最好的医院之一。院之一。BarnesBarnes医院有一个收容计划,用以帮助医院有一个收容计划,用以帮助身患绝症的人及其家人提高生活质量。负责收容身患绝症的人及其家人提高生活质量。负责收容工作的小组包括一名主治医师、一名助理医师、工作的小组包括一名主治医师、一名助理医师、护士长、家庭护士和临床护士、家庭健康服务人护士长、家庭护士和临床护士、家庭健康服务人员、社会工作者、牧师、营养师、经过培圳的志员、社会工作者、牧师、营养师、经过培圳的志愿者以及提供必要的其他辅助
5、服务的专业人员。愿者以及提供必要的其他辅助服务的专业人员。通过收容工作组的共同努力,家人及其家庭会获通过收容工作组的共同努力,家人及其家庭会获得必要的指导和支持,以帮助他们克服由于疾病、得必要的指导和支持,以帮助他们克服由于疾病、隔离和死亡而带来的紧张情绪。隔离和死亡而带来的紧张情绪。第13页,共131页。在收容工作组的协作和管理上,采用每月报告和季在收容工作组的协作和管理上,采用每月报告和季度总结来帮助小组成员回顾过去的服务。对于工作度总结来帮助小组成员回顾过去的服务。对于工作数据的统计概括则用作方针措施的规划和执行的基数据的统计概括则用作方针措施的规划和执行的基础。础。比如,他们搜集了有关
6、病人被工作组收容的时间比如,他们搜集了有关病人被工作组收容的时间的数据。一个含有的数据。一个含有6767个病人记录的样本表明,病人个病人记录的样本表明,病人被收容的时间在被收容的时间在11851185天内变化。频数分布表的使天内变化。频数分布表的使用对于概括总结收容天数的数据也是很有用的。此用对于概括总结收容天数的数据也是很有用的。此外,下面的描述统计学数值量度也被用于提供有关外,下面的描述统计学数值量度也被用于提供有关收容时间数据的有价值的信息,收容时间数据的有价值的信息,平均数:平均数:35.735.7天天 中位数:中位数:1717天天 众众 数:数:1 1天天 第14页,共131页。对以
7、上数据进行解释,表明了平均数即对病人的对以上数据进行解释,表明了平均数即对病人的平均收容时间是平均收容时间是35.735.7天,也就是天,也就是1 1个月多个月多点。而点。而中位数则表明半数病人的收容时间在中位数则表明半数病人的收容时间在1717天以下,天以下,半数病人的收容时间在半数病人的收容时间在1717天以上。众数是发生频天以上。众数是发生频数最多的数据值。众数为数最多的数据值。众数为1 1天表明许多病人仅仅被天表明许多病人仅仅被收容了短短的收容了短短的1 1天。天。有关该收容计划的其他统计汇总还包括住院费有关该收容计划的其他统计汇总还包括住院费金额、病人在家时间与在医院时间的对比、痊愈
8、金额、病人在家时间与在医院时间的对比、痊愈出院的病人数目、病人在家死亡和在医院死亡的出院的病人数目、病人在家死亡和在医院死亡的数目。这些汇总结果将根据病人的年龄和医疗普数目。这些汇总结果将根据病人的年龄和医疗普及程度的不同进行分析。总之,描述统计学为收及程度的不同进行分析。总之,描述统计学为收容服务提供了有价值的信息。容服务提供了有价值的信息。第15页,共131页。五、项目任务1 1、根据实地调研数据录入电脑所形成数据库,、根据实地调研数据录入电脑所形成数据库,进行描述性统计分析。进行描述性统计分析。2 2、见子项目实训六、七、八、九、十、十一。、见子项目实训六、七、八、九、十、十一。第16页
9、,共131页。六、实践操作第17页,共131页。评价分析:描述性统计分析法第18页,共131页。第19页,共131页。第20页,共131页。第21页,共131页。用对比的方法反映某些相关事物之间用对比的方法反映某些相关事物之间数量联系程度的指标。如数量联系程度的指标。如第22页,共131页。第23页,共131页。总量指标总量指标第24页,共131页。一、总量指标的概念一、总量指标的概念 总量指标是反映总体的总规模和总水平的综合总量指标是反映总体的总规模和总水平的综合指标。指标。二、总量指标的种类二、总量指标的种类(一)按其所反映的内容不同(一)按其所反映的内容不同、总体单位总量指标:反映总体中
10、单位数多少的。、总体单位总量指标:反映总体中单位数多少的。、总体标志总量指标:是反映总体中某种数量标志、总体标志总量指标:是反映总体中某种数量标志值总和的。值总和的。(二)按其所反映的时间状况不同(二)按其所反映的时间状况不同、时期指标:反映现象在某一段时期内的总量。、时期指标:反映现象在某一段时期内的总量。、时点指标:反映现象在某一时刻上的总量。、时点指标:反映现象在某一时刻上的总量。第25页,共131页。v(三)按计量单位的不同(三)按计量单位的不同v、实物量指标、实物量指标v、价值量指标、价值量指标v、劳动量指标、劳动量指标 返回返回实物单位实物单位自然单位自然单位度量衡单位度量衡单位标
11、准实物单位标准实物单位双重或多重单位双重或多重单位复合单位复合单位第26页,共131页。相对指标相对指标一、相对指标的概念一、相对指标的概念二、相对指标的表现形式二、相对指标的表现形式三、相对指标的种类及计算三、相对指标的种类及计算(一)结构、比例相对指标(一)结构、比例相对指标(二)比较、动态相对指标(二)比较、动态相对指标(三)强度相对指标(三)强度相对指标(四)计划完成相对指标(四)计划完成相对指标 第27页,共131页。一、相对指标的概念一、相对指标的概念 用对比的方法反映某些相关事物之间用对比的方法反映某些相关事物之间数量联系程度的指标。数量联系程度的指标。二、相对指标的表现形式二、
12、相对指标的表现形式(一)名数(一)名数(二)无名数(二)无名数 1 1、系数和倍数、系数和倍数 2 2、成数、成数 3 3、百分数、百分数 4 4、千分数、千分数 第28页,共131页。三、相对指标的种类及计算(结构、比例)三、相对指标的种类及计算(结构、比例)%100 总体中全部数值总体中全部数值总体中的部分数值总体中的部分数值结构相对指标结构相对指标%100 总总体体中中另另一一部部分分数数值值总总体体中中某某一一部部分分数数值值比比例例相相对对指指标标女生人数女生人数男生人数男生人数总人数总人数男生人数男生人数如如:如如:(一一)(二二)第29页,共131页。第30页,共131页。(五五
13、)强度相对指标强度相对指标1 1、基本公式、基本公式 第31页,共131页。2、作用、作用(1 1)反映现象的强弱程度)反映现象的强弱程度 如如:(2 2)反映现象的密度)反映现象的密度 如:如:(3 3)反映现象的经济效益)反映现象的经济效益 如:如:第32页,共131页。(六)计划完成相对指标(六)计划完成相对指标1 1、基本公式、基本公式2 2、短期计划的检查、短期计划的检查(1 1)计划任务数为绝对数)计划任务数为绝对数 某企业计划规定本年度销售收入达到某企业计划规定本年度销售收入达到10001000万万元,实际为元,实际为950950万元,计划完成相对指标为万元,计划完成相对指标为
14、第33页,共131页。(2 2)计划任务数为平均数)计划任务数为平均数 某企业计划某种产品单位成本为某企业计划某种产品单位成本为5050元,实际为元,实际为4545元,计划完成相对指标为元,计划完成相对指标为 第34页,共131页。(3 3)计划数为相对数)计划数为相对数 某企业计划劳动生产率今年比去年提高某企业计划劳动生产率今年比去年提高10%10%,实际提高了实际提高了15%15%。计划完成相对指标为。计划完成相对指标为 (正指标)(正指标)某企业计划某种产品成本今年比去年降低某企业计划某种产品成本今年比去年降低5%5%,实际降低了实际降低了6%6%。计划完成相对指标为。计划完成相对指标为
15、 (逆指标)(逆指标)第35页,共131页。3 3、中长期计划任务的检查、中长期计划任务的检查(1 1)水平法:)水平法:当计划任务是以计划期期末(最后一年)应达到当计划任务是以计划期期末(最后一年)应达到的水平下达的,检查计划执行情况用水平法。的水平下达的,检查计划执行情况用水平法。确定提前完成计划的时间:如果计划期内有连续确定提前完成计划的时间:如果计划期内有连续一年的实际数,达到计划规定最后一年应达到的一年的实际数,达到计划规定最后一年应达到的水平,后面所余的时间就是提前完成计划的时间。水平,后面所余的时间就是提前完成计划的时间。第36页,共131页。v例:某产品的产量按例:某产品的产量
16、按5 5年计划规定最后一年的产年计划规定最后一年的产量应达到量应达到4545万吨,执行情况如下:万吨,执行情况如下:v该产品提前三个季度完成计划任务。该产品提前三个季度完成计划任务。v适用:一般当现象在各年度之间呈现递增或递减趋适用:一般当现象在各年度之间呈现递增或递减趋势较明显的情况下采用。如产品产量、产品成本等。势较明显的情况下采用。如产品产量、产品成本等。第第一一年年第第二二年年第三年第三年第四年第四年第五年第五年上上半半年年下下半半年年一一季季二二季季三三季季四四季季一一季季二二季季三三季季四四季季30303232171719191010101011111212 1212 1212 1
17、313 1313第37页,共131页。(2 2)累计法)累计法v当计划任务是以计划期全期累计应达到的水平下达当计划任务是以计划期全期累计应达到的水平下达的,检查计划执行情况用累计法。的,检查计划执行情况用累计法。v确定提前完成计划的时间:从计划期开始至某确定提前完成计划的时间:从计划期开始至某一时间所累计完成的实际数达到了计划规定的一时间所累计完成的实际数达到了计划规定的累计数,以后的时间就是提前完成计划的时间。累计数,以后的时间就是提前完成计划的时间。第38页,共131页。多指标结合运用多指标结合运用结构相对数结构相对数比例相对数比例相对数比较相对数比较相对数动态相对数动态相对数计划完成相对
18、数计划完成相对数强度相对数强度相对数部分与总体关系部分与总体关系部分与部分关系部分与部分关系横向对比关系横向对比关系纵向对比关系纵向对比关系实际与计划关系实际与计划关系关联指标间关系关联指标间关系相对指标应当结合总量指标使用,多相对指标应当结合总量指标使用,多种相对指标应当结合运用。种相对指标应当结合运用。2019年相对于年相对于2019年,美国的年,美国的GDP增长增长速度为速度为3.9,同期中国同期中国GDP增长速度为增长速度为7.8,恰好为美国的恰好为美国的2倍倍;但根据同期汇率;但根据同期汇率(1美元兑换美元兑换8.3元人民币),元人民币),2019年中国年中国GDP总量约合总量约合9
19、671亿亿美元,约相当于同期美元,约相当于同期美国美国GDP总量总量84272亿亿美元的美元的1/9。第39页,共131页。刻画数据集中程度的特征量刻画数据集中程度的特征量平均指标平均指标第40页,共131页。集中趋势集中趋势(central tendency)(central tendency)1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值-即即平均指标平均指标3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值-即不同种类即不同种类的平均指标的平均指
20、标4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据第41页,共131页。刻画数据集中程度的特征量:平均指标刻画数据集中程度的特征量:平均指标v 平均指标是对频数(频率)分布资料的集中状况、平均指标是对频数(频率)分布资料的集中状况、集中程度和平均水平的综合测度,是进一步统计分析的集中程度和平均水平的综合测度,是进一步统计分析的重要依据。重要依据。v集中程度的测定方法有:集中程度的测定方法有:v算术平均数算术平均数、v几何平均数几何平均数、v调和平均数、调和平均数、
21、v众数、众数、v中位数、中位数、v分位数等。分位数等。一、平均指标的涵义一、平均指标的涵义第42页,共131页。v 依据各种平均指标的具体代表意义和计算方式的依据各种平均指标的具体代表意义和计算方式的不同,可以将其归纳为数值平均数和位置平均数两大类。不同,可以将其归纳为数值平均数和位置平均数两大类。v 数值平均数就是对所有各项数据计算的平均数。因此数值平均数就是对所有各项数据计算的平均数。因此它能够概括反映所有各项数据的平均水平。它能够概括反映所有各项数据的平均水平。(数值型数数值型数据集中趋势的测度据集中趋势的测度)v 常用的数值平均数有常用的数值平均数有:v 算术平均数、算术平均数、v 调
22、和平均数调和平均数v 几何平均数几何平均数v 位置平均数位置平均数二、平均指标的分类二、平均指标的分类第43页,共131页。v 位置平均数是根据数据集中处于特殊位置的个别单位置平均数是根据数据集中处于特殊位置的个别单位或部分单位的数据来确定的代表值,因此某些数据的变位或部分单位的数据来确定的代表值,因此某些数据的变动,不一定会影响到位置平均数的水平,尽管如此,位置动,不一定会影响到位置平均数的水平,尽管如此,位置平均数对于整个数据集仍具有非常直观的代表性。平均数对于整个数据集仍具有非常直观的代表性。v 常用的位置平均数有常用的位置平均数有:v 众数众数(定类数据集中趋势的测度定类数据集中趋势的
23、测度)、v 中位数中位数(定序数据集中趋势的测度定序数据集中趋势的测度)、v 其他分位数其他分位数(定序数据集中趋势的测度定序数据集中趋势的测度)等等.第44页,共131页。三、算术平均数、中位数和众数三、算术平均数、中位数和众数(一)算术平均数(均值)(一)算术平均数(均值)(Mean)(Average)Mean)(Average)在刻画数据的在刻画数据的“平均平均”特性的特征值中,最普遍最特性的特征值中,最普遍最常用的是算术平均数,在统计上称为均值。常用的是算术平均数,在统计上称为均值。有简单平有简单平均数和加权平均数之分。均数和加权平均数之分。计算公式:计算公式:简单算术平均数:简单算术
24、平均数:加权算术平均数:加权算术平均数:第45页,共131页。1 1、简单算术、简单算术平均数平均数(例题分析例题分析)v例例 某公司某公司9 9名部门经理的月收入名部门经理的月收入(单位:元)为:(单位:元)为:v25002500,30003000,26502650,29002900,34303430,33103310,29002900,28752875,27602760。v求月收入的样本均值。求月收入的样本均值。第46页,共131页。2 2、加权算术平均数、加权算术平均数 (例题分析例题分析)某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(xi)频
25、数频数(fi)xi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200第47页,共131页。加权平均数加权平均数(权数对均值的影响权数对均值的影响)v 甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据名学生,他们的考试成绩及其分布数据如下如下v甲组:甲组:考试成绩(考试成绩(x x):0 20 100
26、 0 20 100v 人数分布(人数分布(f f):):1 1 8 1 1 8v乙组:乙组:考试成绩(考试成绩(x x):0 20 100 0 20 100v 人数分布(人数分布(f f):):8 1 1 8 1 1第48页,共131页。v 如果数据的不同类型对均值的贡献不同,如果数据的不同类型对均值的贡献不同,那么在计算平均数时就应对每一种类型的数据那么在计算平均数时就应对每一种类型的数据赋予与其重要性成比例的权重,这样计算的平赋予与其重要性成比例的权重,这样计算的平均数称为加权平均数。均数称为加权平均数。v一般,若一般,若 且且 ,则,则 称为称为“权权”。v v加权算术平均公式为:加权算
27、术平均公式为:第49页,共131页。v例例:3:3个销售科的人员预测明年对本厂产品需求量,个销售科的人员预测明年对本厂产品需求量,三人经验不一样,因此预测量不一样,经验丰富三人经验不一样,因此预测量不一样,经验丰富的在预测量中占的份额大一点,设三人权的比例的在预测量中占的份额大一点,设三人权的比例为为4 4:2 2:1 1,预测量分别为,预测量分别为900900,10001000,12001200,求平均预测量。求平均预测量。第50页,共131页。v课堂练习:课堂练习:v1 1、下表为英国、下表为英国20192019年某地第一季度雇员失去工作天数统计,年某地第一季度雇员失去工作天数统计,计算雇
28、员失去工作的平均天数。计算雇员失去工作的平均天数。天数(天数(x x)雇员数(雇员数(f f)xfxf累计频数(累计频数(F F)0 04104100 04104101 14304304304308408402 2290290580580113011303 3180180540540131013104 4110110440440142014205 5202010010014401440合计合计1440144020902090-第51页,共131页。2 2、某食品店中顾客购买食品消费情况统计如下,计算、某食品店中顾客购买食品消费情况统计如下,计算顾客购买食品的平均消费额。顾客购买食品的平均消费额
29、。消费额(元)消费额(元)人数(人数(f f)组中值组中值(x)(x)xfxf552 22.52.55 5(5 5,10106 67.57.54545(1010,15158 812.512.5100100(1515,2020121217.517.5210210(2020,303010102525250250(3030,40404 4353514014040402 245459090合计合计4444-840840第52页,共131页。v算术平均数的特点:算术平均数的特点:v(1 1)是就全部数据计算的,具有优)是就全部数据计算的,具有优良的数学性质,实际中应用最为广泛。良的数学性质,实际中应用最
30、为广泛。v(2 2)易受极端值的影响。)易受极端值的影响。v 当数据的分布比较有规则时,即当数据的分布比较有规则时,即不存在极端值,数据对中心的偏离程不存在极端值,数据对中心的偏离程度和偏斜程度都不大的情况下,用均度和偏斜程度都不大的情况下,用均值代表分布的中心比较好。值代表分布的中心比较好。第53页,共131页。1、一组数据按照大小排序后处于中间位置上的值一组数据按照大小排序后处于中间位置上的值不受极端值的影响不受极端值的影响3 3、主要用于顺序数据,也可用数值型数据,但不能、主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据(二)中位数(二)中位数(Median)(Medi
31、an)第54页,共131页。中位数中位数(位置和数值的确定位置和数值的确定)数值确定数值确定 先将数据按从小到大的顺序重排,然后根据以下先将数据按从小到大的顺序重排,然后根据以下公式计算中位数。公式计算中位数。第55页,共131页。数值型数据的中位数数值型数据的中位数 (9(9个数据的算例个数据的算例)【例】【例】:9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080
32、第56页,共131页。数值型数据的中位数数值型数据的中位数 (10(10个数据的算例个数据的算例)【例】:【例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 第57页,共131页。例:例:中位数为第中位数为第40 40 名和名和4141名日产量的平均值名日产量的平均值 按日产量分按日产量分组(件)组(件)x x工人数工人数(人)(人)f f累计次数累计次数向上累计向上累计向下累计向下累计2020101010108080222215152525707024243
33、030555555552626252580802525合计合计8080数值型数据的中位数数值型数据的中位数 (例题分析例题分析)第58页,共131页。对于组距数列的数据,首先要确定中对于组距数列的数据,首先要确定中位数所在的组,然后通过公式计算中位数位数所在的组,然后通过公式计算中位数的近似值。的近似值。计算公式为:计算公式为:数值型数据的中位数数值型数据的中位数 (例题分析例题分析)第59页,共131页。举例:举例:年人均纯年人均纯收入(千收入(千元)元)农户数农户数(户)(户)向上向上累计累计次数次数5 5以下以下24024024024056564804807207206767110011
34、00182018207878700700252025208989320320284028409 9以上以上16016030003000合计合计30003000(1)(1)计算累计次数计算累计次数(2)(2)确定中位数组确定中位数组(67)(67)(3)(3)确定中位数数值确定中位数数值1500-720=780(1500-720=780(户户)6 X 7 6 X 7 1 780 1100 1 780 11001100 11100 1780 X780 X 第60页,共131页。定序数据的中位数定序数据的中位数 (例题分析例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布
35、回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第61页,共131页。课堂练习:60处地点100元价值货物的年底价值列表数据位置参数的计算。年底价值年底价值地点数地点数(f)(f)累计频数累计频数80 8580 85)1 11 185 9085 90)4 45 590 9590 95)3 38 895 10095 100)6 61414100 105100 105)7 72121105 110105 110)10103131110 1
36、15110 115)14144545115 120115 120)7 75252120 125120 125)4 45656125 130125 130)2 25858 130 135 130 135)1 15959135 140135 140)0 05959140 145140 145)1 16060第62页,共131页。中位数的特点:中位数的特点:(1 1)不受极端值的影响。)不受极端值的影响。(2 2)具有计算简便,意义明显的优点。)具有计算简便,意义明显的优点。(3 3)没有利用数据中的所有信息。)没有利用数据中的所有信息。第63页,共131页。1 1、一组数据中出现次数最多的变量值、
37、一组数据中出现次数最多的变量值2 2、适合于数据量较多时使用、适合于数据量较多时使用3 3、不受极端值的影响、不受极端值的影响4 4、一组数据可能没有众数或有几个众数、一组数据可能没有众数或有几个众数5 5、主要用于分类数据,也可用于顺序数据和数、主要用于分类数据,也可用于顺序数据和数值型数据值型数据(三)众数(三)众数(Mode)Mode)第64页,共131页。众数众数(不惟一性不惟一性)原始数据原始数据:10 5 9 12 6 8原始数据原始数据:原始数据原始数据:第65页,共131页。定类数据的众数定类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌
38、饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解:这里的变量为解:这里的变量为“饮料饮料品牌品牌”,这是个分类变量,这是个分类变量,不同类型的饮料就是变,不同类型的饮料就是变量值量值 所调查的所调查的50人中,购人中,购买可口可乐的人数最多,为买可口可乐的人数最多,为15人,占被调查总人数的人,占被调查总人数的30%,因此众数为,因此众数为“可口可口可乐可乐”这一品牌,即这一品牌,即 Mo可口可乐可口可乐第66页,共
39、131页。定序数据的众数定序数据的众数 (例题分析例题分析)解:这里的数据为顺序数解:这里的数据为顺序数据。变量为据。变量为“回答类别回答类别”甲城市中对住房表甲城市中对住房表示不满意的户数最多,示不满意的户数最多,为为108108户,因此众数为户,因此众数为“不满意不满意”这一类别这一类别,即,即 M Mo o不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计30010
40、0.0第67页,共131页。例:下表是关于交通事故的统计资料,忽略交通事故例:下表是关于交通事故的统计资料,忽略交通事故的等级,事故的频数统计如下的等级,事故的频数统计如下:事故次数事故次数0 01 12 23 344天数天数3 35 52 22 21 1数值型数据的众数数值型数据的众数 (例题分析例题分析)Mo1次次第68页,共131页。数值型数据的众数数值型数据的众数 (例题分析例题分析)对于列表分组的数据,首先要确定众数所在的组,对于列表分组的数据,首先要确定众数所在的组,然后通过公式计算众数的近似值。然后通过公式计算众数的近似值。计算公式为:计算公式为:其中:其中:l l、u u表示众
41、数所在区间的下、上限值表示众数所在区间的下、上限值 d d表示众数所在区间的组距表示众数所在区间的组距 f fm m表示众数所在区间的组频数表示众数所在区间的组频数 f fm+1m+1表示众数所在区间的后一个区间的组频数表示众数所在区间的后一个区间的组频数 f fm-1m-1表示众数所在区间的前一个区间的组频数表示众数所在区间的前一个区间的组频数 第69页,共131页。举例举例:年人均纯收年人均纯收入(千元)入(千元)农户数农户数(户)(户)5 5以下以下2402405656480480676711001100787870070089893203209 9以上以上160160合计合计30003
42、000(1)确定众数组)确定众数组 (67)(2)计算众数)计算众数第70页,共131页。众数的特点众数的特点 (1 1)众数不受极端值的影响。适用)众数不受极端值的影响。适用于各种类型的数据。于各种类型的数据。(2 2)当频数分布无明显集中趋势时,)当频数分布无明显集中趋势时,不存在众数。不存在众数。(3 3)只利用数据集中很少的信息)只利用数据集中很少的信息。第71页,共131页。众数、中位数和平均数的比较第72页,共131页。三种平均数的特点v众数是一组数据中出现次数最多的变量值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数
43、据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。v中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。v均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。第73页,共131页。数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数平均数平均数四分位数四分位数众数众数几何平均几何平均数数众数众数中位数中位数 中位数中位数四分
44、位数四分位数四分位数四分位数众数众数*为该数据类型最适用的测度值为该数据类型最适用的测度值第74页,共131页。第75页,共131页。刻画数据离散程度的特征量刻画数据离散程度的特征量变异指标变异指标第76页,共131页。第77页,共131页。一、变异指标的涵义一、变异指标的涵义 变异指标又称为变动度,是描述统计数据差异程变异指标又称为变动度,是描述统计数据差异程度或离散程度的指标。度或离散程度的指标。二、变异指标的作用二、变异指标的作用 1.1.变异指标是衡量平均指标代表性的尺度。变异指标是衡量平均指标代表性的尺度。2.2.变异指标是反映活动过程均衡性和稳定性的重变异指标是反映活动过程均衡性和
45、稳定性的重要指标。要指标。3.3.变异指标还可以研究频数分布偏离正态的情况。变异指标还可以研究频数分布偏离正态的情况。第78页,共131页。三、变异指标(一)绝对数形式 1、全距 2、平均差 3、标准差 4、适用条件(二)相对数形式(三)定类数据的变异指标(四)定序数据的变异指标第79页,共131页。(一)绝对数形式的变异指标(一)绝对数形式的变异指标 1 1、全距(、全距(R R)公式:公式:R=R=最大值最大值最小值最小值 举例:举例:5 5名学生的成绩为名学生的成绩为5050、6969、7676、8888、97 97 则则R=97-50=47R=97-50=47 优点:计算简便优点:计算
46、简便 缺点:全距是关于数据离散程度表达的一个很粗糙的量,缺点:全距是关于数据离散程度表达的一个很粗糙的量,仅仅取决于两个极端值的水平,不能反映其间的变量分布仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,受极端值的影响过于显著,不符合稳健性和耐抗性情况,受极端值的影响过于显著,不符合稳健性和耐抗性的要求。全距有许多特殊的应用,如质量控制图中的极差的要求。全距有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。图,提供证券市场行情等。第80页,共131页。2 2、平均差(、平均差(A.D)A.D)(1 1)简单平均差)简单平均差 公式:公式:应用条件:资料未分组。应用条件:资料
47、未分组。举例:举例:5 5名工人日产量资料名工人日产量资料 日产量日产量(件件)20203 322221 123230 024241 126263 3合计合计8 8第81页,共131页。(2 2)加权平均差)加权平均差公式:公式:应用条件:资料经过分组,各组次数不同。应用条件:资料经过分组,各组次数不同。举例:前例,举例:前例,按日产量分按日产量分组(公斤)组(公斤)工人工人数数f f组中组中值值x x2030203010102525170170304030407070353549049040504050909045452702705060506030305555390390合合 计计2002
48、0013201320第82页,共131页。(3 3)平均差的优缺点)平均差的优缺点优点:平均差是根据全部数值计算的,受优点:平均差是根据全部数值计算的,受 极端值影响较全距小。极端值影响较全距小。缺点:由于采取绝对值的方法消除离差的缺点:由于采取绝对值的方法消除离差的 正负号,应用较少。正负号,应用较少。第83页,共131页。3 3、标准差(、标准差()标准差是测定数据离散程度的最常用的方法。标准差标准差是测定数据离散程度的最常用的方法。标准差广泛应用于相关与回归分析、抽样推断、统计预测等各方广泛应用于相关与回归分析、抽样推断、统计预测等各方面。面。(1 1)简单标准差)简单标准差 公式:公式
49、:应用条件:资料未分组应用条件:资料未分组.举例:前例,举例:前例,日产量(件)日产量(件)20209 922221 123230 024241 126269 9合计合计2020第84页,共131页。(2 2)加权标准差)加权标准差 公式:公式:应用条件:资料经过分组。应用条件:资料经过分组。举例:前例,举例:前例,日产量日产量(公斤)(公斤)工人数工人数f f组中值组中值x x2030203010102525288028803040304070703535343034304050405090904545810810506050603030555550705070合合 计计2002001219
50、012190第85页,共131页。4 4、绝对数形式变异指标的适用条件、绝对数形式变异指标的适用条件 当两个或多个数列的平均水平相等时当两个或多个数列的平均水平相等时,对比对比数列标志值间的变异程度及平均水平的代表性数列标志值间的变异程度及平均水平的代表性,用绝对数形式的变异指标。指标值越大,说明变用绝对数形式的变异指标。指标值越大,说明变异程度越大,平均水平的代表性越不好;反之亦异程度越大,平均水平的代表性越不好;反之亦然。然。第86页,共131页。(二二)相对数形式的变异指标相对数形式的变异指标 公式:有全距系数、平均差系数和标准差系数,应用最公式:有全距系数、平均差系数和标准差系数,应用