1、第三章第三章 统计数据的整理统计数据的整理4数据整理的概念和程序(数据整理的概念和程序(概述概述)123统计分组统计分组分布数列分布数列统计图表(统计图表(结果的呈现结果的呈现)本章内容要点本章内容要点第一节第一节数据整理概述数据整理概述 数据整理是指根据统计研究的任务和要求,数据整理是指根据统计研究的任务和要求,对调查收集到的原始数据资料进行科学的综对调查收集到的原始数据资料进行科学的综合与加工,使之合与加工,使之系统化,系统化,并并以图标的形式以图标的形式显显示,从而得出示,从而得出反映总体特征反映总体特征的综合资料。的综合资料。例:飞机驾驶员在飞行模拟训练时,用计算机测定并打印出飞行动作
2、的错误,从两方面进行测定:一是 错误发生时的飞行状态,分起飞(T)、巡航(C)和着陆(L)三种;二是错误发生的原因,分规范理解错误(R)、仪表读数错误(M)和其它原因(O)三种。测定的45次错误记录如下: 飞行动作错误纪录表TMTOLMLOCOTRCMTMLOTMCOLRCMLOTRCOLOLMTMTOTOLMTOCRCMTMTRLRLRTRLMTRTRLOCRLOLMTMLMTRCMTMTRLOTM飞行动作错误纪录整理表错错误误原原因因合合计计RMO飞行飞行状态状态T88420C2439L36716合合计计13181445分析结论之一:在起飞(T)时容易发生规范理解错误(R)和仪表读数错误(
3、M),而着陆(L)时不太容易发生规范理解错误。二、统计整理的程序二、统计整理的程序统计整理方案统计整理方案统计整理方案是统计整理的工作安排。主要内容:一是确定总体资料的处理方法,如何分组,用何种形式整理;二是确定通过整理要得到哪些指标;三是确定资料的显示形式。讨论:为了预测本地区生猪价格未来一段时间的变化趋势,需要了解某市2014年农户饲养生猪情况,有关人员已经开展调查,取得了有关资料。你认为通过整理要得到哪些指标,才能反映出该市农户饲养生猪情况和价格变化情况?1、审核资料的、审核资料的2、审核资料的正确性、审核资料的正确性第二节第二节统计分组统计分组 统计分组是指根据统计研究的目的和要求统计
4、分组是指根据统计研究的目的和要求以及总体的内在差异,按照某一分组以及总体的内在差异,按照某一分组标志标志将总将总体区分为若干性质不同又有联系的几个部分。体区分为若干性质不同又有联系的几个部分。 一、统计分组的概念一、统计分组的概念例如:企业按经济类型分组:国有企业 集体企业 个体企业 其它企业学生按考分分组:60分以下 (不及格)6070分 (及格)7080分 (中等)8090分 (良好)90100分(优秀)二、统计分组的作用二、统计分组的作用 1.区分总体现象的类型; 2.揭示现象总体的内部结构; 3.分析现象之间的依存关系。按商品分类分组按商品分类分组比重(比重(%)食品类食品类衣着类衣着
5、类家庭设备用品类家庭设备用品类文化娱乐用品类文化娱乐用品类交通通讯类交通通讯类医疗保健类医疗保健类居住类居住类杂项商品类杂项商品类40.64.77.511.610.84.714.45.7合计合计100产业产业1995年年人员比重人员比重(%)1996年年人员比重人员比重(%)1997年年人员比重人员比重(%)1998年年人员比重人员比重(%)1999年年人员比重人员比重(%)第一产业第一产业第二产业第二产业第三产业第三产业52.223.024.850.523.526.049.923.726.449.823.526.750.123.026.9按销售额分组按销售额分组(万元)(万元)商店数商店数(
6、个)(个)各组商品流通费用率各组商品流通费用率(%)200以下以下200-400400-800800-10001000以上以上2570130754011.210.49.906.705.90 通过统计分组可以看出,企业的商品销售额越大而其流通费用率却越低,二者呈反向变动关系(一)按分组标志的多少划分(一)按分组标志的多少划分简单分组简单分组三、统计分组的类型三、统计分组的类型某校学生某校学生按性别按性别男生男生女生女生性别性别年龄(岁)年龄(岁)民族民族男男女女182021232426汉汉族族少数少数民族民族750 680400810220140327某校学生某校学生男生男生女生女生复合分组复合
7、分组汉族汉族少数民族少数民族汉族汉族少数民族少数民族按性别按性别按民族按民族按民族按民族性别性别男生男生女生女生民族民族汉族汉族少数民族少数民族汉族汉族少数民族少数民族年龄年龄(岁)(岁)182021232426182021232426182021232426182021232426人数人数(人)(人)10451112049228928396372(二)按分组标志的性质划分(二)按分组标志的性质划分品质分组(属性分组)品质分组(属性分组)人口人口按性别按性别男男女女数量分组数量分组人口人口按年龄按年龄6 6岁及以下岁及以下7 71717岁岁18185959岁岁6060岁及以上岁及以上要符合统计
8、研究的目的和要求要符合统计研究的目的和要求要选择最本质或最主要的标志作为分组依据要选择最本质或最主要的标志作为分组依据要考虑到客观现象所处的具体历史条件要考虑到客观现象所处的具体历史条件 四、分组标志的选择四、分组标志的选择 五、统计分组的原则五、统计分组的原则穷尽原则穷尽原则互斥原则互斥原则v 基本原则:经过分组的资料,组内有共性,组间有差异基本原则:经过分组的资料,组内有共性,组间有差异 统计分组是在总体内部进行的一种定性分类,它客观上把总体划分为一个个性质不同,范围更小的总体。统计分组有两个方面的含义,即:统计分组对总体而言即将总体区分为性质不同的若干组成部分是“合” 即将性质相同的总体
9、单位合为一组是“分”对单位而言选择分组标志确定分组体系总体单位归类科学性组间差异大,组内差异小。完备性和互斥性每个单位均能且只能归到某个组中。按家庭收入水平分组;按城乡分组;按性别分组;按年龄分组。单亲下岗;双亲下岗;双亲在岗。第三节第三节次数分布次数分布 一、次数分布(分布数列)一、次数分布(分布数列)(一)相关概念(一)相关概念 一、次数分布(分布数列)一、次数分布(分布数列)(一)相关概念(一)相关概念按性别分组按性别分组人数(人)人数(人)比重()比重()男生男生女生女生151845.4554.55合计合计33100次数或频数次数或频数频率频率(比率、比重)(比率、比重)次数分布次数分
10、布(频数分布)(频数分布)次数分布次数分布(分布数列)(分布数列)总次数总次数(总频数)(总频数) 一、次数分布(分布数列)一、次数分布(分布数列)(一)相关概念(一)相关概念构成要素各组的名称或组别各组次数或频率(频数或比重)品质数列(分类数据和顺序数据) 分布数列种类单项式变 量数列 组距变量数列 变量数列(数值型数据) 等距数列异距数列(二)分类(二)分类(二)分类(二)分类1、品质分布数列、品质分布数列按性别分组按性别分组人数(人)人数(人)比重()比重()男生男生女生女生151845.4554.55合计合计33100 一般来说品质数列较容易编制,它通常能准确地反映总体的分配特征,一旦
11、分组标志确定以后,其分布数列的形式是唯一的。2、变量分布数列、变量分布数列 按数量标志分组所形成的分布数列称为变量分布数列(变量数列)。 按顺序列出的各组变量值及相应的频率,即成为变量的频率分布。 按考分分组 人数(人)频率()5060 6070 7080 8090 90100 5 15 18 10 210 30 36 20 4合 计50100例: 注意:任何一个频率分布都必须满足两个条件:一是各组频率0;二是各组频率之和等于100。2、数量分布数列、数量分布数列(1)单项变量数列)单项变量数列家庭人口数家庭人口数户数(户)户数(户)比重()比重()123456304860642032404合
12、计合计150100(2)组距变量数列)组距变量数列按月工资收入分组按月工资收入分组人数(人)人数(人)比重()比重()1000元以下元以下100015001500200020002500250030003000元以上元以上80150230340150508152334155合计合计1000100 A 等距数列等距数列按月工资收入分组按月工资收入分组人数(人)人数(人)比重()比重()1000元以下元以下100015001500200020002500250030003000元以上元以上80150230340150508152334155合计合计1000100B 异距数列异距数列按月工资收入分组
13、按月工资收入分组人数(人)人数(人)比重()比重()1000元以下元以下100015001500250025002800280030003000元以上元以上80150230340150508152334155合计合计1000100(三)编制(三)编制一家评估机构为调查不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对照50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。下表是记录的原始数据。(三)编制(三)编制 顾客购买饮料的品牌名称 旭日升露露旭日升可口可乐百事可乐可口可乐汇源果汁可口可乐露露可口可乐可口可乐旭日升可口可乐
14、百事可乐露露旭日升旭日升百事可乐可口可乐旭日升 旭日升可口可乐可口可乐旭日升露露旭日升可口可乐露露百事可乐百事可乐 汇源果汁露露百事可乐可口可乐百事可乐汇源果汁可口可乐汇源果汁可口可乐汇源果汁 露露可口可乐旭日升百事可乐露露汇源果汁可口可乐百事可乐露露旭日升 (三)编制(三)编制饮料名称频数可口可乐旭日升冰茶百事可乐露 露汇源果汁1511996合 计50(三)编制(三)编制2、变量数列的编制己知某车间有24名工人,其某日的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23。要求:根据
15、以上资料编制变量数列。编制结果如下:【例例】某班有学生某班有学生20人人 ,下面是,下面是2014年年12月份月份该班学生请假天数记录:该班学生请假天数记录:0 0 1 0 2 1 0 0 0 1 2 0 5 1 1 0 0 0 10 0要求:根据上述资料编制变量数列。要求:根据上述资料编制变量数列。 1、排序、排序 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 2 2 5 102、分组、分组 0 1 2 5 10 3、汇总整理、汇总整理请假请假天数天数人数人数(人)(人)比重比重()()累计频数累计频数(人)(人)累计频率累计频率()()012510115211552510
16、55111618192055809095100合计合计20100某班学生请假天数统计表某班学生请假天数统计表组距数列又分为等距数列和异距数列。 又可分为连续型变量和不连续型变量分组例如:企业按人数分组 499及以下 500 999 1000 2999 3000及以上 工人按工资分组 600 700 700 800 800 1200 1200 1500 适用于当连续型变量或离散型变量的变量值变化范围较大、不同变量值个数较多连续型变量的场合。适用条件:(离散型变量)(连续型变量)注意:连续型变量的数值不能一一列举,故其只能采用组距式分组。 组距式分组 : 499及以下 500 999 1000 2
17、999 3000及以上 600 700 700 800 800 1200 1200 1500 组限: 组距分组中,每一区间两端的值为组限。其中,每组最大变量值称为上限, 每组最小变量值称为下限。工人按工资分组:(连续变量)企业按人数分组:(离散变量)连续组距(重叠组限)不连续组距(不重叠组限)组距式分组时注意的问题 组限的划分方法:组限的划分方法 不重叠组限重叠组限(只适用于离散型变量)(适用于连续型变量和 离散型变量 ) 重叠组限 : 不重叠组限 : 即相邻两组的上下限为同一个数值。即相邻两组的上下限为两个不同的确定数值。当不重叠组限时:下限每组变量值上限当重叠组限时:下限每组变量值上限 故
18、当某单位的变量值刚好等于相邻两组的上下限时,一般把此值归到作为下限的那一组中,即遵循“上限不在其内”的原则。企业按人数分组: 499及以下 500 999 1000 2999 3000及以上 (不重叠组限)企业按人数分组: 500以下 500 1000 1000 3000 3000及以上 (重叠组限) 另外,在实际确定组限时,应在分布比较集中的变量值中确定组距的中心位置,然后根据组距大小定出上下限。通常,第一组(最小组)的上限必须略大于实际变量值的最大值,最后一组(最大组)的下限必须略小于实际变量值的最小值。例如: 组数: 是指在组距分组中,将全体变量值划分为多少组(分组的数目)。 组距: 是
19、指每组变量值的变动范围。组距 = 本组上限 前组上限 (通用公式)组距 = 本组上限 本组下限(重叠式组限) 组距与组数的关系:组数组数全距全距组距组距全距 = 最大变量值 最小变量值 组距与组数一般是用整数表示。考生按成绩分组(分) 50 60 60 70 70 80 80 90 90 100 注意:组距的大小与组数的多少要恰当。组距过大,则组数过少,这样,分组虽然简单,但是容易将不同性质的单位归并在一组,失去区分事物的界限;组距过小,则组数过多,这样,容易将性质相同的单位划分在不同组内,也不能显示出总体分布的特征和规律性。 50 60 5 60 70 15 70 80 18 80 90 1
20、0 90 100 2 若最高分为99分,最低分为52分,则全距为47分,又假定分成5组,则距组为47/5 = 9.4 化整为10,即确定组距为10分。考生按成绩分组人数(比较合适分组) 学生按考分分组 人数50 55 255 60 360 65 10 65 70 570 75 7 75 80 11 80 85 6 85 90 4 90 95 1 95 10 1 学生按考分分组 人数 50 60 5 60 100 45(组距过小,组数过多) (组距过大,组数过少) 组距分组等距分组 不等距分组 例如:按身高、考分分组等,应采用等距分组。它便于各组间单位数与变量值的直接对比和各项指标计算。 0 5
21、0 60 70 80 90 100考分(分)各分数段人数(人) 5 15 18 10 2适用场合:即各组组距相同的分组。 等距分组:凡是在变量值分布比较均匀时采用。学生按考分分组(分) 50 60 60 70 70 80 80 90 90 100 不等距分组:即各组组距不都相等的分组。适用场合:当变量值分布很不均匀时采用。 不等距分组多数是根据事物性质变化的数量界限来确定组距,如人口按年龄分组。 0 10 20 30 40 50 60 70 要注意不同年龄生理变化的特点,可分为: 1岁以下; 16 岁;712 岁;1318 岁; 1959 岁;60 岁以上。 年龄段工人按工资分组(元) 600
22、 700 700 800 800 1200 1200 1500组中值 组中值是指组距数列中各组上限和下限之间的中点数值。2 2下下限限上上限限组组中中值值 注意:组中值经常用来代表各组标志值的平均水平,但要假定组内各标志值呈均匀分布。(考分:52 54 57 58 59) (考分:51 52 53 54 55)不均匀分布50 55 60 均匀分布 50 55 60 考生按成绩分组 50 60 60 70 70 80 80 90 90 100 55 75 658595组中值人数51518102 若第一组出现“以下”或最末组出现“以上”字样的组叫做开口组。首组组中值= 首组上限 相邻组组距的一半=
23、 末组下限 + 相邻组组距的一半末组组中值50 102100 + 102例如:.首组:末组:按考分分组 组中值 50 60 55 60 70 65 70 80 75 80 90 85 90 100 9550以下100以上45105各标志值在一定区间内变动较均匀例:百万元)(27229minmaxXXRR组距(d) 组数(m)组)(615271dRm1dRmdRmdRdR可按经验公式确定组数:美国统计学家Sturges提出的经验公式来确定。Nlg322. 312lgNlg1mq要能区分各组的性质差异q要能反映总体资料的分布特征q为方便计算,尽可能为5或10的整数倍q对于离散变量,相邻组组限可以间
24、断,也可重叠;q对于连续变量,相邻组组限必须重叠;q符合“上组限不计入”原则;q首末两组可使用“以下”及“以上”的开口组。第四,汇总出各组次数。 销售额(百万元)商店数f次数频数5以下51010151520202525以上410161343820322686合计50100(四)次数与频率的累计分布 在研究次数和频率的分布时,常需要编制次数或频率的累计分布数列。1.向上累计: 是指将各组次数或频率由变量值低的组向变量高的组累计,以表明各组上限以下的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。2.向下累计: 是指将各组次数或频率,由变量值高的组向变量值低的组逐组累计,以表明各组下
25、限以上的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。 累计分布有向上累计和向下累计两种:例: . 销售额(百万元)商店数频率()累计次数累计频率()5以下51010151520202525以上410161343820322686?合计50100fff 销售额(百万元)商店数频率()累计次数累计频率()向上累计向上累计5以下51010151520202525以上41016134382032268641430434750828608694100合计50100fff 销售额(百万元)商店数频率()累计次数累计频率()向上累计向下累计向上累计向下累计5以下51010151520202
26、525以上410161343820322686414304347505046362073828608694100100927240146合计50100fff第四节第四节统计图表统计图表 概念:概念:统计表是以纵横交叉的线条所统计表是以纵横交叉的线条所绘制的表格来表现统计资料的一种形式。绘制的表格来表现统计资料的一种形式。 一、统计表一、统计表 考分考分人数(人)人数(人)比重()比重()5060607070808090901002491655.611.12544.413.9合计合计36100某班学生统计学考试成绩统计表某班学生统计学考试成绩统计表表头表头行标题行标题数字资料数字资料列标题列标题
27、主词主词宾词宾词统计表的分类统计表的分类v按用途分:按用途分:调查表调查表v汇总表汇总表v分析表分析表v按统计数列的性质分:按统计数列的性质分:空间数列表空间数列表v时间数列表时间数列表v时空数列表时空数列表v按分组情况分:按分组情况分:简单表简单表v简单分组表简单分组表v复合分组表复合分组表调查表调查表汇总表汇总表分析表分析表直辖市直辖市人口数(万人)人口数(万人)北京市北京市天津市天津市上海市上海市重庆市重庆市我国直辖市人口数统计表我国直辖市人口数统计表(2010年年11月月1日零时)日零时)年份年份国内生产总值(亿元)国内生产总值(亿元)200020012002200320042005中
28、国国内生产总值变化趋势统计表中国国内生产总值变化趋势统计表时空数列表时空数列表按考分分组按考分分组人数(人)人数(人)比重()比重()506060707080809090100合计合计某班学生统计学考试成绩统计表某班学生统计学考试成绩统计表某地区某地区2010年社会商品零售额构成统计表年社会商品零售额构成统计表按对象、地域分组按对象、地域分组金额金额对居民对居民的零售额的零售额城镇城镇乡村乡村对社会集团对社会集团的零售额的零售额城镇城镇乡村乡村合计合计某市主要消费品供需情况统计表某市主要消费品供需情况统计表年份年份需求量需求量(万元)(万元)供应量供应量(万元)(万元)需求差异需求差异(万元)
29、(万元)食品类食品类衣着类衣着类日用杂品类日用杂品类文教用品类文教用品类合计合计某高校历年招收新生的性别与城乡来源状况统计表某高校历年招收新生的性别与城乡来源状况统计表年份年份性别性别城乡来源城乡来源合合计计男男女女城镇城镇乡村乡村20012002200320042005合计合计某高校历年招收新生的性别与城乡来源状况统计表某高校历年招收新生的性别与城乡来源状况统计表年份年份城乡来源城乡来源合合计计城镇城镇乡村乡村男男女女男男女女20012002200320042005合计合计(1)总标题应注明时间、总体范围和内容;(2)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一
30、列标明;(3)表中的上下两条横线一般用粗线,其他线用细线;(4)通常情况下,统计表的左右两边不封口;(5)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一;(6)对于没有数字的表格单元,一般用“”表示;(7)必要时可在表的下方加上注释。科学、实用、简练、美观统计表的设计要求二、统计图二、统计图 统计图是用点、线、面、体等来表现统计图是用点、线、面、体等来表现统计资料,用以反映现象数量特征的统计资料,用以反映现象数量特征的图形。图形。条条 形形 图图 饼饼 图图 环环 形形 图图汇汇 总总 表表品品 质质 数数 据据直直 方方 图图折折 线线 图图分分 组组 数数 据据茎
31、茎 叶叶 图图箱箱 线线 图图原原 始始 数数 据据线线 图图时时 序序 数数 据据雷雷 达达 图图多多 元元 数数 据据数数 值值 型型 数数 据据数数 据据 的的 类类 型型统计图的基本类型1、条形图(bar Chart)(1)用宽度相同的条形的高度或长短来表示各类别数据的图形(2)有单式条形图、复式条形图等形式(3)主要用于反映分类数据的频数分布(4)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图2、饼图(pie Chart)(1)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;(2)主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用;
32、(3)绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占360的相应比例确定的。不同品牌饮料的构成不同品牌饮料的构成可口可乐30%旭日升冰茶22%汇源果汁12%百事可乐18%露露18%3、环形图(annular chart)(1)环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示;(2)环形图与圆形图类似,但又有区别:圆形图只能显示圆形图只能显示一个总体一个总体各部分所占的比例;各部分所占的比例;环形图则可以同时绘制环形图则可以同时绘制多个总体多个总体的数据系列,每一个总的数据系列,每一个总体的数据系列为一个环。体的数据系列为
33、一个环。(3)环形图可用于结构比较研究; (4)环形图主要用于展示分类和顺序数据。环形图8%36%31%15%7%33%26%21%13%10%非常不满意非常不满意不满意不满意一般一般满意满意非常满意非常满意 甲乙两城市家庭对住房状况的评价4、直方图(histogram) (1)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布;(2)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;(3)直方图下的总面积等于1。直方图与条形图的区别:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固
34、定的;(2)直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;(3)直方图的各矩形通常是连续排列,条形图则是分开排列;(4)条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。5、折线图(frequency polygon) (1)折线图也称频数多边形图;(2)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;(3)折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部
35、中点与的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;其竖边中点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。示的频数分布是一致的。某电脑公司销售量分布的折线图顺序数据的频数分布表【例】甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意 不满意 一般 满意 非常满意24108934530836311510241322252703008.044.075.090.0100.0300276168753010
36、0.092562510合计300100.0顺序数据的频数分布表乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意 不满意 一般 满意 非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0顺序数据的图示累计频数分布图243001322252700100200300400非常非常不满意不满意不满意不满意一般一般满意满意非常非常满意满意
37、累累积积户户数数(户)(户)(a)向上累积27616830300750100200300400非常非常不满意不满意不满意不满意一般一般满意满意非常非常满意满意累累积积户户数数(户)(户)(b)向下累积6、茎叶图(stem-and-leaf display) (1)用于显示未分组的原始数据的分布(2)由“茎”和“叶”两部分构成,其图形是由数字组成的(3)以该组数据的高位数值作树茎,低位数字作树叶(4)树叶上只保留一位数字(5)对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg(n) (6)茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的
38、数直方图可观察一组数据的分布状况,但没有给出具体的数值值茎叶图既能给出数据的分布状况,又能给出每一个原始数茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息值,保留了原始数据的信息未分组数据茎叶图未分组数据扩展的茎叶图7、箱线图(box plot) (1)用于显示未分组的原始数据的分布;(2)箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成;(3)其绘制方法是:首先找出一组数据的首先找出一组数据的5 5个特征值,即最大值、最小值、中位个特征值,即最大值、最小值、中位数数Me Me 和两个四分位数和两个四分位数( (下四分位数下四分位数Q QL L和上四分
39、位数和上四分位数Q QU U)连接两个四分(位)数画出箱子,再将两个极值点与箱子连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接。相连接。 未分组数据单批数据箱线图(箱线图的构成)中位数QUQLX最大值X最小值未分组数据单批数据箱线图最小值141最大值237中位数182下四分位数170.25上四分位数197分布的形状与箱线图未分组数据多批数据箱线图11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础766593746870558590958187757391789751768570926881717
40、48869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据多批数据箱线图Min-Max25%-75%Median value455565758595105学生学生1学生学生2学生学生3学生学生4学生学生5学生学生6学生学生7学生学生8学生学生9学生学生10学生学生11未分组数据多批数据箱线图8、线图(line plot)(1)用于绘制时间序列数据,时间一般绘在横轴,指标数据绘在纵轴;(2)图形的
41、长宽比例要适当,其长宽比例大致为10:7 ;(3)一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。时间序列数据线图 20012010年某地区城乡居民家庭人均收入年份城镇居民农村居民20012002200320042005200620072008200920101700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6 784.0 921.61221.01577.71926.12091.12162.02210.32254.4时间序列数据线图 城乡居民家庭人均收入
42、 城乡居民家庭人均收入020004000600080001991199219931994199519961997199819992000年份收入城镇居民农村居民(1)显示多个变量的图示方法;(2)在显示或对比各变量的数值总和时十分有用;(3)假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比;(4)可用于研究多个样本之间的相似程度。9、雷达图(radar chart)v设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是:多变量数据雷达图(雷达图的制作)先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在
43、将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图多变量数据多变量数据雷达图雷达图【例】2010年某地区城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。2000年城乡居民家庭平均每人生活消费支出构成(%)项 目城镇居民农村居民 食品 衣着 家庭设备用品及服务 医疗保健 交通通讯 娱乐教育文化服务 居住 杂项商品与服务39.1810.018.796.367.9012.5610.015.17 49.305.754.525.245.5811.1815.473.14多变量数据雷达图统计整理的步骤统计整理的步骤统计分组统计分组分布数列分布数列统计表和统计图统计表和统计图谢谢大家!谢谢大家!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。