1、数据分析数据分析( (方法与案例方法与案例) )第 2 章 数据的图表展示为什么要预处理为什么要预处理调查收集到的原始统计资料常常是大量的。它必须调查收集到的原始统计资料常常是大量的。它必须经过加工整理,如分类归并汇总,按时间前后或按经过加工整理,如分类归并汇总,按时间前后或按数值大小重新排列等,才容易发现数据的规律性,数值大小重新排列等,才容易发现数据的规律性,并便于做进一步的统计分析。并便于做进一步的统计分析。学习目标l 数据预处理的内容和目的数据预处理的内容和目的l 分类和顺序数据的整理与显示方法分类和顺序数据的整理与显示方法l 数值型数据的整理与显示方法数值型数据的整理与显示方法l 用
2、用Excel作作频数分布表和形频数分布表和形图图l 合理使用图表合理使用图表统计应用把数据画图之后,要用用脑袋沃德(Abraham Wald)和许多统计学家一样,在第二次世界大战时也处理了战争与相关的问题。他发明的一些统计方法在战时被视为军事机密。以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时,开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标识出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是沃德建议,把剩下少数几个没有弹孔的部位补强。因为这些部位被击中的飞机都没有返航数据的预处理数据审核检查数据中的错误数据筛选找出符合条件的数据
3、数据排序升序和降序寻找数据的基本特征数据透视按需要汇总2.1.1 数据审核数据审核原始数据(raw data)完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全准确性审核数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等数据的审核二手数据(second hand data)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否有必要做进一步的加工整理2.1.2 数据排序数据排序 (data rank)按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对
4、数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成数据排序 (方法)分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)2.1.3 数据筛选数据筛选(data filter)当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件
5、的数据筛选出来,而不符合特定条件的数据予以剔除数据筛选(data filter):用用Excel进行数据筛选进行数据筛选 2.1.4 数据透视表数据透视表(pivot table )可以从复杂的数据中提取有用的信息可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表(列联表)在利用数据透视表时,数据源表中的首行必须有列标题数据透视表(pivot table )【例例2.2】在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首要因素等,得到的数据如表24所示。试建立一个数据透视表,在表的行变量中给出性
6、别和购买衣物首选因素,在列变量中给出学生的家庭所在地,对平均月生活费支出和月平均购买衣物支出进行交叉汇总。数据透视表(用Excel创建数据透视表)第第1步:步:在Excel工作表中建立数据清单第第2步:步:选中数据清单中的任意单元格,并选择【数据】菜单 中的【数据透视表和数据透视图】第第3步:步:确定数据源区域第第4步:步:在【向导3步骤之3】中选择数据透视表的输出位置 。然后选择【布局】第第5步:步:在【向导布局】对话框中,依次将”分类变量“拖至 左边的“行”区域,上边的“列”区域,将需要汇总的“变 量” 拖至“数据区域”第第6步:步:然后单击【确定】,自动返回【向导3步骤之3】对 话框。然
7、后单击【完成】,即可输出数据透视表 第 2 章 数据的图表展示数据的整理与显示(基本问题)要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据2.2.1 分类数据的整理与图示分类数据的描述统计量频数频数(frequency) :落在各类别中的数据个数比例比例(proportion) :某一类别数据个数占全部数据个数的比值百分比百分比(percentage) :将对比的基数作为100而计算的比值比率比率(rati
8、o) :不同类别数值个数的比值生成频数分布表(分类数据) 1. 列出各类别分类分类频数频数比例比例百分比百分比比率比率ABCDE生成频数分布表(定性数据)【例例2.3】为研究不同类为研究不同类型的软饮料的市场销售型的软饮料的市场销售情况,一家市场调查公情况,一家市场调查公司对随机抽取的一家超司对随机抽取的一家超市进行调查。下面的表市进行调查。下面的表21是调查员随机观察是调查员随机观察的的50名顾客购买的饮料名顾客购买的饮料类型及购买者性别的记类型及购买者性别的记录。生成频数分布表,录。生成频数分布表,观察饮料类型和消费者观察饮料类型和消费者性别的分布状况,并进性别的分布状况,并进行描述性分析
9、行描述性分析 分类数据的图示条形图(bar Chart)用宽度相同的条形的高度或长短来表示各类别数据各类别可放在纵轴,称为条形图条形图,可以放在横轴,称为柱柱形图形图(column chart) 分类数据的图示复式条形图(bar Chart)饮料类型和顾客性别的条形图饮料类型和顾客性别的条形图 (SPSS的输出) 分类数据的图示帕累托图(pareto chart)按各类别数据出现的频数多少排序后绘制的柱形图 用于展示分类数据的分布分类数据的图示简单饼图(pie Chart)用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数 据 的 比 例用于研
10、究结构问题2.2.2 顺序数据的整理与图示顺序数据的整理(可计算的统计量) 1. 累积频数累积频数(cumulative frequencies):各类别频数的逐级累加 2. 累积频率累积频率(cumulative percentages):各类别频率(百分比)的逐级累加顺序数据的频数分布表(例题分析)回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510 24
11、132225270300 8.0 44.0 75.0 90.0100.0300276168 75 30100.092562510合计合计300100.0顺序数据的频数分布表 (例题分析)回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100
12、.0 93.0 60.0 34.0 12.7合计合计300100.0顺序数据的图示累计频数分布图 (例题分析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积环形图(doughnut chart)环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的
13、数据系列为一个环用于结构比较研究 用于展示分类和顺序数据环形图 (例题分析)8%36%31%15%7%33%26%21%13%10% 非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价2.3.1 数据分组等距分组等距分组异距分组异距分组单变量值分组单变量值分组组距分组组距分组单变量值分组(要点) 1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况组距分组 (要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组组距分组(几个概念) 1. 下限
14、下限(low limit) :一个组的最小值 2. 上限上限(upper limit) :一个组的最大值 3. 组距组距(class width) :上限与下限之差 4. 组中值组中值(class midpoint) :下限与上限之间的中点值频数分布表的编制(例题分析)生成频数分布表(例题分析)确定组数:组数的确定应以能够显示数据的分布特征为目的。在实际分组时,组数一般为5K 15。本例中由于数据较多,可考虑分为10组 确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距组距( 最大值最大值 - 最小值最小值) 组数组数
15、例如,本例最大值为237,最小值为141,组距=(237-141)109.6。为便于计算,组距宜取5或10的倍数,且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取10 统计出各组的频数。每个组的数据满足axb(上限值不在内(Excel的计数规则是axb) 等距分组表(上下组限重叠)等距分组表(上下组限间断)等距分组表(使用开口组)2.3.2 数值型数据的图示分组数据直方图(histogram)用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成
16、了一个矩形,即直方图直方图下的总面积等于1分组数据的图示(直方图的绘制)直方图下的面积之和等于1分组数据直方图(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据未分组数据茎叶图(stem-and-leaf plot)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数
17、字作树叶树叶上只保留最后一位数字6. 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据未分组数据茎叶图(例题分析)未分组数据茎叶图(扩展的茎叶图)未分组数据箱线图(box plot)用于显示未分组的原始数据的分布箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25
18、%位置和75%位置上的两个分位数值 绘制方法首先找出一组数据的5个特征值,即最大值最大值、最小值最小值、中中位数位数Me和两个四分位数四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接未分组数据箱线图(箱线图的构成)未分组数据箱线图(例题分析)分布的形状与箱线图未分组数据看分布多批数据箱线图(例题分析)课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础766593746870558590958187757
19、39178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据多批数据箱线图(例题分析Median/Quart./Range)未分组数据多批数据箱线图 (SPSS绘制的箱线图)箱线图K线图 (上证指数K线图)时间序列数据线图(line plot)表示时间序列数据趋势的图形时间一般绘在横轴,数据绘在纵轴图形的长宽比例大致为10 : 7一般情况下,纵轴数据
20、下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图 (例题分析) 年份年份城镇居民城镇居民农村居民农村居民19911992199319941995199619971998199920002001200220031700.62026.62577.43496.24283.04838.95160.35425.15854.06280.06859.07702.88472.2 708.6 784.0 921.61221.01577.71926.12091.12162.02210.32253.42366.42475.62622.2两个变量间的关系二维散
21、点图(2D Scatterplots)展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图温度温度 / 0C降雨量降雨量/mm产量产量/kg/hm262522508403450105845001368575014110580016987500211208250两个变量间的关系散点图矩阵(2D Scatterplots)三个变量间的关系三维散点图(3D Scatterplots)多变量数据雷达图(radar chart)也称为蜘蛛图(spider chart)显示多个变量的图
22、示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度多变量数据雷达图(雷达图的制作) 设有n组样本S1,S2, , Sn,每个样本测得P个变量X1,X2 , , XP,要绘制这P个变量的雷达图,其具体做法是多变量数据雷达图 (例题分析)项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务家庭设备用品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务37.129.796.307.3111.0814.3510.7
23、43.30 45.595.674.205.968.3612.1315.872.21鉴别图表优劣的准则一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况统计表的结构项目项目单位单位2002年年 2003年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每
24、户就业面平均每户就业面 平均一名就业者负担人数平均一名就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%元元元元元元元元453173.041.5851.971.928177.407702.806029.88480283.011.5852.491.919061.228472.206510.94统计表的设计合理安排统计表的结构总标题内容应满足3W 要求数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释本章小结数据预处理的内容和目的数据预处理的内容和目的分类和顺序数据的整理与显示方法分类和顺序数据的整理与显示方法数值型数据的整理与显示方法数值型数据的整理与显示方法合理使用图表合理使用图表用用Excel作作频数分布表和图形频数分布表和图形
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。