1、统计软件与模型统计软件与模型第7章 SPSS常用统计图 一、概述 二、统计图的分类 三、常用统计图 四、小结SPSS统计图形的绘制 统计描述:包括统计指标和统计图、表 统计图的特征:(1 1)形象化:变抽象的文字为形象的视觉再现;(2 2)直观性:重点突出,对照鲜明,易于理解,便于比较;省去长篇熬述或语言限制,一目了然。一、概述 统计分析中,统计图是数据描述的重要方法之一 通过点的位置、线段的升降、直条的长短或面积的大小等方法来表现或说明所研究问题的变化及其规律 特点:简明生动、形象具体和通俗易懂介绍 1.1.建立数据文件;2.2.选择适当的统计图;3.3.生成图形;4.4.对图形进行编辑;步
2、骤 EXCELEXCEL 图形美观,易于操作,与WordWord兼容性好。但只能绘制较常用的统计图;SAS SAS 默认图形较粗糙,但通过丰富的编程语句可以绘制出相当精美的图形,甚至可以创新;StataStata、S-plusS-plus、R R 图形精美,需要编程;SPSSSPSS 图形美观,易于操作,可满足绝大多数用户需求各种常用统计软件绘图功能比较二、统计图的分类1.统计图一览表统计图一览表 2.条图条图 3.线图线图 4.面积图面积图5.饼图饼图 6.高低图高低图 7.帕累托图帕累托图8.质量控制图质量控制图9.箱图箱图 10.误差条图误差条图 11.散点图散点图 12.直方图直方图
3、13.P-P图图&Q-Q图图14.金字塔图金字塔图15.普通序列图普通序列图16.时间序列图时间序列图17.ROC曲线曲线工具条7.1 SPSS统计图一览表(1)图形名图形名符号符号适用范围适用范围条形图条形图Bar Charts描述定类或定序变量的分布,用长条的高度来表示变描述定类或定序变量的分布,用长条的高度来表示变量不同取值下的频数。量不同取值下的频数。线图线图Line Charts描述连续性变量的变化趋势,非连续性变量通常不宜描述连续性变量的变化趋势,非连续性变量通常不宜采用。采用。面积图面积图Area Charts描述连续性变量的分布。用面积来表示变量在不同取描述连续性变量的分布。用
4、面积来表示变量在不同取值下的频数值下的频数饼图饼图Pie Charts描述定类变量的分布,用圆中扇形面积大小表示不同描述定类变量的分布,用圆中扇形面积大小表示不同类别变量所占的频数。类别变量所占的频数。高低图高低图High-Low Charts用于同时描述股用于同时描述股(物物)价等数据长期和短期变化趋势价等数据长期和短期变化趋势帕累托图帕累托图(Pareto Charts描述生产控制过程中各类指标对生产的影响大小。描述生产控制过程中各类指标对生产的影响大小。质量控制图质量控制图Control Charts质量控制的常用工具,主要用于提示生产过程中发生质量控制的常用工具,主要用于提示生产过程中
5、发生的变化和趋势的变化和趋势箱图箱图Boxplots显示变量的中位数、四分位数、极值,显示数据的实显示变量的中位数、四分位数、极值,显示数据的实际分布。际分布。7.1 SPSS统计图一览表(2)图形名图形名符号符号适用范围适用范围误差条图误差条图Error Bar Charts显示数据的均值、标准差、置信区间等信息。显示数据的均值、标准差、置信区间等信息。散点图散点图Scatter plots直观反映两或两个以上变量的聚会大小及相互关系直观反映两或两个以上变量的聚会大小及相互关系直方图直方图Histogram描述定距变量的分布。与条形图不同的是直方图不描述定距变量的分布。与条形图不同的是直方图
6、不是用长条的高度来表示变量出现的频数,而是通过是用长条的高度来表示变量出现的频数,而是通过长条的面积来表示的。长条的面积来表示的。P-P图图P-P plots用来直观表示数据是否服从特定分布用来直观表示数据是否服从特定分布Q-Q图图Q-Q plots用来直观表示数据是否服从特定分布用来直观表示数据是否服从特定分布普通序列图普通序列图Sequence Charts描述一组或几组数据随另一序列性变量变化的趋势。描述一组或几组数据随另一序列性变量变化的趋势。时间序列图时间序列图Time Series Charts描述与时间相关的变量随着时间变化的趋势。描述与时间相关的变量随着时间变化的趋势。7.2
7、条形图条图条图简单条图简单条图分段条图分段条图分组条图分组条图 条图用于描述条图用于描述定类定类或或定序定序变量的分布,变量的分布,有有3 3种:简单条图、分组条图、分段条图。种:简单条图、分组条图、分段条图。简单条图简单条图简单条图分组条图分组条图分段条图分段条图数据描述方式:数据描述方式:观测量分类,对应简单条图观测量分类,对应简单条图变量分类,对应分组条图变量分类,对应分组条图单个观测量描述单个观测量描述统计量选项框候选变量框候选变量框长条代表的含义:长条代表的含义:记录数记录数 记录数百分比记录数百分比累积记录数累积记录数 累积记录百分比累积记录百分比其他统计量,默认为均值其他统计量,
8、默认为均值分类轴变量分类轴变量按所选变量在同一横轴或纵按所选变量在同一横轴或纵轴绘制多张条图轴绘制多张条图选择绘图模板选择绘图模板单击设置图题单击设置图题单击设置选项单击设置选项单击改变统计量单击改变统计量条图统计量选择框单击单击Continue,返回主对话框,返回主对话框图题主标题主标题副标题副标题脚注脚注单击单击Continue,返回主对话框,返回主对话框选项对话框单击单击Continue,返回主对话框,返回主对话框简单条图分组条图 类型:选择类型:选择Clustered 数据描述方式:数据描述方式:选择选择Summaries of separate variables 单击单击Defin
9、e进行定义进行定义分组条图定义对话框候选变量框候选变量框要绘制图形的变量要绘制图形的变量横轴标志横轴标志行或列分组变量行或列分组变量例分组条图例对左表对左表(条图条图.sav.sav)数数据,要求:据,要求:绘制分年级各班语文、绘制分年级各班语文、数学、英语平均成绩数学、英语平均成绩的条图。的条图。分组条图分段条图 类型:选择类型:选择StackedStacked 数据描述方式:选择数据描述方式:选择Summaries of separate variablesSummaries of separate variables 其定义方法与分组条图相同。其定义方法与分组条图相同。定义完毕后单击定义
10、完毕后单击OKOK。分段条图7.3 线图SPSSSPSS的线图描述连续性变量的变化趋势,非连续的线图描述连续性变量的变化趋势,非连续性变量通常不宜采用。性变量通常不宜采用。其定义方法与条图完全对应。其定义方法与条图完全对应。三种:三种:简单线图、简单线图、复式线图复式线图垂线图。垂线图。简单线图复式线图垂线图7.4 面积图 面积图与条图、线图操作方法完全对应,面积图与条图、线图操作方法完全对应,有两种:有两种:简单面积图和堆积面积图。简单面积图和堆积面积图。面积图线图、条图和面积图都是描述变量在不同取线图、条图和面积图都是描述变量在不同取值下的分布,饼图则是用来表示值下的分布,饼图则是用来表示
11、部分与整体部分与整体之间的关系之间的关系。例:(超市例:(超市.sav)商品类别商品类别营业额营业额食品食品56605660生活用品生活用品21482148家电家电1240012400办公用品办公用品645645服饰服饰65216521其他其他5425427.5 饼图操作饼图7.6 高低图 一种说明某些现象在单位时间内变化情况的统计图。适合描述每小时、每天、每周等时间内不断波动的市场信息资料,如股票、商品价格、货币牌价等 高低图既能说明某些现象在短时间内的变化,也可说明他们长期的变化趋势。高低图用于同时描述数据高低图用于同时描述数据长期和短期长期和短期的变化的变化趋势。趋势。仅介绍仅介绍简单高
12、低图简单高低图。7.6 高低图观测量分类描述模式:观测量分类描述模式:只能显示最高与最低,最只能显示最高与最低,最高与最低在一个变量中输高与最低在一个变量中输入,分类采用二元变量。入,分类采用二元变量。变量描述模式:变量描述模式:以变量的值显示最高、最以变量的值显示最高、最低与收盘价,低与收盘价,用的最多用的最多。观测值模式:观测值模式:以观测值显示最高、最低与收以观测值显示最高、最低与收盘价,与变量描述模式相似。盘价,与变量描述模式相似。名称名称图图形形说明说明简单高低图简单高低图Simple high-low-closeSimple high-low-close主要用于单位证券,通常以日期
13、作为主要用于单位证券,通常以日期作为横坐标,每条线上横坐标,每条线上3 3点分别代表证券点分别代表证券价格的最高价、最低价和收盘价价格的最高价、最低价和收盘价分组高低图分组高低图Clustered high-low-closeClustered high-low-close与简单高低图类似,但是它可以同时与简单高低图类似,但是它可以同时描述两种或两种以上证券的价格情况描述两种或两种以上证券的价格情况简单极差图简单极差图Simple range barSimple range bar主要用于单位证券,用长条的长度代主要用于单位证券,用长条的长度代表每个时间段最高值与最低值之差表每个时间段最高值与
14、最低值之差分组极差图分组极差图Clustered range barClustered range bar与简单极差图类似,但是可以描述两与简单极差图类似,但是可以描述两个或两个以上证券的情况个或两个以上证券的情况对比面积图对比面积图Difference areaDifference area描述两个现象在同一时间内相互变化描述两个现象在同一时间内相互变化的对比关系的对比关系高低图主要类型7.7 质量控制图 主要用于监测生产过程中的主要用于监测生产过程中的变化趋势变化趋势,从,从而提示生产者发现问题,并采用措施来及而提示生产者发现问题,并采用措施来及时纠正某些不良趋势。时纠正某些不良趋势。SP
15、SSSPSS中质量控制图包括中质量控制图包括4 4类类:均值均值-极差控制图(均值极差控制图(均值-标准差控制图)标准差控制图)个值个值-移动极差控制图移动极差控制图 不合格品率和不合格品控制图不合格品率和不合格品控制图 缺陷数和单位缺陷数控制图缺陷数和单位缺陷数控制图 我们仅以均值我们仅以均值-极差控制图为例。极差控制图为例。质量控制图 1928年沃特休哈特(Walter Shewhart)博士率先提出。指出:每一个方法都存在着变异,都受到时间和空间的影响,即使在理想的条件下获得的一组分析结果,也会存在一定的随机误差。但当某一个结果超出了随机误差的允许范围时,运用数理统计的方法,可以判断这个
16、结果是异常的、不足信的。例:绘制质量控制图例:绘制质量控制图质量控制图类型选择各观测样本只有一个值各观测样本只有一个值各观测样本是一组值各观测样本是一组值缺陷数和单位缺陷数控制图缺陷数和单位缺陷数控制图不合格品率和不合格品控制图不合格品率和不合格品控制图个值个值-移动极差控制图。当控制图移动极差控制图。当控制图每个小类的数据样本只有每个小类的数据样本只有一个一个,则,则采用这种图形反映数据波动情况采用这种图形反映数据波动情况包括均值包括均值-极差控制图、均值极差控制图、均值-标准标准差控制图。当控制图每小类样本小差控制图。当控制图每小类样本小于于1010,默认前者,否则默认后者。,默认前者,否
17、则默认后者。本例有本例有5 5小类,每类小类,每类2 2个样本,采用个样本,采用第一种类型控制图第一种类型控制图。质量控制图定义定义定义零件质量零件质量为监测变量;定义为监测变量;定义零件号零件号为分类变量。为分类变量。均值控制图均值控制图极差控制图极差控制图质量控制图均数控制图的使用方法均数控制图的使用方法(1)如此点在上、下警告限之间区域内,则测定过程处于控制状态,环境样品分析结果有效;(2)如果此点超出上、下警告限,但仍在上、下控制限之间的区域内,提示分析质量开始变劣,可能存在“失控,倾向,应进行初步检查,并采取相应的校正措施:(3)若此点落在上、下控制限之外,表示测定过程“失控,应立即
18、检查原因,予以纠正。环境样品应重新测定;帕累托图 帕累托图又叫排列图、主次图 按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。可以用来分析质量问题,确定产生质量问题的主要因素。帕累托图是帕累托图是ABCABC管理法管理法的直观表的直观表示。示。类别类别甲地区甲地区营业额营业额乙地区乙地区营业额营业额食品食品 5660566040004000生活用品生活用品2148214815001500家电家电 12400124001400014000办公用品办公用品645645700700服饰服饰 6521652150005000其它其它 542542500500例(超市例
19、(超市.sav.sav)1.1.绘制甲地区绘制甲地区ParetoPareto图图2.2.绘制甲乙分段图绘制甲乙分段图简单帕累托图注意:注意:分段分段ParetoPareto图数据图数据类型要选类型要选第第2 2项项Sums of separate Sums of separate variablesvariables分段帕累托图分段帕雷托图7.8 箱图 箱图和误差条图都用于描述数据的分布信息。箱图和误差条图都用于描述数据的分布信息。箱图主要描述数据的中位数、四分位数及极箱图主要描述数据的中位数、四分位数及极值。值。误差条图主要描述均值、标准差、置信区间误差条图主要描述均值、标准差、置信区间等。
20、等。箱图从视觉观察箱图从视觉观察变量值的分布变量值的分布情况情况 误差图从视觉角度观察误差图从视觉角度观察样本的离散样本的离散度情况。度情况。二都具体的绘制过程都与条图类似二都具体的绘制过程都与条图类似 。例:学生成绩例:学生成绩.sav.sav求求1010个班级语文成绩个班级语文成绩箱图箱图(1)(1)建立数据文件建立数据文件(2)(2)调用调用SPSSSPSS过程过程箱图类型选择对话框按变量类别呈现按变量类别呈现资料,可呈现多资料,可呈现多个变量个变量按观测组呈现资按观测组呈现资料,只呈现料,只呈现1 1个变个变量量简单箱图分组定义对话框简单箱图按观测量百分比呈现的四分位数及中位数简单箱图
21、。按观测量百分比呈现的四分位数及中位数简单箱图。误差条图主要描述均误差条图主要描述均值、标准差、置信区值、标准差、置信区间等。间等。其绘制过程箱图类其绘制过程箱图类似似 。误差条形图散点图是用来表示两个或两个以上变量之间相互散点图是用来表示两个或两个以上变量之间相互关系的图形。在做统计分析时,要选择恰当的统计关系的图形。在做统计分析时,要选择恰当的统计方法,通常都离不开散点图。方法,通常都离不开散点图。7.9 散点图分类介绍 简单散点图简单散点图:描述两个变量之间的相互关:描述两个变量之间的相互关系系 矩阵散点图矩阵散点图:在一张图上同时描述多个变:在一张图上同时描述多个变量之间的两两关系量之
22、间的两两关系 简单点图简单点图:描述一个变量各个值的分布情:描述一个变量各个值的分布情况况 重叠散点图重叠散点图:将两幅简单散点图叠加到一:将两幅简单散点图叠加到一张图上,描述多个变量之间的两两关系张图上,描述多个变量之间的两两关系 3D3D散点图散点图:描述三个变量的相互关系:描述三个变量的相互关系 例例:在:在1919世纪,苏格兰物理学家世纪,苏格兰物理学家James D.ForbesJames D.Forbes试图通过试图通过水的沸点来估计海拔高度,在阿尔卑斯山及苏格兰收集了沸水的沸点来估计海拔高度,在阿尔卑斯山及苏格兰收集了沸点及海拔的数据如表所示。试绘制沸点与气压关系的散点图。点及海
23、拔的数据如表所示。试绘制沸点与气压关系的散点图。(华氏(华氏F=9/5+32F=9/5+32)序号序号沸点沸点F气压气压(InchHg)序号序号沸点沸点F气压气压(InchHg)1194.520.7910201.324.012194.320.7911203.625.143197.922.4012204.626.574198.422.6713209.528.495199.423.1514208.627.766199.923.3515210.629.047200.923.8916211.929.888201.123.9917212.230.069201.424.02简单散点图例散点图数据文件(散点
24、图数据文件(散点图.sav)散点图定义对话框以气压为以气压为Y轴轴以沸点为以沸点为X轴轴可以设置图题,可以设置图题,此处未设此处未设选择项采取默选择项采取默认认单击单击OK输出结果输出结果散点图绘制结果直方图主要用于描述变量直方图主要用于描述变量的分布情况。它是的分布情况。它是SPSSSPSS中中一种很常用的图形,但定一种很常用的图形,但定义十分简单。义十分简单。例:例:(直方图直方图.sav.sav)电缆耐电缆耐压值直方图压值直方图7.10 直方图(Histogram)7.11 P-P图&Q-Q图 都是用来检验数据是否服从某种分布都是用来检验数据是否服从某种分布 区别区别:P-PP-P图比较
25、的是真实数据和待检验分布的图比较的是真实数据和待检验分布的累累计概率计概率,而,而Q-QQ-Q图比较的是真实数据与待检图比较的是真实数据与待检验分布的验分布的分位点值分位点值3/81/4rn1/2rn1/31/3rn1rn上列各式中,上列各式中,n n为观察单位数,为观察单位数,r r为为1 1 n n的秩次。的秩次。方法方法推算公式推算公式BlomRankitTukeyVan der Waerden相同数值秩估算公式相同数值秩估算公式例:某金属含碳量如下:例:某金属含碳量如下:绘制绘制P-PP-P图,判断是否服从正态分布。图,判断是否服从正态分布。M Mo od de el l D De e
26、s sc cr ri ip pt ti io on nMOD_1含碳量None00No periodicityNot appliedNormalestimatedestimatedBlomsMean rank of tied valuesModel Name1Series or SequenceTransformationNon-Seasonal DifferencingSeasonal DifferencingLength of Seasonal PeriodStandardizationTypeLocationScaleDistributionFractional Rank Estimat
27、ion MethodRank Assigned to TiesApplying the model specifications from MOD_1C Ca as se e P Pr ro oc ce es ss si in ng g S Su um mm ma ar ry y900Series or Sequence LengthUser-MissingSystem-MissingNumber of MissingValues in the Plot含碳量The cases are unweighted.E Es st ti im ma at te ed d D Di is st tr r
28、i ib bu ut ti io on n P Pa ar ra am me et te er rs s4.4900.06764LocationScaleNormal Distribution含碳量The cases are unweighted.P-P图模型描述P-P图7.12 人口金字塔图 population pyramid 定义:一种表示人口性别与年龄构成的条形统计图。可反映某一地区过去和现在的人口统计趋势。在经济学中,常常出现这样一种现象,即在经济学中,常常出现这样一种现象,即低收入者占人口较大比例,高收入者占人低收入者占人口较大比例,高收入者占人口较小比例。这就是通常所说的金字塔。
29、口较小比例。这就是通常所说的金字塔。人口金字塔三类:年轻型、成年型和年老型 增长型:塔顶尖、塔底宽 稳定型:塔顶、塔底宽度基本一致,在塔尖处才逐渐收缩。缩减型:塔顶宽,塔底窄 从人口年龄结构对今后人口增长速度影响的角度,又可将人口金字塔分为增长型、稳定型和缩减型人口金字塔图例:收入例:收入.sav.sav普通序列图主要用于描述一个或几个变量随着普通序列图主要用于描述一个或几个变量随着另一个变量变化的趋势。另一个变量变化的趋势。7.13 普通序列图例:重庆例:重庆20072007年降雨年降雨量量.sav.sav绘制降雨量与月份的绘制降雨量与月份的序列图序列图普通序列图设置对话框是否多个变量绘在一
30、张图上是否多个变量绘在一张图上普通序列图时间序列图是研究与序列相关的数据特征的图形。时间序列图是研究与序列相关的数据特征的图形。包括包括3 3类:类:Autocorrelations Autocorrelations 自相关时间序列图自相关时间序列图:用于研究:用于研究同一变量的前一时间周期与后一时间周期对应观同一变量的前一时间周期与后一时间周期对应观测点之间的相关关系。测点之间的相关关系。Cross-correlations Cross-correlations 交叉相关时间序列图交叉相关时间序列图:主要:主要用于研究多个变量在对应观测点之间的相互关系。用于研究多个变量在对应观测点之间的相互
31、关系。Spectral Plot Spectral Plot 光谱图光谱图:主要用于研究整个时间:主要用于研究整个时间过程的周期性。过程的周期性。时间序列图例:重庆例:重庆20072007年降雨量年降雨量.sav.sav自相关时间序列图对话框自相关系数自相关系数部分自相关系数部分自相关系数待绘图变量待绘图变量自然对数转换自然对数转换差分转换差分转换季节差分转换季节差分转换最大滞后时间最大滞后时间依据模型依据模型巴特莱特近似巴特莱特近似自相关时间序列输出结果AutocorrelationsAutocorrelationsSeries:降雨量mm.189.256.5451.461.040.244.
32、5712.752-.071.231.6653.881-.324.2182.8694.580-.382.2046.3665.272-.202.1897.5046.277.032.1737.5377.375.031.1547.5778.476.079.1347.9239.542.070.1098.33310.596Lag12345678910AutocorrelationStd.ErroraValuedfSig.bBox-Ljung StatisticThe underlying process assumed is independence(whitenoise).a.Based on the
33、asymptotic chi-square approximation.b.杨杨-博客斯残差平方卡方检验博客斯残差平方卡方检验自相关系数自相关系数标准误标准误收尾概率,收尾概率,0.05自相关显著自相关显著ROC曲线 受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROCROC曲线是二元判决中用来比较判决方法优劣的一曲线是二元判决中用来比较判决方法优
34、劣的一种曲线。它以种曲线。它以pfpf做横轴,做横轴,pdpd做纵轴所生成。其中做纵轴所生成。其中pfpf表示假误判为真的概率,即虚警概率;表示假误判为真的概率,即虚警概率;pdpd表示表示真误判为假的概率,即漏检概率的补。真误判为假的概率,即漏检概率的补。例:仪器观测准确度的比较。例:仪器观测准确度的比较。下表中下表中sensor1sensor1、sensor2sensor2表示两表示两个传感器关于真实数据在某一指个传感器关于真实数据在某一指标下的观测值,标下的观测值,通过绘制通过绘制ROCROC曲线比较两个传感曲线比较两个传感器的器的优劣优劣。(ROC.savROC.sav)ROC曲线定义
35、边界值分类:定义边界值分类:包括分类临界值包括分类临界值不包括分类临界值不包括分类临界值定义检测方向:定义检测方向:结果越大越趋于真结果越大越趋于真结果越小越趋于真结果越小越趋于真定义曲线下面积的标准误:定义曲线下面积的标准误:方法:非参数、负指数双边方法:非参数、负指数双边置信水平置信水平缺失值处理:缺失值处理:有缺失值两变量均剔除有缺失值两变量均剔除有缺失值剔除另变量有效有缺失值剔除另变量有效ROC曲线Options对话框7.14 ROC曲线图准则 1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。3.两种或两种以上不同诊断试验对疾病识别能力的比较。靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳。