1、第二章第二章 SPSS描述性统计分析描述性统计分析本章主要内容:u SPSS频数分析u SPSS描述统计分析u SPSS探索性分析u SPSS列联表分析统计分析的目的,是研究总体的数量特征。但是,实践中能够得到的往往是从总体中随机抽取的一部分观察对象,它们构成了样本。通过对样本样本的研究,来对总体的实际情况作出可能的判断。因此,在数据收集、整理完毕,进行深入分析之前,首要的工作就是去了解数据的整体情况,随后才能做深入的推断。为了实现上述的分析,往往有两种实现方式:1)数值计算,通过数值来准确的反映数据的基本统计特征;2)图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点。通常
2、,两种方式混合使用。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在菜单栏的“分析描述统计”子菜单中。SPSS频数分析概述:频数分析概述:频数分析是描述性统计中最常用的方法之一,他能够了解变量取值的状况,对把握数据分布特征非常有用。频数分析过程是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位的数值以及常用的条形图、饼图等统计图。整体分析与设计的内容u SPSS频数分析频数分析一、操作一、操作(实践数据:产品的销售量(实践数据:产品的销售量.sav)1)菜单“分析描述统计频率”。2)对话框中,左侧选择一个或多个 待分析变量,移入右侧。3
3、)“显示频率表格”,勾选该复选 框,可输出频数分析表。整体分析与设计的内容u SPSS频数分析频数分析二、几个重要的设置对话框二、几个重要的设置对话框“统计量”按钮对应的对话框:1)四分位数:)四分位数:显示25%、50%、75%的分位数。2)割点:)割点:勾选后可输入数值A,将数据平分为A等分。例如,输入5,表示输出20%、40%、60%、80%的百分位数。3)百分位数:)百分位数:选中后,可激活右侧的文本框和列表。可输入、更改和删除自定义的百分位数。输出反映数据离散程度的统计量。输出反映数据集中程度的统计量。输出描述数据分布形状及特征的统计量。整体分析与设计的内容u SPSS频数分析频数分
4、析“图表”按钮对应的对话框:注:1)选择直方图选项,则不能再设置图表值 选项。2)在选中直方图选项后,可以进一步选择 在直方图上显示正态曲线。3)仅适用于连续型的数值型变量。“格式”按钮对应的对话框:将所有变量集中在一个图形中输出,以便比较。每个变量单独输出一个图形。控制频数表输出的分类数量,当频数表的分组数大于设定值时,禁止其输出。用以避免产生巨型表格。整体分析与设计的内容u SPSS的频数分析的频数分析基本统计信息汇总表。N表示进行统计分析的样本总量;Valid表示有效样本量:Missing表示缺失样本数目。Percentiles列出了销售数据的四分位数频数分析表。Frequency表示变
5、量值落在某个区间(或类别)中的次数;Percent是各频数占总样本数的百分比;Valid Percent是有效百分比;Cumulative Percent是累积百分比,指各百分比逐级累加起来的结果。三、输出结果分析三、输出结果分析整体分析与设计的内容u SPSS的频数分析的频数分析从图形特征看,数据呈右偏分布。历史销售数据总体数值偏大;同时,最大值“27”差不多是最小值“14”的一倍,说明这种产品的销售量不是很稳定,具有较大的波动性。整体分析与设计的内容u SPSS的描述统计分析的描述统计分析一、原理一、原理统计量是研究随机变量变化综合特征的重要工具,描述性统计量的分类如下:对数据特征的描述集
6、中趋势离散程度分布形态均值众数中位数其他指标全距标准差方差离散系数其他指标偏度峰度整体分析与设计的内容u SPSS的描述统计分析的描述统计分析1、集中趋势、集中趋势集中趋势是指一组数据向某一中心值靠拢的倾向。均值(Mean):反映了某变量所有取值的集中趋势或平均水平。12.nxxxxxnn均值往往会受到异常大和异常小的数值影响,所以对于严重的偏态分布,均值会失去应有的代表性。众数(Mode):分布数列中最常出现的标志值,频数或频率最大。 众数适用于单峰对称的情况。对于多峰的分布则不适用。中位数(Median):指将分布数列中各单位的标志值依其大小顺序排列,位于中间位置的标志值称为中位数。 中位
7、数来描述连续变量,会损失很多信息。例如,其他变量比中位数大多少或小多少等。整体分析与设计的内容u SPSS的描述统计分析的描述统计分析2、刻画离散程度的描述性统计量、刻画离散程度的描述性统计量离散程度是指一组数据远离其中心值的程度,即考察数据分布的疏密程度。全距(Range):也称“范围”,是数据中最大值和最小值之差,又称“极差”。 Range = 最大值 - 最小值211()1niiSxxn 全距说明了数据的整体变动范围,但不能反映其间变量分布情况。标准差(Standard Deviation):指变量取值距离均值的平均离散程度的统计量。方差(Variance):是标准差的平方。 方差在使用
8、上存在一点不足:量纲不统一。 整体分析与设计的内容3311() /1niiSkewnessxxSnu SPSS的描述统计分析的描述统计分析3、刻画分布形态的描述性统计量、刻画分布形态的描述性统计量分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。偏度(Skewness):是描述变量取值分布形态对称性的统计量。 当偏度值为0,说明数据对称分布;当偏度值大于0,表示变量取值 右偏,在直方图中有一条长尾拖在右边;当偏度值小于0,表示变 量取值左偏,在直方图中有一条长尾拖在左边。峰度(Kurtosis):用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的尖峰程度。 当数据分布和标准正态
9、分布陡缓程度相同时,峰度为0;峰度大于0说明数据分布比正态分布陡峭,为尖峰分布;峰度小于0为平峰分布。4411() /31niiKurtosisxxSn整体分析与设计的内容u SPSS的描述统计分析的描述统计分析二、操作二、操作描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中,可以将原始数据转换为标准值,并以变量形式保存,供以后分析。菜单:“分析描述统计描述” 。示例数据示例数据: 奥斯卡获奖者年龄.sav 标准化处理,同时产生相应的Z得分,并作为新变量保存在数据窗口。新变量为 原变量名+前缀Z。标准化的计算公式:iiXXZSXi 是变量 X 的第i个取值;S 是标准差。整体分析与
10、设计的内容u SPSS的描述统计分析的描述统计分析三、输出分析三、输出分析N栏显示男、女样本容量相同;从均值上看 女男;男的全距和标准差都小于女的,说明男演员获奖年龄波动幅度小于女演员;从峰度和偏度看,两组数都不服从正态分布。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析一、方法原理一、方法原理探索性数据分析(Exploratary Data Analysis, 简称EDA)的基本思想是从数据本身出发,而不拘泥于模型假设;采用灵活的方法来探讨数据分布的大致情况,为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础,并且减少盲目性。在实践中,数据分析往往分两个步骤,即探索
11、性数据分析和实证分析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法;而对于探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行实证分析,以确定规律是否正确。一般的,探索性分析主要考察以下内容:1)检查数据是否有错,并决定是否删除异常数据。2)获得数据分布特征。3)对数据初步观察,发现一些内在规律。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析二、操作二、操作探索性数据分析过程用于计算指定变量的探索性统计量和有关的图形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验图、频数表、方差齐性检验等结果,以及对非正态
12、或正态非齐性数据进行变换,以表明和检验连续变量的数值分布情况。菜单:“分析描述统计探索”(示例数据:中国南北城市温差.sav)因变量列表,即待分析变量列表。可从左侧列表中选择一个或多个变量。因子列表,用作数据分组分析。如果选择了多个变量,则组合分组。标注个案,可选择一个变量做标签。当发现异常值时,可利用该变量做标记。若不选这个变量,系统默认以id变量为标签。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析二、按钮对应的界面介绍二、按钮对应的界面介绍统计量对话框输出前面所讲述的各个描述统计量,并可设置均值的置信区间。求出中心趋势的最大似然比的稳健估计量。界外值要求输出显示5个最大值与
13、最小值。在输出窗口被表明为极端值。输出结果显示5%,10%,25%,50%,75%,90%和95%的百分位数。“选项”对话框从所有分析中,将因变量或分组变量中带有缺失值的观测量予以剔除。从当前分析中,将有缺失值的观测量均予以剔除。将分组变量中的缺失值单独分组进行统计。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析二、按钮对应的界面介绍二、按钮对应的界面介绍“图”对话框箱图。1)按因子水平分组,每个因变量生成一个单独的箱图,便于组间比较。2)不分组:所有因变量生成一个复合的箱图。描述性图。分茎叶图和直方图两种。输出显示正态概率与离散正态概率图。幂估计:幂估计:对每一组数据产生一个中
14、位数的自然对数与四分位数的自然对数的散列点图,达到方差齐次性要求的幂次估计;并据此散布图,来估计将各组方差转换成同方差所需的幂次。转换:转换:对原始数据进行变换。可在下拉列表中选择转换的幂值。未转换:未转换:不对数据进行转换,产生原始数据的散布图。注:注:“无”是不产生该选项的图形。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析三、输出结果三、输出结果北方城市温度标准差大于南方城市,说明北方城市一年温度变化较南方大。从分布形态上来看,南方城市为尖峰、右偏特征;北方城市表现为平峰,左偏特征。基本信息汇总,无缺失值。整体分析与设计的内容u SPSS探索性统计分析探索性统计分析三、输出
15、结果三、输出结果茎叶图。茎叶图。1)Frequency表示观测值频数;2)Stem(茎)表示实际观测值除以图下方茎宽(Stem Width)的整数部分;3)Leaf(叶),表示观测值除以茎宽的小数部分。4)“Each Leaf”:表示每片叶子代表n个观测量。茎叶图在反映整体趋势的同时,还能反映具体的数值大小,因此,在分析小样本时优势明显。M估计量:估计量:1)Huber,稳健估计量;2)Tukey,复权估计量; 3)Hampel,非稳健估计量;4)Andrew,波估计量。例子中来看:两者差距较大,差异性明显。南方温度均值都高于北方,数据呈正偏态分布,平均值受影响较大。整体分析与设计的内容u S
16、PSS探索性统计分析探索性统计分析三、输出结果三、输出结果箱图:箱图:1)中间粗线为中位数;2)方框两端分别表示上四分位数(75%)和下四分位数(25%);3)两者之间的距离为四分位数间距。-可知,整个方框内包括了中间50%的样本数据;4)方框外的上、下两个细线分别表示除去异常值外的最大、最小值;5)箱图的上、下两端的圆圈和星号,表示异常值。基本概念:基本概念:1)上四分位数 和 下四分位数之间的差,称为四分位数差(IQR,InterQuartile Range)。2)大于上四分位数的1.5倍四分位数差,或小于下四分位数的1.5倍四分位数差,称为异常值。3)极端异常值,是超出3倍四分位数差的值
17、整体分析与设计的内容u SPSS列联表统计分析列联表统计分析一、方法原理一、方法原理在实践中,研究者往往希望对两个甚至多个分类变量的频数分析进行联合观察。例如,考察不同年龄阶段和不同行业的人群购买商品房的意愿,就需要将年龄和行业这两个分类变量交叉起来构成复合频数表,简称为列联表。列联表是指一个频率对应两个变量的表(一个变量用来对行分类,另一个变量用来对列分类),经常被用于分析调查结果,其基本的任务有两个:1)根据收集到的样本数据产生二维或多维交叉列联表。2)在列联表的基础上,对两两变量之间是否存在相关性进行分 析。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析一、方法原理一、方法
18、原理交叉列联表:交叉列联表:两个或两个以上的变量交叉分组后想成的频数分布表。一个二维 r x c 的列联表如下所示:.iijjijjinnnn整体分析与设计的内容u SPSS列联表统计分析列联表统计分析一、方法原理一、方法原理行列变量间关系:行列变量间关系:行、列变量的独立性检验。独立性检验是指对列联表中行变量和列变量无关的这样一个零假设进行的检验,即检验行、列变量之间是否独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要求,所以一般采用的检验方法是卡方检验,其公式为:22()oeefff实际观察频数期
19、望频数观察频数和期望频数之间距离的一种度量指标。值越小,说明行、列之间相关程度越密切。SPSS在自动计算统计量之后,会给出相应的概率P值,通过比较概率P和显著性水平值a 大小,来判断是否接受零假设。 Pa,拒绝零假设,认为行、列变量不独立;否则,接受零假设。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析二、操作二、操作菜单:菜单:“分析分析描述统计描述统计交叉表交叉表”示例数据:大学生身体素质调查示例数据:大学生身体素质调查.sav1)选择行、列变量行:选择一个或多个变量,作 为列联表的行变量。列:选择若干变量,作为列联 表的列变量。2)选择层变量进行三纬或多维列联表分析,可选择
20、控制变量,添加至“层1的1”选项组的列表框。该变量决定列联表的层。若要增加另外的控制变量,首先单击“下一张”按钮,再选入另一个变量。选择“上一张”按钮,可以重新选择以前确定的变量。显示条形图不输出表格,只输出统计量整体分析与设计的内容u SPSS列联表统计分析列联表统计分析三、按钮所对应的对话框界面三、按钮所对应的对话框界面1)“精确”按钮精确检验 对话框由此计算的显著性水平低于0.05时被认为是显著的。此方法适用于较大的数据集。当数据少或没有明显的分布特征时候,得到的结论可能不稳定。对精确显著性水平的无偏估计。它先从一个参考样本中重复抽取样本量相同的子样本,再通过子样本的显著性水平推导总样本
21、的显著性水平。使用大数据量的情况。由此计算的显著性水平低于0.05时被认为是显著的,即行、列存在相关性。选中复选框,表示:只有当精确检验方法对单个检验的计算时间低于限制条件时,才用它取代蒙特卡洛方法。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析三、按钮所对应的对话框界面三、按钮所对应的对话框界面2)“统计量”按钮卡方检验计算Pearson相关系数,检测变量的线性相关程度;计算Spearman相关系数,检验秩次之间的关联。两者取值介于-1(完全负相关)和1(完全正相关)之间。取值为0,则表示两者不存在线性相关性。两个有序变量的对称关联程度,取值范围-11.取0表示低度或无线性关系
22、。关联性检验,是对Gamma系数的非对称性推广。对相关的有序变量进行非参数相关检验,适合行、列数相同的表。反映忽略定序变量之间相关关系的非参数关联程度。取值01.取0表示无关联;越接近1,关联度越高。自变量用于预测因变量时,该检验反映预测误差。等于1,表明自变量完全预测因变量;等0,则表明自变量无助于预测因变量。也用来反映关联程度,011)Kappa:内部一致性;2)Risk:反映一个因素与某事件发生的关联度大小。3)McNemar:用于两个二分变量的非参数检验。检验两个二分变量独立性的统计量整体分析与设计的内容u SPSS列联表统计分析列联表统计分析三、按钮所对应的对话框界面三、按钮所对应的
23、对话框界面3)“单元格”按钮如果行、列具有统计上的相互独立意义,将显示期望的或预测的观测值频数。即单元格中的观测值减预测值之差。即Pearson残差,其均值等0,标准差等1非整数权重的处理方式选择。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析四、输出结果四、输出结果1)性别与体重级别 的双因素交叉作用下的列联表分析,研究 性别性别 对 体重级别体重级别 有无显著影响。(上机实践时,温习该过程)(上机实践时,温习该过程)a)列联表情况)列联表情况1)Count:实际频数2)第二行数据:行百分比,表示这种体重级别的男生占所有男生数量的百分比;3)第三行数据:列百分比,表示这种体重级
24、别的男生占所有这种体重级别学生的百分比;4)第四行数据:合计百分比,表示第一行的频数在所有交叉单元格中所占的百分比。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析四、输出结果四、输出结果b)独立性检验情况)独立性检验情况上面的分析,从百分比角度说明男、女学生体重级别差别较大;而不同性别的学生,体重级别有无显著性差异,还需要借助于卡方检验。第一列卡方检验的零假设是男女学生体重无明显差异,系统默认显著性水平是0.05.由于卡方检验概率P值都小于0.05,则拒绝零假设,从而认为不同性别的学生体重有明显差异。第一列是检验统计量名称;第二列为各检验统计量的观测值;第三列为自由度;第四列为概率P值。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析四、输出结果四、输出结果c)统计图形情况)统计图形情况从图中可以直观的看到,性别对体重级别影响的显著性。整体分析与设计的内容u SPSS列联表统计分析列联表统计分析四、输出结果四、输出结果2)教育背景与身高级别 的双因素交叉作用下的列联表分析,研究 教育教育 背景背景 对 身高级别身高级别 有无显著影响。(上机实践时,参照(上机实践时,参照1自行练习)自行练习)要求:简要说明步骤,并对统计输出加以解释,并形成到Word文档中,作为上机实践的一次作业。作为上机实践的一次作业。