SPSS统计分析方法及应用(第三版).ppt_163文库

资源描述

1、SPSS统计分析方法及应用(第三版)SPSS的发展及特点 SPSS(StatisticalPackagefortheSocialScience)社会科学统计软件包是世界著名的统计分析软件之一 2009年,SPSS软件更名为IBM SPSS Statistics,也称PASW(PredictiveAnalysisSoftWare)提供了直观的图形化菜单界面统计方法丰富分析结果图文并茂SPSS的使用 SPSS数据编辑窗口数据编辑窗口的主要功能是:定义SPSS数据的结构、录入编辑和管理待分析的数据。SPSS的所有统计分析功能都是针对该窗口中的数据的,这些数据通常以SPSS数据文件的形式保存在计

2、算机磁盘上,其文件扩展名为.sav。sav文件格式是SPSS独有的,一般无法通过其他软件如Word、Excel等打开SPSS数据窗口的菜单SPSS的使用 SPSS结果输出窗口输出窗口是显示管理SPSS统计分析结果、报表及图形的窗口。SPSS统计分析的所有输出结果都显示在该窗口中。输出结果通常以SPSS输出文件的形式保存在计算机磁盘上,其文件扩展名为.spv。spv文件格式是SPSS独有的,一般无法通过其他软件如Word、Excel等打开SPSS软件的三种基本使用方式窗口菜单方式窗口菜单方式是指在使用SPSS过程中所有的分析操作都可通过菜单、按钮、输入对话框等方式来完成SPSS软件的三种基

3、本使用方式程序运行方式程序运行方式是指:在使用SPSS过程中,统计分析人员首先根据自己的分析需要,将数据分析的步骤手工编写成SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。SPSS会自动按照程序命令语句的前后顺序自动逐句执行相应的命令并最终给出统计分析结果SPSS软件的三种基本使用方式混合运行方式混合运行方式是指在使用菜单的同时编辑SPSS程序,是窗口菜单方式和程序运行方式的综合。为实现混合运行方式,用户应首先利用窗口菜单运行方式,选择统计分析的菜单和选项,但并不马上单击确定按钮提交执行,而是单击粘贴按钮。SPSS将自动把用户所选择的菜单和选项转换成SPSS的命令程序,并粘

4、贴到主语法窗口中;之后,用户可以按照程序运行的方式,对生成在语法窗口中的SPSS命令进行必要的编辑修改,最后再一次性提交给计算机执行。数据分析的一般步骤明确数据分析目标正确收集数据数据的加工整理读懂分析结果,正确解释分析结果利用SPSS进行数据分析的基本步骤第2章 SPSS数据文件的建立和管理SPSS统计分析方法及应用（第三版）SPSS数据文件 SPSS数据文件的特点 SPSS数据文件是一种有别于其他文件(如Word文档、文本文件)的特殊格式的文件。从应用角度理解,这种特殊性表现在两方面。第一,SPSS数据文件的扩展名是.sav;第二,SPSS数据文件是一种有结构的数据文件,它由数据的

5、结构和内容两部分组成SPSS数据的基本组织方式原始数据的组织方式如果待分析的数据是一些原始的调查问卷数据,或一些基本的统计指标,那么这些数据就应以原始数据的组织方式组织。在原始数据的组织方式中,数据编辑窗口中的一行称为一个个案(Case),所有个案组成SPSS数据文件的内容。数据编辑窗口中的一列称为一个变量。每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标识。SPSS数据文件的结构就是关于每个变量及相关特征的描述。SPSS数据的基本组织方式频数数据的组织方式如果待分析的数据不是原始的调查问卷数据,而是经过分组汇总后的汇总数据,那么这些数据就应以频数数据的组织方式

6、组织SPSS数据的结构和定义方法 SPSS数据的结构是对SPSS每列变量及其相关属性的描述。包括:变量名、类型、宽度、列宽度、变量名标签、变量值标签、缺失值、计量标准等信息。其中有些内容是必须定义的,有些是可以省略的SPSS数据的结构和定义方法变量名是变量访问和分析的唯一标志。在定义SPSS数据结构时应首先给出每列变量的变量名数据类型是指每个变量取值的类型。SPSS中有三种基本数据类型,分别为数值型、字符串型和日期型。每种类型都有默认的宽度、小数位和列宽度变量名标签是对变量名含义的进一步解释说明,它可增强变量名的可视性和统计分析结果的可读性。SPSS数据的结构和定义方法变量值标签是对

7、变量取值含义的解释说明信息,对于分类型变量尤为重要缺失值的处理是数据分析准备过程中一个非常重要的环节。表现为：数据中存在明显错误或明显不合理的数据数据中存在漏填数据项 SPSS中说明缺失数据的基本方法是指定用户缺失值计量标准将数据划分为三大类,即定距型数据、定序型数据和定类型数据。结构定义的基本操作浏览结构：SPSS结构定义的应用案例SPSS数据的录入与编辑 SPSS数据的录入 SPSS数据的编辑 SPSS数据的定位插入和删除一条个案插入和删除一个变量数据的移动、复制和删除SPSS数据的保存 SPSS支持的数据格式.SPSS格式文件.Excel格式文件.dBase格式文件.文本格

8、式文件读取其他格式的数据文件直接读入其他格式的数据文件使用文本向导读入文本文件使用数据库向导读入数据SPSS数据文件合并纵向合并数据文件：纵向合并数据文件就是将当前数据编辑窗口中的数据与另一个PSS数据文件中的数据进行首尾对接,即将一个SPSS数据文件的内容追加到当前数据编辑窗口数据的后面,依据两个数据文件中的变量名进行数据对接。SPSS数据文件合并横向合并数据文件就是将当前数据编辑窗口中的数据与另一个SPSS数据文件中的数据进行左右对接,即将一个SPSS数据文件的内容拼接到当前数据编辑窗口数据的右边,依据两个数据文件中的个案进行数据对接。第3章 SPSS数据的预处理SPSS统计分析

9、方法及应用（第三版）数据的排序 SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。排序变量只有一个的排序称为单值排序。排序变量有多个的排序称为多重排序。多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。多重排序时,数据首先按主排序变量值的大小次序排序,然后对那些具有相同主排序变量值的数据,再按照第二排序变量值的次序排序,依次排序下去。变量计算 SPSS变量计算是在原有数据的基础之上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生变量 SP

10、SS算术表达式是由常量、变量、算术运算符、圆括号、函数等组成的式子 SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式和复合条件表达式。变量计算 SPSS函数:函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序段都有各自的名字,称为函数名。执行这些程序段得到的计算结果称为函数值。用户在使用这些函数时,只需通过书写相应的函数名,并给出必要的计算参数,SPSS便会自动计算函数值。函数书写的具体形式:函数名(参数)变量计算 SPSS函数:根据函数功能和处理的变

11、量类型,SPSS函数大致可以分成八大类,分别是:算术函数、统计函数、与分布相关的函数、查找函数、字符函数、缺失值函数、日期函数和其他函数变量计算的基本操作变量计算的应用举例数据选取数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为样本抽样 SPSS中提供了以下几种抽样方法:按指定条件抽样随机抽样选取某一区域内的样本通过筛选变量选取样本计数 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干个变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。SPSS实现计数的关键步骤是:指定哪些

12、变量参与计数,计数的结果存入哪个新变量中;指定计数区间。分类汇总分类汇总是按照某分类分别进行计算数据分组数据分组是对定距型数据进行整理和粗略把握数据分布的重要工具,因而在实际数据分析中经常使用。数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不的组别。在数据分组的基础上进行的频数分析,更能够概括和体现数据的分布特征。另外,分组还能够实现数据的离散化处理等数据分组 SPSS提供了以下三种数据分组方法:单变量值分组:把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况组距分组:在连续变量或变量值较多的情况下,数据分组通常采用组距分组。组距分组是将全部变量值

13、依次划分为若干个区间,并将属于这一区间的变量值作为一组分位数分组:需首先确定分组数目,然后计算相应的分位数。分位数是将全部数据按升序排序并等分成n 份后相应分位点上的变量值数据预处理的其他功能数据转置:将数据编辑窗口中数据的行列互换加权处理数据拆分:不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后所进行的分组统计分析提供便利第4章 SPSS基本统计分析SPSS统计分析方法及应用（第三版）频数分析基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的.频数分布表包括:频数,即变量值落在某个区间(或某个类别)中的次数。百

14、分比,即各频数占总样本数的百分比。有效百分比,即各频数占总有效样本数的百分比。这里,有效样本数=总样本数-缺失样本数。累计百分比,即各百分比逐级累加起来的结果。最终取值为100%频数分析条形图,即用宽度相同的条形的高度或长短表示频数分布变化的图形,适用于定序和定类变量的分析。条形图的纵坐标可以是频数,也可以是百分比。条形图包括单式条形图和复式条形图等形式。饼图,即用圆形及圆内扇形的面积表示频数百分比变化的图形,利于研究事物内在结构组成等问题。饼图中圆内的扇形面积可以表示频数,也可以表示百分比。直方图,即用矩形的面积表示频数分布变化的图形,适用于定距型变量的分析。可以在直方图上附加正态分布曲线

15、,便于与正态分布的比较。SPSS频数分析的扩展功能计算分位数:是变量在不同百分位点上的取值。分位点在0100之间。一般使用较多的是四分位点,即将所有数据按升序排序后平均等分成四份,各分位点依次是25%、50%、75%。于是,四分位数便分别是25%、50%、75%分位点对应的变量值。此外,还有八分位数、十六分位数等。频数分析的应用举例计算基本描述统计量基本描述统计量刻画集中趋势的描述统计量刻画离散程度的描述统计量刻画分布形态的描述统计量重抽样自举法：基本出发点是将已有的n 个观测数据看成能够从中抽样的总体。若从中有放回地随机抽取n 个数据形成一个样本,称为自举样本,便可计算得到一个样

16、本统计量。该过程称为一次重抽样自举过程。如果重抽样自举过程反复进行m 次,便可得到m 个样本统计量,这些样本统计量的方差称为自举方差。自举方差是对估计量抽样方差的较好近似。计算基本描述统计量计算基本描述统计量的基本操作计算基本描述统计量的应用举例交叉分组下的频数分析交叉分组下的频数分析又称列联表分析,它包括两大基本任务:第一,根据收集到的样本数据,产生二维或多维交叉列联表;第二,在交叉列联表的基础之上,对两两变量间是否存在一定的相关性进行分析交叉列联表的主要内容交叉列联表行列变量间关系的分析两种极端情况下的交叉列联表交叉列联表的卡方检验第一步,提出零假设(H0)。列联表分析中卡方检

17、验的零假设是:行变量与列变量独立第二步,选择和计算检验统计量。列联表分析中,卡方检验的检验统计量是Pearson卡方统计量第三步,确定显著性水平(Significantlevel)和临界值第四步,结论和决策多选项分析 SPSS中的多选项分析是针对问卷调查中的多选项问题的通常对多选项问题分析的一般步骤是以下两大步:第一,将多选项问题分解第二,利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析多选项问题的分解多选项二分法是将多选项问题中的每个答案设为一个SPSS变量,每个变量只有0或1两个取值,分别表示选择该答案和未选择该答案多选项分类法,首先应估计多选项问题的最多可能出现的

18、答案个数;然后,为每个答案设置一个SPSS变量,变量取值为多选项问题中的备选答案。比率分析比率分析用于对两变量间变量值比率变化的描述分析,适用于定距型变量 SPSS的比率提供了相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴第5章 SPSS的参数检验SPSS统计分析方法及应用（第三版）参数检验概述推断统计与参数检验:参数检验是推断统计的重要组成部分。推断统计方法是根据样本数据推断总体特征的方法,它在对样本数据描述的基础上,以概率的形式对统计总体的未知数量特征(如均值、方差等)进行表述假设检验的基本思想:假设检验的基本思想假设检验的基本思路是首先对总体参数值提出假设,然

19、后利用样本告之的信息验证先前提出的假设是否成立。如果样本数据不能充分证明和支持假设,则在一定的概率条件下,应拒绝该假设;相反,如果样本数据不能够充分证明和支持“假设是不成立的暠,则不能推翻假设。上述假设检验推断过程所依据的基本信念是小概率原理,即发生概率很小的随机事件,在某一次特定的实验中是几乎不可能发生的假设检验的基本步骤第一,提出零假设(记为H0)。即根据推断检验的目标,对待推断的总体参数或分布提出一个基本假设。第二,选择检验统计量。在假设检验中,样本值(或更极端值)发生的概率并不直接由样本数据得到,而是通过计算检验统计量观测值发生的概率而间接得到第三,计算检验统计量观测值发生的概率

20、第四,给定显著性水平毩,并做出统计决策单样本t 检验单样本t检验的目的是利用来自某总体的样本数据,推断该总体的均值与指定的检验值之间的差异在统计上是否是显著的。它是对总体均值的假设检验单样本t 检验的基本操作两独立样本t 检验两独立样本t检验的目的是:利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异两独立样本t 检验的基本操作两配对样本t 检验两配对样本t检验的目的是:利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异。所谓配对样本可以是个案在“前暠“后暠两种状态下某属性的两个不同状态,也可以是对某事物两个不同侧面或方面的描述。其差别在于抽样不是相互独立,而是互

21、相关联的。两配对样本t 检验的基本步骤配对样本t检验问题是通过转化成单样本t 检验来实现的,即最终转化成对“差值序列总体均值是否与0无显著差异暠做检验。正是如此,它必须要求样本配对,观察值数目相同且次序不可随意更改两配对样本t 检验的基本操作第6章 SPSS的方差分析SPSS统计分析方法及应用（第三版）方差分析概述方差分析认为,观测变量取值的变化受两类因素的影响:第一类是控制因素(控制变量)不同水平所产生的影响;第二类是随机因素(随机变量)所产生的影响。这里随机因素是指那些人为很难控制的因素,主要指试验过程中的抽样误差。方差分析概述方差分析认为,如果控制变量的不同水平对观测变量产生了显著影

22、响,那么,它和随机变量共同作用必然使观测变量值有显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么,观测变量值的变动就不会明显地表现出来,其变动可以归结为随机变量影响所致。单因素方差分析单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。明确观测变量和控制变量剖析观测变量的方差单因素方差分析的基本操作单因素方差分析的进一步分析方差齐性检验：对控制变量不同水平下各观测变量总体的方差是否相等进行分析多重比较检验：多重比较检验的零假设是,相应两水平下观测变量总体的均值不存在显著差异。S

23、PSS提供了诸多多重比较检验方法,其差异主要体现在检验统计量的构造上。单因素方差分析进一步分析的操作多因素方差分析多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。多因素方差分析确定观测变量和若干个控制变量剖析观测变量的方差多因素方差分析的基本操作协方差分析协方差分析将那些很难人为控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分

24、析控制变量对观测变量的作用,从而更加准确地对控制因素进行评价。协方差分析的基本操作第7章 SPSS的非参数检验SPSS统计分析方法及应用（第三版）单样本的非参数检验总体分布的卡方检验：是一种对总体分布进行检验的极为典型的非参数检验方法二项分布检验 SPSS的二项分布检验通过样本数据检验样本来自的总体是否服从指定概率值为p 的二项分布,其零假设是样本来自的总体与指定的二项分布无显著差异单样本K-S检验 K-S能够利用样本数据推断样本来自的总体是否与某一理论分布有显著差异,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布变量值随机性检验变量值随机性检验通过对样本变量值的分析,实现对总体

25、变量值出现是否随机进行检验两独立样本的非参数检验主要方法：两独立样本的曼-惠特尼U 检验两独立样本的K-S检验两独立样本的游程检验极端反应检验多独立样本的非参数检验主要方法：中位数检验多独立样本的Kruskal-Wallis检验多独立样本的Jonckheere-Terpstra检验两配对样本的非参数检验主要方法：两配对样本的McNemar检验两配对样本的符号检验两配对样本Wilcoxon符号秩检验多配对样本的非参数检验主要方法：多配对样本的Friedman检验多配对样本的CochranQ 检验多配对样本的Kendall协同系数检验第8章 SPSS的相关分析和线性回归分

26、析SPSS统计分析方法及应用（第三版）相关分析和回归分析概述相关分析和回归分析都是分析客观事物之间相关性的数量分析方法客观事物之间的关系大致可归纳为两大类,即函数关系和统计关系。相关分析：散点图相关分析：相关系数三种相关系数：Pearson简单相关系数 Spearman等级相关系数 Kendall相关系数偏相关分析偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数(净相关系数)。当控制变量个数为一时,偏相关系数称为一阶偏相关;当控制变量个数为两个时,偏相关系数称为二阶偏相关;当控制变量个数为零个时,偏相关系数称为零阶偏相关,也就

27、是相关系数偏相关分析回归分析回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据线性回归模型一元线性回归模型多元线性回归模型回归参数的普通最小二乘估计回归方程的统计检验回归方程的拟合优度检验对于一元线性回归方程对于多元线性回归方程回归方程的统计检验回归方程的显著性检验对于一元线性回归方程对于多元线性回归方程回归方程的统计检验回归系数的显著性检验对于一元线性回归方程对于多元线性回归方程残差分析残差均值为0

28、的正态性分析残差的独立性分析多元回归分析中的其他问题变量的筛选问题向前筛选策略是解释变量不断进入回归方程的过程向后筛选策略是变量不断剔除出回归方程的过程逐步筛选策略是向前筛选和向后筛选策略的综合变量的多重共线性问题多重共线性是指解释变量之间存在线性相关关系的现象容忍度是测度解释变量间多重共线性的重要统计量方差膨胀因子(VIF)特征根和方差比条件指数线性回归分析的基本操作曲线估计变量之间的非线性可以划分为本质线性关系和本质非线性关系。所谓本质线性关系是指变量关系形式上虽然呈非线性关系(如二次曲线),但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型。本质非线性

29、关系是指变量关系不仅形式上呈非线性关系,而且也无法通过变量变换化为线性关系,最终无法进行线性回归分析建立线性模型曲线估计是解决本质线性关系问题的曲线估计的基本操作第9章 SPSS的Logistic回归分析SPSS统计分析方法及应用（第三版）二项Logistic回归分析二项Logistic回归方程二项Logistic回归方程系数的含义当其他解释变量保持不变时,xi每增加一个单位所导致的相对风险是原来相对风险的exp(i)倍,即相对风险比为exp(i)。二项Logistic回归方程的检验回归方程的显著性检验:如果似然比卡方的观测值对应的概率p 值小于给定的显著性水平毩,则应拒绝零假设,认

30、为目前方程中的所有回归系数不同时为零,解释变量全体与LogitP 之间的线性关系显著;反之,如果概率p 值大于给定的显著性水平毩,则不应拒绝零假设,认为目前方程中的所有回归系数同时为零,解释变量全体与LogitP 之间的线性关系不显著二项Logistic回归方程的检验回归系数的显著性检验回归系数显著性检验采用的检验统计量是Wald统计量回归方程的拟合优度检验二项Logistic回归分析的基本操作多项Logistic回归分析 Logistic回归,而是多项Logistic回归分析。当被解释变量为多分类变量时,应采用多项Logistic回归分析方法。多项Logistic回归模型的基本思路类

31、似于二项Logistic回归模型,其研究目的是分析被解释变量各类别与参照类别的对比情况,即多项Logistic回归分析的基本操作多项有序回归分析若研究不同影响因素(解释变量)对有序多分类变量(被解释变量)的效应,可采用多项有序回归分析方法多项有序回归分析的基本操作第10章 SPSS的聚类分析SPSS统计分析方法及应用（第三版）聚类分析的一般问题聚类分析是统计学中研究“物以类聚暠问题的多元统计分析方法“亲疏程度”的度量方法定距型变量个体间距离的计算方式:欧氏距离计数变量个体间距离的计算方式：卡方距离“亲疏程度”的度量方法二值变量个体间距离的计算方式简单匹配(SimpleMatching)

32、系数雅科比(Jaccard)系数层次聚类个体与小类、小类与小类间“亲疏程度暠的度量方法最近邻居(NearestNeighbor)距离最远邻居(FurthestNeighbor)距离组间平均链锁(Between-groupsLinkage)距离组内平均链锁(Within-groupsLinkage)距离层次聚类的基本操作K-Means聚类 K-Means聚类分析的核心步骤第一步,指定聚类数目K 第二步,确定K 个初始类中心第三步,根据距离最近原则进行分类第四步,重新确定K 个类中心第五步,判断是否已满足终止聚类分析的条件K-Means聚类分析的基本操作第11章 SPSS的因子分

33、析SPSS统计分析方法及应用（第三版）因子分析概述因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点因子个数远远少于原有变量的个数因子能够反映原有变量的绝大部分信息因子之间的线性关系不显著因子具有命名解释性因子分析的数学模型和相关概念数学模型相关概念因子载荷变量共同度因子的方差贡献因子分析的基本内容因子分析的基本步骤因子分析的前提条件因子提取使因子更具有命名可解释性计算各样本的因子得分因子分析的前提条件如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能够反映某些变量共同特性的几个较少的公共因子。因

34、此,一般在因子分析时需首先对因子分析的条件,即原有变量是否相关进行研究计算相关系数矩阵常用指标：计算相关系数矩阵因子提取和因子载荷矩阵的求解常用方法：主成分分析法因子提取和因子载荷矩阵的求解计算因子载荷矩阵根据特征根确定因子数：一般选取特征值大于1的特征根因子提取和因子载荷矩阵的求解根据特征根确定因子数：可依据碎石图因子的命名通过旋转使得因子的含义更清晰计算因子得分计算因子得分的途径是用原有变量来描述因子,第j 个因子在第i 个观测上的值可表示为：因子得分函数因子分析的基本操作第12章 SPSS的对应分析SPSS统计分析方法及应用（第三版）对应分析概述对应分析以两变量的交叉列联

35、表为研究对象,利用“降维暠的方法,通过图形方式,直观揭示变量不同类别之间的联系,特别适合于多分类型变量的研究对应分析的关键问题是:第一,如何将多个类别点表示在低维空间中,以易于直观观察;第二,如何确定各类别点的坐标,以易于鉴别类别间联系的强弱对应分析的基本步骤第一,编制交叉列联表并计算概率矩阵P对应分析的基本步骤第二,根据P 矩阵确定数据点坐标：将P 矩阵的r 行看成r 个观测,并将这r 个观测看成c 维空间中的r 个数据点,且各数据点的坐标定义为对应分析的基本步骤第三,行变量和列变量的分类降维处理。对应分析采用通过类似因子分析的方式,分别对行变量类别和列变量类别实施降维对应分析的基本

36、操作第13章 SPSS的判别分析SPSS统计分析方法及应用（第三版）判别分析概述判别分析是一种经典的多元统计分析方法,用于对分类型变量取值的分析和预测可以从不同角度对判别分析方法进行分类。根据分类变量的类别个数,可将判别分析分为两组判别分析和多组判别分析;根据所采用的数学模型,可将判别分析分为线性判别分析和非线性判别分析;根据判别准则,可将判别分析分为距离判别法、Fisher判别法和Bayes判别法。距离判别法距离判别的基本思路：距离判别法的基本思路是:首先,将n 个样本数据看成p 维空间中的点;然后,分别计算出k 个类别中样本各判别变量的均值,作为类别中心;最后,计算新数据点到各类别中

37、心的马氏(Mahalanobis)距离,并根据距离最近的原则,新数据点距离哪个类别中心近则属于哪个类别。判别函数的计算如果各总体的协差阵相等,马氏距离计算时采用合并的组内协差阵如果各总体协差阵不相等,马氏距离计算时采用各类别自身的协差阵Fisher判别法 Fisher判别也称典型判别,其基本思想是先投影再判别,其中投影是Fisher判别的核心Fisher判别法贝叶斯判别法当类别变量有k 个分类时,按照上述Fisher判别方法,需建立C2k个距离判别函数,进行两两类别间的逐对判别。当k 较大时,判别函数会较多,计算量会增加,判别效率也会降低。于是,通常的解决思路是采用贝叶斯(Bayes)

38、判别方法。贝叶斯判别的计算第一,计算先验概率第二,计算样本似然第三,计算样本属于总体Gi(i=1,2,k)的概率p(Gi|X)。判别分析的基本操作第14章 SPSS的信度分析SPSS统计分析方法及应用（第三版）信度分析概述信度分析是要对量表的有效性(信度)进行研究。量表的信度分析包括内在信度分析和外在信度分析。内在信度分析重在考察一组评估项目是否测量的是同一个特征,这些项目之间是否具有较高的内在一致性。内在信度高意味着一组评估项目的一致程度高,相应的评估项目有意义,所得的评估结果可信;外在信度分析是指在不同时间对同一批被评估对象实施重复测量时,评估结果是否具有一致性。如果两次评估的结果

39、相关性较强,则说明在被评估对象没有故意隐瞒的前提下,评估项目的概念和内容是清晰的、不模糊的,没有二义性。因而所得的评估结果是可信的。信度分析的基本原理克朗巴哈系数折半信度系数信度分析的基本操作第15章 SPSS的对数线性模型SPSS统计分析方法及应用（第三版）对数线性模型概述利用列联分析，当研究对象是多个分类型变量时,卡方检验方法有一些不尽如人意的方面卡方检验的分析对象是一张关于两变量的二维列联表,只能分析两变量之间的关系,而无法同时针对多个变量进行卡方检验仅是一种对分类型变量间相关关系的检验方法,无法给出变量间关系的准确的数量描述在没有对其他变量加以控制的条件下得到的某变量类别间

40、差异程度的数据是不尽准确的。基本概念和基本思路饱和层次对数线性模型饱和模型和参数估计：所谓饱和模型就是基于对数频数,建立包括所有主效应和所有交互效应在内的线性模型饱和模型检验拟合效果检验交互效应检验主效应检验单项效应检验非饱和层次模型非饱和层次模型建立的基本原则是,认为模型中的低阶效应是由高阶效应派生出来的。如果模型中的高阶效应是显著的,那么相应的所有低阶效应也均是显著的。如果一个低阶效应不显著,则与其相关的其他高阶效应也会不显著。剔除模型中不显著效应时,应从最高阶开始,按照由高阶至低阶的顺序依次分层地剔除,直到没有可剔除的效应为止,最终得到简约的非饱和层次模型建立饱和与非饱和模型

41、的基本操作广义对数线性模型广义对数线性模型的概述：可以是饱和模型,也可以是非饱和模型。其模型的数学形式以及模型的参数估计方法与饱和模型或非饱和层次对数线性模型基本相同。与非饱和层次模型不同的是,广义对数线性模型中可包含任意阶数的效应,即使某低阶效应不显著,模型中仍可以包含相应的高阶效应,没有层次性的概念。因此,如果事先已经对因素的效应有所了解,可利用广义对数线性的这一特点,对先验知识进行验证。建立广义对数线性的基本操作Logit对数线性模型 Logit对数线性模型是一种简化的对数线性模型,它不再仅仅专注于交叉列联表本身的分析,而重点研究解释因素对被解释因素的作用和影响,因此Logit对数线性

42、模型中只包含那些与被解释因素相关的效应,而与被解释因素不相关的效应将不再包含在内。以两个解释因素为例,如果因素A 为被解释因素,Logit对数线性模型的饱和模型为Logit对数线性模型的基本操作第16章 SPSS的时间序列分析SPSS统计分析方法及应用（第三版）时间序列分析概述对于时间序列一词可以有不同层次的理解时间序列与一般的统计数据的不同之处在于:这是一些有严格先后顺序的数据。不同时间点或时间段对应的数据之间可能是没有关联互相独立的,但大多数情况下它们之间往往在着某种前后相承的关系,而非互相独立。时间序列的相关概念指标集T 采样间隔平稳随机过程和平稳时间序列白噪声序列时点序列

43、和时期序列时间序列分析的一般步骤数据的准备：根据分析目的收集数据,并将数据按恰当格式组织在统计分析软件中数据观察及检验：主要目标是总体把握时间序列发展变化的特征,这是今后选择恰当模型进而对数据进行深入分析的前提。对数据的观察和检验可通过图形方法或统计检验方法实现数据预处理,一方面能够使序列的特征体现得更加明显,利于分析模型的选择;另一方面也使数据满足于模型的要求。分析建模和预测数据准备把一系列SPSS变量数据当做时间序列数据来分析,就必须首先指明每个数据所对应的时间点或时间段,以及整个数据所对应的期间。SPSS的数据准备正是用来完成这些任务的。时间序列的图形化观察及检验时间序列的图形

44、化观察及检验目的，考察：时间序列的正态性时间序列的平稳性时间序列的周期性时间序列的其他特性时间序列的图形化观察工具序列图时间序列的图形化观察工具自相关函数图和偏自相关函数图时间序列的图形化观察工具互相关图时间序列的检验方法参数检验法游程检验法时间序列的图形化观察的基本操作绘制自相关和偏自相关函数图绘制互相关图时间序列的预处理时间序列预处理的目的和主要方法序列缺失数据的替换处理序列数据的变换处理时间序列预处理的基本操作时间序列的简单回归分析法和趋势外推法在时间序列分析中,简单回归分析法和趋势外推法都是基于回归分析原理的在趋势外推法中,模型中的解释变量往往是一些表示时间顺

45、序的序列指数平滑法一次指数平滑法(简单指数平滑法)二次指数平滑法(线性指数平滑法)布朗单一参数线性指数平滑霍特双参数指数平滑指数平滑法的基本操作ARIMA模型分析 ARIMA 是自回归移动平均结合模型的简写形式,用于平稳序列或通过差分而平稳的序列分析。自回归模型移动平均模型ARIMA模型分析 ARMA(p,q)模型ARIMA分析的基本操作季节调整法季节调整法认为,时间序列是由四种成分构成的,它们分别是趋势性T、季节性S、周期性P和不规则波动性。这些成分通过不同的组合方式影响时间序列的发展变化。时间序列分析的季节调整法从这个角度出发理解时间序列的构成因素,并将其转化成可量化的季节模型。通

46、过季节模型能够反映出时间序列在一个周期内所呈现的典型状态,而这种状态在不同周期以基本相同的形态出现。季节调整模型通常分为加法模型和乘法模型。季节调整法按月(季)平均法是一种根据原时间序列通过简单平均计算季节指数的方法。其基本思想是,为消除随机性的影响,计算各年同月(或季)的平均数作为该月(或季)的代表值;然后计算出总月(或季)的平均数作为全年的代表值;最后将同月(或季)平均数与总月(或季)的平均数对比,结果即为季节指数季节调整法趋势剔除法的基本思想与按月(或季)类似,它首先将时间序列中的长期趋势消除,然后再利用按月(季)平均法计算季节指数。序列中的趋势值可采用移动平均法或最小二乘法求得,分别称为移动平均趋势剔除法和趋势剔除法。在乘法模型中,各因素的消除可通过除法实现。季节调整法的基本操作

展开阅读全文