1、 第三部分SPSS与数据处理与分析第一节第一节SPSS软件概述软件概述关于SPSSnSPSS的英文原名为:Statistical Package for Social Sciences,译为社会科学统计软件包。n2002年将英文全称更改为:Statistical Product and Service Solutions,译为统计产品与服务解决方案。n 2009年,SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(Predictive Analytics Software)PASW一、Spss软件的特点nSpssnStatistical Package for the So
2、cial Science即“社会科学统计软件包”特点:除数据输入需要键盘以外,其余操作大多是通过“菜单”、“图形按钮”、“对话框”等来完成。二、二、SPSS的常用界面的常用界面n 数据编辑窗口、结果观察窗口、对象编辑窗口、草稿输出窗口、命令语句窗口和脚本编写窗口。n 其中最常用的是数据编辑窗口、结果观察窗口、对象编辑窗口三个窗口。数据编辑窗口(Data Editor)用法简介n数据编辑窗口进入:三种方式;n数据编辑窗口的组成:标题栏、工具栏、编辑栏、编辑区及状态栏等n数据编辑窗口工具栏介绍n冻结数据表中的列 结果观察(SPSS Viewer)窗口简介n窗口进入;n窗口的组成:标题栏、工具栏、导
3、航栏、分析结果区。n结果观察窗口工具栏介绍 对象编辑(SPSS Object)窗口简介n窗口进入:右键方式、双击方式;n枢纽表(Pivoting Trays)窗口、图形编辑(Chart Editor)窗口。nInteractive graph编辑状态。第二节第二节SPSS数据文件的建数据文件的建立与操作立与操作一、建立一、建立spss数据文件数据文件n打开spss,进入数据输入(Data View)界面;n定义变量与数据编码,其中“name”、“label”、“values”三个选择比较重要;n在数据输入模式下,用键盘将数据直接输入,输入前点击ViewValue Labels;n保存数据文件,
4、待分析使用。Spss变量名的定义规则n变量名中不能有空格;n变量名允许有64字节长,首写必须是文字母或以下符号之一:、#、$,除首写自字符外其他可以是字母、数字、小数点或其他任意非标点符号的字符;n避免“.”、“-”作为变量名结尾。Spss的变量类型n数值型:标准数值型、带逗号的数值型、圆点数值型、科学计数法、带美元符号的数值型、自定义类型。n字符型:字符串可以包括数字、字母、特殊字符,最长为32767个字符。n日期型:16种。变量标签与值标签n变量标签与值标签,用于变量名和变量值的辅助说明。nVariable Labels(变量标签)在统计分析结果中,可以在与变量名相对应的位置显示该变量的标
5、签,或直接以变量标签代替变量名显示,有助于理解和分析输出结果。nValue Labels(变量值标签),分类变量经常需要定义值的标签。由于提高数据录入效率非常有用。输入数据n输入数据的方法n直接录入n复制粘贴n直接打开职工序号性别婚姻状况年龄基本工资1男13021002女12822503女13529004女14030055男14431006女22119807男15036008女2191900企业职工情况模拟资料企业职工情况模拟资料数据文件建立举例二、数据文件的编辑与管理n插入变量与删除变量;n插入记录与删除记录;n数据的剪贴、复制和粘贴;n撤销操作。n查看文件和变量信息 依次单击【文件(F)】
6、【显示数据文件信息(I)】【工作文件(W)】n数据文件的打开与保存;n数据库文件的转换。n数据的审核与修改 数据输入错误的类型:数值定义范围内的错误、数值定义范围外的错误、逻辑错误。第二类错误的检查:数据排序:第三类错误,逻辑错误的检查与纠正:编制频数分布表。数据的审核与修改数据的审核与修改n数据的合并(复制、粘贴)第三节第三节数据预处理的数据预处理的SPSS应用应用一、一、数据文件的处理数据文件的处理1、数据的合并 选择【数据(D)】【合并文件(G)】【添加变量(V)】2、数据文件分组 依次选择【数据(D)】【拆分文件(F)】3、加权处理 选择【数据(D)】【加权个案(W)】数据文件的处理数
7、据文件的处理(续)(续)4、数据文件的结构重组 依次选择【数据(D)】【重组(R)】二、变量处理二、变量处理1、计算变量 依次选择【转换(T)】【计算变量(C)】2、变量值重新编码 依次选择【转换(T)】【重新编码为不同变量(R)】3、建立变量集合 选择菜单【实用程序(U)】【定义变量集(E)】Spss函数n根据函数功能和处理的变量类型,SPSS函数大致可分为:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其它函数。第五节第五节数据整理的数据整理的SPSS应用应用SPSS的基本数据整理的基本数据整理n品质数据整理 单一变量次数分布表 依次选择:【分析(A)】【描述统
8、计(D)】【频率(F)】双变量交互次数分布表 依次选择:依次选择【分析(A)】【描述统计(D)】【交叉表(C)】n数值型数据整理 单项式次数分布表(同品质数据整理)组距式次数分布表 首先:依次选择【转换(T)】【重新编码为不同变量(R)】其次:对分组结果的取值范围进行定义 SPSS的调查数据整理功能的调查数据整理功能n单选题整理:依次选择【分析(A)】【描述统计(D)】【频率(F)】,进入“频率(F)”主对话框。n多项选择题的整理(多重响应分析)1、将多选题的各选项定义为一个数据集。依次选择【分析(A)】【多重响应(U)】【定义变量集(D)】.2、重新点击:依次选择【分析(A)】【多重响应(U
9、)】【频率(F)】.第五节第五节SPSS的基本统计的基本统计分析功能分析功能一、描述性分析一、描述性分析n计算描述性统计量方法1:依次选择【分析(A)】【描述统计】【频率(F)】方法2:依次选择【分析(A)】【描述统计】【描述(D)】n分类平均数的计算:依次选择【分析(A)】【比较均值(M)】【均值(M)】描述性统计分析(续)描述性统计分析(续)n计算加权平均数(1)选择菜单【数据(D)】【加权个案(W)】;(2)选择“加权个案(W)”选项,并将权重变量选到“频率变量(F)。(3)依次选择【分析(A)】【描述统计】【描述(D)】二、探索性分析二、探索性分析2.绘制数据分布图(1)茎叶图的绘制(
10、2)箱线图的绘制 依次选择【分析(A)】【描述统计】【探索(E)】选择“输出”框内的“统计量”选项。1.“探索(E)”分析的描述性统计分析功能探索分析(续)探索分析(续)茎叶图与箱线图的绘制过程基本相似,只是在图形选择上有差异。其过程如下:第一步,选择【分析(A)】【描述统计】【探索(E)】;第二步,选择“输出”框内的“图”选项。;第三步选择Plots子对话框,确定需要输出的图形。三、相对数性分析三、相对数性分析1、依次选择【分析(A)】【描述统计】【比率(R)】2、选入“分子”和“分母”变量;3、单击【统计量(S)】按钮,选中“均值(M)”、“AAD(D)”和“均值居中COV”选项。单击【继
11、续】按钮,返回主对话框。4、单击【确定】按钮。第六节第六节SPSS的抽样与参数的抽样与参数估计功能估计功能1、依次选择【数据(D)】【选择个案】2、选择“随机个案样本(D)”选项,并单击【样本(S)】按钮。3、在样本尺寸框中,选择【大约(A)】选项,并在其后的活动框内输入抽样比例,单击【继续】按钮4、在主对话的“输出”栏中指定对未选中个案的处理方式。5、单击【确定】按钮。一、随机抽样一、随机抽样1、点估计 依次选择【分析(A)】【描述统计】【探索(E)】选中“统计量”子对话框中的“描述性”和“M-估计量”选项。2、区间估计依次选择【分析(A)】【描述统计】【描述(D)】单击【Bootstrap
12、(B)】按钮。注意:“频率(F)”、“描述(D)”、“探索(E)”、“均值(M)”等过程均可进行参数区间估计。二、参数估计二、参数估计第七节第七节SPSS的相关回归的相关回归分析功能分析功能一、相关分析一、相关分析1、绘制散点图n依次选择【图形(G)】【旧对话框(L)】【散点/点状(S)】2、计算相关系数依次选择【分析(A)】【相关(C)】【双变量(B)】选择【Pearson】复选框3、计算偏相关系数依次选择【分析(A)】【相关(C)】【偏相关(R)】二、回归分析二、回归分析1、线性回归分析依次选择【分析(A)】【回归(R)】【线性(L)】.2、曲线回归分析依次选择【分析(A)】【回归(R)】
13、【曲线估计(C)】.第八节第八节SPSS图形制作与应用图形制作与应用一、一、SPSS图形制作图形制作基本图形制作:1、条形图(Bar Chart)(1)简单条形图(2)复式条形图(3)堆积条形图(4)多变量汇总条形图(5)个体观察值条形图2、线图(Line Chart)(1)单线图(2)双线图(3)垂线图(4)线图的特殊编辑(添加参考线和特别显示)3、面积图(Area Chart)SPSS图形制作(续)图形制作(续)n4、饼图(Pie Chart)n5、散点图(Scattre Plot)n(1)简单散点图n(2)相关阵图n(3)三维旋转图n(4)散点图的特殊编辑n 添加均值参考线、拟合回归线、
14、预测区间设置等。SPSS图形制作(续)图形制作(续)n6、帕累托图(Pareto Chart)n7、直方图(Histogram)SPSS图形制作(续)图形制作(续)第九节第九节SPSS高级统计高级统计分析功能分析功能一、聚类分析一、聚类分析方法依据:“物以类聚,人以群分”方法特征:聚类分析是一种建立分类的多元统计方法,它能够将一批样本(或变量)根据其诸多数据特征,按照在性质上的亲疏程度在没有先知知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。聚类过程中亲疏程度的度量:计算个体间的距离,计算方法因变量类型不同而不同。定距型变量个体间距离的
15、计算:有7种方法,其中最常用的是欧氏距离(Euclidean distance);计数变量个体间距离的计算:卡方(Chi-Square measure)距离、Phi方(Phi-Square measure)距离;二值变量个体间距离的计算:简单匹配系数(Simple Matching)、雅科比系数(Jaccard)聚类分析(续)聚类分析(续)聚类分析的方法:层次聚类法、K-Means聚类、模糊聚类等 层次聚类法:Q型聚类、R型聚类。聚类方式有:凝聚方式、分解方式两种。Spss层次聚类采用的是凝聚方式。个体与小类、小类与小类间“亲疏程度”的度量方法:最近邻居(Nearest Neighbor)距离
16、 最远邻居(Furthest Neighbor)距离 组内平均连锁(Within-groups-linkage)距离 重心(Centroid clustering)距离 聚类分析(续)聚类分析(续)聚类分析的SPSS操作步骤:1、依次选择【分析(A)】【分类(F)】【系统聚类(H)】;2、单击【统计量(S)】按钮,选择输出“相似性矩阵(P)”;3、单击【绘制(T)】按钮,选择“树状图(D)”;4、单击【方法(M)】按钮,聚类方法;5、单击【确定】按钮,完成操作。二、因子分析二、因子分析n 因子分析的基本思想:根据相关性大小把原始变量分组,使的同组内的变量之间相关性较高,而不同组变量间的相关性较
17、低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,这个基本结构称为公共因子。因子分析的目的是寻求变量的基本结构,简化观测系统,减少变量维数,用少数的变量解释所研究的复杂问题。因子分析的一般数学模型因子分析的一般数学模型为因子分析模型则模型:要寻找的公因子为为可观测的随机变量,个指标。个样品,设有pqpqpppqqqqqTpefafaXefafaXefafaXfffffXXXXXpn1122121221111111321321),(),(),2,1(2211niXbXbXbfniniii其数学模型:子得分)。估计各公因子的值(因,进而用变量观测值来性组合公因子表示为变量的线在因子分
18、析中,将每个因子分析的步骤因子分析的步骤n第一步,对原始变量进行标准化处理;n第二步,提取因子,确定描述数据所需要的因子数以及计算方法;n第三步,因子旋转,集中于变换因子使之更好解释;n第四步,计算因子得分;n第五步,根据因子的分值作进一步的分析。因子分析中的几个重要概念因子分析中的几个重要概念n因子负荷:(因子载荷),即因子分析模型中的各因子系数值。他的绝对值越大,表示该因子对当前变量的影响程度越大。n公因子方差比(Communalities):指的是提取公因子后,各变量信息分别被提取的比例,或者说原变量方差中有公因子决定的比例。其取值在01之间,其值越大,说明该变量能被因子说明的程度越高。
19、n特征根(Eigenvalue):特可以看做是公因子影响力度的指标,代表引入该因子后可以解释多少元是变量的信息。因子分析的应用因子分析的应用n解决多重共线性问题。n数据简化。n对样本进行分类和综合评价。因子分析的因子分析的SPSS操作步骤操作步骤 1,依次选择【分析(A)】【降维】【因子分析(F)】;2、单击主对话框中的【描述(D)】按钮,在相关矩阵中选择“KM0和Bartlett的球形检验(K)”;3、单击【抽取(E)】按钮,在方法中选择“主成份”;在分析中选择“相关性矩阵(R)”;在抽取中选择“基于特征值(E)”;4、单击【得分(S)】按钮,选择“保存为变量(S)和显示因子得分系数矩阵(D);5、单击【确定】按钮,完成因子分析