1、SPSSSPSS基础入门基础入门基于spss16.0报告人:张淑洁报告人:张淑洁2022-12-91目录目录CONTENTSCONTENTS数据分析Data Analysis 03注意事项Attentions06结果解读Result Interpretation 05SPSS软件概述Software Overview 01数据录入Data Input 03SPSS操作入门Introduction to Operation 0222022-12-9SPSSSPSS软件概述软件概述SPSS的发展SPSS的特点SPSS的功能32022-12-9软件概述SPPS的发展4SPSS为IBM公司推出的一系列
2、用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences)但是随着SPSS产品服务领域的扩大和服务深度的增加正式将英文全称更改为“统计产品与服务解决方案”(Statistical Product and Service Solutions)2022-12-9软件概述SPPS的发展5SPSS是世界上最早的统计分析软件,由 美国斯坦福大学的三位研究生Norman H.Nie、C.Hadlai(
3、Tex)Hull 和 Dale H.Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS已出至版本22.0,而且更名为IBM SPSS。迄今,SPSS公司已有40余年的成长历史。2022-12-9数据录入统计分析 SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。结果呈现软件概述SPSS的功能2022-12-96SPSS针对初学
4、者、熟练者及精通者都比较适用。只需要掌握简单的操作分析,大多青睐于SPSS。能够读取及输出多种格式的文件。比如*.dbf文件,ASC数据文件,*.xls文件等。具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。软件概述SPSS的特点界面非常友好,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成2022-12-97SPSSSPSS操作入门操作入门82022-12-9操作入门SPSS的界面数据视图 变量视图数 据 编 辑 窗 口SPSS Data
5、Editor2022-12-99操作入门SPSS的界面结果管理窗口SPSS Output Viewer2022-12-910数据录入数据录入数据的直接录入录入的步骤外部数据的获取录入的格式112022-12-912数据录入123姓名、性别、成绩.地区、时间、营业额.身高、体重、智力.定义变量名定义变量名变量名、变量标签值、变量的储存类型、缺失值、变量的测量尺度指定每个变量的各种属性指定每个变量的各种属性变量名不能与SPSS保留字相同。SPSS的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。录入数据录入数据数据录入数据录入的步骤2022-12-9
6、130101第一第一不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。0202第二第二每一个测量指标或影响因素只能占据一列的位置,即同一指标的观测值都应当录入到同一个变量中去。数据录入数据录入的格式“一个观测占一行,一个变量占一列”2022-12-9数据录入数据录入的格式NameName:变量名。变量名必须以字母、汉字及开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。TypeType:变量类型。变量类型有8 种,最常用的是Numeric数值型变量。其它常用的类型有:String字符型,Date日期型,Comma逗号型(隔
7、3位数加一个逗号)等。WidthWidth:变量所占的宽度。DecimalsDecimals:小数点后位数。LabelLabel:变量标签。关于变量涵义的详细说明。ValuesValues:变量值标签。关于变量各个取值的涵义说明。MissingMissing:缺失值的处理方式。ColumnsColumns:变量在Date View 中所显示的列宽(默认列宽为8)。AlignAlign:数据对齐格式(默认为右对齐)。MeasureMeasure:数据的测度方式。名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。2022-12-914数据录入数据的直接录入示例1,将下面的数据按要求录入到SP
8、SS中姓名性别期末成绩小王男96.5小张女90要求:姓名:字符型;宽度8;小数点0;列宽8;左对齐;称名变量 性别:数字型;宽度8;小数点0;1代表男,2代表女;列宽8;左对齐;称名变量期末成绩:数字型;宽度10;小数点1;列宽8;右对齐;等比变量2022-12-915数据录入外部数据获取SPSS中可以直接读入许多常用格式的数据文件,选择菜单FileOpen Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。示例22022-12-916数据分析及结果解读数据分析及结果解读描述性分析相关与回归分
9、析方差分析172022-12-918FrequenciesFrequencies:频数分布:频数分布DescriptivesDescriptives:一般性描述:一般性描述数据分析描述性分析ExploreExplore:探索性分析:探索性分析CrosstabsCrosstabs:交叉列表:交叉列表调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的
10、基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。调用此过程可进行计数资料和某些等级资料的交叉表分析,在分析中,可对二维至多维交叉表资料进行统计描述和x2检验,并计算相应的百分数。调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。2022-12-919数据分析描述性分析2022-12-9数据分析描述性分析示例22022-12-920待分析待分析的的变量变量是否显示频数表是否显示频数表定义需要计算的统计量定义需要计算的统计量定义需要绘制的统计图定义需要绘制的统计图频数分布表(
11、Frequencies)定义表格定义表格2022-12-921百分位数百分位数分布特征描述分布特征描述离散趋势离散趋势集中趋势集中趋势Frequencies:定义统计量2022-12-922统计图类型统计图类型直方图加上正态曲线直方图加上正态曲线以频数绘制条图或饼图以频数绘制条图或饼图Frequencies:定义统计图无图形无图形条图条图饼图饼图直方图直方图以构成比绘制条图或饼图以构成比绘制条图或饼图2022-12-923频数表排列次序频数表排列次序Frequencies:定义表格按数值升序按数值升序按数值降序按数值降序按频数升序按频数升序按频数降序按频数降序2022-12-924Freque
12、ncies:结果解释2022-12-925Frequencies:结果解释FrequencyPercentValid PercentCumulative Percent频数频数百分比百分比有效百分比有效百分比累积百分比累积百分比2022-12-926Frequencies:结果解释2022-12-927是否保存标准变换后的数据是否保存标准变换后的数据一般性描述(Descriptives)2022-12-928Descriptives:定义统计量2022-12-929Descriptives:结果解释2022-12-930Descriptives:结果解释此外,系统以此外,系统以z z成绩成绩为
13、变量名将为变量名将原始数据转换成标准原始数据转换成标准z z分值,存放分值,存放在原数据库中。新变量具有均值为在原数据库中。新变量具有均值为0 0、标准差为、标准差为1 1的特征,亦即变量的的特征,亦即变量的标准化过程。标准化过程。2022-12-931探索性分析(Explore)两者均有两者均有统计量统计量图图分组变量列表分组变量列表待分析变量列表待分析变量列表2022-12-932Explore:定义统计量DescriptivesDescriptives:输出均数、均数的输出均数、均数的95%95%可信区间、去掉可信区间、去掉5%5%极端值的均数、极端值的均数、中位数、方差、标准差、最小值
14、、最大值、全距、四分位数间距、偏度中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。系数、峰度系数。M-estimatorsM-estimators:作中心趋势作中心趋势的粗略最大似然确定,输出四的粗略最大似然确定,输出四个不同权重的最大似然确定数。个不同权重的最大似然确定数。OutliersOutliers:输出五个最大值与输出五个最大值与五个最小值。五个最小值。PercentilesPercentiles:输出第输出第5%5%、10%10%、25%25%、50%50%、75%75%、90%90%、95%95%位数。位数。2022-12-933箱图绘制方式箱图绘制
15、方式茎叶图茎叶图正态性检验正态性检验/正态分布图正态分布图Explore:定义统计图直方图直方图2022-12-934缺失值的缺失值的处理方式处理方式Explore:缺失值的处理2022-12-935Explore:结果解释2022-12-936Explore:结果解释2022-12-937Explore:结果解释左面为箱图,图中左面为箱图,图中方箱为四分位数,中心方箱为四分位数,中心粗线为中位数,两端线粗线为中位数,两端线为最大值与最小值。为最大值与最小值。2022-12-938交叉列表(Crosstabs)行行列列2022-12-939Crosstabs:定义统计量X X2 2检验检验20
16、22-12-940Crosstabs:定义交叉表内容实际观察数实际观察数理论数理论数行百分数行百分数列百分数列百分数合计百分数合计百分数残差残差2022-12-941Crosstabs:结果解释Case Processing Summary99999.9%1.1%1000100.0%曾经吸过烟*性别NPercentNPercentNPercentValidMissingTotalCases2022-12-942Crosstabs:结果解释红底数字为实际观察值;黄底数字为列百分数。红底数字为实际观察值;黄底数字为列百分数。曾经吸过烟*性别 Crosstabulation10851362123.5
17、%95.2%62.2%2832030361.5%3.7%30.3%6967515.0%1.1%7.5%460539999100.0%100.0%100.0%Count%within 性别Count%within 性别Count%within 性别Count%within 性别从来都不吸吸,现在仍在吸以前吸过,现在已经不吸了曾经吸过烟Total男女性别Total2022-12-9432022-12-944Crosstabs:结果解释Chi-Square Tests542.476a2.000615.6192.000456.3251.000999Pearson Chi-SquareLikelihoo
18、d RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)0 cells(.0%)have expected count less than 5.Theminimum expected count is 34.53.a.2022-12-945数据分析方差分析2022-12-946单因素方差分析 单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个(大于两个)总体样本的均值是否存在显著差异的检验方法。其目的也是对不同的总体的数据的均值之间的差异是否显著进行检验。单因素方差
19、分析的应用条件:在不同的水平(因素变量取不同值)下,各总体应当服从方差相等的正态分布。2022-12-947示例3,某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测试,其值如表所示。假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著差异。解:首先建立假设H0:三个地区的零件强度无显著差异;H1:三个地区的零件强度有显著差异。123111611089298103853100118994115106735831079761051161022022-12-948 1、单击Analy
20、ze Compare Means One-Way ANOVA,打开 One-Way ANOVA对话框。2、从左框中选择因变量“零件强度”进入Dependent list框内,选择因素变量地区”进入Factor框内。点击OK就可以得到方差分析下表。2022-12-949 3、单击Option按纽,打开Option对话框如图所示:在Option选项中选择输出项。主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。本例中选择Homogeneity of variance test 进行不同水平间方差齐性的检验以及Descriptive 基本统计描述。在Missing Value栏中选择
21、系统默认项。2022-12-950 完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表。方差齐性检验,Sig值大于0.05,符合方差齐性假设2022-12-951由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三个地区的零件强度有显著差异。2022-12-952 4、如果需要将水平间两两比较,可以单击Post Hoc 按纽,打开多重比较对话框。在该对话框中列出了许多多重比较检验,涉及到许多的数理统计方法,在实际中只选用其中常用的方法即可。对话框下部的Significance level表示显著性水平,默认值是0.05,也可以根据需要重新输入其它值。
22、2022-12-953 如果满足在水平间方差相等的条件,常用LSD(least-significant difference最小显著性差异法),表示用 t 检验完成各组均值间的配对比较。当方差不等的情况下,可以选择Tamhanes T2,用t检验进行各组均值间的配对比较。2022-12-954 从表可以看出,地区2与地区3之间的差异是非常显著的,p 0.05。2022-12-955双因素方差分析 单因变量的双因素方差分析是对观察的现象(因变量)受两个因素或变量的影响进行分析,检验不同水平组合之间对因变量的影响是否显著。双因素方差分析应用条件:因变量和协变量必须是数值型变量,且因变量来自或近似来
23、自正态总体。因素变量是分类变量,变量可以是数值型或字符型的。各水平下的总体假设服从正态分布,而且假设各水平下的方差是相等的。双因素方差分析过程可以分析出每一个因素的作用;各因素之间的交互作用;检验各总体间方差是否相等;还能够对因素的各水平间均值差异进行比较等。2022-12-956示例4:右表是某商品S在不同地区和不同时期的销售量表。已知数据服从正态分布,则要检验地区因素及时间因素对销售量的影响是否显著。地区地区时期时期 1234516.514.213.42.46.221.87.19.41.54.833.610.87.21.74.943.78.98.62.34.657.612.67.52.85
24、.22022-12-957由于销售量受地区和时间两个因素的影响,这是一个双因素方差分析的问题。1、单击Analyze General linear Model Univariate,打开Univariate主对话框。2、选择要分析的变量”销售量”进入Dependent Variable 框中,选择因素变量”地区”和”时期”进入Fixed Factor框中。3、单击Model按纽选择分析模型,得到Model对话框。如图所示:在Specify框中,指定模型类型。2022-12-958 Custom选项为自定义模型,本例选择此项并激活下面的各项操作。先从左边框中选择因素变量进入Model框中,然后选
25、择效应类型。一般不考虑交互作用时,选择主效应Main,考虑交互作用时,选择交互作用Interaction。可以通过单击Build Term下面的小菜单完成,本例中选择主效应。2022-12-9594、从表中数据可以看出,F值对应概率P值都小于显著性水平0.05,这说明地区和时期对销售量的影响都是显著的。5、如果需要进行图形展示,可单击Plots按纽,打开图形对话框如图所示。(1)在Factor框中选择因素变量进入横坐标Horizontal Axis框内,然后单击add按纽,可以得到该因素不同水平的因变量均值的分布。(2)如果要了解两个因素变量的交互作用,将一个因素变量送入横坐标后,将另一个因素
26、变量送入Separate Lines分线框中,然后单击add按纽。就可以输出反映两个因素变量的交互图。本例中选择“地区”为横坐标。2022-12-9602022-12-961 6、如需要将因素A各水平间均值进行两两比较,单击Post Hoc按纽,打开Post Hoc Multiple多重比较对话框如图所示。从Factor框中选择因素变量进入Post Hoc Test for框中,然后选择多重比较方法。本例中各组方差相等,选择LSD方法。2022-12-9627、单击Options按纽,打开Univariate:Options对话框,从中选择需要输出的显著性水平,默认值为0.05。在进行所有的选
27、择后,单击OK,就可以得到输出结果。由多重比较LSD表中得到不同地区销售量的比较表。2022-12-963 两个因素变量地区和时期的折线之间无交叉,因此两个因素之间基本上没有交互作用。2022-12-964相关分析与回归模型的建立与分析相关分析与回归模型的建立与分析 相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。建立因变量和自变量之间回
28、归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(Curve Estimation)。数据条件数据条件:参与分析的变量数据是数值型变量或有序变量。2022-12-965数据分析相关与回归分析2022-12-966相关分析 在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图所示。2022-12-967简单相关分析两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。(1)散点图SPSS软件的绘图命令集中在Graphs菜
29、单。(2)相关系数:(示例5)打开数据库后,单击Analyze Correlate Bivariate 打开Bivariate对话框,见图所示。人均国内生产总值(元)120001000080006000400020000城镇居民(元)8000700060005000400030002000100002022-12-968 从左边的变量框中选择需要考察的两个变量进入 Variables 框内,从Correlation Coefficients 栏内选择相关系数的种类,有Pearson相关系数,Kendalls一致性系数和Spearman等级相关系数。从检验栏内选择检验方式,有双侧检验和单侧检验两
30、种。2022-12-969 单击Options按纽,选择输出项和缺失值的处理方式。本例中选择输出基本统计描述。2022-12-970单击OK,可以得到相关分析的结果。2022-12-971线性回归分析 线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。2022-12-972线性回归模型假设条件与模型的各种检验 1、线性回归的假设理论(1)正态性假设:即所研究的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;(3)独立性假设:即各变量
31、之间是相互独立的;(4)残差项无自相关性:即误差项之间互不相关,Cov(i,j)=02022-12-973 2、线性回归模型的检验项目(1)回归系数的检验(t检验)。(2)回归方程的检验(F检验)。(3)拟合程度判定(可决系数R2)。(4)D.W检验(残差项是否自相关)。(5)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。2022-12-9743、线性回归分析的具体步骤SPSS软件中进行线性回归分析的选择项为AnalyzeRegressionLinear。2022-12-975仍然用示例5的数据,考察网络成瘾与社会支持、孤独之间的相关关系,建立网络成瘾对于相关
32、因素的线性回归模型。具体操作步骤如下:1、打开数据文件,单击Analyze Regression Linear打开Linear 对话框如图所示。2022-12-976 2、从左边框中选择因变量进入Dependent 框内,选择一个或多个自变量进入Independent框内。从Method 框内下拉式菜单中选择回归分析方法,有强行进入法(Enter),消去法(Remove),向前选择法(Forward),向后剔除法(Backward)及逐步回归法(Stepwise)五种。本例中选择本例中选择EnterEnter方法。方法。2022-12-977 3、单击Statistics,打开Linear R
33、egression:Statistics对话框,可以选择输出的统计量如图所示。Regression Coefficients栏,回归系数选项栏。Estimates(系统默认):输出回归系数的相关统计量:包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。本例中只选择此项。本例中只选择此项。Confidence intervals:输出每一个非标准化回归系数95的置信区间。Covariance matrix:输出协方差矩阵。2022-12-978 Model fit是默认项。能够输出复相关系数R、R2及R2修正值,估计值的标准误,方差分
34、析表。R squared change:引入或剔除一个变量时,R2的变化。Descriptives:基本统计描述。Part and Partial correlations:相关系数及偏相关系数。Collinearity diagnostics:共线性诊断。主要对于多元回归模型,分析各自变量的之间的共线性的统计量:包括容忍度和方差膨胀因子、特征值,条件指数等。本例中选择上面所有的统计项。本例中选择上面所有的统计项。Residuals 残差栏 Durbin-Watson:D.W检验.Casewise diagnostics:奇异值诊断,有两个选项:Outliers outside()standa
35、rd deviations:奇异值判据,默认项标准差3。All case 输出所有观测量的残差值。本例中选择本例中选择D.WD.W检验及奇异值诊断,选择标准差为检验及奇异值诊断,选择标准差为2 2,即置信度约为,即置信度约为95%95%。2022-12-979 4、单击Options按纽,打开Linear Regression:Options对话框,如图所示。可以从中选择模型拟合判断准则Stepping Method Criteria 及缺失值的处理方式。Stepping Method Criteria 栏,设置变量引入或剔除模型的判别标准。Use probability of F:采用F检验
36、的概率为判别依据。Use F value:采用F值作为检验标准。Include constant in equation 回归方程中包括常数项。Missing Values 缺失值的处理方式。本例中选择系统默认项本例中选择系统默认项。2022-12-9805、如果要保存预测值等数据,可单击Save按纽打开Linear Regression:Save对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。6、当所有选择完成后,单击OK得到分析结果。主要的分析结果见表。表模型综合分析中有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准
37、误,模型变化导致的可决系数及F值的变化,D.W检验值等。DW量是判断数据是否存在序列相关的关键,如果存在的话就是伪回归。它的值在2附近就表明是不存在序列相关的2022-12-9812022-12-982 残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。2022-12-983 奇异值表中依次是序号,标准化残差值,实际观测值、预测值及残差值。表中给出的八个个体数据的标准化残差超出了2。2022-12-984“学习学习spssspss的重点并不在软件本身,而是相关的统计学知识,也就的重点并不在软件本身,而是相关的统计学知识,也就是你要学会怎样去分析是你要学会怎样去分析“输入数据后,软件给你呈现的结果输入数据后,软件给你呈现的结果”。放在最后的话放在最后的话2022-12-985谢谢聆听谢谢聆听Thanks for listenling!报告人:张淑洁报告人:张淑洁2022-12-9862022-12-987
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。