1、公共卫生与全科医学学院公共卫生与全科医学学院 10/10/20221SPSS是社会科学统计软件包(是社会科学统计软件包(Statistics Package For Social Science)的缩写)的缩写,经过几十年的改进,经过几十年的改进,该产品发展成为集统计分析、数据挖掘、商业智能、该产品发展成为集统计分析、数据挖掘、商业智能、顾客关系管理等多功能的统计产品和服务解决方案顾客关系管理等多功能的统计产品和服务解决方案(Statistics Product For Service Solutions)的的软件。适用于社会学、医学、心理学、经济学等领软件。适用于社会学、医学、心理学、经济学
2、等领域。域。10/10/202221.20世纪世纪60年代末,美国斯坦福大学的三位研究生研年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件制开发了最早的统计分析软件SPSS,同时成立了同时成立了SPSS 公司公司2.1975 年在芝加哥组建了年在芝加哥组建了SPSS 总部总部 3.1984年开发了年开发了DOS操作系统下的操作系统下的PC+1.0版本版本4.1992年的年的DOS版升级为版升级为Windows版本,即最初的版本,即最初的4.0版版5.1999年升级到年升级到10.0版、版、2001年升级为年升级为11.0版、版、2003年年 Windows操作平台下的最新版本为操
3、作平台下的最新版本为12.0;目前已有目前已有17.0与著名统计软件与著名统计软件SAS相比,更适用于统计初学者或非统计学专业人员相比,更适用于统计初学者或非统计学专业人员10/10/20223方法一:方法一:方法二:方法二:10/10/2022410/10/2022510/10/20226方法:方法:注:退出前要保存新建立的或修改的文件内容。注:退出前要保存新建立的或修改的文件内容。与与SPSS相关文件的后缀名的意义:相关文件的后缀名的意义:SPSS的数据文件的数据文件 SPSS在运行中产生的统计分析结果文件在运行中产生的统计分析结果文件 SPSS语法程序文件语法程序文件 10/10/202
4、27学会应用学会应用SPSSSPSS统计软件进行数据库的建立统计软件进行数据库的建立和数据的正确录入和数据的正确录入能够正确地选择适当的统计方法对录入的能够正确地选择适当的统计方法对录入的数据进行分析数据进行分析能够对统计结果进行正确的解释能够对统计结果进行正确的解释10/10/2022810/10/2022910/10/202210Name更改变量名称Type选择变量类型(如numeric、date、string)Decimals设定小数显示的位数Label分析输出结果中变量的显示名称Values 分析输出结果中变量内容的显示名称10/10/202211操作演示操作演示10/10/20221
5、2 单击单击 在文件名栏在文件名栏输入盘符:输入盘符:路径路径文件名文件名 单击单击SPSSSPSS数据转换功能较强数据转换功能较强:可存取和转换多种数据类型可存取和转换多种数据类型,SpssSpss(*.savsav),),Excel(Excel(*.xlsxls),Text(Text(*.txt),dBase(.txt),dBase(*.dbf).dbf)文件等。文件等。10/10/202213建立一个以自己名字为文件名的建立一个以自己名字为文件名的SPSS数据库数据库调查变量包括:姓名、性别(调查变量包括:姓名、性别(1=男性,男性,2=女性)、女性)、出生日期(美式)、身高(单位出生日
6、期(美式)、身高(单位cm,保留,保留2位小数)位小数)输入自己的数据并保存输入自己的数据并保存10/10/202214用统计指标、统计表、用统计指标、统计表、统计图等方法去对资料统计图等方法去对资料的数量特征及分布规律的数量特征及分布规律进行测定和描述进行测定和描述指如何抽样以及如何用指如何抽样以及如何用样本信息推断总体特征样本信息推断总体特征的问题的问题 10/10/202215新建数据库或打开已有数据库新建数据库或打开已有数据库(如:diameter_sub.sav数据库记录了216个人体脊柱椎体的矢状面管径,试对变量“trueap_mean”(矢状面管径)作描述性分析,并绘制直方图)A
7、nalyze Descriptive statistics Frequencies 使左侧源变量栏进入右侧使左侧源变量栏进入右侧variable(s)栏栏 单单击击statistics 选择统计指标选择统计指标 continue chat 选选择要输出的图形择要输出的图形 continue format 选择要输选择要输出的格式出的格式 continue OK(frequencies)10/10/20221610/10/202217Quartiles 四分位数四分位数Mean 均数均数 Median 中位数中位数Mode 众数众数Sum 总和总和Std.devation 标准差标准差Varia
8、nce 方差方差Range 极差极差S.E.mean 标准误标准误 显示频数分布显示频数分布表(是针对每一个数表(是针对每一个数值,并非分组段)值,并非分组段)显示分布显示分布分析:选择分析:选择P2.5和和P97.5或或P5和和P95(即即95%和和90%正常值范正常值范围)围):选择选择skewness(偏度系偏度系数),数),kurtosis(峰度峰度系数)系数)10/10/202218(descriptives)建立或打开已有的数据文件建立或打开已有的数据文件AnalyzeDescriptive StatisticsDescriptives 使左侧源变量栏进入右侧使左侧源变量栏进入右侧
9、variable(s)栏栏单击单击opions 选择统计量选择统计量 OK 该模块的特殊功能该模块的特殊功能:数据标准化数据标准化10/10/202219(explore)建立或打开已有的数据文件建立或打开已有的数据文件AnalyzeDescriptive StatisticsExplore使左侧使左侧源变量栏进入右侧源变量栏进入右侧dependent栏,分组变量进入栏,分组变量进入factor栏栏单击单击statistics,plots选择统计量选择统计量 OK 该模块的特殊功能该模块的特殊功能:数据的异常值分析以及资料特数据的异常值分析以及资料特征分析:正态性以及方差齐性征分析:正态性以及
10、方差齐性10/10/202220Paired-samples t TestOne sample t testIndependent-samples t Test计量资料统计推断计量资料统计推断10/10/202221计数资料统计推断计数资料统计推断双变量直线相关与回归双变量直线相关与回归4.4.2 2检验检验crosstablecrosstable5.5.相关系数相关系数r r的假设检验的假设检验Correlation-Correlation-bivariatebivariate6.6.回归系数回归系数b b的假设检验的假设检验Regression-linearRegression-linea
11、r多变量相关与回归多变量相关与回归10/10/2022221.单样本单样本t检验检验数据文件数据文件“t-test_1.sav”,根据营养学要求,成年女性每日,根据营养学要求,成年女性每日摄入食物的推荐平均热量为摄入食物的推荐平均热量为7725kcal。今随机抽取。今随机抽取11名名20至至30岁成年女性每日摄入的热量如下:岁成年女性每日摄入的热量如下:5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770问:现今问:现今20至至30岁成年女性每日摄入食物的平均热量是否足岁成年女性每日摄入食物的平均热量是否足够?够?Analyze Comp
12、are Means One sample T test 使左侧源变量栏变量进入右侧使左侧源变量栏变量进入右侧Test栏栏 在右下方在右下方Test中输入总体均数中输入总体均数 OK10/10/202223One-Sample StatisticsOne-Sample Statistics116753.641142.123344.363热量(千卡)NMeanStd.DeviationStd.ErrorMeanO On ne e-S Sa am mp pl le e T Te es st t-2.82110.018-971.364-1738.65-204.07热量(千卡)tdfSig.(2-tai
13、led)MeanDifferenceLowerUpper95%ConfidenceInterval of theDifferenceTest Value=7725双侧检验的双侧检验的P值值标准差标准差标准误标准误自由度自由度t值值均数均数10/10/202224Analyze Compare Means Independent Sample T test 使左侧源变量中的分析变量进使左侧源变量中的分析变量进入右侧入右侧Test栏栏 左侧源变量中的分组变量进入左侧源变量中的分组变量进入Grouping栏栏 单击单击Define Groups 输入组的输入组的变量值变量值 Continue OK
14、注:成组设计的两个变量必须一个是检验变量注:成组设计的两个变量必须一个是检验变量X,另一个是分组变量,另一个是分组变量group。10/10/202225Group StatisticsGroup Statistics3047.5012.9052.3563041.5015.0852.754分组试验药安慰剂年龄NMeanStd.DeviationStd.ErrorMeanI In nd de ep pe en nd de en nt t S Sa am mp pl le es s T Te es st t1.588.2131.65558.1036.0003.624-1.25513.2551.65
15、556.641.1036.0003.624-1.25913.259Equal variancesassumedEqual variancesnot assumed年龄FSig.Levenes Test forEquality of VariancestdfSig.(2-tailed)MeanDifferenceStd.ErrorDifferenceLowerUpper95%ConfidenceInterval of theDifferencet-test for Equality of Means方差齐性检验方差齐性检验如果方差齐如果方差齐如果方差不齐如果方差不齐10/10/202226Ana
16、lyze Compare Means Paired Sample T test 同时使左侧配对的两个变量进入右侧同时使左侧配对的两个变量进入右侧paired variables栏栏 OK注:配对资料必须成对输入,分别以注:配对资料必须成对输入,分别以X1和和X2表示,无分组变量表示,无分组变量 10/10/202227P Pa ai ir re ed d S Sa am mp pl le es s S St ta at ti is st ti ic cs s134.986022.3142.881129.626019.0342.457治疗前Hb(g/L)治疗后Hb(g/L)Pair1MeanNS
17、td.DeviationStd.ErrorMeanP Pa ai ir re ed d S Sa am mp pl le es s C Co or rr re el la at ti io on ns s60.625.000治疗前Hb(g/L)&治疗后Hb(g/L)Pair1NCorrelationSig.P Pa ai ir re ed d S Sa am mp pl le es s T Te es st t5.36718.1422.342.68010.0532.29159.026治疗前Hb(g/L)-治疗后Hb(g/L)Pair1MeanStd.DeviationStd.ErrorMean
18、LowerUpper95%ConfidenceInterval of theDifferencePaired DifferencestdfSig.(2-tailed)差值均数差值均数ddSdS10/10/2022284.2检验检验为比较紫外线和抗病毒药物治疗带状疱疹的疗效,将带状疱疹为比较紫外线和抗病毒药物治疗带状疱疹的疗效,将带状疱疹患者随机分为两组,临床观察结果见下表,问两组的总体有效患者随机分为两组,临床观察结果见下表,问两组的总体有效率有无差别?(文件名为率有无差别?(文件名为“chi2_2.sav)组别有效无效合计有效率抗病毒组31255655.36紫外线组5596485.94合计8
19、63412071.67紫外线和抗病毒药物治疗带状疱疹疗效比较10/10/202229注:如果数据库为原始数据则不用加权注:如果数据库为原始数据则不用加权Data weight cases weight cases by 将频数调入变将频数调入变量栏量栏okAnalyze Descriptive statistics Corsstabs 分别调分别调入行变量入行变量Rows、列变量、列变量Columns Statistics Chi-square Continue Cell s选择结果要输出的内容选择结果要输出的内容Continue ok10/10/202230组组 别别 *疗疗 效效 C Cr
20、 ro os ss st ta ab bu ul la at ti io on n31255655.4%44.6%100.0%5596485.9%14.1%100.0%863412071.7%28.3%100.0%Count%within 组别Count%within 组别Count%within 组别抗病毒组紫外线组组别Total有效无效疗效TotalC Ch hi i-S Sq qu ua ar re e T Te es st ts s13.755b1.00012.2901.00014.0891.000.000.00013.6401.000120Pearson Chi-SquareCont
21、inuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea.0 cells(.0%)have expected count less than 5.The minimum expected count is 15.87.b.不须校正不须校正校正校正确切概确切概率计算率计算 2值值
22、10/10/2022315.相关系数相关系数r的假设检验的假设检验随机抽取随机抽取123名不同年龄的人检测名不同年龄的人检测TRF(限制性端粒(限制性端粒片段长度,片段长度,bp)结果见数据文件)结果见数据文件“correlate_1.sav”,试分析人的年龄(,试分析人的年龄(age)和)和trf是否相关?是否相关?Analyze Correlate Bivariate 两个变量同时进入两个变量同时进入分析变量栏分析变量栏 选择相关分析方法(选择相关分析方法(Pearson,Kendall or Spearman)ok本例选择本例选择Pearson相关,相关,Kendall 和和 Spear
23、man为等级相关为等级相关10/10/202232C Co or rr re el la at ti io on ns s1-.732*.000123123-.732*1.000123123Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N年龄(岁)限制性端粒片断长度(bp)年龄(岁)限制性端粒片断长度(bp)Correlation is significant at the 0.01 level(2-tailed).*.r=-0.732 P0.001,两者存在显著负相关关系,两者存在显著负相关关系10/10
24、/2022336.回归系数回归系数b的假设检验的假设检验数据文件数据文件“correlate_1.sav”,age为自变量,为自变量,TRF为应为应变量,建立直线回归方程。变量,建立直线回归方程。Analyze Regression Linear TRF入入Dependent栏,栏,age入入Independent栏栏 okC Co oe ef ff fi ic ci ie en nt ts sa a14.009.15193.051.000-.047.004-.732-11.817.000(Constant)年龄(岁)Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:限制性端粒片断长度(bp)a.常数项常数项a回归系数回归系数b回归系数回归系数b的假设检的假设检验验t检验检验10/10/20223410/10/202235