1、SPSSSPSS数据文件的整理、转换、数据文件的整理、转换、合并及合并及t t检验检验三峡大学医学院三峡大学医学院邓邓 青青10/10/20221一、数据文件的整理一、数据文件的整理 (一)排序(一)排序(Sort Cases)练习:将例练习:将例1.1中的数据按中的数据按“性别性别”和和“年龄年龄”从小到大排序,观察到什么?从小到大排序,观察到什么?10/10/20222 方法:从菜单选择方法:从菜单选择Data Sort Cases,打开打开Sort Cases对话框,将变量对话框,将变量“性别性别”和和“年龄年龄”分别选分别选入入Sort by 栏,默认升序排列栏,默认升序排列(Asce
2、nding),单击,单击OK按钮。按钮。10/10/20223(二)选择观察单位(二)选择观察单位(Select Cases)练习:将已建数据文件中练习:将已建数据文件中“男性男性”及及“年龄年龄”在在65岁以下的观察单位选择出岁以下的观察单位选择出来。观察到什么?来。观察到什么?10/10/20224 方法:从菜单选择方法:从菜单选择Data Select Cases,打开打开Select对话框,选择对话框,选择if condition is satisfied,单击单击 if 按钮,在条件栏中输入按钮,在条件栏中输入 sex=1&age 65 ,单击单击Continue按钮,按钮,单击单击
3、OK按钮。按钮。10/10/20225 条件符号的含义条件符号的含义&:and;|:or ;=:not。数字和符号可从对话框中直接选择。如果从数字和符号可从对话框中直接选择。如果从键盘选入,应处于英文输入状态,以减少出键盘选入,应处于英文输入状态,以减少出错的可能。错的可能。10/10/20226单击右键单击右键“&”,含义,含义“And”10/10/2022710/10/20228二、数据文件的转换二、数据文件的转换 用赋值方法生成新变量(用赋值方法生成新变量(Compute)对变量值重新划分(对变量值重新划分(Recode)10/10/20229(一)用赋值方法生成新变量(一)用赋值方法生
4、成新变量(Compute)练习练习1 1 根据已建数据库中的入院日期根据已建数据库中的入院日期date_in和出院日期和出院日期date_out,计算住院天计算住院天数,并生成新变量住院天数数,并生成新变量住院天数day 10/10/202210 从菜单选择从菜单选择TransformCompute,打开,打开Compute Variable对话框;在对话框;在Target Variable栏栏输入输入 day,在,在Function Group 栏中选择栏中选择Data Extraction,在在Functions and special variables 中选择中选择Xdata.Tady
5、,再点箭头使之进入,再点箭头使之进入Numeric Expression 栏,从左边变量栏内选择栏,从左边变量栏内选择(data_out-data_in),进入,进入Numeric Expression 栏,栏,运行结运行结果产生新变量果产生新变量day。10/10/202211 练习练习2 2:根据已建数据文件中的根据已建数据文件中的“身高身高”和和“体重体重”,计算体重指数,然后赋值给,计算体重指数,然后赋值给新变量新变量“bmi”。体重指数的计算公式如。体重指数的计算公式如下下(注意公式中身高的单位为注意公式中身高的单位为m):体重指数(体重指数(BMI)体重体重(kg)/身高身高(m)
6、210/10/202212(二)对变量值重新划分(二)对变量值重新划分(Recode)练习练习 将图将图2-9数据文件中的体重指数数据文件中的体重指数bmi变量值重新编码:变量值重新编码:0:24;1:24;并赋值给新变量;并赋值给新变量“肥胖肥胖”。10/10/202213 从菜单选择从菜单选择Transform RecodeInto Different Variables,打开打开Recode into Different Variables 对话框,将对话框,将“bmi”选选入入Numeric Variable栏,在栏,在Output Variable栏输入新变量肥胖栏输入新变量肥胖 ,
7、单击,单击Change 按钮,单击按钮,单击Old and New Values按钮。按钮。10/10/20221410/10/202215四、数据文件的合并四、数据文件的合并 (一)增加观察单位(一)增加观察单位(Add Cases)(二)增加变量(二)增加变量(Add Variables)10/10/202216(一)增加观察单位(一)增加观察单位(Add Cases)从外部数据文件中增加案例(从外部数据文件中增加案例(cases)到当)到当前数据文件中,称为纵向合并。纵向合并前数据文件中,称为纵向合并。纵向合并要求两个需要合并的数据文件必须有一个要求两个需要合并的数据文件必须有一个共同的
8、变量,如病人编号、住院天数(变共同的变量,如病人编号、住院天数(变量名和数据类型都相同),称为关键变量。量名和数据类型都相同),称为关键变量。10/10/202217练习:将数据文件练习:将数据文件a.sav和和b.sav合并为合并为c.sav。10/10/202218 打开数据文件打开数据文件a.sav,作为工作文件,作为工作文件(Working Data File)。)。从菜单选择:从菜单选择:DataMerge files Add Cases。选定数据文件选定数据文件b.sav为外部文件,为外部文件,单击单击“打开打开”,单击,单击“OK”,将合并后,将合并后的新工作文件(的新工作文件(
9、New Working Data File)另存为数据文件另存为数据文件c.sav。10/10/202219 10/10/202220(二)增加变量(二)增加变量(Add Variables)从外部数据文件中增加变量(从外部数据文件中增加变量(variable)到当前数据文件中,称为横向合并。横向到当前数据文件中,称为横向合并。横向合并不仅要求两个需要合并的数据文件必合并不仅要求两个需要合并的数据文件必须有一个共同的变量,如病人编号(变量须有一个共同的变量,如病人编号(变量名和数据类型都相同),称为关键变量,名和数据类型都相同),称为关键变量,还要求两个文件中关键变量的部分变量值还要求两个文件
10、中关键变量的部分变量值是相等的,如病人编号是相同的。是相等的,如病人编号是相同的。10/10/202221练习:将数据文件练习:将数据文件c.sav和和d.sav合并为合并为e.sav。10/10/202222 分别对数据文件分别对数据文件c.sav和和d.sav按关键变量按关键变量“病人编号病人编号”升序排列升序排列(DataSort Cases)。打开数据文件打开数据文件c.sav,作为工作文件作为工作文件(Working Data File)。)。从菜单选择:从菜单选择:DataMerge files Add Variables。选定数据文件选定数据文件d.sav为外部文为外部文件;件;
11、10/10/20222310/10/202224 单击单击“打开打开”;单击;单击Match cases on key variables in sorted files(在已排序在已排序的数据文件中匹配的数据文件中匹配关键变量值相等关键变量值相等的观察的观察单位单位),激活它下面的三个选项,本例选,激活它下面的三个选项,本例选择择Both files provide cases,将将“病人病人编号编号”选入选入Key Variables栏;单击栏;单击“OK”,将合并后的新工作文件另存为,将合并后的新工作文件另存为数据文件数据文件e.sav。10/10/202225SPSS之统计描述之统计描
12、述Frequencies、Descriptives、Means和和Case Summaries程序程序10/10/202226 Frequencies、Descriptives、Means和和Case Summaries这这4个命令都可以计算均个命令都可以计算均数、标准差、标准误等主要指标。数、标准差、标准误等主要指标。如果只计算上述如果只计算上述3个主要指标,选用个主要指标,选用Descriptives命令较为方便;命令较为方便;如果需计算中位数、百分位数和绘制频数分如果需计算中位数、百分位数和绘制频数分布图,应选用布图,应选用Frequencies命令;命令;如果需分组计算均数、中位数、几
13、何均数、如果需分组计算均数、中位数、几何均数、标准差、标准误等指标,应选用标准差、标准误等指标,应选用Means命令命令(必须有分组变量);(必须有分组变量);如果计算几何均数,选用如果计算几何均数,选用Case Summaries命令较为方便。命令较为方便。10/10/202227一一 、Frequencies 例:例:P7根据根据120名名5岁女孩身高资料岁女孩身高资料(1)计算均数、标准差、标准误)计算均数、标准差、标准误(2)计算中位数、四分位数、)计算中位数、四分位数、P2.5 和和P97.5 和和P95(3)绘制频数分布图绘制频数分布图(4)计算参考值范围)计算参考值范围10/10
14、/202228 从菜单选择从菜单选择AnalyzeDescriptive Statistics Frequencies,打开打开Frequencies对话框,将变量身对话框,将变量身高选入高选入Variables栏。栏。单击单击Statistics按钮,打开按钮,打开Statistics对话框,选择:对话框,选择:10/10/20222910/10/202230 单击单击Charts按钮,打开按钮,打开Charts对话框,选择:对话框,选择:Histograms:直方图:直方图(对分类资料,可选用条图对分类资料,可选用条图Bar charts和圆图和圆图Pie charts)。With nor
15、mal curve:加载正态曲线。加载正态曲线。10/10/202231Statistics身高值1200110.1100.5298109.60005.803299.1100105.7250109.6000114.7000120.4925ValidMissingNMeanStd.Error of MeanMedianStd.Deviation2.525507597.5Percentiles10/10/202232身高值124.0122.0120.0118.0116.0114.0112.0110.0108.0106.0104.0102.0100.098.096.0身高值Frequency2010
16、0Std.Dev=5.80 Mean=110.1N=120.00图图3.3 某地某地5 5岁女孩的身高频数分布图岁女孩的身高频数分布图 10/10/202233二二、Descriptive 计算身高的最小值、最大值、均数和标准差。计算身高的最小值、最大值、均数和标准差。从菜单选择从菜单选择AnalyzeDescriptive Statistics Descriptives,打开打开Descriptives对话框,将变量对话框,将变量身高选入身高选入Variables栏;栏;单击单击Options按钮,打开按钮,打开Options对话框对话框(打钩的是打钩的是默认项目默认项目)单击单击Conti
17、nue按钮返回,单击按钮返回,单击OK按钮。按钮。10/10/20223410/10/202235结果解释 最小值和最大值分别为最小值和最大值分别为95.3和和124.0厘米,厘米,均数和标准差分别为均数和标准差分别为110.11和和5.803厘米。厘米。Descriptive Statistics12095.30124.00 110.11005.8032120身高值Valid N(listwise)NMinimum MaximumMeanStd.Deviation10/10/202236三、频数表资料与三、频数表资料与Weight(加权加权)例例:某种传染病的潜伏期某种传染病的潜伏期(天天)
18、如下。求平如下。求平均潜伏期均潜伏期M和潜伏期的第和潜伏期的第95百分位数百分位数P95 10/10/202237 用变量用变量 f 进行加权。从菜单选择:进行加权。从菜单选择:DataWeight Cases,打开打开Weight Cases对话框。单击对话框。单击OK按钮。加权后,按钮。加权后,虽然数据窗的数据表面上没有改变,但虽然数据窗的数据表面上没有改变,但程序已经记住:有程序已经记住:有26个观察值为个观察值为6,48个观察值为个观察值为10,25个观察值为个观察值为14,等。,等。10/10/202238 从菜单选择从菜单选择AnalyzeDescriptive Statistic
19、s Frequencies,打开打开Frequencies对话框,将变量对话框,将变量x选入选入Variables栏。栏。单击单击Statistics按钮,打开按钮,打开Statistics对话框,选择:对话框,选择:10/10/202239结果解释结果解释 该种传染病潜伏期的中位数为该种传染病潜伏期的中位数为10.4天,天,95%的病人潜伏期在的病人潜伏期在18.5天以下。天以下。10/10/202240四、频数表制作四、频数表制作 P7例例2.2绘制频数表。绘制频数表。1、数据资料按列输入:、数据资料按列输入:2、点击、点击TransformVisual Bander对话框。对话框。10/
20、10/20224110/10/20224210/10/20224310/10/2022443、对新变量、对新变量y列频数,列频数,即为频数表。即为频数表。分组频数频率(%)累计频率(%)951.8.89875.86.7101108.315.01041815.030.01072520.850.81102117.568.31131512.580.81161512.593.311975.899.21211251.8100.0Total120100.0-10/10/202245五、五、Means 求以下四组资料的均数和标准差。求以下四组资料的均数和标准差。表3.6 四 组 资 料 的 肝 重 占 体
21、重 比 值(%)的 测 定 结 果 A饲 料 B饲 料 C饲 料 D饲 料 2.62 2.82 2.91 3.92 2.23 2.76 3.02 3.00 2.36 2.43 3.28 3.32 2.40 2.73 3.18 3.04 10/10/202246 从菜单选择从菜单选择AnalyzeCompare MeansMeans,打开打开Means对话框。对话框。将将x选入选入Dependent栏,栏,g选入选入Independent;Options用默认选项即可;用默认选项即可;单击单击OK按钮按钮 10/10/20224710/10/202248六、六、Case Summaries与几何
22、与几何均数均数 例例:有有8份血清的抗体效价如下。求平均抗体份血清的抗体效价如下。求平均抗体效价。效价。1 5;1 10;1 20;1 40;1 80;1 160;1 320;1 64010/10/202249 从菜单选择从菜单选择Analyze Reports Case Summaries,打开打开Summarize Cases对话框,将对话框,将x选入选入Variables栏,栏,单击单击Statistics按钮。按钮。在在Summarize Cases:Statistics对话对话框,将几何均数框,将几何均数Geometric选入选入Cell Statistics栏,单击栏,单击Cont
23、inue按钮返回,按钮返回,单击单击OK 按钮按钮10/10/20225010/10/20225110/10/202252结果解释结果解释 血清的抗体平均效价为血清的抗体平均效价为156.57,约,约 157。10/10/202253 几何均数另外一种计算方式:几何均数另外一种计算方式:先将原始数据做对数变量变换,再按一般先将原始数据做对数变量变换,再按一般计算平均数的方法算出对数的值的平均数,计算平均数的方法算出对数的值的平均数,最后取反对数来确定其数值。最后取反对数来确定其数值。10/10/202254SPSS t检验检验10/10/202255一、总体均数的置信区间估计一、总体均数的置信
24、区间估计 例例1:用:用P7例例2.2的数据的数据(height),求某市,求某市5岁女孩身高总体均数的岁女孩身高总体均数的95%置信区间。置信区间。步骤:步骤:(一)调用数据文件(一)调用数据文件(二)选用程序(二)选用程序 从菜单选择从菜单选择AnalyzeDescriptive Statistics Explore,打开,打开Explore对话对话框,将变量身高选入框,将变量身高选入Dependent List栏,栏,单击单击OK按钮。按钮。10/10/202256Descriptives110.1100.5298109.0610111.1590110.1389109.600033.67
25、85.803295.30124.0028.708.9750-.019.221-.503.438MeanLower BoundUpper Bound95%ConfidenceInterval for Mean5%Trimmed MeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis身高值StatisticStd.Error(三)结果解释(三)结果解释10/10/202257二、样本均数与总体均数的比较二、样本均数与总体均数的比较One-Sample T Test 例例2:已知某小样
26、本中含:已知某小样本中含CaCO3的真值是的真值是20.7mg/L。现用某法重复测定该小样本。现用某法重复测定该小样本15次,次,CaCO3含量(含量(mg/L)分别如下。)分别如下。问该法测得的均数与真值有无差别?问该法测得的均数与真值有无差别?20.99 20.41 20.62 20.75 20.10 20.00 20.80 20.9122.60 22.30 20.99 20.41 20.50 23.00 22.6010/10/202258 步骤:步骤:(一)建立数据文件:一个变量的数据库。(一)建立数据文件:一个变量的数据库。测量值测量值X(F8.2)(二)选用程序:(二)选用程序:从菜
27、单选择从菜单选择Analyze Compare Means One-Sample T Test,打开对话框,将,打开对话框,将x选选入入Test Variable(s)栏,将总体均数输入栏,将总体均数输入Test Value栏,单击栏,单击OK按钮。按钮。10/10/20225910/10/202260(三)运行结果及解释:(三)运行结果及解释:经样本均数与总体均数比较的经样本均数与总体均数比较的t检验,检验,t=1.70,P=0.111。按。按 =0.05水准,尚不能认为该法测得水准,尚不能认为该法测得的均数与真值不同。的均数与真值不同。10/10/202261三、配对资料的比较三、配对资料
28、的比较Paired-Samples T Test 例例3:P26例例3.6,问两种方法(,问两种方法(MRI和右心导管)和右心导管)的检测结果有无差别?的检测结果有无差别?(一)建立数据文件:有两个变量名的数据库。(一)建立数据文件:有两个变量名的数据库。X1:MRI组,组,X2:右心导管组;按列输入数据。:右心导管组;按列输入数据。(二)选用程序:(二)选用程序:从菜单选择从菜单选择Analyze Compare Means Paired-Samples T Test,打开对话框,将,打开对话框,将x1和和x2成对选入成对选入Paired Variables栏,单击栏,单击OK按钮。按钮。1
29、0/10/20226210/10/20226310/10/202264(三)运行结果及解释:(三)运行结果及解释:经配对经配对t检验,检验,t=1.773,P=0.158。按。按 =0.05水准,还不能认为两种方法的检测结果有差别。水准,还不能认为两种方法的检测结果有差别。Paired Samples Statistics4.8450121.3689.39524.6733121.3743.3967MRI右心导管Pair 1MeanNStd.DeviationStd.ErrorMeanPaired Samples Test.1717.33559.684E-02-4.15E-02.38481.77
30、311.104MRI-右心导管Pair 1MeanStd.DeviationStd.ErrorMeanLowerUpper95%ConfidenceInterval of theDifferencePaired DifferencestdfSig.(2-tailed)10/10/202265四、两个样本的均数比较四、两个样本的均数比较Independent-Samples T Test 例例4:将将14只大白鼠随机分为两组,一组只大白鼠随机分为两组,一组做成白血病模型组,一组为正常鼠,然后做成白血病模型组,一组为正常鼠,然后测量两组鼠脾脏测量两组鼠脾脏DNA含量(含量(mg/g),问正常问正常
31、鼠和白血病鼠脾脏中鼠和白血病鼠脾脏中DNA含量是否不同?含量是否不同?白血病白血病12.313.213.715.215.415.816.9正常组正常组10.811.612.312.713.513.514.810/10/202266 步骤:步骤:(一)建立数据文件:两个变量名(一)建立数据文件:两个变量名 g为分组变量为分组变量(其中值标签为其中值标签为1:白血病;:白血病;2:正常正常);X为为DNA含量(含量(mg/g)。)。(二)选用程序:(二)选用程序:从菜单选择从菜单选择Analyze Compare Means Independent-Samples T Test,打开对话,打开对话
32、框,将框,将x选入选入Test栏;将栏;将g选入选入grouping栏,栏,单击单击Define Groups按钮,定义两个组的变按钮,定义两个组的变量值,本例为量值,本例为1和和2,单击,单击Continue按钮;按钮;单击单击OK按钮。按钮。10/10/20226710/10/202268(三)运行结果:(三)运行结果:G Gr ro ou up p S St ta at ti is st ti ic cs s714.6431.6216.6129712.7431.3327.5037g白血病组正常组DNA含量(mg/g)NMeanStd.DeviationStd.ErrorMeanI In
33、nd de ep pe en nd de en nt t S Sa am mp pl le es s T Te es st t.721.4122.39512.0341.9000.7933.17153.62852.39511.566.0351.9000.7933.16423.6358Equal variancesassumedEqual variancesnot assumedDNA含量(mg/g)FSig.Levenes Test forEquality of Variancestdf Sig.(2-tailed)MeanDifferenceStd.ErrorDifference LowerU
34、pper95%ConfidenceInterval of theDifferencet-test for Equality of Means10/10/202269(四)结果解释:(四)结果解释:经经Levenes方差齐性检验,按方差齐性检验,按=0.05水准,水准,还不能认为两组总体方差不等(还不能认为两组总体方差不等(F=0.72,P=0.412),故选择假设两总体方差相等时),故选择假设两总体方差相等时的的t检验结果(检验结果(Equal variance assumed,即第即第1行的结果)。行的结果)。经两样本经两样本t检验,按检验,按=0.05水准,认为两组水准,认为两组总体均数的
35、差别有统计学意义(总体均数的差别有统计学意义(t=2.40,P=0.034)。白血病鼠比正常鼠脾脏中)。白血病鼠比正常鼠脾脏中DNA含量高,均数分别为含量高,均数分别为14.64(mg/g)和和12.74(mg/g),差值总体均数的),差值总体均数的95可信区间为(可信区间为(0.173.63)()(mg/g)。)。10/10/202270五、两个样本几何均数比较五、两个样本几何均数比较Independent-Samples T Test 例例5:P29例例3.9,问两种疫苗(精制苗与,问两种疫苗(精制苗与PVRV)的免疫效果有无差别?)的免疫效果有无差别?步骤:步骤:(一)建立数据库:库结构
36、同两样本均数比(一)建立数据库:库结构同两样本均数比较的较的t检验。但需要对变量值进行数据变换检验。但需要对变量值进行数据变换(对数变换对数变换),并形成新变量。,并形成新变量。(二)选用程序及结果解释完全同两样本均(二)选用程序及结果解释完全同两样本均数比较的数比较的t检验。检验。10/10/202271(三)运行结果及解释(三)运行结果及解释Group Statistics603.2292.57147.377E-02602.9482.62178.026E-02分组精制苗PVRV对数值NMeanStd.DeviationStd.ErrorMeanIndependent Samples Tes
37、t3.402.0682.577118.011.2810.1090.0651.49682.577 117.170.011.2810.1090.0651.4969Equal variances assumedEqual variances notassumed对数值FSig.Levenes Test forEquality of VariancestdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference LowerUpper95%ConfidenceInterval of theDifferencet-test for Equality of Means10/10/202272