1、h1SPSS软件在医学科研中的应用软件在医学科研中的应用(SPSS13.0)何平平何平平北大医学部流行病与卫生统计学系北大医学部流行病与卫生统计学系Tel:82801619h2 SPSS的基本数据管理功能的基本数据管理功能SPSS Basic Data Management参考文献:参考文献:SPSS Programming and Data Management,2nd Edition:A Guide for SPSS and SAS Users.SPSS Inc.2005.h3一、数据获取一、数据获取二、变量属性二、变量属性三、记录排序三、记录排序四、文件拆分四、文件拆分五、筛选记录五、筛
2、选记录 六、数据文件的合并六、数据文件的合并纵向合并纵向合并七、数据文件的合并七、数据文件的合并横向合并横向合并八、通过计算产生新变量八、通过计算产生新变量九、重新赋值九、重新赋值十、排秩十、排秩十一、重排格式十一、重排格式十二、日期计算十二、日期计算十三、随机抽样十三、随机抽样h4一、数据获取一、数据获取Getting Data into SPSS读取读取SPSS数据文件:数据文件:*.sav,常用的其他外部常用的其他外部数据文件:数据文件:*.xls,*.dbf,*.txt,*.dat,*.w*,*.sas7bdat,*.mdb 注意注意:医学领域常用数据库:医学领域常用数据库EpiDat
3、a软件,先软件,先将数据文件将数据文件*.rec转换为转换为*.sps文件,然后在文件,然后在SPSS的语法窗口运行,生成的语法窗口运行,生成*.sav 文件。文件。h5数据获取途径数据获取途径h6二、变量属性二、变量属性Variable Properties1.Name:变量名。允许用中文,但习惯上采用英变量名。允许用中文,但习惯上采用英文变量名。文变量名。2.Type:变量类型,常用数值型(变量类型,常用数值型(Numeric)、字)、字符型(符型(String)、日期型()、日期型(Date)。)。3.Width:变量宽度,默认为变量宽度,默认为8。4.Decimals:小数位数,默认为
4、小数位数,默认为2。5.Label:变量编码,又称为变量标签,用于注释变量编码,又称为变量标签,用于注释变量名的含义。变量名的含义。h76.Values:变量值编码,又称为变量值标签,用于注释变量值编码,又称为变量值标签,用于注释变量值的含义。变量值的含义。例如:例如:变量变量sex,变量标签为,变量标签为“性别性别”;变量值为变量值为1与与2,变量值编码:,变量值编码:1为为“男性男性”,2为为“女性女性”。7.Missing:缺失值。默认为系统缺失值,用缺失值。默认为系统缺失值,用“.”表示。表示。8.Columns:列宽,默认为列宽,默认为8。9.Align:对齐方式。数值型变量默认右对
5、齐(对齐方式。数值型变量默认右对齐(Right),),字符型变量默认左对齐(字符型变量默认左对齐(Left)。10.Measure:测度,包括三类:数值变量(测度,包括三类:数值变量(Scale),),名义变量或无序分类变量(名义变量或无序分类变量(Nominal),有序分类变量),有序分类变量或等级变量(或等级变量(Ordinal)。)。h8数据清单数据清单变量清单变量清单数据文件数据文件ex.sav(数据窗口(数据窗口数据清单数据清单界面)界面)h9数据文件数据文件ex.sav(数据窗口(数据窗口变量清单变量清单界面)界面)注意:注意:一行对应一个一行对应一个“记录(记录(Case)”;一
6、列对应一个;一列对应一个“变量变量(Variable)”。此数据窗口不是一个很好的数据录入界面。此数据窗口不是一个很好的数据录入界面。h10删除删除ex.sav文件中文件中id为为57的的case,将文件另,将文件另存为存为ex_1.sav为以后使用方便,将为以后使用方便,将ex.sav另存为如下数据库另存为如下数据库(Save As.)h11删除删除ex.sav文件中文件中id为为14的的case,将文件另,将文件另存为存为ex_2.savh12删除删除ex.sav文件中变量文件中变量sbp1dbp2,删除,删除id6的记录,将文件另存为的记录,将文件另存为ex3.savh13只保留只保留e
7、x.sav文件中变量文件中变量id、sbp1dbp2,删除删除id7的记录,将文件另存为的记录,将文件另存为ex4.savh14三、记录排序三、记录排序Sort Cases h15ex.sav文件中文件中,按照按照“height(身高)(身高)”的大小排序。的大小排序。升序升序降序降序h16四、文件拆分四、文件拆分 Split File h17比较组比较组分组变量分组变量根据分组根据分组变量排序变量排序ex.sav文件中文件中,按照按照“sex(性别)(性别)”拆分文件拆分文件h18h19分性别对分性别对“height(身高)(身高)”进行统计描述进行统计描述描述性统计描述性统计h20h21不
8、同性别的不同性别的“height(身高)(身高)”统计描述统计描述所有记录的所有记录的“height(身高)(身高)”统计描述统计描述注意注意:SPSS的输出结果文件为的输出结果文件为*.spoh22 五、五、筛选记录筛选记录 Select Casesh23如果条件满足如果条件满足过滤过滤删除删除selectunselecth24筛选条件:有高血压家族史(筛选条件:有高血压家族史(genic 0)h25如果选用如果选用Deleted,则,则一一定定要将筛选后的要将筛选后的文件另存一个文文件另存一个文件名件名h26filter_$变量,变量,0表示未选中该记录,表示未选中该记录,1表示选中该记录
9、表示选中该记录不符合条件的记录,不符合条件的记录,被用斜线筛除被用斜线筛除h27有高血压家族史的患者身高的统计描述有高血压家族史的患者身高的统计描述所有患者身高的统计描述所有患者身高的统计描述h28六、数据文件的合并六、数据文件的合并纵向合并:增加纵向合并:增加记录记录Merge Files.Add Cases打开数据文件打开数据文件ex_1.sav作为作为“工作数据文件工作数据文件”h29打开打开ex_2.sav作为作为“外部数据文件外部数据文件”h30*代表工作数据文件,代表工作数据文件,代表外部数据文件。代表外部数据文件。h31将连接后的文件另存一个文件名:将连接后的文件另存一个文件名:
10、ex_12.savh32七、数据文件的合并七、数据文件的合并横向合并:增加变量横向合并:增加变量Merge Files.Add Variables打开打开ex3.sav作为作为“工作数据文件工作数据文件”h33打开打开ex4.sav作为作为“外部数据文件外部数据文件”h34(1)两个文件均提供记录()两个文件均提供记录(Both files provide cases)关键变量关键变量对于排序的文件,按照关键变量对于排序的文件,按照关键变量进行匹配进行匹配*代表工作数据文代表工作数据文件,件,代表外部代表外部数据文件。数据文件。h35警告:警告:如果数据未按照关键变量如果数据未按照关键变量的的
11、升序升序进行排序,那么不能按照进行排序,那么不能按照关键变量匹配关键变量匹配h36连接后的数据文件,另存为连接后的数据文件,另存为ex_34a.savh37(2)按照关键变量,将外部数据文件匹配到工作)按照关键变量,将外部数据文件匹配到工作数据文件中(数据文件中(External file is keyed table)。)。h38连接后的数据文件,另存为连接后的数据文件,另存为ex_34b.savh39(3)按照关键变量,将工作数据文件匹配到外部)按照关键变量,将工作数据文件匹配到外部数据文件中(数据文件中(Working file is keyed table)。)。h40连接后的数据文件
12、,另存为连接后的数据文件,另存为ex_34c.savh41八、通过计算产生新变量八、通过计算产生新变量 computeh42产生一个新变量:产生一个新变量:bmi体重体重/(身高)(身高)*2)h43h44九、重新赋值九、重新赋值Recode.Into different variablesh45旧及新的变量值旧及新的变量值h46根据根据bmi对对7个记录进行分组,个记录进行分组,bmi:正常:正常:18.023.9;超重:;超重:24.027.9;肥胖:;肥胖:28.0。h47定义新的变量名:定义新的变量名:bmi _ grh48h49问题:当问题:当bmi23.91时,时,bmi_gr的取
13、何值?的取何值?根据上述根据上述recode方法,方法,bmi_gr为缺失值!为缺失值!解决办法:解决办法:RECODE bmi (18.0 thru 24.0=1)(24.0 thru 28.0=2)(28.0 thru Highest=3)INTO bmi_gr.EXECUTE.h50十、排秩十、排秩 rank casesh51对对sbp1(治疗前(治疗前SBP)进行排秩)进行排秩h52排秩后产生新变量排秩后产生新变量rsbp1,其中,其中对于相等的变量对于相等的变量值(称为结点值(称为结点ties)取平均秩次)取平均秩次。本例中第。本例中第2、3位的平均秩次为位的平均秩次为2.5。h53
14、十一、重排格式十一、重排格式Restructureh541.将变量转换为记录将变量转换为记录 Restructure selected variables into cases h55将变量转换为同一组将变量转换为同一组h56记录记录标识标识转置后的新变量转置后的新变量需要转置的变量需要转置的变量需要固定的变量需要固定的变量h57创建一个索引变量创建一个索引变量h58索引变量索引变量的变量名的变量名按照自然数列对索引变量取值按照自然数列对索引变量取值h59未选取的变量从未选取的变量从新数据库中删除新数据库中删除h60开始重排开始重排h61重排后的数据文件重排后的数据文件data1.sav。h6
15、22.将记录转换为变量将记录转换为变量 Restructure selected cases into variablesh63h64记录标识记录标识索引变量索引变量h65按照按照“记录标识记录标识”变量排序变量排序h66按照原变量值按照原变量值顺序,排列新顺序,排列新变量组变量组h67开始重排开始重排h68重排后的数据文件重排后的数据文件data2.sav。h69十二、日期计算十二、日期计算 Date/Time h70用日期与时间进行计算用日期与时间进行计算h71两个日期之间的计算两个日期之间的计算h72Date1与与Date2之差之差以以“天天”为单位为单位h73结果变量:结果变量:day
16、,单位,单位为为“天天”变量标签变量标签h74h75十三、随机抽样十三、随机抽样 Random Sampling 步骤步骤1 随机数种子(随机数种子(Random Number Seed)的设定)的设定以数据文件以数据文件data.sav为为例例h76指定种子(此处以随机抽样的指定种子(此处以随机抽样的日期为种子)日期为种子)h77步骤步骤2 随机筛选记录(随机筛选记录(Select Cases Randomly)h78随机抽取样本随机抽取样本单击单击Sample按钮按钮h79从前从前10个记录中随机抽取个记录中随机抽取2个记录个记录h80从前从前10个记录中随个记录中随机抽取机抽取2个记录个
17、记录h81随机抽样的结果:随机抽样的结果:抽取了抽取了no为为3、4的两个记录。的两个记录。h82注意:注意:1.随机抽样主要用于现场调查中,从总体中用简随机抽样主要用于现场调查中,从总体中用简单随机的方法随机抽取一个样本。单随机的方法随机抽取一个样本。2.随机抽样的过程中,需要设定种子,以保证随随机抽样的过程中,需要设定种子,以保证随机抽样结果是机抽样结果是可重现可重现的。(一般来说,如果不设的。(一般来说,如果不设定种子,那么第二次抽样很可能与第一次抽样的定种子,那么第二次抽样很可能与第一次抽样的结果不同。)结果不同。)h83小贴士:小贴士:SPSS通过菜单,可以实现大部分的数据管理及通过
18、菜单,可以实现大部分的数据管理及统计分析功能,软件操作简单、易学。在学习统计分析功能,软件操作简单、易学。在学习SPSS时,要养成一个好习惯时,要养成一个好习惯:用语法文件用语法文件(*.sps)保存每一步操作)保存每一步操作(只需要在每个对话(只需要在每个对话框中点击框中点击Paste,就可以将操作粘贴到语法窗口,就可以将操作粘贴到语法窗口,即即Syntax窗口)窗口)。这样做,至少有两个益处:。这样做,至少有两个益处:1.避免重复地操作;避免重复地操作;2.很清楚地记录了统计分析的很清楚地记录了统计分析的过程。过程。h84如果您偷懒,从不保存语法文件如果您偷懒,从不保存语法文件1.您花了一
19、整天的时间进行了复杂的数据整您花了一整天的时间进行了复杂的数据整理及统计分析理及统计分析几天后,老板告诉您:几天后,老板告诉您:数据库需要删除一个记录,您要重新做统数据库需要删除一个记录,您要重新做统计!计!天啊!天啊!为了这一个记录,难道还要为了这一个记录,难道还要再花费一整天重头开始么?!再花费一整天重头开始么?!h85如果您偷懒,从不保存语法文件如果您偷懒,从不保存语法文件2.您花了一整天的时间进行了复杂的数据整您花了一整天的时间进行了复杂的数据整理及统计分析。很幸运,数据很准确,方理及统计分析。很幸运,数据很准确,方法很合适,似乎没有什么遗憾了。法很合适,似乎没有什么遗憾了。N年年后,有人拿着您的统计结果,很崇拜地请后,有人拿着您的统计结果,很崇拜地请教:当初您是怎么算出这个结果的?教:当初您是怎么算出这个结果的?天啊!天啊!我怎么可能记得我怎么可能记得N年前的事年前的事情?!情?!h86如果您养成了这个好习惯如果您养成了这个好习惯:用语法文件(用语法文件(*.sps)保存每一步操作保存每一步操作哈哈!哈哈!只需要几秒钟我就能将统计只需要几秒钟我就能将统计结果重现!结果重现!a piece of cake!