1、医学数据统计处理及医学数据统计处理及SAS软件的应用软件的应用 主讲人:主讲人:董光辉董光辉 副教授副教授 中国医科大学卫生统计教研室 医学数据统计处理及S A S 软件的应用 主讲人:董光辉 副教授SAS软件简介软件简介?SAS是美国与西欧使用最为广泛的三大著名统计分析是美国与西欧使用最为广泛的三大著名统计分析软件(软件(SAS,SPSS和和SYSTAT)之一,是目前国际上)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。是国际上公认的最权威的统计软件。的标准软件。是国际上公认的最权威的统计软件。?以苛刻严格著称于世的
2、美国以苛刻严格著称于世的美国FDA新药审批程序中新药审批程序中,新药新药试验结果的统计分析规定只能用试验结果的统计分析规定只能用SAS进行进行,其他软件的其他软件的计算结果一律无效计算结果一律无效!哪怕只是简单的均数和标准差也不哪怕只是简单的均数和标准差也不行行!由此可见由此可见SAS的权威地位。的权威地位。2004年开始中国新药临床试验结果规定应用年开始中国新药临床试验结果规定应用SAS软件软件分析。分析。?S A S 软件简介?S A S 是美国与西欧使用最为广泛的三大著名SAS与与SPSS比较比较?作为统计软件大家族里的作为统计软件大家族里的“傻瓜相机傻瓜相机”,SPSS的功能是最弱的,
3、但易用性排在所有统计的功能是最弱的,但易用性排在所有统计软件之首。软件之首。?不过不过SPSS的易用性也极大的限制了它的功能和的易用性也极大的限制了它的功能和可扩展性。除了可扩展性。除了SPSS本身的菜单提供的功能,本身的菜单提供的功能,用户无法通过编程或者插件来扩展它的功能,用户无法通过编程或者插件来扩展它的功能,而且而且SPSS提供的都只是最基本的常用的方法。提供的都只是最基本的常用的方法。S A S 与S P S S 比较?作为统计软件大家族里的“傻瓜相机”SAS全球专业认证全球专业认证 SAS专业认证是一项拥有极高国际声誉的专业专业认证是一项拥有极高国际声誉的专业认证,在欧美等国的职场
4、上流行的一句话认证,在欧美等国的职场上流行的一句话“If you have a SAS certification,You will never lose your job”。?销售模式:只租不售销售模式:只租不售(每(每5年一个周期)年一个周期)?财富财富500强中强中97%的企业都在使用的企业都在使用SAS商业智商业智能解决方案能解决方案?S A S 全球专业认证 S A S 专业认证是一项拥有极高国际声誉的专 20032003年年(301(301医院与军事医科院博医院与军事医科院博士生)各统计软件使用情况士生)各统计软件使用情况 STATASTATA12%12%其它其它7%7%SASSA
5、S44%44%SPSSSPSS37%37%2 0 0 3 年(3 0 1 医院与军事医科院博士生)各统计软件使用情况Pubmed检索检索SCI英文文献各统计软件使用情况英文文献各统计软件使用情况 STATASTATA4%4%1%1%SYSTATSYSTATSPSSSPSS42%42%53%53%SASSASP u b me d 检索S C I 英文文献各统计软件使用情况 S T A T ASAS软件功能软件功能 进行数据管理进行数据管理?数据输入、建库、保存数据输入、建库、保存 进行统计分析进行统计分析?t t检验检验?方差分析方差分析?卡方检验卡方检验?相关、回归相关、回归?秩和检验秩和检验
6、?S A S 软件功能 进行数据管理?数据输入、建库、保存 SAS的安装的安装?SAS8.12版本是版本是windows操作系统下的操作系统下的32位软件,和其位软件,和其他他windows系统下的软件安装方法类似。用鼠标左键系统下的软件安装方法类似。用鼠标左键双击光盘根目录下的双击光盘根目录下的setup图标,然后按照提示安装。图标,然后按照提示安装。S A S 的安装?S A S 8.1 2 版本是w i n d o w s 操作系统SAS的启动的启动?单击开始菜单单击开始菜单“程序程序”项。项。桌面上双击此快捷方式也可启动桌面上双击此快捷方式也可启动SAS。?S A S 的启动?单击开始
7、菜单“程序”项。桌面上双击此快捷执行开始菜单中程序单项执行开始菜单中程序单项【程序】【程序】【The SAS System】【】【The SAS System for Windows】执行开始菜单中程序单项【程序】【T h e S A S S y sSAS退出退出 方式方式1 1:选择关闭按钮:选择关闭按钮 方式方式2 2:执行菜单命令【:执行菜单命令【FileFile】【ExitExit】方式方式3 3:在命令框执行:在命令框执行BYEBYE或或ENDSASENDSAS命令命令 S A S 退出 方式1:选择关闭按钮 方式2:执行菜单命令【FSASSAS窗口窗口 PGM窗口(窗口(Progr
8、am Editor):提供编写提供编写SAS程序的文本编辑器程序的文本编辑器?LOG窗口:窗口:显示执行程序过程中的相关信息显示执行程序过程中的相关信息?OUTPUT窗口:窗口:显示程序运行的结果显示程序运行的结果?命令窗口与探索者窗口命令窗口与探索者窗口?S A S 窗口 P G M窗口(P r o g r a m E d i t o r):命令窗口命令窗口 程序编辑窗口程序编辑窗口 探索者窗口探索者窗口 日志窗口日志窗口 结果输出窗口结果输出窗口 命令窗口 程序编辑窗口 探索者窗口 日志窗口 结果输出窗医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精
9、课件医学数据统计处理及S A S 软件的应用精课件SAS程序的编写程序的编写?一个完整的一个完整的SAS程序一般由数据步(程序一般由数据步(DATA步)步)和过程步(和过程步(PROC步)两部分组成。步)两部分组成。DATA步以步以DATA语句开始,通过指定数据集名语句开始,通过指定数据集名称、定义变量名及类型和读入数据等建立称、定义变量名及类型和读入数据等建立SAS数数据集。据集。过程步以过程步以PROC语句开始,通过调用不同的分析语句开始,通过调用不同的分析模块来分析模块来分析SAS数据集。数据集。?S A S 程序的编写?一个完整的S A S 程序一般由数据步(D ASAS数据集建立数据
10、集建立?其它格式的数据库直接导入转换:其它格式的数据库直接导入转换:excel(.xls);dbase(.dbf);lotus(.wk)等等?将数据读入系统,建立数据集(直将数据读入系统,建立数据集(直接输入接输入Editor窗口)。窗口)。S A S 数据集建立?其它格式的数据库直接导入转换:外部数据导入外部数据导入 例:有一批体检数据,包括受检者的姓名、性例:有一批体检数据,包括受检者的姓名、性别、年龄、身高、体重信息。要求按性别分别、年龄、身高、体重信息。要求按性别分别计算身高、体重的描述性统计量:均值、别计算身高、体重的描述性统计量:均值、标准差、最大值、最小值。标准差、最大值、最小值
11、。该数据以该数据以Excel.xls文件形式储存。文件形式储存。文件名称:文件名称:tijiandata.xls 外部数据导入 例:有一批体检数据,包括受检者的姓名、性别、年医学数据统计处理及S A S 软件的应用精课件 Import Data I mp o r t D a t a 医学数据统计处理及S A S 软件的应用精课件 医学数据统计处理及S A S 软件的应用精课件 导入的导入的SAS 数据数据库标记库标记 库文件名库文件名 导入的S A S 数据库标记 库文件名 医学数据统计处理及S A S 软件的应用精课件探索者窗口探索者窗口 探索者窗口 医学数据统计处理及S A S 软件的应用
12、精课件医学数据统计处理及S A S 软件的应用精课件在在Editor 程序编辑窗口输入源程序程序编辑窗口输入源程序 数据步:将数据读入系统,建立数据集数据步:将数据读入系统,建立数据集:DATA语句开始语句开始,后面加上数据库的名字。后面加上数据库的名字。INPUT语句描述数据变量语句描述数据变量,用用$表示变量是字符型表示变量是字符型 CARDS语句指示后面是数据语句指示后面是数据,每行为一个观测数据,每行为一个观测数据,数据间无分号。数据间无分号。数据最后以数据最后以“;”开头的空行结束开头的空行结束。每个语句都以每个语句都以“;”结束。结束。在E d i t o r 程序编辑窗口输入源程
13、序 数据步:将数据读入系SAS程序数据步格式程序数据步格式 Data ;Input$.;Cards;.;S A S 程序数据步格式 D a t a ;I n p u数数据据 步步 过程步过程步 数据 步 过程步 SAS过程步过程步?对数据集中数据进行分析、处理。对数据集中数据进行分析、处理。?以以PROCPROC语句开始,调用语句开始,调用SASSAS过程。过程。?每个语句都以每个语句都以“;”结束。结束。?整个程序最后要有整个程序最后要有RUNRUN语句。语句。S A S 过程步?对数据集中数据进行分析、处理。?以P R O C过程步过程步 过程步 SAS程序的书写格式程序的书写格式?不分大
14、小写不分大小写 单个名称中不能空格,不同名称间必须空格单个名称中不能空格,不同名称间必须空格 一行可写多条语句,用分号分割一行可写多条语句,用分号分割 一条语句可写多行一条语句可写多行 数据行后不加分号,数据最后单独加分号行数据行后不加分号,数据最后单独加分号行 程序用程序用“RUN;”语句结束语句结束 S A S 程序的书写格式?不分大小写 单个名称中不能运行运行SAS程序程序?方式一:鼠标点击执行按钮方式一:鼠标点击执行按钮?方式二:按功能键方式二:按功能键“F8”?方式三:执行菜单命令方式三:执行菜单命令 RunSubmit?方式四:在命令框输入方式四:在命令框输入SUBMIT 命令并命
15、令并执行执行 运行S A S 程序?方式一:鼠标点击执行按钮?方式二:按功医学数据统计处理及S A S 软件的应用精课件SAS程序实例程序实例 例子例子 某学生上学期某学生上学期8门课程的分数分别为门课程的分数分别为88,90,87,76,92,78,80,86。试用。试用SAS编程求其平均分数。编程求其平均分数。(1)在在PGM窗口键入下列程序窗口键入下列程序 data fenshu;input chengji;cards;数据步数据步 88 90 87 76 92 78 80 86;proc means;var chengji;run;过程步过程步 S A S 程序实例 例子 某学生上学期
16、8 门课程的分数查看结果查看结果(output 窗口)窗口)Analysis Variable:chengji N Mean Std Dev Minimum Maximum -8 84.6250000 5.8782286 76.0000000 92.0000000 -从结果看出,该学生上学期从结果看出,该学生上学期8门课程的平均成绩为门课程的平均成绩为84.625。查看结果(o u t p u t 窗口)A n a l y s i s V a r i查看运行过程及出错信息查看运行过程及出错信息?激活激活LOG窗口窗口(F6)?黑色文字黑色文字:源程序及运行情况:源程序及运行情况?蓝色文字蓝色文
17、字:程序运行情况的说明信息:程序运行情况的说明信息?红色文字红色文字:出错信息:出错信息?绿色文字绿色文字:警告信息:警告信息 查看运行过程及出错信息?激活L O G 窗口(F 6 )?黑医学数据统计处理及S A S 软件的应用精课件保存保存SAS程序程序及其他窗口内容及其他窗口内容?激活相应窗口,然后选择:激活相应窗口,然后选择:方式一:鼠标点击方式一:鼠标点击“存盘存盘”工具按钮工具按钮 方式二:执行菜单命令【方式二:执行菜单命令【File】【Save】/【Save as】?可保存程序、数据文件、运行结果、日志等。可保存程序、数据文件、运行结果、日志等。SAS保存成纯文本格式文件(保存成纯
18、文本格式文件(.txt)。保存S A S 程序及其他窗口内容?激活相应窗口,然后选择:保存的文件的名保存的文件的名 保存的文件的名 在在SAS系统内打开已保存的文件系统内打开已保存的文件 只能在只能在Program Edit窗口打开文件,选择:窗口打开文件,选择:?方式一:鼠标点击方式一:鼠标点击“打开打开”工具按钮工具按钮?方式二:执行菜单命令【方式二:执行菜单命令【File】【Open】?可打开以前保存的程序、数据文件、运行结可打开以前保存的程序、数据文件、运行结果、日志等文件及其他文本格式的文件。果、日志等文件及其他文本格式的文件。在S A S 系统内打开已保存的文件 只能在P r o
19、g r a m E d iSAS程序主要关键词程序主要关键词 means;(n,mean,std,Q1,Q3,CV,median,clm)univariate normal;(正态性检验,均数是否为正态性检验,均数是否为0的的 假设检验:参数与非参数检验)假设检验:参数与非参数检验)ttest;(两个样本均数比较的两个样本均数比较的t检验)检验)anova;(各样本含量相等的方差分析)各样本含量相等的方差分析)?proc glm;(各样本含量不等的方差分析)各样本含量不等的方差分析)npar1way;(非参数检验)非参数检验)reg;(线性回归方程:单元或多元)线性回归方程:单元或多元)cor
20、r;(线性相关:线性相关或秩相关)线性相关:线性相关或秩相关)freq;(卡方、卡方、Fisher检验)检验)logistic;(非线性回归)非线性回归)lifetest;(生存分析)生存分析)S A S 程序主要关键词 定量资料的描定量资料的描述性分析述性分析 定量资料的描述性分析 分析结果分析结果 分析结果 定量资料的正定量资料的正态性检验态性检验 定量资料的正态性检验 正态性检验结果正态性检验结果 正态性检验结果 配对设计的配对设计的t-test 为了比较两种方法对为了比较两种方法对乳酸饮料中脂肪的含乳酸饮料中脂肪的含量测定结果是否不同,量测定结果是否不同,随机抽取了随机抽取了1010份
21、乳酸份乳酸饮料制品,分别采用饮料制品,分别采用哥特里哥特里-罗紫法和脂罗紫法和脂肪酸水解法测定其结肪酸水解法测定其结果,问两种方法检测果,问两种方法检测结果是否不同?结果是否不同?编号编号 1 1 2 2 哥特里哥特里-罗罗紫法紫法 脂肪酸水脂肪酸水解法解法 0.580 0.580 0.509 0.509 0.840 0.840 0.591 0.591 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1010 0.674 0.674 0.632 0.632 0.687 0.687 0.978 0.978 0.750 0.750 0.730 0.730 1.200 1.200 0.870
22、 0.870 0.500 0.500 0.316 0.316 0.337 0.337 0.517 0.517 0.454 0.454 0.512 0.512 0.997 0.997 0.506 0.506 配对设计的t-t e s t 为了比较两种方法对乳酸饮料中脂医学数据统计处理及S A S 软件的应用精课件 成组设计资料的成组设计资料的t-test?采用国产药物和进采用国产药物和进国产药国产药-5-5 6464 6363 7777 7474-2-2 8989 7777 进口药进口药-17-17 4848 4747 6060 5858-14-14 7272 4848 口药物治疗绝经后口药物治
23、疗绝经后妇女骨质疏松症,妇女骨质疏松症,试比较两种药物的试比较两种药物的6363 7070 3636 6161 5454 2222 疗效是否有差别疗效是否有差别 8282-14-14 6666 成组设计资料的t-t e s t?采用国产药物和进国产药-5医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件完全随机设计资料的方差分析(教科书完全随机设计资料的方差分析(教科书73页)页)安慰剂组安慰剂组 3.53 3.53 4.59 4.59 4.34 4.34 2.66 2.66 2.4g2.4g组组 2.42 2.42 3.36 3.36 4.32 4.
24、32 2.34 2.34 4.8g4.8g组组 2.86 2.86 2.28 2.28 2.39 2.39 2.28 2.28 7.2g7.2g组组 0.89 0.89 1.06 1.06 1.08 1.08 1.27 1.27 3.59 3.59 3.13 3.13 4.04 4.04 2.68 2.68 2.95 2.95 2.63 2.63 2.48 2.48 2.28 2.28 2.32 2.32 1.63 1.63 1.89 1.89 1.74 1.74 3.53 3.53 3.65 3.65 3.85 3.85 4.07 4.07 3.93 3.93 4.19 4.19 2.96
25、2.96 2.86 2.86 2.93 2.93 2.17 2.17 2.72 2.72 2.22 2.22 2.90 2.90 2.97 2.97 2.61 2.61 3.64 3.64 2.58 2.58 3.65 3.65 3.68 3.68 2.65 2.65 3.02 3.02 2.16 2.16 3.37 3.37 2.97 2.97 1.69 1.69 2.11 2.11 2.81 2.81 2.52 2.52 完全随机设计资料的方差分析(教科书7 3 页)安慰剂组 3.医学数据统计处理及S A S 软件的应用精课件方差齐性检验方差齐性检验 方差齐性检验 医学数据统计处理及S A
26、 S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件2 四格表资料的四格表资料的-test 某医师欲比较胞某医师欲比较胞磷胆碱与神经节磷胆碱与神经节组别 胞磷胆碱 神经节苷脂 合计 有效有效 无效 合计 率 46 18 64 6 8 14 52 26 78 88.5%69.2%82.1%苷脂治疗脑血管苷脂治疗脑血管疾病的疗效,将疾病的疗效,将78例脑血管疾病例脑血管疾病患者随机分为两患者随机分为两
27、组,试比较两种组,试比较两种药物的疗效药物的疗效 2 四格表资料的-t e s t 某医师欲比较胞磷胆碱与神医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件2 2配对四格表资料的配对四格表资料的-test-test 配对设计的配对设计的卡方检验卡方检验 2 配对四格表资料的-t e s t 配对设计的卡方检验 医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件非参数检验非参数检验(配对)(配对)非参数检验(配对)医学数
28、据统计处理及S A S 软件的应用精课件 非参数检验非参数检验 比较小白鼠接种三比较小白鼠接种三种不同菌型伤寒杆种不同菌型伤寒杆菌菌9D、11C、DSC1后存活的日数。后存活的日数。9D9D 11C11C DSCDSC 2 2 2 2 2 2 3 3 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 6 7 7 8 8 3 3 5 5 6 6 6 6 6 6 7 7 7 7 5 5 7 7 1010 1212 9 9 1010 7 7 1111 1111 非参数检验 比较小白鼠接种三种不同菌型伤寒杆菌9 D医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软
29、件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件直线相关与回归直线相关与回归 年龄年龄 1313 1111 9 9 6 6 8 8 1010 1212 7 7 尿肌酐含量尿肌酐含量 3.543.54 3.013.01 3.093.09 2.482.48 2.562.56 3.363.36 3.183.18 2.652.65?某地方病研究所某地方病研究所调查了调查了8名正常名正常儿童的尿肌酐含儿童的尿肌酐含量,试估计尿肌量,试估计尿肌酐含量对其年龄酐含量对其年龄的回归方程。的回归方程。直线相关与回归 年龄 1 3 1 1 9 6 8 1 0 1 2 7?回归回归?相关相关?回归?相关 医学数据统计处理及S A S 软件的应用精课件医学数据统计处理及S A S 软件的应用精课件