1、医学数据统计处理及医学数据统计处理及SAS软件的应用软件的应用SAS软件简介软件简介wSAS是美国与西欧使用最为广泛的三大著名统计分析是美国与西欧使用最为广泛的三大著名统计分析软件(软件(SAS,SPSS和和SYSTAT)之一,是目前国际上)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。是国际上公认的最权威的统计软件。的标准软件。是国际上公认的最权威的统计软件。w以苛刻严格著称于世的美国以苛刻严格著称于世的美国FDA新药审批程序中新药审批程序中,新药新药试验结果的统计分析规定只能用试验结果的统计分析规定只能用SAS进行
2、进行,其他软件的其他软件的计算结果一律无效计算结果一律无效!哪怕只是简单的均数和标准差也不哪怕只是简单的均数和标准差也不行行!由此可见由此可见SAS的权威地位。的权威地位。w2004年开始中国新药临床试验结果规定应用年开始中国新药临床试验结果规定应用SAS软件软件分析。分析。SAS与与SPSS比较比较w作为统计软件大家族里的作为统计软件大家族里的“傻瓜相机傻瓜相机”,SPSS的功能是最弱的,但易用性排在所有统计的功能是最弱的,但易用性排在所有统计软件之首。软件之首。w不过不过SPSS的易用性也极大的限制了它的功能和的易用性也极大的限制了它的功能和可扩展性。除了可扩展性。除了SPSS本身的菜单提
3、供的功能,本身的菜单提供的功能,用户无法通过编程或者插件来扩展它的功能,用户无法通过编程或者插件来扩展它的功能,而且而且SPSS提供的都只是最基本的常用的方法。提供的都只是最基本的常用的方法。SAS全球专业认证全球专业认证wSAS专业认证是一项拥有极高国际声誉的专业专业认证是一项拥有极高国际声誉的专业认证,在欧美等国的职场上流行的一句话认证,在欧美等国的职场上流行的一句话“IfyouhaveaSAScertification,Youwillneverloseyourjob”。w销售模式:只租不售销售模式:只租不售(每(每5年一个周期)年一个周期)w财富财富500强中强中97%的企业都在使用的企
4、业都在使用SAS商业智商业智能解决方案能解决方案 20032003年年(301(301医院与军事医科院博医院与军事医科院博士生)各统计软件使用情况士生)各统计软件使用情况Pubmed检索检索SCI英文文献各统计软件使用情英文文献各统计软件使用情况况SAS软件功能软件功能进行数据管理进行数据管理l数据输入、建库、保存数据输入、建库、保存 进行统计分析进行统计分析lt t检验检验l方差分析方差分析l卡方检验卡方检验l相关、回归相关、回归l秩和检验秩和检验lSAS的安装的安装wSAS8.12版本是版本是windows操作系统下的操作系统下的32位软件,和其位软件,和其他他windows系统下的软件安
5、装方法类似。用鼠标左键系统下的软件安装方法类似。用鼠标左键双击光盘根目录下的双击光盘根目录下的setup图标,然后按照提示安装。图标,然后按照提示安装。SAS的启动的启动w单击开始菜单单击开始菜单“程序程序”项。项。w桌面上双击此快捷方式也可启动桌面上双击此快捷方式也可启动SAS。执行开始菜单中程序单项执行开始菜单中程序单项【程序】【程序】【TheSASSystem】【TheSASSystemforWindows】SAS退出退出方式方式1 1:选择关闭按钮:选择关闭按钮方式方式2 2:执行菜单命令:执行菜单命令【FileFile】【ExitExit】方式方式3 3:在命令框执行:在命令框执行B
6、YEBYE或或ENDSASENDSAS命令命令SASSAS窗口窗口wPGM窗口(窗口(ProgramEditor):提供编写提供编写SAS程序的文本编辑器程序的文本编辑器wLOG窗口:窗口:显示执行程序过程中的相关信息显示执行程序过程中的相关信息wOUTPUT窗口:窗口:显示程序运行的结果显示程序运行的结果w命令窗口与探索者窗口命令窗口与探索者窗口程序编辑窗口程序编辑窗口日志窗口日志窗口结果输出窗口结果输出窗口探索者窗口探索者窗口命令窗口命令窗口SAS程序的编写程序的编写w一个完整的一个完整的SAS程序一般由数据步(程序一般由数据步(DATA步)步)和过程步(和过程步(PROC步)两部分组成。
7、步)两部分组成。wDATA步以步以DATA语句开始,通过指定数据集名语句开始,通过指定数据集名称、定义变量名及类型和读入数据等建立称、定义变量名及类型和读入数据等建立SAS数数据集。据集。w过程步以过程步以PROC语句开始,通过调用不同的分析语句开始,通过调用不同的分析模块来分析模块来分析SAS数据集。数据集。u其它格式的数据库直接导入转换:其它格式的数据库直接导入转换:excel(.xls);dbase(.dbf);lotus(.wk)等等u将数据读入系统,建立数据集(直将数据读入系统,建立数据集(直接输入接输入Editor窗口)。窗口)。SAS数据集建立数据集建立外部数据导入外部数据导入例
8、:有一批体检数据,包括受检者的姓名、性例:有一批体检数据,包括受检者的姓名、性别、年龄、身高、体重信息。要求按性别分别、年龄、身高、体重信息。要求按性别分别计算身高、体重的描述性统计量:均值、别计算身高、体重的描述性统计量:均值、标准差、最大值、最小值。标准差、最大值、最小值。该数据以该数据以Excel.xls文件形式储存。文件形式储存。文件名称:文件名称:tijiandata.xlsImportData库标记库标记导入的导入的SAS数据数据库文件名库文件名探索者窗口探索者窗口在在Editor程序编辑窗口输入源程序程序编辑窗口输入源程序数据步:将数据读入系统,建立数据集数据步:将数据读入系统,
9、建立数据集:DATA语句开始语句开始,后面加上数据库的名字。后面加上数据库的名字。INPUT语句描述数据变量语句描述数据变量,用用$表示变量是字符型表示变量是字符型CARDS语句指示后面是数据语句指示后面是数据,每行为一个观测数据,每行为一个观测数据,数据间无分号。数据间无分号。数据最后以数据最后以“;”开头的空行结束开头的空行结束。每个语句都以每个语句都以“;”结束。结束。SAS程序数据步格式程序数据步格式Data;Input$.;Cards;.;数据步数据步过程步过程步SAS过程步过程步w对数据集中数据进行分析、处理。对数据集中数据进行分析、处理。w以以PROCPROC语句开始,调用语句开
10、始,调用SASSAS过程。过程。w每个语句都以每个语句都以“;”结束。结束。w整个程序最后要有整个程序最后要有RUNRUN语句。语句。过程步过程步SAS程序的书写格式程序的书写格式w不分大小写不分大小写w单个名称中不能空格,不同名称间必须空格单个名称中不能空格,不同名称间必须空格w一行可写多条语句,用分号分割一行可写多条语句,用分号分割w一条语句可写多行一条语句可写多行w数据行后不加分号,数据最后单独加分号行数据行后不加分号,数据最后单独加分号行w程序用程序用“RUN;”语句结束语句结束运行运行SAS程序程序方式一:鼠标点击执行按钮方式一:鼠标点击执行按钮方式二:按功能键方式二:按功能键“F8
11、”方式三:执行菜单命令方式三:执行菜单命令RunSubmit方式四:在命令框输入方式四:在命令框输入SUBMIT命令并命令并执行执行SAS程序实例程序实例例子例子某学生上学期某学生上学期8门课程的分数分别为门课程的分数分别为88,90,87,76,92,78,80,86。试用。试用SAS编程求其平均分数。编程求其平均分数。(1)在在PGM窗口键入下列程序窗口键入下列程序datafenshu;inputchengji;cards;8890877692788086;procmeans;varchengji;run;过程步过程步数据步数据步查看结果查看结果(output窗口)窗口)AnalysisV
12、ariable:chengjiNMeanStdDevMinimumMaximum-884.62500005.878228676.000000092.0000000-从结果看出,该学生上学期从结果看出,该学生上学期8门课程的平均成绩为门课程的平均成绩为84.625。查看运行过程及出错信息查看运行过程及出错信息l激活激活LOG窗口窗口(F6)l黑色文字黑色文字:源程序及运行情况:源程序及运行情况l蓝色文字蓝色文字:程序运行情况的说明信息:程序运行情况的说明信息l红色文字红色文字:出错信息:出错信息l绿色文字绿色文字:警告信息:警告信息保存保存SAS程序程序及其他窗口内容及其他窗口内容l激活相应窗口
13、,然后选择:激活相应窗口,然后选择:方式一:鼠标点击方式一:鼠标点击“存盘存盘”工具按钮工具按钮方式二:执行菜单命令方式二:执行菜单命令【File】【Save】/【Saveas】l可保存程序、数据文件、运行结果、日志等。可保存程序、数据文件、运行结果、日志等。lSAS保存成纯文本格式文件(保存成纯文本格式文件(.txt)。保存的文件的名保存的文件的名在在SAS系统内打开已保存的文件系统内打开已保存的文件w只能在只能在ProgramEdit窗口打开文件,选择:窗口打开文件,选择:w方式一:鼠标点击方式一:鼠标点击“打开打开”工具按钮工具按钮w方式二:执行菜单命令方式二:执行菜单命令【File】【
14、Open】w可打开以前保存的程序、数据文件、运行结可打开以前保存的程序、数据文件、运行结果、日志等文件及其他文本格式的文件。果、日志等文件及其他文本格式的文件。SAS程序主要关键词程序主要关键词means;(n,mean,std,Q1,Q3,CV,median,clm)univariatenormal;(正态性检验,均数是否为正态性检验,均数是否为0的的假设检验:参数与非参数检验)假设检验:参数与非参数检验)ttest;(两个样本均数比较的两个样本均数比较的t检验)检验)anova;(各样本含量相等的方差分析)各样本含量相等的方差分析)glm;(各样本含量不等的方差分析)各样本含量不等的方差分
15、析)npar1way;(非参数检验)非参数检验)reg;(线性回归方程:单元或多元)线性回归方程:单元或多元)corr;(线性相关:线性相关或秩相关)线性相关:线性相关或秩相关)freq;(卡方、卡方、Fisher检验)检验)logistic;(非线性回归)非线性回归)lifetest;(生存分析)生存分析)proc定量资料的描定量资料的描述性分析述性分析分析结果分析结果定量资料的正定量资料的正态性检验态性检验正态性检验结果正态性检验结果配对设计的配对设计的t-test 为了比较两种方法对为了比较两种方法对乳酸饮料中脂肪的含乳酸饮料中脂肪的含量测定结果是否不同,量测定结果是否不同,随机抽取了随
16、机抽取了1010份乳酸份乳酸饮料制品,分别采用饮料制品,分别采用哥特里哥特里-罗紫法和脂罗紫法和脂肪酸水解法测定其结肪酸水解法测定其结果,问两种方法检测果,问两种方法检测结果是否不同?结果是否不同?编号编号哥特里哥特里-罗罗紫法紫法脂肪酸水脂肪酸水解法解法1 10.840 0.840 0.580 0.580 2 20.591 0.591 0.509 0.509 3 30.674 0.674 0.500 0.500 4 40.632 0.632 0.316 0.316 5 50.687 0.687 0.337 0.337 6 60.978 0.978 0.517 0.517 7 70.750 0
17、.750 0.454 0.454 8 80.730 0.730 0.512 0.512 9 91.200 1.200 0.997 0.997 10100.870 0.870 0.506 0.506 成组设计资料的成组设计资料的t-test国产药国产药进口药进口药-5-5-17-1764644848636347477777606074745858-2-2-14-14898972727777484863636161707054543636222282826666-14-14采用国产药物和进采用国产药物和进口药物治疗绝经后口药物治疗绝经后妇女骨质疏松症,妇女骨质疏松症,试比较两种药物的试比较两种药物
18、的疗效是否有差别疗效是否有差别完全随机设计资料的方差分析(完全随机设计资料的方差分析(教科书教科书73页)页)安慰剂组安慰剂组2.4g2.4g组组4.8g4.8g组组7.2g7.2g组组3.53 3.53 2.42 2.42 2.86 2.86 0.89 0.89 4.59 4.59 3.36 3.36 2.28 2.28 1.06 1.06 4.34 4.34 4.32 4.32 2.39 2.39 1.08 1.08 2.66 2.66 2.34 2.34 2.28 2.28 1.27 1.27 3.59 3.59 2.68 2.68 2.48 2.48 1.63 1.63 3.13 3.
19、13 2.95 2.95 2.28 2.28 1.89 1.89 4.04 4.04 2.63 2.63 2.32 2.32 1.74 1.74 3.53 3.53 2.86 2.86 2.61 2.61 2.16 2.16 3.65 3.65 2.93 2.93 3.64 3.64 3.37 3.37 3.85 3.85 2.17 2.17 2.58 2.58 2.97 2.97 4.07 4.07 2.72 2.72 3.65 3.65 1.69 1.69 3.93 3.93 2.22 2.22 3.68 3.68 2.11 2.11 4.19 4.19 2.90 2.90 2.65 2.
20、65 2.81 2.81 2.96 2.96 2.97 2.97 3.02 3.02 2.52 2.52 方差齐性检验方差齐性检验四格表资料的四格表资料的2-test组别有效无效合计有效率胞磷胆碱4665288.5%神经节苷脂1882669.2%合计64147882.1%某医师欲比较胞某医师欲比较胞磷胆碱与神经节磷胆碱与神经节苷脂治疗脑血管苷脂治疗脑血管疾病的疗效,将疾病的疗效,将78例脑血管疾病例脑血管疾病患者随机分为两患者随机分为两组,试比较两种组,试比较两种药物的疗效药物的疗效配对四格表资料的配对四格表资料的2 2-test-test配对设计的配对设计的卡方检验卡方检验非参数检验非参数检
21、验(配对)(配对)非参数检验非参数检验9D9D11C11CDSCDSC2 25 53 32 25 55 52 26 66 63 36 66 64 46 66 64 47 77 74 48 87 75 510109 97 7121210107 711111111比较小白鼠接种三比较小白鼠接种三种不同菌型伤寒杆种不同菌型伤寒杆菌菌9D、11C、DSC1后存活的日数。后存活的日数。直线相关与回归直线相关与回归年龄年龄尿肌酐含量尿肌酐含量13133.543.5411113.013.019 93.093.096 62.482.488 82.562.5610103.363.3612123.183.187 72.652.65某地方病研究所某地方病研究所调查了调查了8名正常名正常儿童的尿肌酐含儿童的尿肌酐含量,试估计尿肌量,试估计尿肌酐含量对其年龄酐含量对其年龄的回归方程。的回归方程。回归回归相关相关