1、SAS软件介绍软件介绍.一、概述lSASSAS系统全称为系统全称为Statistics Analysis Statistics Analysis SystemSystem,最早由北卡罗来纳大学的两位生,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于物统计学研究生编制,并于19761976年成立了年成立了SASSAS软件研究所,正式推出了软件研究所,正式推出了SASSAS软件。软件。SASSAS是用于决策支持的大型集成信息系统,是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成至今,统计分析功能也仍
2、是它的重要组成部分和核心功能。部分和核心功能。.lSASSAS系统是一个组合软件系统,它由多个功能系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是模块组合而成,其基本部分是BASE SASBASE SAS模块。模块。BASE SASBASE SAS模块是模块是SASSAS系统的核心,承担着主要系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他行用户语言的处理,调用其他SASSAS模块和产品。模块和产品。.l启动SAS二、初识二、初识SAS.l启动后,出现如图启动后,出现如图 的的SASSAS运行界面,它象其
3、运行界面,它象其它它WindowsWindows应用程序一样,在一个主窗口内,应用程序一样,在一个主窗口内,包含若干个子窗口,并有菜单条、工具栏、包含若干个子窗口,并有菜单条、工具栏、状态栏等。状态栏等。lSASSAS有三个最重要的子窗口:程序窗口有三个最重要的子窗口:程序窗口(PROGRAM EDITORPROGRAM EDITOR)、运行记录窗口()、运行记录窗口(LOGLOG)、)、输出窗口(输出窗口(OUTPUTOUTPUT)。)。.lProgram EditorProgram Editor的窗口(窗口标签为的窗口(窗口标签为EditorEditor)就是用来输入就是用来输入SASSA
4、S语句的,编程操作的所有内语句的,编程操作的所有内容都是在该窗口内完成的。容都是在该窗口内完成的。l要运行程序,只要用鼠标单击工具栏的提交要运行程序,只要用鼠标单击工具栏的提交(SubmitSubmit)图标)图标 ,或用,或用RunRun菜单下的菜单下的SubmitSubmit命令,或者直接按下命令,或者直接按下F8F8键,就可运行程序。键,就可运行程序。如果选中某一段程序,然后进行调用,则系如果选中某一段程序,然后进行调用,则系统只执行被选中的部分。统只执行被选中的部分。.Editor窗口.Log窗口.l运行记录窗口则记录每段程序的运行情运行记录窗口则记录每段程序的运行情况、所用时间、生成
5、数据保存情况。如况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。果有错误还会用红色指示错误。.Log窗口出错原因:数据行末尾加了分号.三、三、SAS程序的基本结构程序的基本结构SAS程序由语句组成,语句用程序由语句组成,语句用分号分号结束。结束。语句一般由特定的关键词开始,语句中可包语句一般由特定的关键词开始,语句中可包含变量名、运算符等,它们以空格分隔。含变量名、运算符等,它们以空格分隔。SAS对语句所占的行数无限制,一个语句可对语句所占的行数无限制,一个语句可占多行,同样,多个语句也可占一行。占多行,同样,多个语句也可占一行。.lSASSAS中的变量及数据集名称由英文字母、数
6、字、中的变量及数据集名称由英文字母、数字、下划线组成,第一个字符必须是下划线组成,第一个字符必须是字母或下划线字母或下划线,名字最多用名字最多用8 8个字符,大写字母和小写字母不个字符,大写字母和小写字母不区分。区分。l比如,比如,namename,abcabc,aBCaBC,x1x1,year12year12,_NULL_NULL_等是合法的名字,且等是合法的名字,且abcabc和和aBCaBC是同一个名字,是同一个名字,而而class-1class-1(不能有减号)、(不能有减号)、a bita bit(不能有空(不能有空格)、格)、serial#serial#(不能有特殊字符)、(不能有
7、特殊字符)、Documents Documents(超长)等不是合法的名字。(超长)等不是合法的名字。四、四、SAS中的命名中的命名.程序步分为两种,一种叫数据步(程序步分为两种,一种叫数据步(data step),一种叫过程步(),一种叫过程步(proc step),分别),分别以以DATA语句和语句和PROC语句语句开始。开始。数据步和过程步由若干个语句组成,一数据步和过程步由若干个语句组成,一般以般以RUN语句语句结束。前者用来创建和修改用结束。前者用来创建和修改用于统计分析的数据集,后者则利用已创建的于统计分析的数据集,后者则利用已创建的数据集完成特定的统计分析任务。比如下面数据集完成
8、特定的统计分析任务。比如下面的例子:的例子:五、五、SAS中的程序步中的程序步.data aaaa;data aaaa;建立数据集,数据集名称为建立数据集,数据集名称为aaaaaaaa input x;input x;数据集中有一个变量数据集中有一个变量x x cards;cards;提示以下录入的为数据提示以下录入的为数据 1 12 23 34 45 5 注意数据行末尾不要加分号注意数据行末尾不要加分号;proc print;“proc print;“输出输出”过程过程 var x;var x;要求输出变量要求输出变量x xrun;run;程序结束要加上程序结束要加上runrun语句才能运行
9、语句才能运行.数据步均以数据步均以DATADATA语句开始,用于创建和处理数语句开始,用于创建和处理数据集。数据步中常用的语句如下表:据集。数据步中常用的语句如下表:表表2 2数据步的常用语句数据步的常用语句 语句格式功能DATA语句DATA数据集名;数据步的开始,同时命名将要创建的数据集INPUT语句 INPUT变量名;确定变量的读入格式,即确定输入的数据所对应的变量六、数据步基本结构六、数据步基本结构.下面是几个例子下面是几个例子:uData语句:语句:Data abc;uINPUT语句语句:Input x y z;/*输入变量输入变量x,y,z*/Input x1-x10;/*输入输入1
10、0个变量个变量x1到到x10*/Input x$y;/*输入变量输入变量x,y,符号符号$指指明明x为字符变量,为字符变量,表示数据是连续读入表示数据是连续读入*/.七、七、SAS程序的过程步程序的过程步 l通俗地说,通俗地说,SAS程序的过程步就是用于程序的过程步就是用于实现各种统计分析功能的实现各种统计分析功能的SAS命令,我命令,我们只需要按照其格式调用它们。过程步们只需要按照其格式调用它们。过程步总是以一个总是以一个proc语句开始,后面紧跟着语句开始,后面紧跟着过程步名。过程步名。l如如 proc print;/*打印输出过程打印输出过程*/.八、数据集的引用l如有一数据集已建立好,
11、下次要使用时可以使用set语句来引用,如:data def;set abc;将abc数据集内容复制到def数据集中。run;.九、从excel导入数据将预先录入在excel中的数据集导入到sas中:File-import data-选择microsoft excel97 or 2000(*.xls).next下一步:浏览确认excel数据集的位置.在临时数据集work中为导入的数据集起名,例如abc.完成后按finish.Log窗口会有提示导入成功.导入数据集的注意事项l被引用的Excel数据集此时必须保证关闭状态才能被引用,否则会出错。l被引用的Excel数据集内尽量使用英文的变量名,否则容
12、易出错。.计量资料的统计描述Univariate、Means过程.理论回顾l计量资料的统计描述计量资料的统计描述(频数表,直方(条)图,统计指标)(频数表,直方(条)图,统计指标)正态分布资料正态分布资料偏峰分布资料偏峰分布资料 M(P25P75)sX.某地某地120名名18岁岁35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(mol/L)实例分析实例分析变量类型?变量类型?资料分布?资料分布?定量变量定量变量1.根据专业知识根据专业知识2.绘制直方图或频数表绘制直方图或频数表3.统计学检验(正态性)统计学检验(正态性).data t;input x;*是行保持标记符;是行保持标记符;c
13、ards;7.428.6523.02 21.6124.66 14.18 16.52;Run;SAS程序:建立数据集.SAS程序:计算统计指标,绘计算统计指标,绘制直方图制直方图proc univariate data=t;*调用调用univariate过程过程;var x;*对变量对变量x进行分析;进行分析;HISTOGRAM x/MIDPOINTS=7 TO 29 BY 2;*绘制直方图;绘制直方图;run;.运行结果(graph窗口).均数均数标准差标准差方差方差变异系数变异系数中位数中位数极差极差四分位数间距四分位数间距未校正平方和未校正平方和校正平方和校正平方和偏度系数偏度系数峰度系数
14、峰度系数运行结果(output窗口).运行结果(output窗口).Means过程Proc means mean std min max;Var x;Run;可限定输出常用的指标.定性资料的统计描述FREQ过程.现有一份预防医学专业61名学生的个人资料,包括年级(grade)、性别(sex)和个人是否拥有电脑(pc)等等信息,试用一维表描述性别比例,用二维表描述不同性别学生拥有个人电脑的情况。.SAS程序:proc freq;tables sex;/*一维表*/run;proc freq;tables sex*pc;/*二维表*/run;.置信区间Tinv函数以及赋值语句.总体均数的可信区间总
15、体均数的可信区间t t 分布法分布法 SASSAS函数:函数:TINVTINV t=TINV(p,df)t=TINV(p,df)可求可求t t分位数的函数,分位数的函数,p p是是从从-到当前到当前t t分位数位置的面积。分位数位置的面积。df=n-1df=n-1(自由度)(自由度)当当p0.5p0.5p0.5,求出来的,求出来的t t为正数。为正数。t0-p.例:随机抽取例:随机抽取15名学生,记录他们的性别名学生,记录他们的性别(sex)、年龄()、年龄(age)、体重()、体重(w)和身高()和身高(h),),求:学生身高的求:学生身高的95%置信区间。置信区间。f 15 46 156
16、f 14 41 149 f 18 65 165m 15 50 160 m 13 48 155 m 18 70 180m 14 38 150 m 16 55 165 m 17 68 176m 16 60 170 f 17 50 160 f 17 58 160f 16 60 165 m 17 65 175 f 18 61 162.data a;input sex$age w h;cards;f 15 46 156 f 14 41 149 f 18 65 165m 15 50 160 m 13 48 155 m 18 70 180m 14 38 150 m 16 55 165 m 17 68 176
17、m 16 60 170 f 17 50 160 f 17 58 160F 16 60 165 m 17 65 175 f 18 61 162;.proc means;var h;Output out=b mean=mean std=s n=n;/*把均数把均数,标准差标准差,样本含量存放在数据集样本含量存放在数据集b中,方便下面写中,方便下面写赋值语句计算置信区间赋值语句计算置信区间*/data c;set b;t=tinv(0.975,n-1);/*也可使用也可使用t=tinv(0.025,n-1);但此时计算出来的但此时计算出来的t界值为负界值为负数。数。*/yl=mean-t*s/sqr
18、t(n);/*可信区间的下限可信区间的下限*/y2=mean+t*s/sqrt(n);/*可信区间的上限可信区间的上限*/proc print;run;.t检验ttest过程.t检验1.单样本t检验2.配对t检验3.两个独立样本的t检验.一、单样本资料的 t检验 目的目的:根据样本均数根据样本均数 推断其总体均数推断其总体均数 是否与已知是否与已知总体均数总体均数 0相等相等 与与 0的比较。的比较。应用条件应用条件:独立性独立性 正态性正态性X.例1 某镇痛新药在药厂投入量产,已知该药某镇痛新药在药厂投入量产,已知该药的生产技术标准为:每片药中平均有效的生产技术标准为:每片药中平均有效药物含
19、量为药物含量为40.4mg40.4mg。为评价生产质量是。为评价生产质量是否达标,现抽测否达标,现抽测1010片药物,结果为:片药物,结果为:41.341.3,40.840.8,38.738.7,42.742.7,43.043.0,38.638.6,42.742.7,39.539.5,42.142.1,42.142.1,问该厂是否,问该厂是否达到生产要求?达到生产要求?.data aa;input a;cards;41.3 40.8 38.7 42.7 43.0 38.6 42.7 39.5 42.1 42.1;数据步数据步.proc ttest H0=40.4;var a;run;过程步过程
20、步.本例本例t=1.41,双侧检验,双侧检验p=0.1917,按,按a=0.05水准,不拒绝水准,不拒绝H0,差别无统计学,差别无统计学意义,尚不认为该厂生产质量不达标。意义,尚不认为该厂生产质量不达标。.二、配对资料t检验资料类型:资料类型:两个同质对象接受不同处理;两个同质对象接受不同处理;同一受试对象分别接受不同的处理,同一同一受试对象分别接受不同的处理,同一受试对象处理前后。受试对象处理前后。条件:条件:差值差值d服从正态分布服从正态分布.例例2.数据步数据步data aa;input x1 x2;cards;0.940.92 1.021.01 1.141.111.231.22 1.3
21、11.32 1.411.421.531.51 1.611.61 1.721.721.811.82 1.931.93 2.022.04;.proc ttest;paired x1*x2;run;过程步过程步.本例本例t0.771,P=0.4569,在,在=0.05水平水平上不能拒绝上不能拒绝H0,差别没有统计学意义,差别没有统计学意义,尚不能认为两法测定结果不同。尚不能认为两法测定结果不同。.两个独立样本的t检验 应用条件:应用条件:(1)观察值之间是独立的;)观察值之间是独立的;(2)每组观察值来自正态分布的总体;)每组观察值来自正态分布的总体;(3)两个独立组的方差相等。)两个独立组的方差相
22、等。.例 3:.data aa;input x group;cards;24 1 36 1 25 1 14 1 26 1 34 1 23 1 20 1 15 1 19 1 14 2 18 2 20 2 15 2 22 2 24 2 21 2 25 2 27 2 23 2proc univariate normal;/*正态性检验正态性检验*/class group;var x;run;proc ttest;class group;var x;run;.F=2.92,P=0.1258,提示两总体方差相等。提示两总体方差相等。.l正态性检验结果:正态性检验结果:w1=0.93988,P=0.551;w2=0.96219,P=0.8106;提示两组资料均服从正态分布。提示两组资料均服从正态分布。l方差齐性检验结果:方差齐性检验结果:F=2.92,P=0.1258,提示两总体方差相等。提示两总体方差相等。lt检验结果:检验结果:t=1.02,P=0.3215,不拒绝,不拒绝H0,还不能认为,还不能认为两组药物的疗效有差别。两组药物的疗效有差别。结果解释:.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。