1、学习目标学习目标 掌握基本掌握基本SASSAS过程的调用过程的调用 掌握单样本、配对设计资料、两独立样本掌握单样本、配对设计资料、两独立样本t t检验的基础理论及其检验的基础理论及其SASSAS分析程序;分析程序;1概述概述 SASSAS系统的系统的BASEBASE软件提供了一些计算基础软件提供了一些计算基础统计量的过程,如:统计量的过程,如:meansmeans过程、过程、univariateunivariate过程、过程、ttestttest过程。过程。这些过程可完成单变量或多变量的描述统这些过程可完成单变量或多变量的描述统计量计算。计量计算。它们也可完成各种它们也可完成各种t t检验。检
2、验。2MEANSMEANS过程过程 MEANSMEANS过程功能是对计量数据进行统计描述与过程功能是对计量数据进行统计描述与单样本或配对设计资料的单样本或配对设计资料的t t检验,它的一般格式如检验,它的一般格式如下:下:proc means proc means 输入数据集名输入数据集名 ;var var 变量列表变量列表 ;class class 变量列表变量列表 ;by by 变量列表变量列表 ;freq freq 变量变量 ;weight weight 变量变量 ;id id 变量列表变量列表 ;output out=output ;run;run;3选项列表选项列表 vardef=d
3、f/weight/wgt/n/wdfvardef=df/weight/wgt/n/wdf在方在方差计算中规定除数差计算中规定除数d.d.。descendingdescending规定输出数据集按规定输出数据集按_type_type_值下降的次序(缺省时为上升)。值下降的次序(缺省时为上升)。order=freq/data/internal/formatted/order=freq/data/internal/formatted/规定输出时规定输出时classclass变量按所指定方式排变量按所指定方式排序。序。alpha=alpha=数字数字设置计算置信区间的置信设置计算置信区间的置信水平水平
4、 ,值在值在0 0与与1 1之间。之间。45统计量名称统计量名称含义含义统计量名称统计量名称 含义含义n未丢失的观测个数未丢失的观测个数mode众数,出现频数最高的数众数,出现频数最高的数nmiss丢失的观测个数丢失的观测个数sumwgt权数和权数和mean算术平均算术平均max最大值最大值stderr均值的标准误差均值的标准误差min最小值最小值sum加权和加权和range极差,极差,maxminstd标准偏差标准偏差median中间值中间值var方差方差T总体均值等于总体均值等于0的的t统计量统计量cv变异系数的百分数变异系数的百分数Prtt t分布的双尾分布的双尾p值值uss加权平方和加
5、权平方和Clm置信度上限和下限置信度上限和下限css关于均值偏差的加权关于均值偏差的加权平方和平方和Lclm置信度下限置信度下限skewness对称性的度量对称性的度量偏偏度度Uclm置信度上限置信度上限kurtosis对尾部陡平的度量对尾部陡平的度量峰度峰度统计量关键字统计量关键字outputoutput语句中的选项语句中的选项 out=输出数据集名。输出数据集名。统计量关键字统计量关键字=变量名列表变量名列表规定在输出规定在输出数据集中要包含的统计量并规定这些统计数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。量在新数据集中的变量名。meansmeans过程对过程对output
6、output语句的次数没有限制语句的次数没有限制,可以使用几个,可以使用几个outputoutput语句来创建内容不语句来创建内容不同的多个数据集。同的多个数据集。6其它语句其它语句 varvar语句语句分析的连续型变量。分析的连续型变量。byby语句语句分组变量分组变量,须事先排序。须事先排序。classclass语句语句分组变量,无须事先排序。分组变量,无须事先排序。freqfreq语句语句指定频数。指定频数。weightweight语句语句指定权重。指定权重。idid语句语句在输出数据集中增加一个或几个在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的附加变量,目的在于识别
7、输出数据集里的观测。其值为生成这个观测的输入数据集观测。其值为生成这个观测的输入数据集中相应观测组里中相应观测组里idid变量具有的最大值。变量具有的最大值。7UNIVARIATEUNIVARIATE过程过程 UNIVARIATEUNIVARIATE过程功能是对计量数据进行更为详过程功能是对计量数据进行更为详细的统计描述、少量统计图、正态性检验与单样细的统计描述、少量统计图、正态性检验与单样本或配对设计资料的本或配对设计资料的t t检验,它的一般格式如下:检验,它的一般格式如下:proc univariate proc univariate 输入数据集名输入数据集名 ;var var 变量列表
8、变量列表 ;by by 变量列表变量列表 ;freq freq 变量变量 ;weight weight 变量变量 ;id id 变量列表变量列表 ;output out=output ;run;run;8选项列表选项列表 vardef=df/weight/wgt/n/wdfvardef=df/weight/wgt/n/wdf在方在方差计算中规定除数差计算中规定除数d.d.。normalnormal要求计算关于输入数据服从正要求计算关于输入数据服从正态分布的假设的检验统计量。态分布的假设的检验统计量。plotplot要求生成一个茎叶图、一个盒型图要求生成一个茎叶图、一个盒型图和一个正态概率图。和
9、一个正态概率图。pctldef=1/2/3/4/5pctldef=1/2/3/4/5规定计算百分位规定计算百分位的五种方法的五种方法,缺省值为缺省值为5 5。910统计量关键字统计量关键字统计量名称统计量名称含义含义统计量名称统计量名称含义含义n n未丢失的观测个数未丢失的观测个数modemode众数,出现频数最高的数众数,出现频数最高的数nmissnmiss丢失的观测个数丢失的观测个数t t总体均值等于总体均值等于0 0的的t t统计量统计量nobsnobs观测个数观测个数prtprtt t分布的双尾分布的双尾p p值值meanmean算术平均算术平均q3q3上四分位数(上四分位数(75%7
10、5%)stderrstderr均值的标准误差均值的标准误差q1q1下四分位数(下四分位数(75%75%)sumsum加权和加权和qrangeqrange上下四分位数差(上下四分位数差(q3-q1q3-q1)stdstd标准偏差标准偏差p1p11%1%分位数分位数varvar方差方差p5p55%5%分位数分位数cvcv变异系数的百分数变异系数的百分数p10p1010%10%分位数分位数ussuss加权平方和加权平方和p90p9090%90%分位数分位数csscss关于均值偏差的加权平方关于均值偏差的加权平方和和p95p9595%95%分位数分位数skewnessskewness对称性的度量对称性
11、的度量偏度偏度p99p9999%99%分位数分位数kurtosiskurtosis对尾部陡平的度量对尾部陡平的度量峰峰度度msignmsign符号统计量符号统计量sumwgtsumwgt权数和权数和probmprobm大于符号秩统计量的绝对值概率大于符号秩统计量的绝对值概率maxmax最大值最大值signranksignrank符号秩统计量符号秩统计量minmin最小值最小值probsprobs大于中心符号秩统计量的绝对值大于中心符号秩统计量的绝对值p prangerange极差,极差,maxmaxminminnormalnormal检验正态性的统计量检验正态性的统计量medianmedian
12、中间值中间值probnprobn检验正态分布假设的概率值检验正态分布假设的概率值outputoutput语句中的选项语句中的选项 out=输出数据集名。输出数据集名。统计量关键字统计量关键字=变量名列表变量名列表规定在输出规定在输出数据集中要包含的统计量并规定这些统计数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。量在新数据集中的变量名。meansmeans过程对过程对outputoutput语句的次数没有限制语句的次数没有限制,可以使用几个,可以使用几个outputoutput语句来创建内容不语句来创建内容不同的多个数据集。同的多个数据集。11其它语句其它语句 varvar语句语
13、句分析的连续型变量。分析的连续型变量。byby语句语句分组变量分组变量,须事先排序。须事先排序。freqfreq语句语句指定频数。指定频数。weightweight语句语句指定权重。指定权重。idid语句语句在输出数据集中增加一个或几个在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集观测。其值为生成这个观测的输入数据集中相应观测组里中相应观测组里idid变量具有的最大值。变量具有的最大值。12TTESTTTEST过程过程 对于配对设计定量数据,我们可以采用对于配对设计定量数据,我们可以采用TTESTTTES
14、T过过程进行统计分析。程进行统计分析。TTESTTTEST过程功能是对两组数据过程功能是对两组数据的均数进行差别比较的的均数进行差别比较的t t检验,它的一般格式如下检验,它的一般格式如下:proc ttest data=;proc ttest data=;class class 变量名称(分组变量)变量名称(分组变量);paired variables;paired variables;var var 变量名称(待分析的数值变量)变量名称(待分析的数值变量);by by 变量名称(分组变量)变量名称(分组变量);run;run;13TTESTTTEST过程过程 PROC TTESTPROC
15、TTEST语句和语句和CLASSCLASS(或(或PAIREDPAIRED)语)语句是必需的,其余语句可以省略,句是必需的,其余语句可以省略,CLASSCLASS语句、语句、VARVAR语句及语句及BYBY语句之间的顺序可以任意。语句之间的顺序可以任意。CLASSCLASS语句所指定的分组变量是用来进行组间比语句所指定的分组变量是用来进行组间比较的,较的,PAIREDPAIRED语句专门用来进行配对语句专门用来进行配对t t检验的数检验的数据分析,而据分析,而BYBY语句所指定的分组变量是用来将数语句所指定的分组变量是用来将数据分为若干个更小的样本,以便据分为若干个更小的样本,以便SASSAS
16、分别在各小分别在各小样本内进行各自独立的处理。样本内进行各自独立的处理。VARVAR语句引导所要语句引导所要进行比较的所有变量的列表,进行比较的所有变量的列表,SASSAS将对将对VARVAR语句语句所引导的所有变量分别进行组间均数比较的所引导的所有变量分别进行组间均数比较的t t检验检验。14单样本单样本t t检验的基础理论检验的基础理论 单样本单样本t t检验实际上是推断该样本来自的总检验实际上是推断该样本来自的总体均数体均数 与已知的某一总体均数与已知的某一总体均数00(常为(常为理论值或标准值)理论值或标准值)有无差别。其检验统计有无差别。其检验统计量按下式计算量按下式计算1,/0nn
17、SXnSXSXtX15例题例题 某医生测量了某医生测量了3636名从事铅作业男性工人的名从事铅作业男性工人的血红蛋白含量,算得其均数为血红蛋白含量,算得其均数为130.83g/L130.83g/L,标准差为,标准差为25.74g/L25.74g/L。问从事铅作业工人。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均的血红蛋白是否不同于正常成年男性平均值值140g/L140g/L?16SASSAS程序程序 直接计算法直接计算法 PROC MEANSPROC MEANS PROC UNIVARIATEPROC UNIVARIATE PROC TTESTPROC TTEST17配对设计资料配对设
18、计资料t t检验的基础理论检验的基础理论 在医学研究中,常用配对设计。在医学研究中,常用配对设计。异源配对异源配对同源配对同源配对自身前后设计自身前后设计18配对设计资料配对设计资料t t检验的基础理论检验的基础理论 配对配对t t检验的实质同于单样本检验的实质同于单样本t t检验,可将此检验,可将此类资料看成是差值类资料看成是差值 的样本均数所代表的的样本均数所代表的未知总体均数未知总体均数 与已知总体均数与已知总体均数 =0=0的比的比较,其检验统计量构造如下:较,其检验统计量构造如下:1,/0nnSdnSdSdtdddddd019例题例题编号编号(1)哥特里罗紫法哥特里罗紫法(2)脂肪酸
19、水解法脂肪酸水解法(3)差值差值d(4)=(2)(3)10.8400.5800.26020.5910.5090.08230.6740.5000.17440.6320.3160.31650.6870.3370.35060.9780.5170.46170.7500.4540.29680.7300.5120.21891.2000.9970.203100.8700.5060.3642.724 两种方法对乳酸饮料中脂肪含量的测定结果两种方法对乳酸饮料中脂肪含量的测定结果(%)(%)20例题例题 计算检验统计量计算检验统计量t t:1)(22 nnddSd1/0 nvnSdtd21SASSAS程序程序 P
20、ROC MEANSPROC MEANS PROC UNIVARIATEPROC UNIVARIATE PROC TTESTPROC TTEST22两独立样本的两独立样本的t t检验检验 在日常工作中,我们经常要比较某两组计量资料在日常工作中,我们经常要比较某两组计量资料的均数间有无显著差别,如研究不同疗法的降压的均数间有无显著差别,如研究不同疗法的降压效果或两种不同制剂对杀灭鼠体内钩虫的效果(效果或两种不同制剂对杀灭鼠体内钩虫的效果(条数)等。这时假若事先难以找到年龄、性别等条数)等。这时假若事先难以找到年龄、性别等条件完全一样的人(或动物)作配对比较,那么条件完全一样的人(或动物)作配对比较
21、,那么不能求每对的差数只能先算出各组的均数,然后不能求每对的差数只能先算出各组的均数,然后进行比较。两组例数可以相等也可稍有出入。检进行比较。两组例数可以相等也可稍有出入。检验的方法同样是先假定两组相应的总体均数相等验的方法同样是先假定两组相应的总体均数相等,看两组均数实际相差与此假设是否靠近,近则,看两组均数实际相差与此假设是否靠近,近则把相差看成抽样误差表现,远到一定界限则认为把相差看成抽样误差表现,远到一定界限则认为由抽样误差造成这样大的相差的可能性实在太小由抽样误差造成这样大的相差的可能性实在太小,拒绝假设而接受,拒绝假设而接受H1H1,作出两总体不相等的结论,作出两总体不相等的结论。
22、23两独立样本两独立样本t t检验的基础理论检验的基础理论 两样本两样本t t检验又称成组检验又称成组t t检验,适用于完全随检验,适用于完全随机设计两样本均数的比较,人们所关心的机设计两样本均数的比较,人们所关心的是两样本均数所代表的两总体均数是否不是两样本均数所代表的两总体均数是否不等。两组完全随机设计是将受试对象完全等。两组完全随机设计是将受试对象完全随机分配到两个不同的处理组。随机分配到两个不同的处理组。当两样本含量较小,且均来自正态总体时当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同,要根据两总体方差是否不同而采用不同的检验方法。的检验方法。24总体方差相等
23、的总体方差相等的t t检验检验 当两总体方差相等,可将两样本方差合并当两总体方差相等,可将两样本方差合并,求两者的共同方差,求两者的共同方差合并方差合并方差 ,两样,两样本本t t检验的检验统计量为检验的检验统计量为2,)()(212121212121nnvSXXSXXtXXXX25总体方差相等的总体方差相等的t t检验检验)11(2)1()1()11(2/)(/)()11(212122221121212122222121212121221nnnnSnSnXXnnnnnXXnXXXXnnSXXtc26近似近似t t检验检验 Cochran&CoxCochran&Cox的检验统计量为的检验统计量
24、为tt,因,因tt分布较复杂,故常利用分布较复杂,故常利用t t分布计算其近似分布计算其近似临界值。临界值。SatterthwaiteSatterthwaite法法 WelchWelch法法1,1,221122212121 nvnvnSnSXXt27例题例题 为了研究新药阿卡波糖胶囊的降血糖效果为了研究新药阿卡波糖胶囊的降血糖效果,某医院用,某医院用4040名名型糖尿病病人进行同期型糖尿病病人进行同期随机对照试验。实验者将这些病人随机等随机对照试验。实验者将这些病人随机等分到实验组(阿卡波糖胶囊)和对照组(分到实验组(阿卡波糖胶囊)和对照组(拜唐苹胶囊),分别测得试验开始前和拜唐苹胶囊),分别
25、测得试验开始前和8 8周周后的空腹血糖,算得空腹血糖下降值,能后的空腹血糖,算得空腹血糖下降值,能否认为该新药阿卡波糖胶囊与拜唐苹胶囊否认为该新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同?对空腹血糖的降糖效果不同?28例题例题 提出检验假设提出检验假设H0H0与备择假设与备择假设H1H1:H0H0:1 1=2 2,阿卡波糖胶囊组与拜唐苹胶囊组空,阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降值的总体均数相等;腹血糖下降值的总体均数相等;H1H1:1 12 2,阿卡波糖胶囊组与拜唐苹胶囊组,阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降值的总体均数不相等;空腹血糖下降值的总体均数不相等;定显著性水准
26、定显著性水准,并查出临界,并查出临界t t值。现令值。现令=0.05=0.05,计算检验统计量计算检验统计量t t:实验组空腹血糖下降值均数实验组空腹血糖下降值均数=2.065 mmol/L=2.065 mmol/L,标准差标准差S S1 1=3.0601 mmol/L=3.0601 mmol/L;对照组空腹血糖下;对照组空腹血糖下降值均数降值均数=2.625 mmol/L=2.625 mmol/L,标准差,标准差S S2 2=2.4205mmol/L=2.4205mmol/L;。;。29例题例题 确定确定P P值,作出推断结论:查值,作出推断结论:查t t界值表得界值表得P P0.500.5
27、0,所以检验假设所以检验假设HH0 0得以接受,得以接受,无统计学意义。无统计学意义。尚不能认为阿卡波糖胶囊组与拜唐苹胶囊组空腹尚不能认为阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降效果不同。血糖下降效果不同。642.0204205.20601.3625.2065.2)11(2)1()1(22222121212122221121nSSXXnnnnSnSnXXt30SASSAS程序程序 PROC TTESTPROC TTEST Cochran&CoxCochran&Cox SatterthwaiteSatterthwaite WelchWelch31本章小节本章小节 介绍了单样本介绍了单样本t t检
28、验的基础理论,并列举了检验的基础理论,并列举了单样本单样本t t检验分析实例检验分析实例meansmeans、univariateunivariate过程。以过程。以MEANSMEANS过程实现对单过程实现对单变量分布位置的变量分布位置的t t检验,只需在检验,只需在PROC PROC MEANSMEANS语句后添加语句后添加t t和和probtprobt两个选项,两个选项,SASSAS即给出样本均数与即给出样本均数与0 0比较的比较的t t检验值和检验值和t t分布曲线下该分布曲线下该t t值对应的双侧尾部面积。值对应的双侧尾部面积。UNIVARIATEUNIVARIATE过程在默认状态下即
29、可给出过程在默认状态下即可给出单变量分布位置的单变量分布位置的t t检验结果。检验结果。32本章小节本章小节 介绍了配对设计资料介绍了配对设计资料t t检验的基础理论,并列举了检验的基础理论,并列举了配对配对t t检验分析实例检验分析实例meansmeans、univariateunivariate、ttestttest过程。过程。最后,本章介绍了两独立样本最后,本章介绍了两独立样本t t检验的基础理论,检验的基础理论,并列举了独立样本并列举了独立样本t t检验分析实例检验分析实例ttestttest过程应过程应用。用。需要强调的是,需要强调的是,t t检验的应用条件(正态分布和方检验的应用条件(正态分布和方差齐性),大家在采用差齐性),大家在采用t t检验进行数据分析之前,检验进行数据分析之前,应首先判断数据是否满足应首先判断数据是否满足t t检验的条件,然后再进检验的条件,然后再进行统计分析。行统计分析。3334课后思考题课后思考题 如何做单侧t检验?35