1、版权所有,2005 上海财经大学 邵建利主讲:上海财经大学统计学系 邵建利第四章 SAS的基本统计分析(1)前面我们已经看到了前面我们已经看到了SASSAS的编程计算、数据管理能力、的编程计算、数据管理能力、数据汇总、数据探索分析能力。这一章我们讲如何用数据汇总、数据探索分析能力。这一章我们讲如何用SASSAS进行基本的统计检验、线性回归、方差分析、列联表检验进行基本的统计检验、线性回归、方差分析、列联表检验等基本统计分析。我们既使用等基本统计分析。我们既使用SASSAS语言编程,也使用语言编程,也使用SAS/INSIGHTSAS/INSIGHT的菜单界面。的菜单界面。proc univari
2、ate data=sashelp.class normal;var weight;run;对单个变量,我们可能需要作正态性检验、两独立样本均值对单个变量,我们可能需要作正态性检验、两独立样本均值相等的检验、成对样本均值相等的检验。相等的检验、成对样本均值相等的检验。在在PROC UNIVARIATEPROC UNIVARIATE语句中加上语句中加上NORMALNORMAL选项可以进行正态性选项可以进行正态性检验检验 l Tests for Location:Mu0=0l Test -Statistic-p Value-l Students t t 19.1449 Pr|t|=|M|=|S|.0
3、001l Tests for Normalityl Test -Statistic-p Value-l Shapiro-Wilk W 0.965083 Pr D 0.1500l Cramer-von Mises W-Sq 0.057963 Pr W-Sq 0.2500l Anderson-Darling A-Sq 0.366427 Pr A-Sq 0.2500l其中W:Normal为Shapiro-Wilk正态性检验统计量,Pr2000时用Kolmogorov D统计量。我们可以看到,p值很小,所以在0.05水平(或0.10水平)下应拒绝零假设,即认为height分布正态。l在SAS/INSI
4、GHT中为了检验height的分布,先选“Analyze|Distribution”菜单打开height 变量的分布窗口,然后选“Curves|Test for Distribution”菜单。除了可以检验是否正态分布外还可以检验是否对数正态、指数分布、Weibull分布。proc ttest data=sashelp.class;class sex;var weight;run;假设我们有两组样本分别来自两个独立总体,需要检假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布,而且方差相
5、等,可以使用两体都分别服从正态分布,而且方差相等,可以使用两样本样本t t检验过程检验过程TTESTTTEST。l The SAS System 23:06 Friday,October 7,2005 2l The TTEST Procedurel Statisticsl Lower CL Upper CL Lower CL Upper CLl Variable Sex N Mean Mean Mean Std Dev Std Dev Std Dev Std Errl Weight F 9 75.211 90.111 105.01 13.093 19.384 37.135 6.4613l We
6、ight M 10 92.692 108.95 125.21 15.633 22.727 41.491 7.187l Weight Diff(1-2)-39.41 -18.84 1.7313 15.923 21.22 31.811 9.7497l T-Testsl Variable Method Variances DF t Value Pr|t|l Weight Pooled Equal 17 -1.93 0.0702l Weight Satterthwaite Unequal 17 -1.95 0.0680l Equality of Variancesl Variable Method N
7、um DF Den DF F Value Pr Fl Weight Folded F 9 8 1.37 0.6645结果有三个部分:两个总体的结果有三个部分:两个总体的WEGIHTWEGIHT简单统计量,两样简单统计量,两样本均值的检验,以及两样本方差是否相等的检验。标准本均值的检验,以及两样本方差是否相等的检验。标准的两样本的两样本t t检验要求两总体方差相等,所以第三部分结果检验要求两总体方差相等,所以第三部分结果检验两样本方差是否相等。如果检验的结果为相等,则检验两样本方差是否相等。如果检验的结果为相等,则可使用精确的两样本可使用精确的两样本t t检验,看第二部分结果的检验,看第二部分结
8、果的EqualEqual那那一行。如果方差检验的结果为不等,则只能使用近似的一行。如果方差检验的结果为不等,则只能使用近似的两样本两样本t t检验,看第二部分结果的检验,看第二部分结果的UnequalUnequal那一行。这里那一行。这里我们看到方差检验的我们看到方差检验的p p值为值为0.91140.9114不显著,所以可以认为不显著,所以可以认为方差相等,所以我们看方差相等,所以我们看EqualEqual行,行,p p值为值为0.00010.0001在在0.050.05水水平下是显著的,所以应认为男、女生的平下是显著的,所以应认为男、女生的WEGIHTWEGIHT分数有显分数有显著差异,女
9、生体重要低。著差异,女生体重要低。上面的检验中对立假设是两组的均值不等,所以检验是双上面的检验中对立假设是两组的均值不等,所以检验是双边的,边的,p p值的计算公式为值的计算公式为Pr(tPr(t分布随机变量绝对值分布随机变量绝对值 计算得计算得到的到的t t统计量的绝对值统计量的绝对值)。如果要进行单边的检验,比如对。如果要进行单边的检验,比如对立假设为女生体重高于男生(右边),则立假设为女生体重高于男生(右边),则p p值为值为Pr(tPr(t分布分布随机变量随机变量 计算得到的计算得到的t t统计量统计量),当计算得到的,当计算得到的t t统计量值统计量值为正数时(现在为正数时(现在t=
10、4.0t=4.0)此单边)此单边p p值为双边值为双边p p值的一半,当值的一半,当计算得到的计算得到的t t统计量为负数时肯定不能否定零假设。检验统计量为负数时肯定不能否定零假设。检验左边时恰好相反。左边时恰好相反。procproc npar1waynpar1way data=sashelp.class wilcoxon;class sex;var weight;runrun;如果我们希望检验男、女生的体重,对特殊人群有时无法使如果我们希望检验男、女生的体重,对特殊人群有时无法使用两样本用两样本t t检验,因为检验女生的体重样本的正态性发现它检验,因为检验女生的体重样本的正态性发现它是非正态
11、。这种情况下我们可以使用非参数检验。检验两独是非正态。这种情况下我们可以使用非参数检验。检验两独立样本的位置是否相同的非参数检验有立样本的位置是否相同的非参数检验有WilcoxonWilcoxon秩和检验。秩和检验。我们用我们用NPAR1WAYNPAR1WAY过程加过程加WilcoxonWilcoxon选项可以进行这种检验。见选项可以进行这种检验。见下例:下例:l The NPAR1WAY Procedurel Wilcoxon Scores(Rank Sums)for Variable Weightl Classified by Variable Sexl Sum of Expected S
12、td Dev Meanl Sex N Scores Under H0 Under H0 Scorel -l M 10 119.0 100.0 12.225943 11.900000l F 9 71.0 90.0 12.225943 7.888889l Average scores were used for ties.l Wilcoxon Two-Sample Testl Statistic 71.0000l Normal Approximationl Z -1.5132l One-Sided Pr|Z|0.1302l t Approximationl One-Sided Pr|Z|0.147
13、6l Z includes a continuity correction of 0.5.l Kruskal-Wallis Testl Chi-Square 2.4151l DF 1l Pr Chi-Square 0.1202 结果分为四部分:两样本的秩和的有关统计量,结果分为四部分:两样本的秩和的有关统计量,WilcoxonWilcoxon两样本检验的结果,两样本检验的结果,t t检验的近似显著性,检验的近似显著性,Kruskal-wallisKruskal-wallis检验结果。我们只要看检验结果。我们只要看WilcoxonWilcoxon检验的检验的p p值值ProbProb|Z|=|Z
14、|=0.12020.1202,检验结果不显著,可认为男、女生,检验结果不显著,可认为男、女生的体重在的体重在0.050.05水平下无显著差异。水平下无显著差异。SAS/INSIGHTSAS/INSIGHT中未提供两独立样本检验的功能。中未提供两独立样本检验的功能。成对总体均值检验成对总体均值检验 我们在现实中经常遇到两个总体是相关的测量结果的比我们在现实中经常遇到两个总体是相关的测量结果的比较,比如,考察同一组人在参加一年的长跑锻炼前后的心较,比如,考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异。这时,每个人一年前的心率和一年后的率有无显著差异。这时,每个人一年前的心率和一年后的心率是
15、相关的,心率本来较快的人锻炼后仍相对于其它人心率是相关的,心率本来较快的人锻炼后仍相对于其它人较快。所以,检验这样的成对总体的均值不能使用两样本较快。所以,检验这样的成对总体的均值不能使用两样本t t检验的方法,因为独立性条件不再满足。这时,我们可检验的方法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是否为零,这等价于检验以检验两个变量间的差值的均值是否为零,这等价于检验两组测量值的平均水平有无显著差异。两组测量值的平均水平有无显著差异。l检验单个样本的均值是否为零只要使用检验单个样本的均值是否为零只要使用UNIVARIATEUNIVARIATE过程,过程,在在UNIVA
16、RIATEUNIVARIATE过程的矩部分给出了均值为零的过程的矩部分给出了均值为零的t t检验和符号检验和符号检验、符号秩检验的结果。检验、符号秩检验的结果。l两配对样本的两配对样本的T T检验可根据样本数据对两总体均值之间是否检验可根据样本数据对两总体均值之间是否有差异进行推断。作此类有差异进行推断。作此类T T检验的基本要求是:首先两样本检验的基本要求是:首先两样本数据必须两两配对,即样本顺序相同、数目相等等。其次,数据必须两两配对,即样本顺序相同、数目相等等。其次,两总体是服从正态分布的。最后两配对样本两总体是服从正态分布的。最后两配对样本T T检验的基本假检验的基本假设为:两总体均值
17、相同。设为:两总体均值相同。l例如,假设两方案的产量都服从正态分布,例如,假设两方案的产量都服从正态分布,1 1号方案的单位号方案的单位面积产量均值面积产量均值1 1,2 2号方案的单位面积产量均值号方案的单位面积产量均值2 2,原假设,原假设H H0 0:1 1=2 2 H H1 1:1 12 2lDATADATA TEM;l SET DST.A;l D=OUTPUT1-OUTPUT2;lRUNRUN;lPROCPROC UNIVARIATEUNIVARIATE DATA=TEM;l VAR D;lRUNRUN;Basic Statistical Measures Location Vari
18、abilityl Mean 10.37500 Std Deviation 3.85218l Median 10.00000 Variance 14.83929l Mode 11.00000 Range 12.00000l Interquartile Range 4.50000 Tests for Location:Mu0=0l Test -Statistic-p Value-l Students t t 7.617748 Pr|t|0.0001l Sign M 4 Pr=|M|0.0078l Signed Rank S 18 Pr=|S|0.0078l我们只要看其中的三个检验:我们只要看其中的
19、三个检验:T:Mean=0T:Mean=0是假定差值变量服从是假定差值变量服从正态分布时检验均值为零的正态分布时检验均值为零的t t统计量值,相应的统计量值,相应的p p值值Pr|T|Pr|T|为为0.00010.0001在在0.050.05水平下是显著的,所以可认为两科分数有显著差水平下是显著的,所以可认为两科分数有显著差异。异。M(SignM(Sign)是非参数检验符号检验的统计量,其是非参数检验符号检验的统计量,其p p值值Pr=|M|Pr=|M|为为0.00010.0001在在0.050.05水平下是显著的,结论不变。水平下是显著的,结论不变。SgnSgn Rank Rank是非参是非
20、参数检验符号秩检验的统计量,其数检验符号秩检验的统计量,其p p值值Pr=|S|Pr=|S|为为0.00780.0078在在0.050.05水水平下是显著的,结论不变。所以这三个检验的结论都是两科成平下是显著的,结论不变。所以这三个检验的结论都是两科成绩有显著差异。绩有显著差异。l如果如果t t检验对立假设是单边的,其检验对立假设是单边的,其p p值算法与上面讲的两样本值算法与上面讲的两样本t t检验检验p p值算法相同。值算法相同。l数据集:数据集:PULSPULS案例:成对检验案例:成对检验使用分析员应用使用分析员应用回归分析回归分析用用SAS/INSIGHTSAS/INSIGHT进行曲线
21、拟合进行曲线拟合l两个变量两个变量Y Y和和X X之间的相关关系经常可以用一个函数之间的相关关系经常可以用一个函数来表示,一元函数可以等同于一条曲线,实际工作中来表示,一元函数可以等同于一条曲线,实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系。经常对两个变量拟合一条曲线来近似它们的相关关系。最基本的最基本的“曲线曲线”是直线,还可以用多项式、样条函是直线,还可以用多项式、样条函数、核估计和局部多项式估计。其模型可表示为数、核估计和局部多项式估计。其模型可表示为)(XfYl例如,我们要研究例如,我们要研究SASHELP.CLASSSASHELP.CLASS数据集中学生体重与身高数据集中
22、学生体重与身高之间的相关关系。为此,我们可以先画出两者的散点图之间的相关关系。为此,我们可以先画出两者的散点图(Analyze|Scatter plotAnalyze|Scatter plot)。从图中可以看出,身高越高)。从图中可以看出,身高越高的人一般体重越重。我们可以把体重作为因变量、身高作为的人一般体重越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线,只要选自变量拟合一条回归直线,只要选“Analyze|Fit(Y Analyze|Fit(Y X)”X)”,并选体重为,并选体重为Y Y变量,身高为变量,身高为X X变量,即可自动拟合出一变量,即可自动拟合出一条回归直线,见
23、图条回归直线,见图 。窗口中还给出了拟合的模型方程、参。窗口中还给出了拟合的模型方程、参数估计、诊断信息等,我们在下一小节再详细介绍。数估计、诊断信息等,我们在下一小节再详细介绍。回归分析回归分析l在拟合了直线后,为拟合多项式曲线,只要选在拟合了直线后,为拟合多项式曲线,只要选“Curves|Curves|Polynomial”Polynomial”,然后输入阶次(,然后输入阶次(Degree(PolynomialDegree(Polynomial)),就可),就可以在散点图基础上再加入一条多项式曲线。对于本例,我们看以在散点图基础上再加入一条多项式曲线。对于本例,我们看到二次多项式得到的曲线
24、与直线差别很小,所以用二次多项式到二次多项式得到的曲线与直线差别很小,所以用二次多项式拟合没有优势。还可以试用三次、四次等多项式。为了改变阶拟合没有优势。还可以试用三次、四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(次还可以使用拟合窗口中的多项式阶次滑块(Parametric Parametric Regression FitRegression Fit中的中的Degree(PolynomialDegree(Polynomial))。)。l回归分析回归分析l样条曲线是一种非参数回归的曲线拟合方法。光滑样条为样条曲线是一种非参数回归的曲线拟合方法。光滑样条为分段的三次多项式,曲
25、线在每一段内是一个三次多项式,分段的三次多项式,曲线在每一段内是一个三次多项式,在两段的连接点是连续、光滑的。为拟合样条曲线,只要在两段的连接点是连续、光滑的。为拟合样条曲线,只要选选“Curves|Curves|SplineSpline”,使用缺省的,使用缺省的GCVGCV准则(广义交叉准则(广义交叉核实)来选取光滑系数(光滑系数核实)来选取光滑系数(光滑系数c c越大,得到的曲线越光越大,得到的曲线越光滑,但拟合同时变差,光滑系数滑,但拟合同时变差,光滑系数c c小的时候得到的曲线较曲小的时候得到的曲线较曲折,而拟合较好),就可以在散点图的基础上画出样条曲折,而拟合较好),就可以在散点图的
26、基础上画出样条曲线。可以用光滑系数线。可以用光滑系数c c的滑块来调整曲线的光滑程度的滑块来调整曲线的光滑程度/拟合拟合优度。对于本例,优度。对于本例,GCVGCV准则得到的样条曲线与回归直线几乎准则得到的样条曲线与回归直线几乎是重合的,说明直线拟合可以得到满意的结果。是重合的,说明直线拟合可以得到满意的结果。回归分析回归分析l核估计是另一种非参数回归的曲线拟合方法。它定义核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数,例如使用标准正态分布密度曲线,然后用如了一个核函数,例如使用标准正态分布密度曲线,然后用如下公式估计经验公式:下公式估计经验公式:l其中其中c c为光滑系数,为光滑
27、系数,c c越大得到的曲线越光滑。为了画核估计越大得到的曲线越光滑。为了画核估计曲线,只要选曲线,只要选“Curves|Kernel”Curves|Kernel”,权重函数使用缺省的正,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的态核,选取光滑系数的方法采用缺省的GCVGCV法,就可以把核估法,就可以把核估计图附加到散点图上。本例得到的核估计曲线与回归直线、计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动调整光滑系数的值,可以看样条曲线有一定差别。可以手动调整光滑系数的值,可以看到,当过大时曲线不仅变光滑而且越来越变水平,因为这时到,当过大时曲线不仅变
28、光滑而且越来越变水平,因为这时的拟合值基本是一个常数,这与样条曲线的情形不同,样条的拟合值基本是一个常数,这与样条曲线的情形不同,样条曲线当增大时曲线变光滑但不趋向于常数(水平线)。曲线当增大时曲线变光滑但不趋向于常数(水平线)。NiiiYcXxKxf1)(l局部多项式估计(局部多项式估计(LoessLoess)是另一种非参数回归的曲线拟合方)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。一阶、二阶,零阶时与核估计相同。SAS/INSIGHTSAS/INSIGHT缺省使用
29、一缺省使用一阶(线性)局部多项式。改变阶(线性)局部多项式。改变LoessLoess的系数的系数alphaalpha可以改变曲线可以改变曲线的光滑度。的光滑度。alphaalpha增大时曲线变光滑,而且使用一阶或二阶多增大时曲线变光滑,而且使用一阶或二阶多项式时曲线不会同时变水平。项式时曲线不会同时变水平。l固定带宽的局部多项式是另一种局部多项式拟合方法。它有固定带宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数一个光滑系数c c。用用SAS/INSIGHTSAS/INSIGHT进行线性回归分析进行线性回归分析bxay XY上面我们已经看到,用菜单上面我们已经看到,用菜单“Analy
30、ze|Fit(Y X)”Analyze|Fit(Y X)”就可以拟合一条回归直线,这是对回归方程就可以拟合一条回归直线,这是对回归方程的估计结果。这样的线性回归可以推广到一个因变量、多的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。线性模型写成矩阵形式为个自变量的情况。线性模型写成矩阵形式为Yn1Xnpp1n12其中其中为为向量,向量,为为矩阵,一般第一列元素全是矩阵,一般第一列元素全是1 1,为未知参数向量,未知参数向量,为为元素独立且方差为相等的元素独立且方差为相等的(未知)。(未知)。代表截距项。代表截距项。p1为为随机误差向量,随机误差向量,YXXX1HYYXXXXY
31、1XXXXH1RnX)(XYHIYY)(niiiYYESS12XESSpnMSEs12X2 12XXVarTSSESSR12正常情况下,系数的估计为正常情况下,系数的估计为,拟合值(或称预报值)为,拟合值(或称预报值)为,其中,其中是是空间内向空间内向的列张成的线性空间的列张成的线性空间投影的投影算子矩阵,叫做投影的投影算子矩阵,叫做“帽子帽子”矩阵。拟合残差为矩阵。拟合残差为,残差平方和为,残差平方和为,误差项方差的估计为(要求设计阵,误差项方差的估计为(要求设计阵均方误差(均方误差(MSEMSE),在线性模型的假设下,若设计阵,在线性模型的假设下,若设计阵满秩,满秩,和和分别是分别是的无偏
32、估计,系数估计的方差阵的无偏估计,系数估计的方差阵判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)s2和和。2RniiYYTSS122211RpninRipR22Rpp2RH00HH00:0jHl Parameter Estimatesl Variable DF Estimate Std Error T Stat Prob|T|l INTERCEPT 1 -141.2238 33.3831 -4.2304 0.0006l HEIGHT 1 3.5970 0.9055 3.9726 0.0011l AGE 1 1.2784 3.
33、1101 0.4110 0.6865l Parameter Estimatesl Tolerance Var Inflationl .0.0000l 0.3416 2.9276l 0.3416 2.9276XiXiXiXiXi 1XXCnnijciiicVar2iiciXnn残差对预测值散点图i25.0375.01niii案例:用INSIGHT对数据集CARS做回归诊断用用SAS/INSIGHTSAS/INSIGHT拟合广义线性模型拟合广义线性模型X),(2INXY0)(gY1nn1yg()Xnpp1XX0n1),()()(exp),;(ycabyyf)()()()()(bayVarbyE)(
34、gSOAKHEATNBR2101log),(lModel:MODEL1lDependent Variable:WEIGHT Weight in poundsl Analysis of Variancel Sum of Meanl Source DF Squares Square F Value ProbFl Model 2 7215.63710 3607.81855 27.228 0.0001l Error 16 2120.09974 132.50623l C Total 18 9335.73684l Root MSE 11.51114 R-square 0.7729l Dep Mean 10
35、0.02632 Adj R-sq 0.7445l C.V.11.50811l Parameter Estimatesl Parameter Standard T for H0:l Variable DF Estimate Error Parameter=0 Prob|T|l INTERCEP 1 -141.223763 33.38309350 -4.230 0.0006l HEIGHT 1 3.597027 0.90546072 3.973 0.0011l AGE 1 1.278393 3.11010374 0.411 0.6865l Variablel Variable DF Labell
36、INTERCEP 1 Interceptl HEIGHT 1 Height in inchesl AGE 1 Age in yearsR2R2R2R2pCStepwise Procedure for Dependent Variable WEIGHTlStep 1 Variable HEIGHT Entered R-square=0.77050684 C(p)=1.16895797l DF Sum of Squares Mean Square F ProbFlRegression 1 7193.24911864 7193.24911864 57.08 0.0001lError 17 2142.
37、48772347 126.02868962lTotal 18 9335.73684211l Parameter Standard Type IIlVariable Estimate Error Sum of Squares F ProbFlINTERCEP -143.02691844 32.27459130 2475.04717580 19.64 0.0004lHEIGHT 3.89903027 0.51609395 7193.24911864 57.08 0.0001lBounds on condition number:1,1l-lAll variables left in the mod
38、el are significant at the 0.1500 level.lNo other variable met the 0.1500 significance level for entry into the model.l Summary of Stepwise Procedure for Dependent Variable WEIGHTl Variable Number Partial ModellStep Entered Removed In R*2 R*2 C(p)F ProbFl Labell 1 HEIGHT 1 0.7705 0.7705 1.1690 57.076
39、3 0.0001l Height in inches可见只有变量HEIGHT进入了模型,而其它变量(AGE)则不能进入模型。Dep Var Predict Std Err Lower95%Upper95%Obs WEIGHT Value Predict Predict Predict Residual 1 84.0000 77.2683 3.963 52.1503 102.4 6.7317 2 98.0000 111.6 2.995 87.0659 136.1 -13.5798 3 90.0000 107.7 2.768 83.2863 132.1 -17.6807 4 77.0000 76.
40、4885 4.042 51.3145 101.7 0.5115 5 84.5000 90.1351 2.889 65.6780 114.6 -5.6351 6 112.0 116.3 3.354 91.5388 141.0 -4.2586 7 50.5000 56.9933 6.251 29.8835 84.1032 -6.4933 8 112.5 100.7 2.577 76.3612 125.0 11.8375 9 102.5 101.8 2.587 77.5263 126.1 0.6678 10 112.5 126.0 4.296 100.6 151.4 -13.5062 11 102.
41、5 104.6 2.645 80.2279 128.9 -2.0615 12 133.0 118.2 3.525 93.3827 143.0 14.7919 13 83.0000 80.3875 3.659 55.4757 105.3 2.6125 14 84.0000 100.7 2.577 76.3612 125.0 -16.6625 15 99.5000 87.0159 3.098 62.4451 111.6 12.4841 16 150.0 137.7 5.613 111.2 164.2 12.2967 17 128.0 109.6 2.872 85.1821 134.1 18.369
42、8 18 85.0000 81.1673 3.587 56.3025 106.0 3.8327 19 112.0 116.3 3.354 91.5388 141.0 -4.2586Sum of Residuals 0Sum of Squared Residuals 2142.4877Predicted Resid SS(Press)2651.3521iiihRESIDPRESID1hiHR2R2用print cli列出的是实际值的预测界限,还可以列出模型均值的预测界限,使用print clm;语句。在PRINT语句中可以指定的有ACOV,ALL,CLI,CLM,COLLIN,COLLINOIN
43、T,COOKD,CORRB,COVB,DW,I,INFLUENCE,P,PARTIAL,PCORR1,PCORR2,R,SCORR1,SCORR2,SEQB,SPEC,SS1,SS2,STB,TOL,VIF,XPX,等等。对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如,plot weight*height/conf95;可以产生下图,在图的上方列出了模型方程,右方还给出了观测个数、修正等特殊名字表示预测值、残差等计算出的变量,比如,在自变量为多元时无法作回归直线,常用的诊断图表为残差对预测值图,就可以用plot residual.*predicted.;绘制。为了绘制学生化残差的图形,可以用plot rstudent.*obs.;回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册。、均方误差开根。在PLOT语句中可以使用PREDICTED.、RESIDUAL.、图 4 REG过程的PLOT语句的结果图 REG过程的PLOT语句的结果The End of Session谢谢!谢谢!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。