SAS课件-第16讲-描述性统计过程.ppt

上传人(卖家):晟晟文业 文档编号:3761203 上传时间:2022-10-10 格式:PPT 页数:93 大小:1.23MB
下载 相关 举报
SAS课件-第16讲-描述性统计过程.ppt_第1页
第1页 / 共93页
SAS课件-第16讲-描述性统计过程.ppt_第2页
第2页 / 共93页
SAS课件-第16讲-描述性统计过程.ppt_第3页
第3页 / 共93页
SAS课件-第16讲-描述性统计过程.ppt_第4页
第4页 / 共93页
SAS课件-第16讲-描述性统计过程.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

1、SAS软件教程(Celon)描述性统计过程 Means过程 Freq过程 Tabulate过程 univariate过程 plot过程 chart过程 rank过程1SAS软件教程(Celon)统计关键字名称所代表的统计量名称所代表的统计量n单元格频数pctn频数百分比,须指定相应的分母项nmiss缺失数据个数pctsum某变量(数值型)合计占指定合计值的百分比mean均数css离差平方和min最小值tderr均值的标准误max最大值cv变异系数sum合计t用来检测均值是否为零的单侧t值std标准差prt上述t值的统计显著程度range全距,即最大值与最小值之差var方差uss每一变量原始数据

2、的平方和(未校正平方和)sumwgt加权值的总和2SAS软件教程(Celon)Means过程proc means 选项列表;by 变量表(分组变量);class 变量表(分组变量);freq 变量(数值变量,用以表示相应记录出现的频数)weight变量(数值变量,用以表示相应记录的权重系数)var 变量表(待分析的数值变量);id 变量表变量表(待分析的数值变量);output ;run;means过程的一般格式 3SAS软件教程(Celon)1.proc means 4SAS软件教程(Celon)5SAS软件教程(Celon)2.Output语句语句Output语句的选择项包括:out=sa

3、s数据集 指定输出数据集名。统计关键字=输出变量名字 指定新数据集中的统计项,并给这些统计项的变量命名。等号右边各变量名代表var语句中对应变量的相应统计量。例如:Proc means;var x1 x2;output out=stats mean=ma mb std=sa;Run;其中其中ma代表代表x1的均值,的均值,mb代表代表x2的均值,的均值,sa代表代表x1的标准的标准差,差,x2的标准差不输出。的标准差不输出。6SAS软件教程(Celon)例例7-2-1 利用利用means过程按班级过程按班级class进行单变量统计。进行单变量统计。Score1数据集中含有学生成绩的永久数据集。

4、注意数据集中含有学生成绩的永久数据集。注意by语语句与句与class语句的不同。下面是语句的不同。下面是Score1中的数据:中的数据:7SAS软件教程(Celon)*ex7-2-1;libname ep D:sasdataSASLX;PROC means data=ep.score1 maxdec=3;var t1-t3;class clas;title statistics with a class variable;run;输出中最多显示3位小数8SAS软件教程(Celon)*ex7-2-1;Proc sort data=ep.score1;by clas;run;PROC means

5、maxdec=3;by clas;var t1-t3;Title statistics with by variable;run;9SAS软件教程(Celon)使用使用class语句数据集不需要语句数据集不需要sort过程排序;使用过程排序;使用by语句数据语句数据集事先要进行排序。而且两个语句使得输出格式也有些不集事先要进行排序。而且两个语句使得输出格式也有些不同。请仔细体会他们的差别。同。请仔细体会他们的差别。10SAS软件教程(Celon)例7-2-2略;例7-2-3 在某一年级中,测得15名男生的身高,数据存于文件“e:sasdtfit1.txt”中,求出身高的平均值、标准差、变异系数

6、和95%的置信区间。*ex7-2-3;DATA STUDENT;INFILE E:SASDTFIT1.TXT;LENGTH NAME$10;INPUT NUM$NAME SEX$H W;PROC MEANS DATA=STUDENT N MEAN STD CV LCML UCML;VAR H;RUN;11SAS软件教程(Celon)Freq过程 进行统计分析首先应该对我们手头上的数进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的据特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,频率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可

7、能的分布有这有助于我们对数据的特征,可能的分布有一个比较全面的了解,用于帮助我们决定进一个比较全面的了解,用于帮助我们决定进一步的研究方法和方向一步的研究方法和方向.我们将介绍如何用编我们将介绍如何用编程和程和INSIGHT模块进行描述性数据分析模块进行描述性数据分析.12SAS软件教程(Celon)例7-3-1对学生成绩进行分段统计分析。Score2.txt为含学生成绩的数据文件,把学生的平均成绩分成A(大于等于80)、B(大于等于60,小于80)、C(小于60)三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数。libname ep e:saslx;data b;/*读入数据*/

8、infile e:sasdtscore2.txt;input num$t1-t3;v=MEAN(OF t1-t3);run;PROC FORMAT;/*产生成绩等级的格式*/VALUE vfmt LOW-60=C60-80=B80-HIGH=A;run;PROC FREQ data=b;/*对成绩各等级频数分析*/FORMAT v vfmt.;TABLES v;run;13SAS软件教程(Celon)14SAS软件教程(Celon) PROC FREQ DATA=数据集名数据集名;TABLES 变量变量;RUN;PROC FREQ DATA=数据集名数据集名;TABLES 变量变量*变量变量

9、变量变量*变量变量./nocol norow nocum nofreq nopercent missing list out=数据集数据集 outpct;WETGHT 变量名变量名;BY 变量名变量名;RUN;一般是分类变量一般是分类变量freq过程的一般格式 15SAS软件教程(Celon)FREQ(频数频数)过程过程-定义输出格式的定义输出格式的FORMAT过程过程proc format;(用于用于Fitness数据集数据集)value oxyfmt 32.5-37.5=32.5-37.7 37.5-42.5=37.5-42.5 42.5-47.5=42.5-47.547.5-52.5=4

10、7.5-52.5 52.5-57.5=52.5-57.5 57.5-62.5=57.5-62.5;run;当当37.5直方图/条形图”27SAS软件教程(Celon)28SAS软件教程(Celon)29SAS软件教程(Celon)30SAS软件教程(Celon)31SAS软件教程(Celon)32SAS软件教程(Celon)(抽取)33SAS软件教程(Celon)(输出)34SAS软件教程(Celon)35SAS软件教程(Celon) 分析员应用及变量的取值分布分析员应用及变量的取值分布 用分析员应用进行频数统计并作分布图 1.1.选菜单栏目的选菜单栏目的 统计统计(Statistics)(S

11、tatistics)=统计描述统计描述(Descriptive)(Descriptive)=频数频数统计统计(Frequency Counts)(Frequency Counts)=弹出频数统计窗口弹出频数统计窗口;2.2.在弹出的频数统计窗口中选在弹出的频数统计窗口中选分析变量分析变量-产生频数表产生频数表;3.3.在频数统计窗口下方选在频数统计窗口下方选 plots plots 纽纽;4.4.在弹出菜单的条形图在弹出菜单的条形图(Bar charts)(Bar charts)框中点框中点击在击在HorizontalHorizontal前方的方框上前方的方框上,使之打勾使之打勾;5.OK=O

12、K.5.OK=OK.则显示结果则显示结果.6.6.击在屏幕左边的击在屏幕左边的CodeCode上显示完成分析的上显示完成分析的SASSAS程序程序.36SAS软件教程(Celon)37SAS软件教程(Celon)Tabulate过程proc tabulate 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq 变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)table,var 变量名称(待分析的数值变量,统计量列入相应的表单元格);run;38SAS软件教程(Celon) tabulate过程中table

13、语句用来实现具体的表格绘制过程,其后是作为表格三个维度的分组变量,表示三个维度的变量间以逗号分隔,三个维度分别是页(page)、横轴(side)和纵轴(top)。三个维度不必全部指定,如果只指定一个维度(如本例),SAS将其当作纵轴处理;如果指定两个,SAS将其作为横轴和纵轴处理,前面的变量为横轴,后面的变量为纵轴;若指定三个维度,在最前的变量为页,中间的为横轴,最后的为纵轴。39SAS软件教程(Celon)同一维度可以是一个变量,也可以是多个变量的排列组合,多个变量的排列组合形式如下:(1)并列:变量间以空格相间隔,如“a b”的表格形式如下:a1a2a3b1b2b3(2)交叉:变量间以星号

14、(*)相连接,如“a*b”的表格形式如下:a1a2a3b1b2b3b1b2b3b1b2b3(3)混合形式:变量间以空格或星号分隔,必要时加圆括号,如“a*(b c)”的表格形式如下:a1a2b1b2c1c2b1b2c1c240SAS软件教程(Celon)另外,和变量一同在table语句中出现的还有一些表示特定统计量的SAS关键词,可以控制相应统计量在表格中的显示。Tabulate过程可以计算的统计量及其在table语句中的名称如下表。名称所代表的统计量名称所代表的统计量n单元格频数pctn频数百分比,须指定相应的分母项nmiss单元格上有遗漏数据的记录个数pctsum某变量(数值型)合计占指定

15、合计值的百分比mean均数css校正的总平方和min最小值tderr均值的标准误max最大值cv变异系数sum合计t用来检测均值是否为零的单侧t值std标准差prt上述t值的统计显著程度range全距,即最大值与最小值之差var方差uss未校正的总平方和sumwgt加权值的总和41SAS软件教程(Celon)Summary过程 Proc Summary与与Proc Means有相同的功能与用有相同的功能与用法法.后者缺省为后者缺省为print,将结果输出到将结果输出到OUTPUT窗窗;前者缺省为前者缺省为noprint,不输出结果到不输出结果到OUTPUT窗窗.PROC Summary DAT

16、A=数据集名数据集名 maxdec=位数位数 fw=域宽域宽 print 输出统计量名列输出统计量名列;VAR 变量名列变量名列;CLASS 变量名列变量名列;BY 变量名列变量名列;ID 变量名变量名;OUTPUT OUT=数据集名数据集名 记入数据集统计量名列记入数据集统计量名列;RUN;42SAS软件教程(Celon) 在在proc meansproc means或或proc summaryproc summary中中,可用多个可用多个outputoutput语句语句,它有它有三种方式规定输出数据集中的统计量:三种方式规定输出数据集中的统计量:statistic-keyword=仅适用于

17、一个统计量多个变量仅适用于一个统计量多个变量;statistic-keyword=name-list;statistic-keyword(variable-list)=name-list;可指定仅对某些变量计算这一统计量可指定仅对某些变量计算这一统计量.缺省情形是在输出数据集中由变量缺省情形是在输出数据集中由变量 _stat_ _stat_ 来注明来注明统计量名统计量名 .43SAS软件教程(Celon)例例:设输入数据集有变量设输入数据集有变量X1,X5,以下给出以下给出OUTPUT语句及选语句及选项项OUT=生成输出数据集包含统计量和名字生成输出数据集包含统计量和名字:(1)output

18、out=b1 mean=;(1)output out=b1 mean=;/*输出数据集输出数据集1 1中包含中包含5 5个变量的均值个变量的均值,变量名为变量名为X1,.,X5 X1,.,X5*/(2)output out=b2 mean=m1 m2 var(x3)=;(2)output out=b2 mean=m1 m2 var(x3)=;/*输出数据集输出数据集2 2中包含变量中包含变量X1,X2X1,X2的均值的均值,变量名为变量名为m1,m2;m1,m2;以及以及x3x3的方差的方差,变量名字仍为变量名字仍为X3 X3*/(3)output out=b3 mean(x3 x4)=m3

19、m4 std(x5)=s5;(3)output out=b3 mean(x3 x4)=m3 m4 std(x5)=s5;/*输出数据集输出数据集3 3中包含变量中包含变量X3X3和和X4X4的均值的均值,存放均值的存放均值的变量名为变量名为m3m3和和m4,m4,变量变量X5X5的标准差存放在的标准差存放在S5S5中中 */44SAS软件教程(Celon) (4)output out=b4 mean=max(x1)=(4)output out=b4 mean=max(x1)=sum(x3)=/sum(x3)=/autonameautoname;/*输出数据集输出数据集4 4中包含中包含:5 5

20、个变量的均值个变量的均值,变量名为变量名为x1_Mean,.,x5_Mean;x1_Mean,.,x5_Mean;变量变量X1X1的的最大最大值值,变量名为变量名为x1_Max;x1_Max;变量变量X X的的总和总和,变量名为变量名为x3_Sum.x3_Sum.*/(5)(5)当使用当使用Class语句时语句时,与由与由OUTPUT语句生成的数语句生成的数据集内容有关的选项和语句据集内容有关的选项和语句:PROC:PROC的选项的选项nway;WAYS语句和语句和 TYPES语句语句.(见见Bstat33.sas)45SAS软件教程(Celon)univariate过程proc univar

21、iate 选项列表;by 变量名称(分组变量);class 变量名称(分组变量);freq 变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)histogram 变量名称/选项列表 output var 变量名称(待分析的数值变量);run;univariate过程和以上两个过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在univariate过程中计算(如众数),以及univariate过程中所具有的绘图功能。histogram语句即用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同

22、类型的拟合图形(如正态分布的分布密度曲线)。46SAS软件教程(Celon)UNIVARIATE过程除了可以完成与MEANS过程相同的基本统计量外,还可以计算变量的极端值、分位数,生成频率表,并支持对数据进行正态性检验。UNIVARIATE与MEANS过程不同的功能包括:描述变量极端值的情况。计算分位数,如中位数,1/4和3/4分位数。生成若干个描述变量分布的图。生成频率表。对数据进行正态性检验。47SAS软件教程(Celon)48SAS软件教程(Celon)RPOC UNIVARIATE DATA=数据集名数据集名 noprint mu0=值值 plot normal;VAR 变量名列变量名

23、列;BY 变量名列变量名列;ID 变量名变量名;OUTPUT OUT=数据集名数据集名 关键名关键名=变量名变量名 .PCTLPTS=p1,p2,.PCTLPRE=前缀词前缀词;.RUN;用户另指定要求计算用户另指定要求计算的的p1%,p2%分位数分位数.49SAS软件教程(Celon) proc univariate data=fitness;var runtime oxygen;id age;run;proc univariate data=fitness noprint;var runtime;output out=percents p10=op10 p90=op90 median=me

24、dian q1=q1 q3=q3 pctlpts=20 80 pctlpre=p qrange=iqrange range=range;proc print data=percents;run;50SAS软件教程(Celon) proc sort data=sasuser.fitness out=sorted;by group;run;proc univariate data=sorted;var weight;by group;run;proc univariate data=sasuser.fitness plot normal;var weight;run;51SAS软件教程(Celon

25、) 直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARIATE过程过程-变量分布的图形描述变量分布的图形描述 PROC UNIVARIATE DATA=数据集名数据集名 noprint;VAR 变量名列变量名列;HISTOGRAM 变量名列变量名列/midpoints=中点列中点列 normal(mu=均值均值 sigma=标准差标准差 图象选项图象选项)exp(theta=阈值阈值 图象选项图象选项)lognormal(theta=阈值阈值 图象选项图象选项);INSET 统计量关键名统计量关键名=显示名显示名 格式格式;QQPLOT 变量名列变量名列/square.;PROBPLO

26、T 变量名列变量名列/.;BY 变量名列变量名列;ID 变量名变量名;RUN;52SAS软件教程(Celon) 直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=sasuser.fitness;var oxygen;id age;run;proc univariate data=sasuser.fitness;var oxygen;histogram;proc univariate data=sasuser.fitness noprint;histogram oxygen;title Histogram;run;(Bst

27、at41.sas)53SAS软件教程(Celon)proc univariate data=sasuser.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=2 color=orange w=4);inset n mean(4.1)std(4.2);run;proc univariate data=sasuser.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=1 w=2)lognormal(L=2 w=3 theta=30)ex

28、ponential(L=8 w=4 theta=30);run;quit;54SAS软件教程(Celon)直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题 1.1.打开打开FITNESSFITNESS数据集,并用菜单系统或数据集,并用菜单系统或编程方法完成以下分析计算:编程方法完成以下分析计算:(1)(1)计算变量计算变量OXYGENOXYGEN和和RUNTIMERUNTIME的均值、的均值、方差、标准差、偏度和峰度;指定方差、标准差、偏度和峰度;指定GROUPGROUP为为BYBY变量后,分别计算三组数据的以上几变量后,分别计算三组数据的以上几个描述统计量个描述统计量;(2)(2)(

29、2)(2)在在OXYGENOXYGEN的直方图中如何拟合一条正的直方图中如何拟合一条正态分布曲线态分布曲线?这条正态曲线的均值和方差是这条正态曲线的均值和方差是多少多少?怎样改变拟合曲线的均值和方差怎样改变拟合曲线的均值和方差?55SAS软件教程(Celon)直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题(3)(3)对变量对变量OXYGENOXYGEN绘制经验分布函数曲线绘制经验分布函数曲线和和QQQQ图,并检验该变量的分布是否为正态图,并检验该变量的分布是否为正态分布分布(=0.05(=0.05和和=0.15)?=0.15)?(4)(4)变量变量RUNTIMERUNTIME的标准差

30、和极差是什么的标准差和极差是什么?这些值说明什么这些值说明什么?(5)(5)绘制分类变量绘制分类变量GROUP(GROUP(测量水平指定为测量水平指定为Nom)Nom)的条形图,并问属于组的条形图,并问属于组2 2的频数有多的频数有多少少?56SAS软件教程(Celon)直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题.打开打开CLASSCLASS数据集,可类似完成题数据集,可类似完成题1 1中的中的练习练习.这里分类变量为这里分类变量为SEXSEX或或AGEAGE,数值变数值变量为量为WEIGHTWEIGHT和和HEIGHT.HEIGHT.另要求:另要求:(1)(1)计算计算AGEA

31、GE的频数分布表的频数分布表,并要求输出按年龄并要求输出按年龄由大到小的频数表由大到小的频数表;(2)(2)绘制绘制AGEAGE的条形图的条形图,并要求生成水平条形图并要求生成水平条形图.3.3.打开打开SASUSER.GPASASUSER.GPA数据集数据集,该数据集收集了该数据集收集了224224名学生的资料名学生的资料,考察的变量有考察的变量有7 7个个,包括包括:GPA GPA中学生的平均等级中学生的平均等级;HSM HSM高中数学平均等级高中数学平均等级;57SAS软件教程(Celon)直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题 HSEHSE高中英语平均等级高中英语平均

32、等级;HSS HSS高中科学平均等级高中科学平均等级;STAMSTASTAMSTA测验数学部分的得分测验数学部分的得分;SATVSTA SATVSTA测验口语部分的得分测验口语部分的得分;SEX SEX学生的性别学生的性别.试完成以下分析计算试完成以下分析计算:(1)(1)作各变量的直方图,查看其分布情况并简答作各变量的直方图,查看其分布情况并简答;(2)(2)研究研究GPAGPA分数的分布分数的分布.说明极端值情况说明极端值情况.(3)(3)画出画出GPAGPA的盒形图,并说明如何解释的盒形图,并说明如何解释.通过直方图通过直方图、盒形图、各统计量、分布检验结果简述、盒形图、各统计量、分布检

33、验结果简述GPAGPA分布的特分布的特点点.58SAS软件教程(Celon)Gplot/plot过程proc gplot 选项列表;bubble 散点图表达式 bubble2 散点图表达式 plot 散点图表达式 plot2 散点图表达式run;从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可

34、以是同一变量,也可以是两个不同的变量)。59SAS软件教程(Celon)proc gchart 选项列表;图形关键词 变量名称/选项列表 run;gchart过程的一般格式 gchart过程可以使用的图形关键字及其所绘制的图形类型图形关键字绘制的图形类型图形关键字绘制的图形类型block方块图pie圆图hbar水平的条形图pie3d三维圆图hbar3d水平的三维条形图 donut环形图vbar竖立的条形图star星形图vbar3d竖立的三维条形图 60SAS软件教程(Celon) 图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字

35、符型的。其后的选项比较重要的有:(1)type=统计量关键字,表示以图形对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(freq)、均数(mean)、总计(sum)、频数百分比(pctn)等;(2)subgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量;(3)sumvar=变量名(数值变量),指定要进行统计计算的变量,也就是“type=统计量关键字”选项中统计量的计算所依据的变量。61SAS软件教程(Celon)proc gplot 选项列表;bubble 散点图表达式 bubble2 散点图表达式 plot 散点图表达式 plot2 散点图表达式ru

36、n;gplot过程的一般格式 从gplot过程的一般格式中我们就可看出,此过程只能绘制两种类型的图形,bubble语句指示SAS绘制泡状散点图,plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在同一区域内(bubble2和bubble在同一区域,plot2和plot在同一区域)绘制第二个图形,两者的横坐标相同(同一变量),纵坐标分别位于左右两侧(可以是同一变量,也可以是两个不同的变量)。62SAS软件教程(Celon)散点图表达式的一般形式为:(1)bubble和bubble2语句:纵坐标变量名*横坐标变量名=泡尺寸变量名(变量值以泡的大小表示),三者均应为数

37、值变量;(2)plot和plot2语句:纵坐标变量名*横坐标变量名,此处等号及其后的部分可以省略,此时SAS以默认的散点类型绘制散点图;若等号后为n(n为正整数,是散点类型的编号),SAS则以指定的编号对应的散点类型绘制散点图;若等号后为分类变量名(可为字符型或数值型,为数值型时作为离散型变量处理,每一个值将被当作一个类别),此变量的具体值(或与每个具体值对应的图形)将被作为散点用来绘制散点图。chart过程和过程和plot过程的一般格式及各选项使用方法分别与过程的一般格式及各选项使用方法分别与gchart过程和过程和gplot过程是基本相同的,不同之处仅在于后两者中涉及到有关三维和图形元过程

38、是基本相同的,不同之处仅在于后两者中涉及到有关三维和图形元素(颜色等)的语句和选项在前两者中是无效的。例如素(颜色等)的语句和选项在前两者中是无效的。例如vbar3d语句在语句在chart过过程中无效,程中无效,bubble语句在语句在plot过程中无效。其余的语句和选项使用方法完全相过程中无效。其余的语句和选项使用方法完全相同,所以在掌握了同,所以在掌握了gchart过程和过程和gplot过程后,过程后,chart过程和过程和plot过程你会不学过程你会不学自通。自通。63SAS软件教程(Celon) 1.GCHART1.GCHART过程过程(1)语法格式语法格式 GCHART过程用于绘制直

39、方图、饼形图(扇形图)、过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为:三维直方图等表示变量分布的图形。其语法格式为:PROC GCHART DATA=;/RUN;64SAS软件教程(Celon) GCHART过程可以使用的图形关键字及其所绘制的过程可以使用的图形关键字及其所绘制的图形类型见表图形类型见表2-5。图形关键字后的变量名用以指定进行图形描述时的分图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。组的标志),也可以是字符型的。图形关

40、键字绘制的图形类型图形关键字绘制的图形类型block方块图pie饼形图hbar水平的条形图pie3d三维饼形图hbar3d水平的三维条形图donut环形图vbar竖立的条形图star星形图vbar3d竖立的三维条形图65SAS软件教程(Celon)选项比较重要的有:选项比较重要的有:TYPE=统计量关键字,表示以图形对变量统计量关键字,表示以图形对变量(SUMVAR所指定的变量)的哪一种统计量所指定的变量)的哪一种统计量进行描述,比如频数(进行描述,比如频数(FREQ)、均数)、均数(MEAN)、总计()、总计(SUM)、频数百分比)、频数百分比(PCTN)等;)等;SUBGROUP=变量名(

41、分组变量),指定变量名(分组变量),指定要进行分组(各组段内再分组)的变量;要进行分组(各组段内再分组)的变量;SUMVAR=变量名(数值变量),指定要进变量名(数值变量),指定要进行统计计算的变量,也就是行统计计算的变量,也就是“TYPE=统计量统计量关键字关键字”选项中统计量的计算所依据的变量。选项中统计量的计算所依据的变量。66SAS软件教程(Celon)1.(2)画条形图(直方图)画条形图(直方图)2.使用使用VBAR关键字可以画条形图。例如,画出数关键字可以画条形图。例如,画出数据集据集Mylib.sryzc中中Income变量的条形图的代码如变量的条形图的代码如下:下:1.proc

42、 gchart data=mylib.sryzc;2.vbar Income;3.run;3.结果如图所示。结果如图所示。67SAS软件教程(Celon) 其中绘图用的变量用其中绘图用的变量用VBAR语句给出,如果把语句给出,如果把VBAR改成改成HBAR则条形方向变为横向。用则条形方向变为横向。用GCHART绘制的绘制的条形图和在条形图和在INSIGHT中绘制的直方图有所不同,它在中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在横轴标的是区间的中点值,而在INSIGHT中横轴标的中横轴标的是区间的端点值。是区间的端点值。可以指定分组的变量,例如在每个区段内再分段,可可以指定分组的变量

43、,例如在每个区段内再分段,可以用如下代码:以用如下代码:proc gchart data=mylib.sryzc;vbar Income/subgroup=R_Id;run;结果如图所示。结果如图所示。68SAS软件教程(Celon)(3)画三维条形图画三维条形图 使用使用BLOCK关键字可以画三维条形图。例如,画出关键字可以画三维条形图。例如,画出数据集数据集mylib.sryzc中中Income变量的三维条形图的代变量的三维条形图的代码如下:码如下:proc gchart data=mylib.sryzc;block Income/group=R_Id;run;结果如图所示。结果如图所示。

44、69SAS软件教程(Celon)(4)画饼形图画饼形图 使用使用PIE关键字可以画饼形图,关键字可以画饼形图,PIE3D关键字可以画关键字可以画三维饼形图。例如,画出数据集三维饼形图。例如,画出数据集mylib.sryzc中中Income变量的三维饼形图的代码如下:变量的三维饼形图的代码如下:proc gchart data=mylib.sryzc;PIE3D Income;run;结果如图所示。结果如图所示。70SAS软件教程(Celon)2.2.使用使用GPLOTGPLOT过程绘制散点图和连线图过程绘制散点图和连线图 通常用散点图和连线图可以表示:通常用散点图和连线图可以表示:一个变量随另

45、一个变量的变化;一个变量随另一个变量的变化;变量之间的关系;变量之间的关系;数据值的分布。数据值的分布。(1)GPLOT过程的一般格式过程的一般格式PROC GPLOT DATA=;PLOT *=/;SYMBOLn;RUN;常用的选项见表常用的选项见表2-6。71SAS软件教程(Celon)表表2-6 PLOT语句的选项语句的选项选项意义说明FRAM|NOFRAM在图形四周加入或不加入边框缺省为加入CFRAM=颜色边框内的颜色缺省为白色AUTOHREF(AUTOVEREF)在水平(垂直)轴的每个主刻度处加入水平(垂直)参考线NOAXIS取消坐标轴及相关的图形元素CAXIS=颜色设定轴的颜色CT

46、EXT=颜色设定与轴相关字符的颜色HAXIS=值列举设定水平轴主刻度的值VAXIS=值列举设定垂直轴主刻度的值72SAS软件教程(Celon) SYMBOL语句用来控制表示点的符号和点间的连线。语句用来控制表示点的符号和点间的连线。其中其中n是不同是不同SYMBOL语句的序号,可以是语句的序号,可以是1-99,缺,缺省为省为1。选项见表。选项见表2-7。表表2-7 SYMBOL语句的选项语句的选项选项意义取值V=符号表示点使用的符号plus,x,star,square,diamond,triangle,hash,y,z,paw,point,dot,circleC=颜色表示点的符号及连线的颜色b

47、lack,red,green,blue,cyan,magenta,gray,pink,orange,brown,yellowCV=颜色专指点的符号的颜色H=n指名符号的大小单位有:cell,cm,pct,pt,inPOINTLABEL在点的附近表明Y轴变量的值i=连线方式指明连线的方式none,join,spline,needleCI=颜色专指连线的颜色L=nn为线型的序号0 空白线,1-实线,2 虚线 W=nn表示线的宽度73SAS软件教程(Celon)(2)散点图散点图 绘制家庭总收入对家庭总支出的散点图,代码如下:绘制家庭总收入对家庭总支出的散点图,代码如下:proc gplot dat

48、a=mylib.sryzc;plot Income*outgo;run;结果显示了一个结果显示了一个GRAPHICS窗口,绘出了以窗口,绘出了以Income为纵轴、以为纵轴、以Outgo为横轴的散点图(见图)。为横轴的散点图(见图)。74SAS软件教程(Celon) 可以在图中按第三个变量分组画出散点图(如图可以在图中按第三个变量分组画出散点图(如图2-48右),代码如下:右),代码如下:proc gplot data=mylib.sryzc;plot Income*outgo=r_id;symbol1 color=black v=star;symbol2 color=blue v=dot;r

49、un;75SAS软件教程(Celon)(3)连线图连线图 为了绘制连线,只要在为了绘制连线,只要在SYMBOL语句中指定语句中指定i=join。例如绘制家庭总收入对家庭编号的连线图(图例如绘制家庭总收入对家庭编号的连线图(图2-49左),代码如下:左),代码如下:proc gplot data=mylib.sryzc;plot Income*id;symbol i=join v=star;run;76SAS软件教程(Celon) 也可以分地区绘制家庭总收入对家庭编号的连线图也可以分地区绘制家庭总收入对家庭编号的连线图(图(图2-49右),代码如下:右),代码如下:proc gplot data

50、=mylib.sryzc;plot Income*id=r_id;symbol1 color=black i=join v=star;symbol2 color=blue i=join v=dot;run;77SAS软件教程(Celon)图形的调整与输出图形的调整与输出 在图形中也可以用在图形中也可以用TITLE语句和语句和FOOTNOTE语句给语句给图形加标题和脚注。图形加标题和脚注。还可以在图形的标题、标签中使用还可以在图形的标题、标签中使用TrueType字型的字型的汉字,例如:汉字,例如:goptions ftext=宋体宋体 htitle=4 cells htext=3 cells;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(SAS课件-第16讲-描述性统计过程.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|