SAS软件与统计应用教程课件.ppt

上传人(卖家):晟晟文业 文档编号:3761196 上传时间:2022-10-10 格式:PPT 页数:80 大小:826.09KB
下载 相关 举报
SAS软件与统计应用教程课件.ppt_第1页
第1页 / 共80页
SAS软件与统计应用教程课件.ppt_第2页
第2页 / 共80页
SAS软件与统计应用教程课件.ppt_第3页
第3页 / 共80页
SAS软件与统计应用教程课件.ppt_第4页
第4页 / 共80页
SAS软件与统计应用教程课件.ppt_第5页
第5页 / 共80页
点击查看更多>>
资源描述

1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第二章 SAS的描述统计功能n2.1 描述性统计的基本概念描述性统计的基本概念n2.2 在在SAS中计算统计量中计算统计量n2.3 统计图形统计图形STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n2.1 2.1 描述性统计的基本概念描述性统计的基本概念n2.1.1 统计学的基本概念统计学的基本概念n2.1.2 表示数据位置的统计量表示数据位置的统计量n2.1.3 表示数据分散程度的统计量表示数据分散程度的统计量n2.1.4 表示数据分布形状的统计量表示数据分布形状的统计量n2.1.

2、5 其它统计量其它统计量STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.1 统计学的基本概念统计学的基本概念1.1.总体与样本总体与样本 总体总体(population):总体是指所研究对象的全体组成:总体是指所研究对象的全体组成的集合。的集合。样本样本(sample):样本是指从总体中抽取的部分对象:样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为容量。容量为n的样本常用的样本常用n个随机变量个随机变量X1,X2,Xn表示,其观测值(样本数据)则表示为表示,其观测

3、值(样本数据)则表示为x1,.,xn,为,为简单起见,有时不加区别。简单起见,有时不加区别。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.参数与统计量参数与统计量 参数参数(parameter):参数是用来描述总体特征的概括性:参数是用来描述总体特征的概括性值。如总体平均值(值。如总体平均值()、总体方差()、总体方差(2)、总体比例)、总体比例()等。)等。统计量统计量(statistics):统计量是用来描述样本特征的概:统计量是用来描述样本特征的概括性值。如样本均值(括性值。如样本均值()、样本方差()、样本方差(s2)、样本比)、样本比例(例(

4、P)等。)等。xSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.2 表示数据位置的统计量表示数据位置的统计量 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用可以使用“位置统计量位置统计量”来作为数据的总体代表,常见来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。的位置统计量有:均值、中位数、分位数、众数等。1.1.均值(均值(MeanMean)均值是所有观测值的平均值,是描述数据取值中心位均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:置的一个度量:nxxxnxnnii

5、111STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.中位数(中位数(MedianMedian或或MedMed)中位数是描述观测值数据中心位置的统计量,大体上中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:位数的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算为偶数为奇数中位数nxxnxnnn

6、 )(21 )12()2()21(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.众数(众数(ModeMode)观测值中出现最多的数称为众数。众数用得不如均值观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。此众数用得多些。4.4.百分位数(百分位数(PercentilePercentile)分位数也是描述数据分布和位置的统计量。分位数也是描述数据分布和位置的统计量。0.5分位分位数就是中位数,数就是中位数,0.75分位数和分位数和0.25分位数又

7、分别称为上、分位数又分别称为上、下四分位数,并分别记为下四分位数,并分别记为Q3和和Q1。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.3 表示数据分散程度的统计量表示数据分散程度的统计量1.1.极差(极差(RangeRange)与半极差()与半极差(InterquartileInterquartile range range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=maxxi minxi 上、下四分位数之差上、下四分位数之差Q3 Q1称为四分位极差或半极称为四分位极差或半极差,它描述了中间半数观测值的

8、散布情况。差,它描述了中间半数观测值的散布情况。2.2.方差(方差(VarianceVariance或或VarVar)方差是由各观测值到均值距离的平方和除以观测量减方差是由各观测值到均值距离的平方和除以观测量减1:1)(.)()(11221122nxxxxxxnsnniiSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.标准差(标准差(Standard deviationStandard deviation或或Std DevStd Dev)方差的开方称为标准差:方差的开方称为标准差:标准差的量纲与原变量一致。标准差的量纲与原变量一致。4.4.变异系数(变异

9、系数(Coefficient of VariationCoefficient of Variation或或CVCV)变异系数是将标准差表示为均值的百分数,是观测数变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:的分散性时是有用的:2ss(%)100 xsCVSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.4 表示数据分布形状的统计量表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。偏度和峰度是描述数据分布形状的指标。1.1.偏度(

10、偏度(skewnessskewness)偏度是刻画数据对称性的指标。偏度的计算公式为:偏度是刻画数据对称性的指标。偏度的计算公式为:在在SAS中:中:关于均值对称的数据其偏度为关于均值对称的数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。niisxxnnnSK13)()2)(1(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.峰度(峰度(kurtosiskurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公峰度

11、描述数据向分布尾端散布的趋势。峰度的计算公式为:式为:利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。)3)(2()1(3)()3)(2)(1()1(214nnn

12、sxxnnnnnKniiSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.5 其它统计量其它统计量1.1.均值的标准误(均值的标准误(Std Error MeanStd Error Mean或或Std MeanStd Mean或或Std Std errorerror)2.2.校正平方和(校正平方和(Corrected sum of squaresCorrected sum of squares)niixxnnns12)()1(1 MeanStdniixxCSS12)(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.未

13、校正平方和(未校正平方和(Uncorrected sum of squaresUncorrected sum of squares)4.4.k k阶原点矩阶原点矩其中其中A1即为均值即为均值 。5.5.k k阶中心矩阶中心矩niixUSS12,.2,1,11kxnAnikikx,.3,2,)(11kxxnBnikikSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n2.2 2.2 在在SASSAS中计算统计量中计算统计量n2.2.1 用用INSIGHT计算统计量计算统计量n2.2.2 用用“分析家分析家”计算统计量计算统计量n2.2.3 编程实现描述性统计编程实

14、现描述性统计STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.1 用用INSIGHT计算统计量计算统计量 INSIGHT可以非常方便地计算各种统计量。可以非常方便地计算各种统计量。1.1.实例数据实例数据【例例2-1】表表2-1为两个不同地区居民家庭收入和支出情为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。况。将表将表2-1中数据通过中数据通过Excel导入到导入到SAS数据集数据集Mylib.sryzc中,中,4个变量名分别为:个变量名分别为:ID、R_ID、Inco

15、me和和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。庭总支出。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程家庭编号地区编号家庭总收入家庭总支出家庭编号地区编号家庭总收入家庭总支出121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117

16、023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.在在INSIGHTINSIGHT中打开数据集中打开数据集 在菜单中选择在菜单中选择“Solution(解决方案)(解决方案)”“Analysis(分析)(分析)”“Interacti

17、ve Data Analysis(交互式数据(交互式数据分析)分析)”,打开,打开“SAS/INSIGHT Open”对话框,在对对话框,在对话框中选择数据集:话框中选择数据集:Mylib.sryzc,单击,单击“Open(打(打开)开)”按钮,即可在按钮,即可在INSIGHT中打开数据窗口,如图中打开数据窗口,如图所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.计算统计量计算统计量 选择菜单选择菜单“Analyze(分析)(分析)”“Distribution(Y)(分布)(分布)”,打开,打开“Distribution(Y)”对话框。在数据

18、对话框。在数据集集sryzc的变量列表中,选择的变量列表中,选择Income为分析变量,选择为分析变量,选择R_Id,为分组变量。,为分组变量。单击单击“Output(输出)(输出)”按钮,在打开的对话框中包按钮,在打开的对话框中包含描述性统计量选项。含描述性统计量选项。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 选择选项矩统计量和分位数,取消默认的选项:选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和和“Histogram/Bar Chart”,单击单击“OK”按钮,即可得到变量按钮,即可得到变量Income按按“

19、R_Id”分分组的各种矩统计量(组的各种矩统计量(Moments)和分位数()和分位数(Quantiles),),如图所示。如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.2 用用“分析家分析家”计算统计量计算统计量1.1.启动启动“分析家分析家”选择主菜单选择主菜单“Solutions(解决方案)(解决方案)”“Analysis(分析)(分析)”“Analyst(分析家)(分析家)”,打开,打开“分析家分析家”窗口。窗口。选择主菜单选择主菜单“File(文件)(文件)”“Open By SAS Name”,打开,打开“Select A Mem

20、ber”对话框,选择数据对话框,选择数据集集Mylib.sryzc。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.通过通过Summary StatisticsSummary Statistics菜单计算描述性统菜单计算描述性统计量计量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Summary Statistics(汇总统计(汇总统计量)量)”,打开,打开“Summary Statistics”对话框,选择变对话框,选择变量列表中的量列表中的Income,单击,单击“Analysi

21、s”按钮,选定分析按钮,选定分析变量,如图所示。变量,如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程单击单击“Statistics”按钮,打开按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计对话框。对话框中列出可以计算的所有统计量(如右图所示)。量(如右图所示)。描述性统计量如下图所示。描述性统计量如下图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.通过通过DistributionsDistributions菜单计算描述性统计量菜单计算描述性

22、统计量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Distributions(分布)(分布)”,打开,打开“Distributions”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击单击“Analysis”按钮,选定分析变量。按钮,选定分析变量。单击单击“OK”按钮,即可得到关于变量按钮,即可得到关于变量Income的矩统的矩统计量和基本统计测度计量和基本统计测度STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.3 编程实现描述性统计编程实现描述性统计 SAS提供

23、有多个不同的过程来实现统计量的计算,它提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和和UNIVARIATE这三个过程来计算简单的描述这三个过程来计算简单的描述统计量。统计量。FREQ过程常用来计算分类变量取值的频数,而过程常用来计算分类变量取值的频数,而MEANS和和UNIVARIATE过程则对数值型变量计算均值、过程则对数值型变量计算均值、标准差等统计量。标准差等统计量。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.FREQ1.FREQ过程过程 FREQ过程包括

24、多个控制频数输出与检验的语句和选过程包括多个控制频数输出与检验的语句和选项,格式如下:项,格式如下:PROC FREQ DATA=;TABLES ;FORMAT .;RUN;其中其中PROC FREQ语句调用语句调用FREQ过程,标志过程,标志FREQ过程的开始;过程的开始;TABLES语句用于创建有关变量所构成的各种表格并语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。进行相应的假设检验和计算,可以多次使用。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 例如,统计数据集例如,统计数据集Mylib.sryzc中变量中变量R_Id

25、和和Income频数的代码如下:频数的代码如下:proc freq data=mylib.sryzc;tables R_Id Income;RUN;显示结果如图所示。显示结果如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.MEANS2.MEANS过程过程(1)语法格式语法格式 MEANS过程的一般格式过程的一般格式:PROC MEANS DATA=;VAR;BY;CLASS;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 PROC MEANS语句后的选项主要用来指定所要计算语句后的选项主要用来指定所要计算的

26、统计量,默认情况下,的统计量,默认情况下,MEANS过程会给出频数、均过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。需要在选项中指定。VAR语句引导所要进行分析的所有变量的列表,语句引导所要进行分析的所有变量的列表,SAS将对将对VAR语句所引导的所有变量分别进行描述性统计分语句所引导的所有变量分别进行描述性统计分析。析。BY语句与语句与CLASS语句所指定的分类变量用来进行分语句所指定的分类变量用来进行分组统计,但输出格式不同。组统计,但输出格式不同。STATSTATSTATSTATSASSAS软件与统计应

27、用教程软件与统计应用教程 如对数据集如对数据集Mylib.sryzc中的中的Income变量计算简单统计变量计算简单统计量,只要用如下量,只要用如下MEANS过程:过程:proc means data=mylib.sryzc;var Income;run;结果如图结果如图2-15所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)使用统计量关键字列表使用统计量关键字列表 在在PROC MEANS语句中使用统计量关键字列表:语句中使用统计量关键字列表:proc means data=mylib.sryzc n mean median p1 p5 p9

28、5 p99 q1 q3 max min;var Income;run;结果如图结果如图2-16所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数range极差nmiss缺失数据记录数skewness偏度mean均值kurtosis峰度std标准差t分布位置假设检验之t统计量stderr标准误probt上述t统计量对应的概率值var方差q1第一四分位数median中位数q3第三四分位数mode众数qrange四分位

29、数间距cv变异系数p1第一百分位数max最大值p5第五百分位数min最小值p10第十百分位数sum总计p90第九十百分位数sumwgt加权值总计p95第九十五百分位数css校正平方和p99第九十九百分位数uss未校正平方和STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)使用使用CLASS语句和语句和BY语句语句 使用使用CLASS语句和语句和BY语句可以分组计算分析变量的语句可以分组计算分析变量的描述统计量值,由描述统计量值,由CLASS语句和语句和BY语句指定的变量在语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语分析中起分组(类)的作用

30、,被称为分类变量。两个语句的区别是:句的区别是:使用使用BY语句时要求数据集须按语句时要求数据集须按BY变量排序,使用变量排序,使用CLASS语句无此要求。语句无此要求。使用使用BY语句时输出按语句时输出按BY变量的每个值分别提供一变量的每个值分别提供一个表,使用个表,使用CLASS语句则将所有结果排列在一个表之语句则将所有结果排列在一个表之中。中。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 使用使用BY语句之前先排序,如下代码可以在上例中按语句之前先排序,如下代码可以在上例中按变量变量R_Id分组统计:分组统计:proc sort data=mylib.

31、sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 使用使用CLASS语句分组较为简单,如下代码也可以在语句分组较为简单,如下代码也可以在上例中按变量上例中按变量R_Id分组统计:分组统计:proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Incom

32、e;class R_Id;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.UNIVARIATE3.UNIVARIATE过程过程 UNIVARIATE过程的一般格式为:过程的一般格式为:PROC UNIVARIATE DATA=;VAR;BY|CLASS;HISTOGRAM/;OUTPUT OUT=;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 UNIVARIATE过程和过程和MEANS过程的格式非常相似,过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计相同的语句和选项其含义也相同,所不同

33、的是某些统计量只能在量只能在UNIVARIATE过程中计算(如众数),而且过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。过程中具有绘图功能。其中,其中,HISTOGRAM语句用来指示语句用来指示SAS对其后所指定对其后所指定的变量绘制直方图,其后的选项用来指示的变量绘制直方图,其后的选项用来指示SAS添加不同添加不同类型的拟合图形(如正态分布的分布密度曲线)。类型的拟合图形(如正态分布的分布密度曲线)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 输出包括五个部分。输出包括五个部分。第一部分是矩统计量,各统计量已在第一部分是矩统计量,各统

34、计量已在2.1.1中作了介绍。中作了介绍。第二部分为基本的位置和分散程度统计量,位置统计第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距差、方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结果,包括第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。第五部分是观测数据的五个最低值和五个最高值。STATSTATSTA

35、TSTATSASSAS软件与统计应用教程软件与统计应用教程n2.3 2.3 统计图形统计图形n2.3.1 定量变量的图形表示定量变量的图形表示n2.3.2 分类变量的图形表示分类变量的图形表示STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.3.1 定量变量的图形表示定量变量的图形表示1.1.直方图直方图 对于数值型变量,常用直方图(对于数值型变量,常用直方图(histogram)来展示)来展示变量取值的分布。将变量取值的范围分成若干区间,在变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数等间隔区间的情况,每个区

36、间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密形,它的宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度是密度的情况,每一矩形的度(频率组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。体的概率密度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图2-22 密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定软件

37、会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。一个分组方式,另外也提供了设定分组的方法。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.盒形图盒形图 盒形图(盒形图(boxplot,又称箱图、箱线图、盒子图)是,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的用更为简洁的方法表现数据在数轴上的分布及其特点的图形。图形。图图2-23的左边是根据居民家庭的收入情况所绘的盒形的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。图;右边是分地区情况所绘的盒形图。STATSTAT

38、STATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.散点图散点图 通常得到的数据可能有两个变量,比如家庭的收入和通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图另一个为纵坐标(这里是家庭总支出)来作图(图2-24)。这种图称为散点图)。这种图称为

39、散点图(Scatter Plot)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.线图线图 线图线图(Line Plot)用来表示变量间的取值变化情况,有用来表示变量间的取值变化情况,有单式和复式两种(图单式和复式两种(图2-25)。)。在复式线图中可用不同颜色的实线来标志区别,如图在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.3.2 分类变量的图形表示分类变量的图形表示 分类变量也可以通过图形直观地描绘出它们各类的数分类变量也可以通过图形直观地

40、描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。量和所占比例,常用的有条形图、饼图和马赛克图。1.1.条形图条形图 条形图条形图(Bar Chart)给出分类变量取每个值的频数,如给出分类变量取每个值的频数,如图图2-26所示为变量所示为变量R_ID取值的条形图。取值的条形图。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.饼图饼图 通常,饼图通常,饼图(Pie Chart)可以对分类变量描述其频数取可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再

41、按比例画出。区间取值的频数,再按比例画出。图图2-27中给出的是家庭支出分组频数的饼图。要注意中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。的是,如果有太多的分组,那么饼图就不那么好看了。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.马赛克图马赛克图 马赛克图马赛克图(Mosaic Plot)一般不对单个变量作,而是对一般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图量每种取值组合的观测个数和比例,如图2

42、-28所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n2.4 2.4 用用SASSAS绘制统计图形绘制统计图形n2.4.1 用用INSIGHT绘制统计图形绘制统计图形n2.4.2 用用“分析家分析家”绘制统计图形绘制统计图形n2.4.3 编程绘制统计图编程绘制统计图n2.4.4 图形的调整与输出图形的调整与输出STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.4.1 用用INSIGHT绘制统计图形绘制统计图形 INSIGHT模块可以画出多种统计图形,而且图形清模块可以画出多种统计图形,而且图形清晰、美观。晰、美观。

43、1.1.绘制直方图绘制直方图 选择菜单选择菜单“Analyze(分析)(分析)”“Histogram/Bar Chart(Y)(直方图(直方图/条形图)条形图)”,打开,打开“Histogram/Bar Chart(Y)”对话框。在数据集的变量列表中,选择变量,对话框。在数据集的变量列表中,选择变量,然后单击然后单击“Y”按钮。按钮。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单击单击“Output(输出)(输出)”按钮,在打开的对话框中选按钮,在打开的对话框中选择择“Labels(标签)(标签)”选项,如图所示,以便输出的图选项,如图所示,以便输出的图形

44、显示中文标签名。单击形显示中文标签名。单击“OK”按钮返回对话框。按钮返回对话框。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单击单击“OK”按钮,即可得到直方图如图按钮,即可得到直方图如图2-30左所示。左所示。单击图形框左下角处的三角形,在打开的菜单中选择单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)(值)”,即可在图中显示频数值,如图,即可在图中显示频数值,如图2-30右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.绘制条形图绘制条形图 INSIGHT模块对分类变量绘制条形图

45、。首先单击模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)(列名型)”,如图左所示。,如图左所示。选择菜单选择菜单“Analyze”“Histogram/Bar Chart(Y)”,打开,打开“Histogram/Bar Chart(Y)”对话框。在对话框。在数据集的变量列表中选择变量,然后单击数据集的变量列表中选择变量,然后单击“Y”按钮,按钮,如图右所示。如图右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单击单击“Output(输出)(输出

46、)”按钮,在打开的对话框中选按钮,在打开的对话框中选择择“Labels(标签)(标签)”选项,单击选项,单击“OK”按钮返回对按钮返回对话框。话框。单击单击“OK”按钮,即可得到条形图如图按钮,即可得到条形图如图2-34左所示。左所示。如果选择如果选择Income_freq(见(见2.2.2节)作为分析变量,则节)作为分析变量,则可以得到图可以得到图2-34右所示的条形图。右所示的条形图。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.绘制盒形图绘制盒形图 选择菜单选择菜单“Analyze”“Box Plot/Mosaic Plot(Y)”,可以对区间型

47、变量作盒形图,对分类型变量作马赛克图。可以对区间型变量作盒形图,对分类型变量作马赛克图。打开打开“Box Plot/Mosaic Plot(Y)”对话框。在数据表对话框。在数据表sryzc的变量列表中,选择的变量列表中,选择income变量,然后单击变量,然后单击“Y”按钮,按钮,income变量被选定,如图左所示。变量被选定,如图左所示。单击单击“Output”按钮,在打开的对话框中选择按钮,在打开的对话框中选择“Labels”选项,取消选项,取消“Y Axis Vertical”如图右所示。如图右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单击单

48、击“OK”按钮,即可得到盒形图如图按钮,即可得到盒形图如图2-36左所示。左所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程在在“Box Plot/Mosaic Plot(Y)”对话框中选定多个分析对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。比较变量的取值情况,如图所示。图形分析:从图中可以看到支出数据在均值两边的分图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占布近似对称,说明低于和高于平均支出的家庭几乎各占

49、一半;收入数据的二分之一分位数在均值的左边,说明一半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,大部分人的收入低于平均收入。另外,10号家庭的收入号家庭的收入是一个极端值,它不具有代表性。是一个极端值,它不具有代表性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.绘制马赛克图绘制马赛克图 选择选择“Analyze(分析)(分析)”“Box Plot/Mosaic Plot(Y)(盒形图(盒形图/马赛克图)马赛克图)”命令,可以对分类变量作马命令,可以对分类变量作马赛克图。下面以赛克图。下面以2.2.2中修改过的数据集中

50、修改过的数据集sryzc为例,作为例,作出出R_Id变量和变量和Income_freq变量的马赛克图。变量的马赛克图。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.绘制马赛克图绘制马赛克图首先将首先将R_Id变量改为变量改为“列名型列名型”(参见图(参见图2-33左)。左)。选择菜单选择菜单“Analyze(分析)(分析)”“Box Plot/Mosaic Plot(Y)(盒形 图(盒形 图/马 赛 克 图)马 赛 克 图)”,打 开,打 开“Box Plot/Mosaic Plot(Y)”对话框。在数据集对话框。在数据集sryzc的变量列的变量列表中

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(SAS软件与统计应用教程课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|