1、1第一章第一章n1.1 一维数据的数字特征一维数据的数字特征n1.2 数据的分布数据的分布n2.3 多维数据的数字特征与相关分析多维数据的数字特征与相关分析2n1.1 一维数据的数字特征一维数据的数字特征n设有一维数据:设有一维数据:x1,x2,xn是研究对象的样本观测是研究对象的样本观测值,数据分析的值,数据分析的任务任务是对样本观测值进行分析,提取是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主要信息或特出推断;首先用某些简单的量概括它的主要信息或特征征数字特征:数字特征:数据的集中
2、位置、分散程度、数据数据的集中位置、分散程度、数据分布的形状特征分布的形状特征等等。等等。3n1.1.1 1.1.1 表示位置的数字特征(统计量)表示位置的数字特征(统计量)nxxxnxnnii111n均值能够概括反映所有各项数据的均值能够概括反映所有各项数据的平均水平平均水平。n有许多的优良的统计性质,但当数据中存在有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏异常值时,它则缺乏抗扰性抗扰性(稳健性稳健性)易受异常易受异常值的影响而使其值有较大变化。值的影响而使其值有较大变化。4n设设inininixxxx1)(1)1(max,min5n2为偶数为奇数中位数nxxnxnnn )(2
3、1 )12()2()21(6n3.3.分位数(分位数(PercentilePercentile)n0.50.5分位数就是中位数,分位数就是中位数,0.750.75分位数和分位数和0.250.25分位数分位数又分别称为上、下四分位数,并分别记为又分别称为上、下四分位数,并分别记为QQ3 3=M=M0.750.75和和QQ1 1=M=M0.250.25 。是整数不是整数npxxnpxMnpnpnpp ,)(21 ,)1()()1(x4.4.三均值三均值 31412141QMQMn各数字特征从不同侧重点反映了数据的位置特征,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的
4、特性,如利用结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性中位数与各分位数可以考察数据的对称性7n设数据是总体设数据是总体X X的样本,总体的分布函数是的样本,总体的分布函数是F(),设总体设总体的均值为的均值为=E(X),由大数定律,当,由大数定律,当n较大时,样本均值较大时,样本均值可以作为总体均值的估计:可以作为总体均值的估计:x设总体分布设总体分布F(x)是连续分布是连续分布,0p1,称满足称满足的的p为总体分布为总体分布F(x)的的p分位数,分位数,当总体当总体p分位数为分位数为唯一的情况时,在一定条件下,样本的唯一的情况时,在一定条件下,样本的p分
5、位数分位数M p是总体分位数是总体分位数p相合估计,即当相合估计,即当n充分大时,充分大时,p M p pFp)(8n1.1.2 表示分散性的数字特征表示分散性的数字特征1)(.)()(11221122nxxxxxxnsnniiniixxnss122)(119n变异系数(变异系数(Coefficient of Variation或或CV):是将是将标准差表示为均值的百分数,是观测数据相对标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的的数据的分散性时是有用的,无量纲量:无量纲量:(%)100 xsC
6、V2.极差(极差(Range)与半极差()与半极差(Interquartile range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=x(n)-x(1)=maxxi minxi上、下四分位数之差上、下四分位数之差R R3 3=Q=Q3 3 Q Q1 1称为称为四分位极差或四分位极差或半极差半极差,它描述了中间半数观测值的散布情况,具,它描述了中间半数观测值的散布情况,具有有抗扰性抗扰性稳健性稳健性;极差有许多特殊的应用,如质极差有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。量控制图中的极差图,提供证券市场行情等。10 设数据是总体
7、设数据是总体X的样本,则数据的方差的样本,则数据的方差s2、标准差、标准差s、变异系数、变异系数CV分别是总体方差分别是总体方差2=Var(X)、总体标、总体标准差准差、总体变异系数、总体变异系数r=/的相合估计:即当样的相合估计:即当样本容量本容量n充分大时,有充分大时,有2 s2,s,rCV 正态总体正态总体(,2)的上、下四位数分别为的上、下四位数分别为 0.75=+0.6745,0.25=-0.6745 总体的总体的四分位极差四分位极差为为r r1 1=0.75-0.25=1.349,则有则有 =r r1 1/1.349 总体标准差总体标准差的一个抗扰性的估计的一个抗扰性的估计四分位数
8、四分位数标准差:标准差:349.11R11 3 312n1.1.3 表示数据分布形状的统计量表示数据分布形状的统计量niisxxnnng131)()2)(1(13n2.2.峰度峰度kurtosiskurtosis:峰度描述数据向分布尾端散布峰度描述数据向分布尾端散布的趋势的趋势)3)(2()1(3)()3)(2)(1()1(214nnnsxxnnnnnKnii1415设设1,.,是总体是总体X的样本,的样本,34分别表示总体分别表示总体X的的3、4阶中心矩,即阶中心矩,即3=E 4)-3且数据的偏度且数据的偏度g1和峰度和峰度g2分别是总体偏度分别是总体偏度G 1和总体峰度和总体峰度G 2 的
9、相合估计,即当的相合估计,即当n充分大时,有充分大时,有 G 1 16n在在SASSAS中计算一维数据的数字特征中计算一维数据的数字特征17n1.1.MEANS过程过程指定统计量的输出数据集名指定统计量的输出数据集名18n二、选择项说明二、选择项说明WDF19基本统计量基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSS与假设检验有关的统计量与假设检验有关的统计量 STDERR(标准误)标准误)T PRT(与与t对应的对应的p值值)LCLM(可信区间下限可信区间下限)UCLM(可信可信区间上限区间上限)四、四、PROC MEANS过程中的其他语句过程
10、中的其他语句 l l VAR语句:语句:列入变量表的数据集变量将被列入变量表的数据集变量将被MEANS过过程分析、若无次句,则计算输入数据集中除程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变语句中的变量之外的所有变量的统计量。量的统计量。l l BY语句:语句:指定变量进行分组处理。(事先必须按指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序)语句指定的变量将输入数据集按升序排序)2021n(3)(3)使用使用CLASSCLASS语句和语句和BYBY语句语句n 使用使用CLASSCLASS语句和语句和BYB
11、Y语句可以分组计算分语句可以分组计算分析变量的描述统计量值,由析变量的描述统计量值,由CLASSCLASS语句和语句和BYBY语句指定的变量在分析中起分组(类)的语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别作用,被称为分类变量。两个语句的区别是:是:使用使用BYBY语句时要求数据集须按语句时要求数据集须按BYBY变量排变量排序,使用序,使用CLASSCLASS语句无此要求。语句无此要求。使用使用BYBY语句时输出按语句时输出按BYBY变量的每个值分变量的每个值分别提供一个表,使用别提供一个表,使用CLASSCLASS语句则将所有结语句则将所有结果排列在一个表之中。果
12、排列在一个表之中。22使用使用BY语句之前先排序,如下代码可以在上语句之前先排序,如下代码可以在上例中按变量例中按变量R_Id分组统计:分组统计:23使用使用CLASS语句分组较为简单,如语句分组较为简单,如下代码也可以在上例中按变量下代码也可以在上例中按变量R_Id分分组统计:组统计:nproc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;24指定某一变量,表示同一观察的指定某一变量,表示同一观察的出现次数。出现次数。将将MEANS过程的结过程的结果输出给
13、指定的数据集中。果输出给指定的数据集中。八、缺失数据处理八、缺失数据处理 1VAR变量:变量:MEANS过程在开始计算某一变过程在开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。被删除的观察若在其它变量上没数据的观察删除。被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。有缺失数据,则会纳入其它变量的计算过程中。2变量:变量:若观察在若观察在BY变量上有缺失数据,则变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样过程会为这些观察另形成一个分组,同样进行计算分析。进行计算分析。2526nU
14、NIVARIATE过程的一般格式为过程的一般格式为:27n二、选择项说明二、选择项说明 28nNORMAL29nPCDLDEF=1|2|3|4|5做分母;做分母;30n三、过程中常用的统计量关键字三、过程中常用的统计量关键字)T 3132data examp1_1;input x;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 7
15、5.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70
16、.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;例例1.133nproc univariate data=examp1_1 noprint;nvar x;noutput out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;nproc print data=out;nrun;ndata a;nset out;nQ=0.25*Q1+0.25*Q3+0.5*Median;nrun;nproc print data=a;var Q;*只输出只输出Q;没
17、有输;没有输出所有的出所有的anrun;34proc univariate data=examp1_1 noprint;var x;Output out=out mean=mean Median=Median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1 var=var std=stdcv=cv QRANGE=QRANGE;proc print data=out;run;例例1.235data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE;U=Q3+1.5*QRAN
18、GE;sigma=QRANGE/1.349;run;proc print data=a;run;data b;set examp1_1;if 64.3=x82.7 then delete;run;proc print data=b;run;36proc univariate data=examp1_3 noprint;var x x1 x2 x3;output out=out mean=mean1 mean2 mean3 mean4var=var1 var2 var3 var4 std=std1 std2 std3 std4Median=M1 M2 M3 M4 RANGE=RANGE1 RAN
19、GE2 RANGE3 RANGE4Q1=Q11 Q12 Q13 Q14 Q3=Q31 Q32 Q33 Q34 QRANGE=QRANGE1 QRANGE2 QRANGE3 QRANGE4Skewness=SKEWNSS1 SKEWNSS2 SKEWNSS3 SKEWNSS4KURTOSIS=KURTOSIS1 KURTOSIS2 KURTOSIS3 KURTOSIS4;proc print data=out;例例1.337data a;set out;Q111=0.25*Q11+0.25*Q31+0.5*M1;Q112=0.25*Q12+0.25*Q32+0.5*M2;Q113=0.25*Q1
20、3+0.25*Q33+0.5*M3;Q114=0.25*Q14+0.25*Q34+0.5*M4;D1=Q11-1.5*QRANGE1;U1=Q31+1.5*QRANGE1;D2=Q12-1.5*QRANGE2;U2=Q32+1.5*QRANGE2;D3=Q13-1.5*QRANGE3;U3=Q33+1.5*QRANGE3;D4=Q14-1.5*QRANGE4;U4=Q34+1.5*QRANGE4;run;proc print data=a;var Q111 Q112 Q113 Q114 D1 D2 D3 D4 U1 U2 U3 U4;run;38小结小结 本次课主要学习了本次课主要学习了391
21、.2 1.2 数据的分布数据的分布 数字特征刻画了数据的主要特征,而要对数数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,必须研究数据据的总体情况作全面的描述,必须研究数据的分布,数据分布的主要描述方法是:的分布,数据分布的主要描述方法是:1.2.1 1.2.1 直方图、经验分布函数和直方图、经验分布函数和QQQQ图图1.2.2 1.2.2 茎叶图茎叶图1.2.3 1.2.3 数据的分布拟合检验与正态性检验数据的分布拟合检验与正态性检验40n1.2.1 1.2.1 41例例 某工厂生产一种零件,由于生产过程中各种某工厂生产一种零件,由于生产过程中各种随机因素的影响,零件长度不尽
22、相同。现测得随机因素的影响,零件长度不尽相同。现测得该厂生产的该厂生产的100个零件长度个零件长度(单位单位:mm)如下如下:频率直方图作法频率直方图作法129,132,136,145,140,145,147,142,138,144,147,142,137,144,144,134,149,142,137,137,155,128,143,144,148,139,143,142,135,142,148,137,142,144,141,149,132,134,145,132,140,142,130,145,148,143,148,135,136,152,141,146,138,131,138,136
23、,144,142,142,137,141,134,142,133,153,143,145,140,137,142,150,141,139,139,150,139,137,139,140,143,149,136,142,134,146,145,130,136,140,134,142,142,135,131,136,139,137,144,141,136.这这100个数据中,最小值是个数据中,最小值是128,最大值是,最大值是155。12815542作频率直方图的步作频率直方图的步骤骤(1).先确定作图区间先确定作图区间 a,b;a=最小数据最小数据-/2,b=最大数据最大数据+/2,是数据的精度
24、。是数据的精度。本例中本例中 =1,a=127.5,b=155.5。(2).确定数据分组数确定数据分组数 m=1.87(n1)2/5+1,组距组距 d=(b a)/m,子区间端点子区间端点 ti=a+i d,i=0,1,m;43(3).计算落入各子区间内观测值频数计算落入各子区间内观测值频数 ni=#xj ti1,ti),j=1,2,n,频率频率 fi=ni/n,i=1,2,m;子区间子区间频数频数 频率频率(127.5,131.5)60.06(131.5,135.5)120.12(135.5,139.5)240.24(139.5,143.5)280.28(143.5,147.5)180.18
25、(147.5,151.5)80.08(151.5,155.5)40.0444(4).(4).以小区间以小区间 ti-1,ti 为底,为底,yi=fi/d (i=1,2,m)为高作一系列小矩形,组成了频为高作一系列小矩形,组成了频 率直方图,简称率直方图,简称直方图直方图。45n密度直方图与频数直方图密度直方图与频数直方图 46 直方图是直方图是阶梯形阶梯形,而常用的概率密度曲线是,而常用的概率密度曲线是光滑曲线光滑曲线;参数分布拟合就是在限定的参数分布类中参数分布拟合就是在限定的参数分布类中利用数据估计利用数据估计其中参数其中参数,用估计的参数所对应的密度曲线去用估计的参数所对应的密度曲线去拟
26、合直方拟合直方图边缘的形态图边缘的形态。SASSAS有如下常用参数分布类型:有如下常用参数分布类型:正态分布正态分布:222)(exp21)(xxf对数正态分布对数正态分布:.,0,2)(log(exp)(21)(22xxxxxf指数分布指数分布:.,0,)(exp1)(xxxxf47 GammaGamma分布分布:WeibullWeibull分布分布:BetaBeta分布分布:.,0,),()()()(111其他xBxxxf.,0,exp)(1)(1xxxxxf.,0,exp1)(1xxxxxfcc48n2 2 经验分布函数经验分布函数 直方图较适合总体分布为直方图较适合总体分布为连续型的连
27、续型的,对一般总体,通,对一般总体,通常用经验分布函数估计其总体分布函数常用经验分布函数估计其总体分布函数F(x),设,设x1,.,xn是总体的样本,其经验分布函数是是总体的样本,其经验分布函数是niinxxInxF1)(1)(经验分布函数经验分布函数Fn(x)是是非降右连续的阶梯函数非降右连续的阶梯函数,是,是总体分布函数总体分布函数F(x)的相合估计的相合估计,即即当当n充分大时充分大时:Fn(x)F(x)。SAS软件利用软件利用proc capability可以做出可以做出Fn(x)与拟合的总体分布函数的图形与拟合的总体分布函数的图形.,0,1)(xxxxxxIiii其中其中I()是示性
28、函数即是示性函数即49n3.QQ3.QQ图图 直方图与经验分布函数图难于从图上判断样本分布直方图与经验分布函数图难于从图上判断样本分布是否近似于某种类型的分布,是否近似于某种类型的分布,QQQQ图却能。以正态分图却能。以正态分布为例说明布为例说明QQQQ图的做法:图的做法:设设x1,.,xn是总体的样本,其次序统计量为是总体的样本,其次序统计量为x(1),x(2),x(n),(x)是标准正态分布函数是标准正态分布函数,-1(x)是其反是其反函数,其函数,其QQ图是由以下点构成的散点图:图是由以下点构成的散点图:其中横坐标是其中横坐标是(i-0.375)/(n+0.25)的分位数,的分位数,0.
29、375和和0.25是修正量。若样本数据近似于正态分布,在是修正量。若样本数据近似于正态分布,在QQ图上图上近似的在近似的在直线直线y=x+上,此直线的斜率为标准差上,此直线的斜率为标准差,截距是均值截距是均值。nixnii,2,1,25.0375.0)(150 其它的分布,也有相应的其它的分布,也有相应的QQ图,其中图,其中散点的横坐散点的横坐标是该分布的对应的分位数,标是该分布的对应的分位数,可以判断数据是否近似可以判断数据是否近似服从该类型的分布;服从该类型的分布;利用利用QQ图还可以获得样本的偏度与峰度的有关信图还可以获得样本的偏度与峰度的有关信息,当数据不是来处正态总体时,息,当数据不
30、是来处正态总体时,QQ图的散点图是图的散点图是弯曲的,并可根据图像的弯曲的某些特点判断偏度或弯曲的,并可根据图像的弯曲的某些特点判断偏度或峰度的正负。峰度的正负。51n4 4 散点图散点图 52n5.5.线图线图 53nSAS的的Proc 54Histogram variables/options;*作直方图作直方图对指定的变量对指定的变量variables作直方图,作直方图,options可以是:可以是:Midpoins=values:设置分组区间的中点值,可以逐个列出设置分组区间的中点值,可以逐个列出(等间隔等间隔);也可以用;也可以用“Midpoins=a TO b BY c”方式指定,
31、方式指定,其中其中a和和b分别为各区间中点的初值和终值,分别为各区间中点的初值和终值,c为步长。为步长。缺省时,系统自动根据数据确定各区间中点值。缺省时,系统自动根据数据确定各区间中点值。Vscale=scale:规定直方图在每个区间上柱的高度标规定直方图在每个区间上柱的高度标准,其中准,其中scale可以是:可以是:Count,Percent,Proportion,分分别表示每个区间上柱高为数据个数、数据个数占整个别表示每个区间上柱高为数据个数、数据个数占整个数据量的百分比和比例。缺省时,为数据量的百分比和比例。缺省时,为Percent.Normal(或或Lognormal,Gamma,We
32、ibull,Beta,Exponential):要求在直方图上拟合指定的分布的概率密度函数曲线,要求在直方图上拟合指定的分布的概率密度函数曲线,可以同时列出一种或多种分布,其中的参数系统将自动用可以同时列出一种或多种分布,其中的参数系统将自动用其极大似然估计值代替,也可在分布名称后加括号予以指其极大似然估计值代替,也可在分布名称后加括号予以指定:定:55各分布密度中的各分布密度中的参数参数均用均用“Sigma=value”来指定;来指定;Normal分布中的均值用分布中的均值用“MU=value”指定;指定;Gamma分布中的参数分布中的参数用用“Alpha=value”指定;指定;Weibu
33、ll分分布中的参数布中的参数c用用“C=value”指定;指定;Beta分布中的参数分布中的参数、用用“Alpha=value Beta=value”指定;其中上指定;其中上面的所有的面的所有的“value”可用可用“EST”代替,表示用其极代替,表示用其极大大似然估计值代替相应参数。如:似然估计值代替相应参数。如:56n另外,除正态分布外,其他分布均是单侧另外,除正态分布外,其他分布均是单侧的,一般的,一般需要指定门限参数需要指定门限参数的值,的值,也可也可在分布名称后的括号内加在分布名称后的括号内加“Theta=value”指定,如指定,如“Weibull(Theta=value C=2)
34、”,其中其中value比数据的最小值还要小,若不指比数据的最小值还要小,若不指定则自动设为定则自动设为“Theta=0”,同时,同时Beta分布分布中的参数中的参数、的的和要大于相应变量的观测和要大于相应变量的观测值的最大值值的最大值57nCdfplot variables/options;58n例例1.4data examp1_4;input x;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3
35、75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 7
36、3.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;59n例例1.4proc capability data=examp1_4 graphics noprint;histogram x/normal(mu=est sigma=est)vscale=proportion;cdfplot/normal(mu=est sigma=est);qqplot x/normal(mu=est sigma =est);run;60PLOT与与GPLOT过程过程可用于描绘散点分布图,以直观地显示数可用于描绘散点分布图,
37、以直观地显示数据的变化趋势及数据间的相关关系等。据的变化趋势及数据间的相关关系等。DATA D3;DATA D3;DO X=0 TO 360 BY 20;DO X=0 TO 360 BY 20;Y=SIN(X Y=SIN(X*3.14159/180);3.14159/180);OUTPUT;OUTPUT;END;END;PROC PLOT;PROC PLOT;PLOT Y PLOT Y*X;X;RUN;RUN;61 Plot of Y*X.Legend:A=1 obs,B=2 obs,etc.1+A A|A A|A A Y|A A|0+A A A|A A|A A|A A-1+A A -+-+-
38、+-+-+-0 100 200 300 40062 通过通过PLOT过程提供的其它语句和选择项可对散点过程提供的其它语句和选择项可对散点图作出如下更加具体的要求:图作出如下更加具体的要求:l l63 在在PLOT过程中可使用下列语句:过程中可使用下列语句:PROC PLOT options;BY 变量表变量表;.*可选语句可选语句 PLOT yvariable*xvariable=symbol/options;选择项选择项(1)data=sasdataset:指出作图用的数据指出作图用的数据集,缺省时,以最新的数据集作图集,缺省时,以最新的数据集作图;(2)Vpercent=percent或或
39、Vpct=percent:规定该过规定该过程产生的散点图在垂直方向占一页的比例,如程产生的散点图在垂直方向占一页的比例,如“Vpct=33”表示让表示让proc plot过程在每一页作过程在每一页作3张张图,每张图占一页的图,每张图占一页的1/3;(3)Hpercent=percent或或hpct=percent:规定各图规定各图在水平方向上占一页的比例在水平方向上占一页的比例;64PLOT yvariable*xvariable=symbol/options;说明作图变量,点表示的符号及坐标刻度规说明作图变量,点表示的符号及坐标刻度规定等,其中定等,其中yvariable*xvariable
40、指出作图的数据指出作图的数据集中变量的名称,中间用集中变量的名称,中间用*连接;连接;symbol指出散点的表示符号,如指出散点的表示符号,如*,+等,缺等,缺省时用省时用A,B等;等;plot后可依次列出多组变量,后可依次列出多组变量,如如“Plot X1*Y1 X1*Y2 X2*Y1”等;等;斜杠后的斜杠后的options可以省略也可以是以下内容可以省略也可以是以下内容 (1)Haxis或或Vaxis=a to b by n:定义横坐标或纵坐定义横坐标或纵坐标上的刻度;标上的刻度;(2)Overlay:将将PLOT后的几对变后的几对变量所形成的散点图做在同一坐标系内,如量所形成的散点图做在
41、同一坐标系内,如“Plot X1*Y1=F X1*Y2=T”;(3)Box:要求将要求将图做在一个矩形框内。图做在一个矩形框内。65应用举例应用举例 662000+|A 1500+A A A|A A COD|A 1000+|A|A A|500+A A -+-+-+-+-+-+-+-+-+-80 100 120 140 160 180 200 220 24067GPLOT语句说明语句说明 在在GPLOT过程中可使用下列语句:过程中可使用下列语句:PROC GPLOT options;PLOT yvariable*xvariable/options;Symbol options;PROC GPLO
42、T选择项选择项主要指出作图用的数据集。主要指出作图用的数据集。PLOT yvariable*xvariable/options;与前面的基本相与前面的基本相同,只是同,只是options除指坐标轴的刻度外,还可用除指坐标轴的刻度外,还可用“Caxis=color”指定坐标轴的颜色,其中指定坐标轴的颜色,其中color可以是可以是“red,blue,green,yellow”等;等;Symbol options;主要用来定义绘图的符号、颜色、是主要用来定义绘图的符号、颜色、是否连线及线条的粗细:否连线及线条的粗细:68(1)Value或或V=symbol:定义点的表示符号,定义点的表示符号,sy
43、mbol可以是:可以是:plut(+)square,dot,point,star,diamond,triangle,circle等。等。(2)I=interpolation:确定散点之间连线的形状确定散点之间连线的形状:interpolation:join(用直线连接用直线连接);spline(用光滑线用光滑线连接连接);needl(从数据点向水平轴画垂线从数据点向水平轴画垂线);none(不不画线画线);缺省时为;缺省时为none(3)C=color:指定点或线的颜色指定点或线的颜色(4)W或或Width=n:确定连线的粗细,缺省时为确定连线的粗细,缺省时为1。69应用举例应用举例 701.
44、2.2 1.2.2 茎叶图茎叶图茎叶图的三列数茎叶图的三列数茎叶图有三列数:左边的一列表示茎,茎叶图有三列数:左边的一列表示茎,也就是变化不大的也就是变化不大的位数,从小到大;位数,从小到大;右边的一列数为统计数(某行数据频右边的一列数为统计数(某行数据频数),数),它是上(或下)向中心累积的值,中心的数表示最它是上(或下)向中心累积的值,中心的数表示最多数组的个数;多数组的个数;中间的是数组中的变化位中间的是数组中的变化位,它是按照一定,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。抽
45、出的叶子一样,所以人们形象地叫它茎叶图。71茎叶图茎叶图是一个与直方图相类似的特殊工具,但又与是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图直方图不同,茎叶图保留原始资料的资讯保留原始资料的资讯,直方图则,直方图则失去原始资料的讯息失去原始资料的讯息。将茎叶图茎和叶。将茎叶图茎和叶逆时针方向旋逆时针方向旋转转9O9O度度,实际上就是一个直方图,可以从中统计出次,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的数,计算出各数据段的频率或百分比频率或百分比。从而可以看出。从而可以看出分布分布是否与正态分布或单峰偏态分布逼近是否与正态分布或单峰偏态分布逼近。茎叶图的特征茎叶图的特
46、征 1 1、用茎叶图表示数据有、用茎叶图表示数据有两个优点:一是两个优点:一是从统计图上从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;图中得到;二是二是茎叶图中的数据可以随时记录,随时添茎叶图中的数据可以随时记录,随时添加,方便记录与表示。加,方便记录与表示。2 2、茎叶图只便于、茎叶图只便于表示两位有效数字表示两位有效数字的数据,而且茎的数据,而且茎叶图只方便记录叶图只方便记录两组的数据两组的数据,两个以上的数据虽然能够,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。记录,但是没有表示两个记录那么直观、清
47、晰。72PROC UNIVARIATE过程:过程:73Stem Leaf Stem Leaf n 78 0 8 8 8 4 78 0 8 8 8 4 n 70 3 4 4 4 4 4 4 4 8 70 3 4 4 4 4 4 4 4 8 741.2.3 1.2.3 数据的分布拟合检验与正态性检验数据的分布拟合检验与正态性检验 对直方图配的概率曲线,对经验分布函对直方图配的概率曲线,对经验分布函数配的总体分布函数曲线,是不是合适?数配的总体分布函数曲线,是不是合适?需要统计检验!需要统计检验!分布拟合检验分布拟合检验用于检验样本观测值是否用于检验样本观测值是否来自某种给定类型分布的总体来自某种给
48、定类型分布的总体 正态性检验正态性检验用于检验样本观测值是否来用于检验样本观测值是否来自正态分布的总体自正态分布的总体75n12检验的用途检验的用途(1)适合性检验(吻合度检验)适合性检验(吻合度检验)是指对样本的理论数先是指对样本的理论数先通过一定的理论分布推算出来,然后用通过一定的理论分布推算出来,然后用与与相比较,从而得出实际观测值与理论数之间是相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。否吻合。因此又叫吻合度检验。.,)(:,)(:,1021的一种方法的分布函数不是总体的分布函数为总体假设来检验关于总体分布的根据样本的情况下这是在总体的分布未知xFXHxFXHX
49、XXn762)2)2检验检验就是统计样本的就是统计样本的实际观测值实际观测值与与理论推算值理论推算值之间的偏离程度。之间的偏离程度。实际观测值与理论推算值之间的偏离程度决定其实际观测值与理论推算值之间的偏离程度决定其2 2值的大小。理论值与实际值之间值的大小。理论值与实际值之间偏差越大偏差越大,2 2值值就越大,就越大,越不符合;偏差越小越不符合;偏差越小,2 2值就越小,值就越小,越趋于越趋于符合;若两值完全相等时符合;若两值完全相等时,2 2值就为值就为0 0,表明理论值,表明理论值完全符合。完全符合。77 基本步骤基本步骤 1.1.提出假设提出假设H H0 0:F(x)F:F(x)F0
50、0(x)H(x)H1 1:F(x)F:F(x)F0 0(x)(x)2.2.计算检验统计量:计算检验统计量:将实轴分为将实轴分为l个区间,分点满足个区间,分点满足 -=a-=a0 0aa1 1aa2 2 a al-1-1a 2(l-k-1)时,时,拒绝拒绝H H0 0;当当022(l-k-1)时,时,不能拒绝不能拒绝H H0 0.2()n79 但在但在SAS在统计软件中,假设检验的结果通常以检验在统计软件中,假设检验的结果通常以检验p值的方式输出,即:一个检验值的方式输出,即:一个检验p值是检验统计量在值是检验统计量在H H0 0下下取其更极端值的概率。如上的取其更极端值的概率。如上的2检验,检