1、LOGO描述性统计分析描述性统计分析武汉大学计算中心武汉大学计算中心LOGO统计分析的基本概念统计分析的基本概念武汉大学计算中心武汉大学计算中心LOGO进行数据分析首先应:进行数据分析首先应:v 明确分析的目的明确分析的目的v 明确分析的对象明确分析的对象v 确定是否需要抽样确定是否需要抽样 在一些问题中,要考查整个总体往往是不可能的,因为要耗费太多的时间和资源v 确定需要记录的数据项目确定需要记录的数据项目武汉大学计算中心武汉大学计算中心LOGO1. 总体和样本总体和样本v 总体(总体(population)是所研究)是所研究的指标测量值的集合。的指标测量值的集合。总体样本 抽样(sampl
2、ing)是指从总体中抽取部分的做法。 样本(sample)通过抽样得到的总体的一个子集。武汉大学计算中心武汉大学计算中心LOGO抽样方法抽样方法v简单随机抽样:在抽样的过程中,任何一个样本简单随机抽样:在抽样的过程中,任何一个样本被选中的机会都相同。被选中的机会都相同。 利用计算机产生的随机数(对于有限总体),可模拟简单随机抽样,如对学生的学号用随机数进行抽样 对于无限总体不能进行标号,抽样过程不能用随机数,难于实施v分层抽样:按数据的层次进行抽样。分层抽样:按数据的层次进行抽样。 如小学生的身高,按每年级分为一个层武汉大学计算中心武汉大学计算中心LOGO分层抽样的优点分层抽样的优点v抽取的样
3、本在总体中分布得更均匀,更合理抽取的样本在总体中分布得更均匀,更合理v个层内单位之间差异程度相对减小,使在该层内个层内单位之间差异程度相对减小,使在该层内抽取的样本对该层的代表性得到提高抽取的样本对该层的代表性得到提高v层内成员差异小,而层间成员差异较大时,分层层内成员差异小,而层间成员差异较大时,分层抽样可以提高估计的精度抽样可以提高估计的精度武汉大学计算中心武汉大学计算中心LOGO2. 参数和统计量参数和统计量v对总体概括度量值和对样本概括度量值所用的方对总体概括度量值和对样本概括度量值所用的方法及名称是不同的。法及名称是不同的。v总体的度量值称为参数总体的度量值称为参数(paramete
4、rs),样本的,样本的度量值称为统计量度量值称为统计量(statistics)。v通常通常,总体参数是未知的总体参数是未知的,SAS系统给出的描述统系统给出的描述统计量适用于样本。计量适用于样本。 武汉大学计算中心武汉大学计算中心LOGO2. 参数和统计量参数和统计量v参数(参数(parameters):总体的度量值。):总体的度量值。v统计量(统计量(statistics):样本的度量值。):样本的度量值。v一般总体参数用希腊字母表示:一般总体参数用希腊字母表示:均值均值方差方差标准差标准差总体总体2样本样本X Xs s2 2s s武汉大学计算中心武汉大学计算中心LOGO3. 自由度自由度v
5、自由度是某一统计量中,变量可以自由取值的个自由度是某一统计量中,变量可以自由取值的个数数v用用df表示自由度。表示自由度。例例变量变量X有有n个取值,个取值, df=n;若它们受到;若它们受到k(kn)个条件制约,则个条件制约,则df=n-k武汉大学计算中心武汉大学计算中心LOGO4. 表示数据位置的统计量表示数据位置的统计量v 均值(均值(Mean):):所有观测值的平均值。所有观测值的平均值。nxxnii/ )(1v中位数(中位数(Median或或Med):用以描述数据取):用以描述数据取值的中心位置。值的中心位置。 中位数的计算方法:先将数据从小到大排序,x1,x2,xn然后计算: 中位
6、数的优点是它不受个别极端数据的影响,具有稳健性武汉大学计算中心武汉大学计算中心LOGO4. 表示数据位置的统计量表示数据位置的统计量v 众数(众数(Mode):观测值中出现最多的数。):观测值中出现最多的数。v 百分位数百分位数(Percentile): 描述数据分布和位置的统计描述数据分布和位置的统计量。量。 0.5分位数就是中位数,0.75分位数和0.25分位数分别称为上、下四分位数,记为Q3和Q1。 一般地,k百分位数(k-percentile),即约有k%的观测值小于它。武汉大学计算中心武汉大学计算中心LOGO5. 表示数据分散程度的统计量表示数据分散程度的统计量v极差极差(Range
7、):数据中最大值和最小值之差。:数据中最大值和最小值之差。 iixxminmax极差 方差(方差(Variance)以变量取值相对于均)以变量取值相对于均值的偏差平方平均来度量(又称均方值的偏差平方平均来度量(又称均方MS)。)。) 1/()(122nxxsnii武汉大学计算中心武汉大学计算中心LOGO例例SAS计算样本方差的步骤计算样本方差的步骤v计算样本均值计算样本均值v计算每个观测值同均值的差值计算每个观测值同均值的差值v把这些差值分别平方再求这些平方的和把这些差值分别平方再求这些平方的和v把平方和除以把平方和除以n-1,n为差值的个数(样本容量)为差值的个数(样本容量)假设样本值分别为
8、假设样本值分别为10,11,12,15,均值为,均值为12,样,样本容量为本容量为4,方差按下式计算:,方差按下式计算:s2=(10-12)2+(12-12) 2+(11-12) 2+(15-12) 2)/(4-1)=4.67武汉大学计算中心武汉大学计算中心LOGO5. 表示数据分散程度的统计量表示数据分散程度的统计量v 标准差(标准差(Standard deviation或或Std Dev):方):方差的开平方。差的开平方。 标准差的量纲与原变量一致。 方差和标准差所反映的是数据对其均值的某种离散程度。标准差(或方差)较小的观测数据一定是比较集中在均值附近,反之则是比较离散的。v 变异系数变
9、异系数(Coefficient of Variation或或CV) 变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的。 %100)()(均值标准差xsCV武汉大学计算中心武汉大学计算中心LOGO5. 表示数据分布形状的统计量表示数据分布形状的统计量v 偏度偏度(Skewness):描述数据对称性的指标:描述数据对称性的指标。31)2)(1(niisxxnnnSK 在SAS中,均值对称的数据,其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。v 峰度峰度(Kurtosis):描述数据向分
10、布尾段散布的趋势描述数据向分布尾段散布的趋势) 3)(2() 1( 3) 3)(2)(1() 1(241nnnsxxnnnnnKnii 利用峰度研究数据分布形状是以正态分布为标准,比较两端极端数据的分布情况,若 近似于标准正态分布,峰度接近于零;尾部较正态分布更分散,则峰度为正;尾部较正态分布更集中,则峰度为负武汉大学计算中心武汉大学计算中心LOGO正态分布正态分布如果数据来自正态分布总体,则如果数据来自正态分布总体,则:v 68%的值落在距均值的值落在距均值1个标准差的范围之内个标准差的范围之内v 95%的值落在距均值的值落在距均值2个标准差的范围之内个标准差的范围之内v 99%的值落在距均
11、值的值落在距均值3个标准差的范围之内个标准差的范围之内 例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间武汉大学计算中心武汉大学计算中心LOGOv概率概率P(probability) 概率是度量某随机事件发生可能性大小的一个数量。 概率的取值范围在01之间。若某一事件必然不发生,P=0;某一事件必然发生,P=1 概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的。武汉大学计算中心武汉大学计算中心LOGO统计的过程如下:总体
12、样本统计量抽样 计算 统计量描述推断描述:描述样本的各主要特征推断:扩大所收集信息的使用范围,用样本的特征来推断总体的特征。武汉大学计算中心武汉大学计算中心LOGO例例儿童体检数据如下儿童体检数据如下v刘明刘明3男男0.9413.5950.4v蔡行蔡行3男男0.9114.250v李敏李敏4女女1.3916.1551.6v李涛李涛4男男1.0215.4451.9v夏天夏天4男男1.0615.351v郭红郭红5女女1.0115.0451.9v胡月胡月5女女1.0215.0752.7v程彬程彬6女女1.0717.0453.7v杨兵杨兵6男男1.1218.0954.1v刘进刘进6男男1.1418.85
13、3.5v王苗苗王苗苗 7女女1.1619.9355.5v张思凡张思凡 7女女1.1518.251.4v 试用作描述性统计分析试用作描述性统计分析武汉大学计算中心武汉大学计算中心LOGO二、用二、用SAS/ASSIST进行描述统计进行描述统计v选择解决方案选择解决方案/ASSIST,并在欢迎窗口中点击,并在欢迎窗口中点击按钮按钮v选择选择Cascading Menu为新的为新的ASSIST工作工作模式;选择模式;选择Block Menu为为ASSIST 6的菜单的菜单工作模式。工作模式。v选择选择vData Analysis/Elementary/Summary Statistics 打开数据统
14、计分析的操作窗口打开数据统计分析的操作窗口 。 武汉大学计算中心武汉大学计算中心LOGOv点击点击Table按钮,确定要操作的数据集按钮,确定要操作的数据集 v点击点击Columns按钮,确定要分析的变量按钮,确定要分析的变量v点击点击Class按钮,确定分组变量按钮,确定分组变量 v点击点击Output Table按钮可将本次分析的结果按钮可将本次分析的结果数据输出到一个数据集中作为原始数保存起来数据输出到一个数据集中作为原始数保存起来 vSummary Statistic窗口的下方,确定所求窗口的下方,确定所求的统计量的统计量 ,可以根据需要选择一项或多项,可以根据需要选择一项或多项 武汉
15、大学计算中心武汉大学计算中心LOGO所求的统计量所求的统计量 v Number of nonmissing values 包括分析变量缺项值的观测数包括分析变量缺项值的观测数v Number of missing values 不包括分析变量缺项值的观测数不包括分析变量缺项值的观测数v Minimum 最小值最小值v Maximum 最大值最大值v Range全距,极差全距,极差v Sum和和v Mean(平)均值(平)均值v Variance方差方差v Standard Deviation标准差标准差v Standard error of the mean均数的标准误均数的标准误v Coef
16、ficient of variation 变异系数变异系数v Skewness 偏度偏度v Kurtosis峰度峰度武汉大学计算中心武汉大学计算中心LOGO三、用三、用SAS/INSIGHT进行数据描述进行数据描述 v1. 用用INSIGHT作直方图作直方图v选择解决方案选择解决方案/分析分析/交互式数据分析交互式数据分析 命令启动命令启动SAS/INSIGHT软件软件 v确定数据所在的数据集(确定数据所在的数据集(CLASS)v选择分析选择分析 /直方图直方图/条形图条形图(y)项绘制某变量的柱状图项绘制某变量的柱状图/直方图直方图 将WEIGHT选为Y 再点击确定v若单独考察女生的年龄分布
17、,可在既存的图下作如下操作若单独考察女生的年龄分布,可在既存的图下作如下操作 编辑/窗口/动画,在弹出的对话框中选SEX中的G即可,若再点击”应用”则以动态的方式交替显示不同性别的直方图,拖动”速度”处的游标可以调节交替的速度 武汉大学计算中心武汉大学计算中心LOGO2、用、用SAS/INSIGHT进行分布检验进行分布检验 v选择选择解决方案解决方案/分析分析/交互式数据分析交互式数据分析命令启动命令启动SAS/INSIGHT软件软件 v确定数据所在的数据集确定数据所在的数据集v选择分析选择分析 /分布分布(Y)项绘制某连续变量的盒状图和分布图项绘制某连续变量的盒状图和分布图 v在分布在分布(
18、Y)对话框右侧的列表框中选择对话框右侧的列表框中选择WEIGHT变量,单击变量,单击按钮按钮 v单击单击按钮,选累积分布按钮,选累积分布 v在在”分布检验分布检验”下方选择下方选择”正态正态”v在置信带下选在置信带下选95%置信水平置信水平v依次点击依次点击 武汉大学计算中心武汉大学计算中心LOGO2、用、用SAS/INSIGHT进行分布检验进行分布检验 v在显示的图形中,中间是经验分布曲线,两侧的是在显示的图形中,中间是经验分布曲线,两侧的是置信限置信限 。v置信水平可用鼠标拖动改变。置信水平可用鼠标拖动改变。v检验结果汇总在下方的分布检验表中检验结果汇总在下方的分布检验表中 v并提供了统计
19、量的数值及相应的检验概率值:原假并提供了统计量的数值及相应的检验概率值:原假设为总体分布为正态的。设为总体分布为正态的。v本例相应的本例相应的p值值0.150.05=。所以无法拒绝。所以无法拒绝原假设,可以接受总体分布为正态的原假设,可以接受总体分布为正态的 武汉大学计算中心武汉大学计算中心LOGO用分析家作频数统计用分析家作频数统计v选择选择”解决方案解决方案/分析分析/分析家分析家”进入分析家环境进入分析家环境v点击点击”文件文件/按按SAS名称打开名称打开”打开数据集打开数据集v点击点击”统计统计/描述性统计描述性统计/频数统计频数统计”,在弹出的对在弹出的对话框中:话框中:AGE=Fr
20、equencies,Sex=Frequencies点击OK武汉大学计算中心武汉大学计算中心LOGOvSAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。v FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。用程序作基本统计分析用程序作基本统计分析武汉大学计算中心武汉大学计算中心LOGO用程序作基本统计分析用程序作基本统计分析vProc freq data=数据集名数据集名 选项选项;vtables 变量名列表变量名列
21、表/选项选项;vRun;vTables语句中的选项:语句中的选项:vnocum不要累计的频数和百分数不要累计的频数和百分数v nopercent-不要百分数和累计的百分数不要百分数和累计的百分数vProc freq语句中的选项:语句中的选项:vorder=internal-按变量值排序按变量值排序vfreq-按频数降序排序按频数降序排序vdata-按数据集中的值的次序排序按数据集中的值的次序排序vformatted-按变量格式化的值排序按变量格式化的值排序武汉大学计算中心武汉大学计算中心LOGO例例vProc freq data=temp.class order=freq;vtables ag
22、e;vRun;2Proc freq data=temp.class order=freq;tables w;Run;可见,数据的统计意义不大.但是若将体重数据分组显示频数,是有意义的1武汉大学计算中心武汉大学计算中心LOGO 2. MEANS2. MEANS过程过程 (1) 语法格式语法格式 MEANS过程的一般格式过程的一般格式: PROC MEANS DATA=; VAR ; BY ; CLASS ; RUN;武汉大学计算中心武汉大学计算中心LOGO PROC MEANS语句后的选项主要用来指定所语句后的选项主要用来指定所要计算的统计量,默认情况下,要计算的统计量,默认情况下,MEANS过
23、程会过程会给出频数、均数、标准差、最大值和最小值等,给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列语句引导所要进行分析的所有变量的列表,表,SAS将对将对VAR语句所引导的所有变量分别语句所引导的所有变量分别进行描述性统计分析。进行描述性统计分析。 BY语句与语句与CLASS语句所指定的分类变量用来语句所指定的分类变量用来进行分组统计,但输出格式不同。进行分组统计,但输出格式不同。武汉大学计算中心武汉大学计算中心LOGO 如对数据集如对数据集class中的中的hight变量计算简单统计
24、量,变量计算简单统计量,只要用如下只要用如下MEANS过程:过程: proc means data = class; var hight; run;武汉大学计算中心武汉大学计算中心LOGO (2) 使用统计量关键字列表使用统计量关键字列表 在在PROC MEANS语句中使用统计量关键字列表:语句中使用统计量关键字列表: proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; run;武汉大学计算中心武汉大学计算中心LOGO 可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字
25、及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数range极差nmiss缺失数据记录数skewness偏度mean均值kurtosis峰度std标准差t分布位置假设检验之t统计量stderr标准误probt上述t统计量对应的概率值var方差q1第一四分位数median中位数q3第三四分位数mode众数qrange四分位数间距cv变异系数p1第一百分位数max最大值p5第五百分位数min最小值p10第十百分位数sum总计p90第九十百分位数sumwgt加权值总计p95第九十五百分位数css校正平方和p99第九十九百分位数uss未校正平方和武汉大学计算中心武汉大学计算中心LOG
26、O (3) 使用使用CLASS语句和语句和BY语句语句 使用使用CLASS语句和语句和BY语句可以分组计算分析语句可以分组计算分析变量的描述统计量值,由变量的描述统计量值,由CLASS语句和语句和BY语句语句指定的变量在分析中起分组(类)的作用,被称指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:为分类变量。两个语句的区别是: 使用使用BY语句时要求数据集须按语句时要求数据集须按BY变量排变量排序,使用序,使用CLASS语句无此要求。语句无此要求。 使用使用BY语句时输出按语句时输出按BY变量的每个值分变量的每个值分别提供一个表,使用别提供一个表,使用CLASS语句则将
27、所有结果语句则将所有结果排列在一个表之中。排列在一个表之中。武汉大学计算中心武汉大学计算中心LOGO 使用使用BY语句之前先排序,如下代码可以在上语句之前先排序,如下代码可以在上例中按变量例中按变量sex分组统计:分组统计: proc sort data = class; by sex; run; proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; by sex; run;武汉大学计算中心武汉大学计算中心LOGO 使用使用CLASS语句分组较为简单,如下代码也可以语句分组较为简单,如下代码也
28、可以在上例中按变量在上例中按变量sex分组统计:分组统计: proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; class sex; RUN;武汉大学计算中心武汉大学计算中心LOGO 3. UNIVARIATE3. UNIVARIATE过程过程 UNIVARIATE过程的一般格式为:过程的一般格式为: PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ; RUN;武汉大学计算中心武汉大学计算中心LO
29、GO UNIVARIATE过程和过程和MEANS过程的格式非常过程的格式非常相似,相同的语句和选项其含义也相同,所不同相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在的是某些统计量只能在UNIVARIATE过程中计算过程中计算(如众数),而且(如众数),而且UNIVARIATE过程中具有绘图过程中具有绘图功能。功能。 其中,其中,HISTOGRAM语句用来指示语句用来指示SAS对其对其后所指定的变量绘制直方图,其后的选项用来指后所指定的变量绘制直方图,其后的选项用来指示示SAS添加不同类型的拟合图形(如正态分布的添加不同类型的拟合图形(如正态分布的分布密度曲线)。分布密度曲线)。
30、武汉大学计算中心武汉大学计算中心LOGO 输出包括五个部分。输出包括五个部分。 第一部分是各统计量。第一部分是各统计量。 第二部分为基本的位置和分散程度统计量,第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距统计量包括标准差、方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结第三部分为关于均值等于零的三种检验的结果,包括果,包括t检验、符号检验和符号秩检验。检验、符号检验和符号秩检验。 第四部分为各个重要的分位数。第四部分为各个重要的分位数。 第五部分是观测数据的五个最
31、低值和五个最第五部分是观测数据的五个最低值和五个最高值。高值。武汉大学计算中心武汉大学计算中心LOGO六、六、FORMAT过程过程vFORMAT过程用于定义变量的输出格式.v定义:vPROC FORMAT;vVALUE 格式变量名 分组形式;vRUN;v其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式名.v引用:vPROC 过程名 DATA=数据集名;v过程语句;vFORMAT 数据集中的变量名 格式名.;vRUN;武汉大学计算中心武汉大学计算中心LOGO例例Proc format;Value wfmt low-32=24-32 32-40=32-40 40-48=40-4848-
32、56=48-56 56-64=56-64 64-72=64-72 72-high=72-;Run;Proc print data=temp.class;Format w wfmt.; 若没有该语句若没有该语句,数据集中的数据集中的W数据仍按原始显示数据仍按原始显示Run;4Proc freq data=temp.class order=freq;tables w;Format w wfmt.;Run;3武汉大学计算中心武汉大学计算中心LOGO上机作业上机作业1下列数据为两个不同地区居民家庭收入和支出情况的下列数据为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情
33、况。抽样调查(单位:元),试分别统计收入和支出情况。将表中数据通过将表中数据通过Excel导入到导入到SAS数据集数据集MyDATA中,中,4个变量名分别为:个变量名分别为:ID、R_ID、Income和和Outgo,相应的标签名为家庭编号、地区编号、家,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。并将数据集庭总收入和家庭总支出。并将数据集MyDATA存到存到你的磁盘中你的磁盘中.武汉大学计算中心武汉大学计算中心LOGO家庭收支情况家庭收支情况家庭编号家庭编号地区编号地区编号家庭总收入家庭总收入家庭总支出家庭总支出家庭编号家庭编号地区编号地区编号家庭总收入家庭总收入家庭总支出家庭
34、总支出1 12 2179417941550155016162 222002200206020602 22 2171617161365136517171 127302730223622363 31 1341034102730273018181 124962496145514554 42 2176517651530153019191 117601760104010405 52 2218421841900190020201 128202820236623666 62 2205020502050205021212 222502250196619667 72 2246024602184218422221
35、 131703170240024008 81 1197619761170117023232 212001200125012509 91 1285028502496249624242 2177617761350135010101 1427542752760276025252 2198019801794179411112 2201020101275127526261 1245524552550255012121 1223622361810181027272 2108010801380138013131 1330533052820282028282 2198619861200120014141 1240024001976197629291 1336933692305230515152 2225022501970197030302 21530153013161316武汉大学计算中心武汉大学计算中心LOGOv2用INSIGHT检验家庭收入的分布是否为正态,将INSIGHT的累积分布图,以Distribution为名为名保存到你的磁盘中.v3.用“分析家”软件计算统基本计量,将输出结果以summary文件名保存到你的磁盘中.