1、实验目的实验目的实验内容实验内容学习如何应用学习如何应用R R软件描述数据特征软件描述数据特征1 1、方法方法简介简介 2 2、应用实例、应用实例3 3、实验作业、实验作业第八讲第八讲 数据特征的描述数据特征的描述 3 数据分布特征的测度3.1 集中趋势的测度集中趋势的测度 3.2 离散程度的测度离散程度的测度3.3 偏态与峰态的测度偏态与峰态的测度学习目标1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及
2、应用场合5.偏态与峰态的测度方法偏态与峰态的测度方法6.用用R计算描述统计量并进行分析计算描述统计量并进行分析数据分布的特征数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度3.1 集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较集中趋势(Central tendency)众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数
3、据和数值型数据众数(不唯一性)无众数无众数原始数据:10 5 9 12 6 8分类数据的众数(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100顺序数据的众数(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满
4、意非常满意24108934530836311510合计合计300100.0中位数(median)1.排序后处于中间位置上的值min1nieiMx中位数(位置的确定)顺序数据的中位数(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300数值型数据的中位数(9个数据的算例)【例例】:9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960
5、2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9数值型数据的中位数(10个数据的算例)【例例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 四分位数(quartile)1.排序后处于25%和75%位置上的值四分位数(位置的确定)顺序数据的四分位数(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城
6、市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300数值型数据的四分位数(9个数据的算例)【例例】:9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9数值型数据的四分位数(10个数据的算例)【例例】:10个家庭的人均月收入数据排排 序序:660 750 780
7、850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据简单均值与加权均值(simple mean/weighted mean)已改至此!已改至此!某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230
8、23024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计合计12022200加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:甲组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):1 1 8 乙组:乙组:考试成绩(考试成绩(x):0 20 100 人数分布(人数分布(f):):8 1 1)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii均值(数学性质)1.各变
9、量值与均值的离差之和等于零niixx12min)(niixx10)(调和平均数(harmonic mean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为iiiiiiiimffMMfMfMH调和平均数(例题分析)某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Mi成交额成交额(元元)Mi fi成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000几何平均数(geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均
10、3.主要用于计算平均增长率4.计算公式为几何平均数(例题分析)【例例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。001(1)(1)nnniiPxPPx几何平均数(例题分析)【例例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 众数、中位数和均值的关系众数、中位数和均值的特点和应用1.众数不受极端值影响具有不唯一性数据分布偏斜程度较大时
11、应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数3.2 离散程度的测度1 分类数据:异众比率分类数据:异众比率2 顺序数据:四分位差顺序数据:四分位差3 数值型
12、数据:方差及标准差数值型数据:方差及标准差4 相对位置的测量:标准分数相对位置的测量:标准分数5 相对离散程度:离散系数相对离散程度:离散系数离中趋势异众比率(variation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为异众比率(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100四分位差(quartile deviat
13、ion)1.对顺序数据离散程度的测度2.也称为四分间距(inter-quantile range)3.上四分位数与下四分位数之差 QD=QU QL 反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性四分位差(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端
14、值影响4.未考虑数据的分布平均差(mean deviation)1.各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少平均差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)1401501501601601701701801801901902002002102102202202302302401451551651751851952052152252354916272017108454030201001020304050160270320270017020024
15、0160250合计合计1202040平均差(例题分析)方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差样本方差和标准差(simple variance and standard deviation)未分组数据:样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例
16、如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,s2是2的无偏估计量样本标准差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)1401501501601601701701801801901902002002102102202202302
17、3024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计12055400样本标准差(例题分析)标准分数(standard score)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准分数(性质)1.均值等于02.方差等于1标准分数(性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为
18、0,标准差为1。标准化值(例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式(Chebyshevs inequality)
19、1.如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数2211)var(|(|1)var(|(|kXkEXXPkXkEXXP切比雪夫不等式(Chebyshevs inequality)对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落
20、在平均数加减4个标准差的范围之内离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为离散系数(例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0离散系数(例题分析)数据类型与离散程度测度值数据类型和所适
21、用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用)平均差平均差 极差极差 四分位差四分位差 异众比率异众比率3.3 偏态与峰态的测度偏态与峰态分布的形状偏态(skewness)1.统计学家Pearson于1895年首次提出 2.数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布偏态系数(skewness coefficient)1.根据原始数据计算
22、2.根据分组数据计算偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024
23、000031250000合计合计120540000 70100000 偏态系数(例题分析)偏态与峰态(从直方图上观察)峰态(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中4.峰态系数0为尖峰分布峰态系数(kurtosis coefficient)1.根据原始数据计算2.根据分组数据计算峰态系数(例题分析)简单统计量简单统计量sum,mean,var,sd,min,max,range,median,IQR(四分位间距)等为统计量,sort,order,rank与排序有关,其它ave,fivenum,mad,quantile,
24、stem等。aggregate:计算各数据子集的概括统计量用R计算描述统计量 fivenum package:stats R Documentation Tukey Five-Number Summaries Description:Returns Tukeys five number summary(minimum,lower-hinge,median,upper-hinge,maximum)for the input data.Usage:fivenum(x,na.rm=TRUE)Arguments:x:numeric,maybe including NAs and+/-Infs.na.r
25、m:logical;if TRUE,all NA and NaNs are dropped,before the statistics are computed.Value:A numeric vector of length 5 containing the summary information.See boxplot.stats for more details.See Also:IQR,boxplot.stats,median,quantile,range.Examples:fivenum(c(rnorm(100),-1:1/0)quantile package:stats R Doc
26、umentation Sample Quantiles Description:The generic function quantile produces sample quantiles corresponding to the given probabilities.The smallest observation corresponds to a probability of 0 and the largest to a probability of 1.Usage:quantile(x,.)#Default S3 method:quantile(x,probs=seq(0,1,0.2
27、5),na.rm=FALSE,names=TRUE,type=7,.)Arguments:x:numeric vectors whose sample quantiles are wanted.Missing values are ignored.probs:numeric vector of probabilities with values in 0,1.na.rm:logical;if true,any NA and NaNs are removed from x before the quantiles are computed.names:logical;if true,the re
28、sult has a names attribute.Set to FALSE for speedup with many probs.type:an integer between 1 and 9 selecting one of the nine quantile algorithms detailed below to be used.:further arguments passed to or from other methods.Details:A vector of length length(probs)is returned;if names=TRUE,it has a na
29、mes attribute.NA and NaN values in probs are propagated to the result.Types:quantile returns estimates of underlying distribution quantiles based on one or two order statistics from the supplied elements in x at probabilities in probs.One of the nine quantile algorithms discussed in Hyndman and Fan(
30、1996),selected by type,is employed.Sample quantiles of type i are defined by Qi(p)=(1-gamma)xj+gamma xj+1,where 1=i=9,(j-m)/n=p (j-m+1)/n,xj is the jth order statistic,n is the sample size,and m is a constant determined by the sample quantile type.Here gamma depends on the fractional part of g=np+m-
31、j.For the continuous sample quantile types(4 through 9),the sample quantiles can be obtained by linear interpolation between the kth order statistic and p(k):p(k)=(k-alpha)/(n-alpha-beta+1),where alpha and beta are constants determined by the type.Further,m=alpha+p(1-alpha-beta),and gamma=g.*Discont
32、inuous sample quantile types 1,2,and 3*Type 1 Inverse of empirical distribution function.Type 2 Similar to type 1 but with averaging at discontinuities.Type 3 SAS definition:nearest even order statistic.*Continuous sample quantile types 4 through 9*Type 4 p(k)=k/n.That is,linear interpolation of the
33、 empirical cdf.Type 5 p(k)=(k-0.5)/n.That is a piecewise linear function where the knots are the values midway through the steps of the empirical cdf.This is popular amongst hydrologists.Type 6 p(k)=k/(n+1).Thus p(k)=EF(xk).This is used by Minitab and by SPSS.Type 7 p(k)=(k-1)/(n-1).In this case,p(k
34、)=modeF(xk).This is used by S.Type 8 p(k)=(k-1/3)/(n+1/3).Then p(k)=medianF(xk).The resulting quantile estimates are approximately median-unbiased regardless of the distribution of x.Type 9 p(k)=(k-3/8)/(n+1/4).The resulting quantile estimates are approximately unbiased if x is normally distributed.
35、Hyndman and Fan(1996)recommend type 8.The default method is type 7,as used by S and by R=2.0.0,Ivan Frohne and Rob J Hyndman.References:Examples:quantile(x-rnorm(1001)#Extremes&Quartiles by default quantile(x,probs=c(.1,.5,1,2,5,10,50,NA)/100)#Compare different types p-c(0.1,0.5,1,2,5,10,50)/100 res
36、-matrix(as.numeric(NA),9,7)for(type in 1:9)restype,-y-quantile(x,p,type=type)dimnames(res)quantile(Edata$SALARY,0.25)25%24000 quantile(Edata$SALARY,(1:20)/20)5%10%15%20%25%30%35%40%19492.5 21045.0 22050.0 22950.0 24000.0 24885.0 26032.5 26700.0 45%50%55%60%65%70%75%80%27750.0 28875.0 30000.0 30750.0
37、 32017.5 34500.0 36937.5 40920.0 85%90%95%100%50027.5 59392.5 70000.0 135000.0 例例1 读取某公司雇员数据(读取某公司雇员数据(R数据文件)数据文件),分析收入的分析收入的数据特征。数据特征。fivenum(Edata$SALARY)1 15750 24000 28875 37050 135000 IQR(Edata$SALARY)1 12937.5 summary(Edata$SALARY)Min.1st Qu.Median Mean 3rd Qu.Max.15750 24000 28880 34420 36940
38、 135000 例例2 分析公司不同性别、是否少数民族、工作类型条件分析公司不同性别、是否少数民族、工作类型条件下收入的数据特征。下收入的数据特征。tapply(Edata$SALARY,Edata$GENDER,mean)f m 26031.92 41441.78 tapply(Edata$SALARY,Edata$JOBCAT,mean)经理经理 保管员保管员 服务员服务员 63977.80 30938.89 27838.54 tapply(Edata$SALARY,Edata$MINORITY,mean)Yes No 28713.94 36023.31 tapply(Edata$SALA
39、RY,Edata$GENDER,fivenum)$f 1 15750 21525 24300 28500 58125$m 1 19650 28050 32850 50550 135000例例2 分析公司不同性别、是否少数民族、工作分析公司不同性别、是否少数民族、工作类型条件下收入的数据特征。类型条件下收入的数据特征。tapply(Edata$SALARY,Edata$JOBCAT,fivenum)经理经理 1 34410.0 51787.5 60500.0 71687.5 135000.0 保管员保管员 1 24300 30150 30750 30975 35250 服务员服务员1 15750
40、 22800 26550 31200 80000 tapply(Edata$SALARY,Edata$MINORITY,fivenum)$Yes 1 16350 23625 26625 30675 100000$No 1 15750 24150 29925 40350 135000例例3分析公司不同性别及工作类型条件下收入的数分析公司不同性别及工作类型条件下收入的数据特征。据特征。tapply(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),mean)tapply(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)
41、,fivenum)y y1,1 attributes(y)1、对公司雇员数据,分析不同性别及民族之间的收入、收入增长(目前工资与起始工资差)数据特征,求出主要统计量(mean,IQR,fivnum,range,var,std);写出分析报告。作业作业:要求:需给出程序、结果,存成要求:需给出程序、结果,存成word文档文档 发送到发送到 ftp:/10.108.6.252 用户名:用户名:r 密码:密码:123456 tapply package:base R Documentation Apply a Function Over a Ragged Array Description:Appl
42、y a function to each cell of a ragged array,that is to each (non-empty)group of values given by a unique combination of the levels of certain factors.Usage:tapply(X,INDEX,FUN=NULL,.,simplify=TRUE)Arguments:X:an atomic object,typically a vector.INDEX:list of factors,each of same length as X.FUN:the f
43、unction to be applied.In the case of functions like+,%*%,etc.,the function name must be quoted.If FUN is NULL,tapply returns a vector which can be used to subscript the multi-way array tapply normally produces.:optional arguments to FUN.simplify:If FALSE,tapply always returns an array of mode list.I
44、f TRUE(the default),then if FUN always returns a scalar,tapply returns an array with the mode of the scalar.Value:When FUN is present,tapply calls FUN for each cell that has any data in it.If FUN returns a single atomic value for each cell(e.g.,functions mean or var)and when simplify is TRUE,tapply
45、returns a multi-way array containing the values.The array has the same number of dimensions as INDEX has components;the number of levels in a dimension is the number of levels(nlevels()in the corresponding component of INDEX.Note that contrary to S,simplify=TRUE always returns an array,possibly 1-di
46、mensional.If FUN does not return a single atomic value,tapply returns an array of mode list whose components are the values of the individual calls to FUN,i.e.,the result is a list with a dim attribute.Note that optional arguments to FUN supplied by the.argument are not divided into cells.It is ther
47、efore inappropriate for FUN to expect additional arguments with the same length as X.References:Becker,R.A.,Chambers,J.M.and Wilks,A.R.(1988)_The New S Language_.Wadsworth&Brooks/Cole.See Also:the convenience functions by and aggregate(using tapply);apply,lapply with its versions sapply and mapply.E
48、xamples:require(stats)groups-as.factor(rbinom(32,n=5,p=.4)tapply(groups,groups,length)#-is almost the same as table(groups)#contingency table from data.frame:array with named dimnames tapply(warpbreaks$breaks,warpbreaks,-1,sum)tapply(warpbreaks$breaks,warpbreaks,3,drop=FALSE,sum)n-17;fac-factor(rep(1:3,len=n),levels=1:5)table(fac)Examples:tapply(1:n,fac,sum)tapply(1:n,fac,sum,simplify=FALSE)tapply(1:n,fac,range)tapply(1:n,fac,quantile)#example of.argument:find quarterly means tapply(presidents,cycle(presidents),mean,na.rm=TRUE)ind the split vector tapply(1:3,ind,sum)