1、实验目的实验目的实验内容实验内容学习如何应用学习如何应用R R软件对数据进行整理与显示软件对数据进行整理与显示1 1、统计方法简介统计方法简介 2 2、应用实例、应用实例3 3、实验作业、实验作业统计学知识统计学知识统计研究的过程收集数据收集数据整理数据整理数据解释数据解释数据分析数据分析数据统计分析方法统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验描述统计(descriptive statistics)1.内容内容 整理数据 展示数据 描述性分析2.目的目的 描述数据特征 找出数据的基本规律推断统计(inferential statistics)1.内容内容
2、参数估计假设检验2.目的目的对总体特征作出推断描述统计与推断统计的关系统计的应用领域统计学统计学经济学经济学管理学管理学医学医学工程学工程学社会学社会学统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次按时间状况按时间状况按收集方法按收集方法统计数据的分类(按计量尺度分)1.分类数据分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric da
3、ta)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据试验的数据(experimental data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描
4、述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据2.时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据总体和样本1.总体总体(population)所研究的全部元素的集合,其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 参数和统计量1.参数参数(parameter)研究者想要了解的总体的某种特征值所关心的参数
5、主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示 变 量(Variable)1.说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据2.变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个
6、名称 离散变量:取有限个值 连续变量:可以取无穷多个值 统计中的几个基本概念几种常用的统计软件(Software)典型的统计软件典型的统计软件 SAS SPSS MINITAB STATISTICA S-PLUS R Excel 1 数据的搜集1.1 数据的来源数据的来源1.2 调查数据调查数据1.3 实验数据实验数据1.4 数据的误差数据的误差1.5 数据文件数据文件学习目标1.数据的来源数据的来源2.搜集数据的调查方法搜集数据的调查方法3.问卷设计问卷设计4.搜集数据的实验方法搜集数据的实验方法5.数据的误差数据的误差6.数据的质量要求数据的质量要求系统外部的数据1.统计部门和政府部门公布
7、的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 数据的间接来源系统内部的数据1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等二手数据的特点1.搜集容易,采集成本低2.作用广泛 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑二手数据的评估
8、1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源(原始数据)1.调查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等 抽样方法1.2 调查数据概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体搜集数据的基本方法各调查方法的比较自填式 面访式电话式调查时间
9、慢慢中等中等快捷快捷调查费用低低高高低低问卷难度要求容易要求容易可以复杂可以复杂要求容易要求容易有形辅助物的使用中等利用中等利用充分利用充分利用无法利用无法利用调查过程控制简单简单复杂复杂容易容易调查员作用的发挥无法发挥无法发挥充分发挥充分发挥一般发挥一般发挥回答率最低最低较高较高一般一般实验租和对照组1.将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组实验中的若干问题1.人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题 人们对被研
10、究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端 3.道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地 实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析方法 抽抽样样误误差差抽样框误差回答误差无回答误差调查员误差非非抽抽样样误误差差数数据据的的误误差差1.4 数据的误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3
11、.影响抽样误差的大小的因素样本量的大小总体的变异性非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度统计数据的质量要求1.精精 度:度:最低的抽样误差或随机误差2.准准 确确 性:性:最小的非抽样误差或偏差3.关关 联联 性:性:满足
12、用户决策、管理和研究的需要4.及及 时时 性:性:在最短的时间里取得并公布数据5.一一 致致 性:性:保持时间序列的可比性6.最低成本:最低成本:以最经济的方式取得数据 2 数据的整理与显示2.1 数据的预处理数据的预处理 2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示2.3 数值型数据的整理与显示数值型数据的整理与显示2.4 统计表统计表学习目标1.了解数据预处理的内容和目的了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与显示方法掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法掌握数值型数据的整理与显示方法4.用用R作频数分布表和形图作频数分布表和形
13、图5.合理使用统计表合理使用统计表1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征2.1 数据的预处理数据的预处理 数据审核原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核原始数据(raw data)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审
14、核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核数据的审核二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理数据筛选(data filter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔1.要弄清所面对的数据类型,因为
15、不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据分类数据的整理(基本过程)1.列出各类别分类分类频数频数比例比例百分比百分比比率比率ABCDE分类数据的整理(可计算的统计量)1.频数频数(frequency):落在各类别中的数据个数2.比例比例(proportion):某一类别数据占全部数据的比值3.百分比百分比(percentage):将对比的基数作为100而计算的比值4.比率比率(ratio):不同类别数值
16、的比值分类数据整理频数分布表(例题分析)例例1 读取某公司雇员数据(读取某公司雇员数据(SPSS数据文件)数据文件),保存为保存为R数数据文件,指定因子各水平的标签,分析性别、是否少数据文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。民族、工作类型、教育程度等频数分布。y=read.spss(E:/R/Employee data.sav,use.value.labels=F,to.data.frame=T,max.value.labels=Inf,trim.factor.names=FALSE)Names(y);1 ID GENDER BDATE EDUC J
17、OBCAT SALARY 7 SALBEGIN JOBTIME PREVEXP MINORITY y y$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c(经理,保管员,服务员),exclude=NA,order=F)Edata=y;save(Edata,file=E:/R/Em
18、ployee data.Rdata)load(E:/R/Edata.Rdata);attach(Edata);table(Edata$JOBCAT)经理经理 保管员保管员 服务员服务员 84 27 363 table(Edata$GENDER)f m 216 258 table(Edata$MINORITY)Yes No 104 370 table(Edata$EDUC)8 12 14 15 16 17 18 19 20 21 53 190 6 116 59 11 9 27 2 1 分类数据的图示条形图(bar Chart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图
19、、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示条形图(例题分析)15119690481216频数可口可乐旭日升冰茶百事可乐汇源果汁露露品牌不同品牌饮料的频数分布不同品牌饮料的频数分布例例2 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等条形图。教育程度等条形图。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)fm050100150200250Histogram of Edata$EDUCEdata$EDUCFreq
20、uency8101214161820050100150分类数据的图示饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的分类数据的图示饼图(例题分析)不同品牌饮料的构成不同品牌饮料的构成可口可乐30%旭日升冰茶22%汇源果汁12%百事可乐18%露露18%例例3 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等饼图。教育程
21、度等饼图。pie(table(Edata$GENDER)pie(table(Edata$JOBCAT)pie(table(Edata$EDUC)fm8121415161718192021顺序数据的整理(可计算的指标)1.累积频数累积频数(cumulative frequencies):各类别频数的逐级累加2.累积频率累积频率(cumulative percentages):各类别频率(百分比)的逐级累加顺序数据的频数分布表(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累
22、积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计合计300100.0顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不
23、满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计合计300100.0顺序数据的图示累计频数分布图(例题分析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积环形图(an
24、nular chart)1.环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示2.环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环3.环形图可用于结构比较研究 4.环形图主要用于展示分类和顺序数据环形图(例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价分组方法分组方法等距分组等距分组异距分组异距分组单变量值分组单变量值分组组距分组组距分组单变量值分组(要点)1.将一个变量值作为
25、一组2.适合于离散变量3.适合于变量值较少的情况组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K)2lg()lg(1nK组距分组(几个概念)1.下限下限(low limit):一个组的最小值2.上限上限(upper limit):一个组的最大值3.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint)
26、:下限与上限之间的中点值频数分布表的编制(例题分析)频数分布表的编制(步骤)1.确定组数:根据 Sturges 提出的经验公式得组数K为:108)2lg()120lg(1K等距分组表(上下组限重叠)等距分组表(上下组限间断)等距分组表(使用开口组)组距分组与不等距分组(在表现频数分布上的差异)1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据直方图(histogram)1.用矩形的宽度和高度来表示频数分布
27、的图形,实际上是用矩形的面积面积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.直方图下的总面积等于1数值型数据的图示分组数据的图示(直方图的绘制)直方图下的面积之和等于1?例例4 对公司雇员数据,做出工资数据直方图。对公司雇员数据,做出工资数据直方图。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)Histogram of Edata$SALARYEdata$SALARYFrequency20000400006000080000100000140000050100150200
28、Histogram of Edata$SALARYEdata$SALARYFrequency200004000060000800001000001400000501001502003323010733262210452101分组数据直方图(直方图与条形图的区别)1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据分组数据折线图(freq
29、uency polygon)1.折线图也称频数多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示(折线图的绘制)折线图与直方图下的面积相等!未分组数据茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树
30、茎,低位数字作树叶4.树叶上只保留一位数字5.对于n(20 n 300)个数据,茎叶图最大行数不超过 L=10 lg(n)6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据茎叶图(例题分析)未分组数据茎叶图(扩展的茎叶图)未分组数据箱线图(box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.其绘制方法是:首先找出一组数据的5个特征值,即最大值最大值、最最小值小值、中位数中位数Me 和两个四分位数四分
31、位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据单批数据箱线图(箱线图的构成)未分组数据单批数据箱线图(例题分析)分布的形状与箱线图例例5 对公司雇员数据,做出工资数据箱线图。对公司雇员数据,做出工资数据箱线图。boxplot(Edata$SALARY,data=Edata,col=lightgray);20000400006000080000120000未分组数据多批数据箱线图(例题分析)11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方
32、经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据多批数据箱线图(例题分析)Min-Max25%-75%Median value455565758595105英语经济数学西方经济学市场营
33、销学财务管理基础会计学统计学计算机应用基础Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据多批数据箱线图(例题分析)例例6 对某公司雇员数据,分析性别与工作类型、对某公司雇员数据,分析性别与工作类型、性别与是否少数民族的特征,作出交叉频数分布表。性别与是否少数民族的特征,作出交叉频数分布表。ftable(Edatac(GENDER,JOBCAT)JOBCAT 经理经理 保管员保管员 服务员服务员 GENDER f 10 0 206m 74 27 157 ftable(Edatac(
34、GENDER,MINORITY)MINORITY Yes NoGENDER f 40 176 m 64 194例例7 对某公司雇员数据,分析不同性别、工作类对某公司雇员数据,分析不同性别、工作类型、少数民族的收入差异,型、少数民族的收入差异,作出多批数据箱线作出多批数据箱线图图。boxplot(splitEdata$SALARYEdata$GENDER,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$JOBCAT,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$MINORITY,da
35、ta=Edata,col=lightgray);fm20000400006000080000120000YesNo20000400006000080000120000例例8 对某公司雇员数据,分析不同性别、工作类对某公司雇员数据,分析不同性别、工作类型之间的收入差异,型之间的收入差异,作出多批数据箱线图作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),col=lightgray);boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),col=l
36、ightgray);不同性别在不同工作类型上的当前工资比较。与不同性别在不同工作类型上的当前工资比较。与工资增长率不同,性别差异在工资水平上的差异工资增长率不同,性别差异在工资水平上的差异十分明显,男性的工资水平无论在十分明显,男性的工资水平无论在Clerical还是还是Manager上都比女性的平均工资水平高。上都比女性的平均工资水平高。split package:base R Documentation Divide into Groups Description:split divides the data in the vector x into the groups defined
37、by f.The assignment forms replace values corresponding to such a division.Unsplit reverses the effect of split.Usage:split(x,f,drop=FALSE,.)split(x,f,drop=FALSE,.)-value unsplit(value,f,drop=FALSE)Arguments:x:vector or data frame containing values to be divided into groups.f:a factor in the sense th
38、at as.factor(f)defines the grouping,or a list of such factors in which case their interaction is used for the grouping.drop:logical indicating if levels that do not occur should be dropped(if f is a factor or a list).value:a list of vectors or data frames compatible with a splitting of x.Recycling a
39、pplies if the lengths do not match.:further potential arguments passed to methods.Details:split and split-are generic functions with default and data.frame methods.f is recycled as necessary and if the length of x is not a multiple of the length of f a warning is printed.unsplit works only with list
40、s of vectors.The data frame method can also be used to split a matrix into a list of matrices,and the assignment form likewise,provided they are invoked explicitly.Any missing values in f are dropped together with the corresponding values of x.Value:The value returned from split is a list of vectors
41、 containing the values for the groups.The components of the list are named by the _used_ factor levels given by f.(If f is longer than x then some of the components will be of zero length.)The assignment forms return their right hand side.unsplit returns a vector for which split(x,f)equals value Ref
42、erences:Becker,R.A.,Chambers,J.M.and Wilks,A.R.(1988)_The New S Language_.Wadsworth&Brooks/Cole.See Also:cut Examples:require(stats)n-10;nn-100;g-factor(round(n*runif(n*nn)x-rnorm(n*nn)+sqrt(as.numeric(g);xg-split(x,g);boxplot(xg,col=lavender,notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mea
43、n)#Calculate z-scores by group z-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#or z-x;split(z,g)-lapply(split(x,g),scale);tapply(z,g,sd)#Split a matrix into a list by columns ma-cbind(x=1:10,y=(-4:5)2);split(ma,col(ma);split(1:10,1:2)boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),p
44、lot=F);Value List with the following components:stats:a matrix,each column contains the extreme of the lower whisker,the lower hinge,the median,the upper hinge and the extreme of the upper whisker for one group/plot.n:a vector with the number of observations in each group.conf:a matrix where each co
45、lumn contains the lower and upper extremes of the notch.out:the values of any data points which lie beyond the extremes of the whiskers.group:a vector of the same length as out whose elements indicate which group the outlier belongs to names:a vector of names for the groups$stats ,1 ,2 ,3 ,4 ,5 ,6 1
46、,34410.0 38700 NA 29550 15750 19650 2,41550.0 54900 NA 30150 21450 26700 3,45187.5 63750 NA 30750 24000 29850 4,55750.0 73750 NA 30975 27750 34950 5,58125.0 100000 NA 31950 37050 46000$n 1 10 74 0 27 206 157$conf ,1 ,2,3 ,4 ,5 ,6 1,38092.61 60287.8 NA 30499.14 23306.47 28809.692,52282.39 67212.2 NA
47、31000.86 24693.53 30890.31$out 1 103750 135000 110625 103500 24300 33750 34500 35250 35250 28500 11 38850 54000 51000 38550 40800 37650 52650 80000 50550 66875 21 49000$group 1 2 2 2 2 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6$names 1 f.经理 m.经理 f.保管员 m.保管员 f.服务员 m.服务员例例9 对某公司雇员数据,分析不同性别、民族之对某公司雇员数据,分析不同性别、民
48、族之间的收入差异;间的收入差异;作出多批数据箱线图作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$GENDER),col=lightgray);boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY),col=lightgray);例例10 对某公司雇员数据,分析不同民族、工作类对某公司雇员数据,分析不同民族、工作类型之间的收入差异;型之间的收入差异;作出多批数据箱线图作出多批数据箱线图。boxplot(split(Edata$SALARY,list(E
49、data$JOBCAT,Edata$MINORITY),col=lightgray);boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT),col=lightgray);时间序列数据线图(line plot)绘制线图时应注意以下几点绘制线图时应注意以下几点1.时间一般绘在横轴,指标数据绘在纵轴2.图形的长宽比例要适当,其长宽比例大致为10:73.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图(例题分析)19912000年城乡居民家庭人均收入年城乡居
50、民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6 784.0 921.61221.01577.71926.12091.12162.02210.32254.4时间序列数据线图(例题分析)城乡居民家庭人均收入 城乡居民家庭人均收入020004000600080001991199219931994199519961997199819992000年份收入城镇居民农村居民1.显示多个变量的图