1、非参数统计郭广报序言统计是一个面向问题解决的、系统收集数据和基于数据做出回答的过程,其本质是通过在随机现象中寻找分布规律回答现实问题的科学过程。实际问题的复杂性和人类认知的局限性,造成反映实际问题的数据在问题表示的充分性、代表性和分布的单一性等方面,与传统的统计应用要求不相匹配,于是催生了对数据分布假定宽松的非参数统计的兴起与发展。尤其是最近20年来,随着信息技术和网络技术的快速发展,基于大量数据计算探索数据分布特点的数据分析方法层出不穷,成为非参数统计发展的新主题,代表着统计学未来的方向。非参数统计自然成为连接统计学、信息学和计算机科学等交叉研究的桥梁,共同推动数据分析和信息利用整体地向前发
2、展。本书是一本专门讲授非参数统计理论和方法的教科书。内容主要分为两个部分:传统的非参数统计推断和现代非参数统计方法。传统的非参数推断内容由单一样本、两样本及多样本非参数统计估计和假设检验、分类数据的关联分析方法、定量数据的相关和回归等内容构成;现代非参数统计方法部分包含非参数密度估计、非参数回归和数据挖掘与机器学习技术等内容。本书的主要特色是结合R软件讲解非参数统计方法的原理和应用,我们的宗旨是塑造有独立专业思考能力,对所学知识有比较地选择,并能够使用恰当方法解决实际问题的统计专业人才。据此,我们在课程设计中,专门设计了学生在接受知识的过程中对知识的运用和鉴别能力的训练。本书大部分例题都给出R
3、源程序解法示例,各种理论条件的检验、讨论、分析和比较,鼓励学生针对数据的特点,独立编写数据分析程序。为加强与R的结合,书中图形大部分由R生成,我们广泛收集了很多领域数据分析实例和应用编写成本书的例题和习题,以扩展学生的应用领域,提高学生解决实际问题的能力。本书可作为统计、经济、管理、生物等宏、微观专业领域本科三、四年级以上学生以及相关研究人员学习非参数统计方法的教材,也可以用作统计研究或从事数据分析的方法的参考书。本书的先修课程只需具备初等统计学基础。对统计基础略感陌生的读者,可以阅读第2章相关内容作为补充。本书的内容可以安排在一学期54课时内完成,建议安排10课时左右用于学生上机实践。本书备
4、有丰富的习题,兼有理论推导、方法应用和上机实践题目。第1章 R基础(P297)R是一种专业统计分析软件,最早于1995年由Auckland大学统计系的RobertGentleman和Ross lhaka等研制开发,l997年开始免费公开发布1.0版本。在短短的10几年时问里,R发展迅速,现己发展到R3.1.3系列版本。据不完全统计,在欧美等发达国家的著名高等学府,R不仅是专业学习统计的流行教学软件,而且已成为从事统计研究的学生和统计研究人员必备的统计计算工具。R的主要特点归纳如下:(1)R是自由免费的专业统计分析软件,拥有强大的面向对象的开发环境,可以在UNIX,Windows和MACINTO
5、SH等多种操作系统中运行。(2)使用可编程语言是R作为专业软件的基本特点。众所周知,目前流行的许多商业统计分析软件主要是通过单击菜单完成计算和分析组合任务,用户不得不在预定义好的统计过程中选择可能接近的模块进行数据分析,被迫接受预设的程式化输出,许多应有的对数据的观察、体验和分析判断受到很大限制。而R却克服了这些弱点。(3)R的语言与S语言非常相似虽实现方法不同,但兼容性很强。作为面向对象的语言,R集数据的定义、插入、修改和函数计算等功能于一体,语言风格统一,可以独立完成数据分析生命周期的全部活动。作为标准的统计语言,R几乎集中了所有程序编辑语言的优秀特点。用户可以在R中自由地定义各种函数,设
6、计实验,采集数据,分析得出结论。在这个过程中,用户不仅可能延伸R的基本功能,而且还可能自创一些特殊问题的统计过程。R是一种解释性语言,语法与英文的正常语法和其他程序设计语言的语法表述相似,容易学习,编写的程序简练,费时较短。16简 史 R语言是从S统计绘图语言演变而来,可看作S的“方言”。S语言上世纪70年代诞生于贝尔实验室,由Rick Becker,John Chambers,Allan Wilks开发。基于S语言开发的商业软件Splus,可以方便的编写函数、建立模型,具有良好的扩展性,在国外学术界应用很广。1995年由新西兰Auckland大学统计系的Robert Gentleman和Ro
7、ss Ihaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。17R的特点多领域的统计资源 目前在R网站上约有2400个程序包包,涵盖了基础统计学、社会学、经济学、生态学、空间分析、系统发育分析、生物信息学等诸多方面。跨平台 R可在多种操作系统下运行,如Windows、MacOS、多种Linux和UNIX等。命令行驱动 R即时解释,输入命令,即可获得相应的结果。18丰富的资源丰富的资源 涵盖了多种行业数据分析中几乎所有的方法。良好的扩展性 十分方便得编写函数和程序包,跨平台,可以胜任复杂的数据分析、绘制精美的图形。完备的帮助系统
8、 每个函数都有统一格式的帮助,运行实例。免费、软件本身及程序包的源代码公开。19R与其他统计软件比较SAS:速度快,有大量统计分析模块,可扩展性稍差,昂贵。SPSS:复杂的用户图形界面,简单易学,但编程十分困难。Splus:运行S语言,具有复杂的界面,与R完全兼容,昂贵。20R的缺点用户需要对命令熟悉 与代码打交道,需要记住常用命令。占用内存运行速度稍慢A.1 R基本概念和操作A.1.1 R环境A.1.2 常量A.1.3 算术运算A.1.4 赋值22A.1.1 R环境(Windows下载和安装R)CRAN:BinariesWindowsbase 下载完成后,双击R-2.11.0-win32.e
9、xe 开始安装。一直点击下一步,各选项默认,语言建议选英/中文。R2.11.0下载页面R软件主窗口与快捷方式24R登陆界面(Windows版)路径:开始所有程序R 2.11.0菜单栏菜单栏快捷按钮快捷按钮控制台控制台光标光标:等待输入等待输入25图 1 R Gui 的File菜单26图 2 R Gui 的Edit菜单27图 3 R Gui 的Packages菜单28图 4 R Gui 的Help菜单29A.1.2 常量/元素(class)的类型对象是由各元素组成的。每个元素,都有自己的数据类型数值型 Numeric 如 100,0,-4.335 字符型 Character 如“China”逻辑
10、型 Logical 如TRUE,FALSE因子型 Factor 表示不同类别复数型 Complex 如:2+3i注意:一个向量中元素的类型计算时必须相同x-c(“Beijing”,“Shanghai”)y-factor(x)y c(3,2)c(2,“Zibo”)31class向量(vector)一系列元素的组合。如 c(1,2,3);c(a,a,b,b,c)因子(factor)因子是一个分类变量,如性别,学号。无法运算。c(“a”,“a”,“b”,“b”,“c”)c(er,sdf,dim,haha,good)矩阵(matrix)二维的数据表,是数组的一个特例x-1:12;dim(x)-c(3,
11、4),1,2,3,41,1 4 7 102,2 5 8 113,3 6 9 12class初识R软件例1.1某学校在体检时测得12名女中学生体重X1(kg)和胸围X2(cm)资料如下表所示,试计算体重与胸围的均值与标准差。表 学生体检资料学生编号学生编号体重体重X1胸围胸围X2学生编号学生编号体重体重X1胸围胸围X2135607437824074837663406494470442711042655377211417364568123975初识R软件(续)解:#输入体重X1-c(35,40,40,42,37,45,43,37,44,42,41,39)#计算体重的均值和标准差mean(X1);s
12、d(X1)#输入胸围X2-c(60,74,64,71,72,68,78,66,70,65,73,75)#计算胸围的均值和标准差mean(X2);sd(X2);hist(X1)#绘出体重的直方图hist(X1,probability=TRUE,main=paste(Histogram of,weight),xlab=weight)lines(density(X1)初识R软件(续)例1.2绘出例1.1中12名学生体重与胸围的散点图和体重的直方图。解:Plot(X1,X2)hist(X1)#绘出体重的直方图hist(X1,probability=TRUE,main=paste(Histogram o
13、f,weight),xlab=weight)lines(density(X1)A.1.3 赋值和运算“=”可以用可以用“-”代替代替 x-3 y3+53-53/535x=5?plothelp(plot)x-c(-1,0,2);y-c(3,8,2)v c(10.4,5.6,3.1,6.4,21.7)c(42,7,64,9)2 seq()生成等差数列,若向量(序列)具有较为简单的规律 seq(from,to,by,length,)1:10#seq(1,10)seq(1,10,by=0.5)seq(1,10,length=21)#取21个,或=15,取15个。3 rep()生成循环序列,若向量(序列
14、)具有较为复杂的规律rep(2:5,2)rep(2:5,rep(2,4)例1.11,生成,222222,1,a,1,a,1,a3 1*10,3*20,2*5解:rep(2,5)rep(c(1,“a”),3)#英文 rep(c(1,3,2),c(10,20,5)length()#控制长度 rep(c(1,4,6),length=5)产生有规律的序列1.等差数列等差数列a:b 316:64:7.62.等间隔函数等间隔函数seq()函数是更一般的函数它产生等距间隔的数列其基本形式为:seq(from=value1,to=value2,by=value3)seq(-5,5,by=.2)产生有规律的序列
15、3.重复函数rep()是重复函数它可以将某一向量重复若干次再放入新的变量中如:s-rep(x,times=3),即将变量重复3倍放在变量s中如x-c(1,4,6.25)s x1 3 4 4 5 5 5x=rep(c(1,10),c(4,5)w=c(1,3,x,z);w3A.2.2 向量的基本操作1.向量下标运算R软件提供了十分灵活的访问向量元素和向量子集的功能。向量中的某一个元素可以用xi的格式访问,其中x是一个向量名,或一个取向量值的表达式,如x-c(1,4,7)x2 x5#超出长度 NA2.插入数据 x-c(3,4,2,6,12,34)c(x1:2,1000,x3:5)3.合并 yx=c(
16、42,7,64,9)x-2x10#值大于10的元素逻辑值 1 TRUE FALSE TRUE FALSExx10#值大于10的元素 1 42 64xx105.更新可以单独改变一个或多个元素的值,如:x2-125xc(1,3)-c(144,169)6.7.向量的大小次序向量的大小次序 x=sample(1:100,10)sort(x)#排序rev(x)#逆序练习z=1:5z7=8;z1 1 2 3 4 5 NA 8z=NULLzc(1,3,5)=1:3;z1 1 NA 2 NA 3rnorm(10)c(2,5)z-c(1,3)#去掉第去掉第1、3元素元素.z(length(z)-4):lengt
17、h(z)#最后五个元素最后五个元素.8.去去“NA”x-c(2,3,NA,65)na.omit(x)attr(,na.action)4 attr(,class)“omit”1.2.3 向量的运算(1)标量和向量:)标量和向量:x1:2+1:41:4+1:7111212224231344246 111222241333624448351564626873710 统计函数 max,min,length,mean,median,var,sd,rankfivenum,quantile,unique,sd,var,range,rep,diff,sort,order,sum,cumsum,prod,cumprod,rev,print,sample,seq,exp,pi x10#值大于10的元素逻辑值 1 TRUE FALSE TRUE FALSE,=,=(等于等于),!=(不等)(不等)或|x-c(2,3,4);y-c(1,2,3,5)x|y与&x&y非!x
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。