1、2 第 1章 引言内容导航C O N T E N T S安装与运行R系统R的起源与发展安装与使用包工作空间管理1.11.2R语言的集成开发环境RStudio使用帮助系统1.31.41.51.6R语言与数据科学1.73 第 1章 引言1.1 R的起源与发展lR语言是一种开源的脚本语言,在数据分析与预测,以及数据可视化等方面享有良好的声誉。l1993年,R的最初版本发布给研究人员使用,解决复杂数据统计分析任务,并用多样化的图形来展示结果。l据说,R的名字来源于它当时的两名开发者,新西兰奥克兰大学的Ross Ihaka和Robert Gentleman。lR是对S语言的继承与发展。R系统是开源、免费
2、的,由R开发核心小组负责其开发及维护。4 第 1章 引言R的特点01020304适用于统计计算和机器学习简单易学,具有高度的灵活性支持高质量的图形和强大的可视化功能代码形式简洁5 第 1章 引言举例:一元线性回归 x y fit summary(fit)#概要显示线性回归的结果 6 第 1章 引言举例:一元线性回归 x#在x上添加均值为0、标准差为2的正态分布噪声,然后赋给y y fit summary(fit)#概要显示线性回归的结果 l 在R语言里,符号“install.packages(stringr)#安装一个用于字符串处理的包 14 第 1章 引言 str_length(Hello
3、R!)1 8包的载入与使用载入之后就可以直接调用包中定义的函数包安装后还需要载入到内存才能使用。以stringr包为例,执行library(stringr)可将对应的包载入 library(stringr)#载入字符串处理包stringr15 第 1章 引言命名冲突与解决如果希望使用包中的函数,则需要明确指定该函数,调用“包名:函数名”自定义一个同名函数,就会观察到命名冲突的现象 str_length#自定义函数str_length与包中函数同名 str_length(Hello R!)1 Give me a second.Let me count how long this sentence
4、 is!stringr:str_length(Hello R!)#现在使用的是得到字符串长度的函数 1 816 第 1章 引言安装与运行R系统R的起源与发展安装与使用包工作空间管理1.11.2内容导航C O N T E N T SR语言的集成开发环境RStudio使用帮助系统1.31.41.51.6R语言与数据科学1.717 第 1章 引言什么是工作空间l 启动R环境之后,交互地运行一些语句,直到退出R,这就构成了一个R会话l 会话中创建的所有的对象都被临时保存在全局环境.GlobalEnv,称为工作空间l 当使用q()函数或直接关闭RGui窗口退出R环境时,就结束了当前会话。系统提示是否保存
5、工作空间,如果选择“是“,当前环境中的所有对象都会被写入到一个叫做“.RData”的文件中,使用过的命令行历史则会保存在名为“.Rhistory”的文件中l 这些文件会被默认地保存在当前R会话的工作目录中。下次从此目录启动R会话时,软件会自动将对象、命令历史载入到工作空间。18 第 1章 引言管理工作空间l R提供了一些管理工作空间的函数l 利用这些函数可以方便地完成目录、对象与包的管理函 数说 明getwd()显示当前工作目录setwd()修改当前工作目录ls()显示当前工作空间中的所有对象str()显示对象的结构ls.str()显示对象中每一个变量的结构exists()当前工作空间内是否存
6、在某个对象rm()删除一个多或多个对象q()退出R。在这之前会询问是否保存工作空间install.packages()安装包library()载入包19 第 1章 引言工作空间管理举例如果希望删除内存中的对象,可以使用rm()函数。嵌套执行rm(list=ls())则会清除当前工作空间中的全部对象直接调用相应的管理函数 getwd()#查看当前工作目录1 C:/Users/Temp ls()#查看工作空间所有对象 1 all_data classifier count error 5 i index iris.Test iris.Training 9 lm_fit positions pred
7、ictions testing 13 training us.cities x x1 17 x2 x3 y rm(i,x1,x2,x3)#删除I,x1,x2,x3等 rm(list=ls()ls()character(0)20 第 1章 引言安装与运行R系统R的起源与发展安装与使用包工作空间管理1.11.2内容导航C O N T E N T SR语言的集成开发环境RStudio使用帮助系统1.31.41.51.6R语言与数据科学1.721 第 1章 引言集成开发环境l 集成开发环境(Integrated Development Environment,IDE),是一个集代码编辑器、调试器、图形
8、用户界面等一系列工具为一体的应用程序l 许多优秀的IDE都将开发所需的主要功能集成在一个桌面环境中,大大提高了生产效率l 使用IDE的优点包括:1.节省时间和精力2.统一代码标准3.完善的调试环境22 第 1章 引言RStudioRstudio是一个免费的R语言IDE它具有语法高亮、命令补全、对象浏览、语法错误检查以及断点调试等功能,可以大大提高开发效率Rstudio可以在获取,选择对应的系统平台进行下载安装默认情况下窗口被分成如下四个区域:代码编辑、数据预览窗口;工作空间、命令历史;控制台;文件浏览、绘图、包管理等。23 第 1章 引言安装与运行R系统R的起源与发展安装与使用包工作空间管理1
9、.11.2内容导航C O N T E N T SR语言的集成开发环境RStudio使用帮助系统1.31.41.51.6R语言与数据科学1.724 第 1章 引言获取帮助的方法l R的内置帮助系统提供了当前已安装包中所有的函数细节和使用示例l 使用help.start()打开帮助HTML的帮助文档首页,包括了关于R语言的一整套学习和帮助材料l R提供了不同的函数高效地帮助使用者查找帮助信息函 数说 明help.start()打开帮助文档首页help(),?查看help.search(),?以关键字搜索的形式搜索本地帮助文档RSiteSearch()以关键字搜索的形式搜索在线帮助文档apropos
10、()列出名称中含有某字符串的所有可用函数example()查看某个函数的使用示例25 第 1章 引言安装与运行R系统R的起源与发展安装与使用包工作空间管理1.11.2内容导航C O N T E N T SR语言的集成开发环境RStudio使用帮助系统1.31.41.51.6R语言与数据科学1.726 第 1章 引言数据科学的应用过程l 数据科学的基础包括统计学、计算机科学、数学、工程学以及其他学科l 数据科学既不能被视同于传统的统计学,也不能看作计算机科学的自然延伸l 作为对上述学科的综合,数据科学借助计算机软硬件平台进行数据分析,使用算法和模型直接从数据中抽取出知识。原始数据数据导入数据清洗
11、数据探索数据建模报告发现数据可视化决策27 第 1章 引言R与数据科学应用l 数据导入:在R以及为R开发的包中,提供了很多导入不同格式数据的方法,而且导入数据也很容易被高效地处理成R中所需要的数据结构,比如数据框。R支持几乎所有主要的数据文件格式。l 数据清洗:R语言及很多应用包提供了对原始的数据中的干扰因素进行整理的函数,保证数据集中数据的质量,如排除重复的数据、无效或不一致的数据,处理带缺失值的数据。l 数据探索:R提供特征筛选、特征提取、奇异值分解等数据变换的方法,来实现去噪、降维和抽取特征,帮助用户得到适合发现规律、寻找模式、并易于计算的数据。l 可视化:R语言既支持先进的机器学习模型和算法,又具有丰富的可视化手段。l 报告发现:R中的一些包可以帮助用户生成美观的报表,还能提供交互式的文档。