1、统计的魅力在于统计的魅力在于透过数字看本质构建模型作预测科学研究好帮手交叉融合新方向应用拓展全行业基础篇:R与概率统计(第一章)2个关于统计的个关于统计的“评价评价”统计学被评为20世纪给人类生活带来重大影响的 20 项新技能新技能之一。2011年经济学诺奖得主Thomas J.Sargent在2018年世界科技创新论坛上表示,人工智能其实就是统计学统计学,只不过用了一个很华丽的辞藻。基础篇:R与概率统计(第一章)统计的热度统计的热度流行:流行:数据科学,大数据,机器学习,人工智能,深度学习学科:学科:经济统计、数理统计、医学统计、生物统计、农业统计教育统计、空间统计、度娘:度娘:关键词“统计
2、”找到相关结果约100,000,000个注:一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别 https:/ 基础篇:R与概率统计(第一章)从数据分析看统计从数据分析看统计统计思想统计原动力问题驱动下的理论方法体系统计建模统计计算力统计方法与统计软件的融合统计报告统计解释力透过现象看“本质”供决策基础篇:R与概率统计(第一章)学习统计计算的学习统计计算的3个基础个基础概率、数理统计+通识基础计算、程序设计基础精神面貌基础:静、苦、钻、思、动、探基础篇:R与概率统计(第一章)规则1.作业及时保质保量完成态度+质量10
3、%2.课下投入足够时间完成各种课外实验课外讨论 10%3.不缺课,课上带着问题来 课堂表现 10%4.自行完成一篇研究型报告研究能力 10%5.开卷理论+上机考试,不容易综合水平 60%基础篇:R与概率统计(第一章)第一章第一章 统计软件与概率计算统计软件与概率计算1.1 R统计软件1.2 R在概率论中的应用1.3 小结1.4 作业基础篇:R与概率统计(第一章)工欲善其事必先利其器(1)一套有情怀的统计软件(Robert&RossR):*开源、自由、免费:集体智慧、无私分享*集统计计算、数学运算、数据分析、绘图控制*多平台、分布式、并行化、可编程*众多扩展应用支撑大数据、数据挖掘、机器学习 官
4、方网址:www.r-project.org基础篇:R与概率统计(第一章)(2)推荐两种使用R的方式 *www.r-project.org下载 *www.rstudio.org提供 提供命令行式的界面环境 的Rstudio图形界面模式基础篇:R与概率统计(第一章)(3)基本使用直接演示*获取帮助 “帮助菜单”*基本布局“垂直铺”*输入数据变量,向量,矩阵,剪贴板,*使用数据*使用脚本*软件包基础篇:R与概率统计(第一章)输入常见数据(适用与任何简单数据类型的生成)输入常见数据(适用与任何简单数据类型的生成)x=10 x1=1:4;x2=c(1,2,3,4);x3=seq(1,4,by=1)m1=
5、matrix(x1,nrow=2,byrow=TRUE);fix(m1)m2=matrix(1:100,nrow=10,ncol=10);fix(m2)x1;m2基础篇:R与概率统计(第一章)输入 显示例例1:从从Excel中的中的2列数据列数据(x,y)通过剪贴板存入通过剪贴板存入R中的变量中的变量dat中中,以脚本实现散点图的绘制以脚本实现散点图的绘制(plot函数函数),并搜索,并搜索setwd的使用帮助的使用帮助.尝试安装尝试安装 pracma软件包软件包,为后面积分作准备。为后面积分作准备。dat=read.table(clipboard,header=TRUE)head(dat)p
6、lot(dat,type=l)help(plot)install.packages(pracma)基础篇:R与概率统计(第一章)(1)古典概率与集合运算 组合运算其中permn 位于 combinat包中。基础篇:R与概率统计(第一章)(2)概率分布与随机数 随机变量及其分布是概率论中的重要内容,因此R对概率分布的支持非常丰富,并特别为每种分布提供4个函数并以前缀 p/q/d/r 分别表示概率/下分位数/密度/随机数比如常见的正态分布正态分布,其名称为 norm,则 pnorm 表示 概率函数(分布函数);dnorm表示密度函数 qnorm 表示下分位数函数;rnorm表示随机数函数基础篇:R
7、与概率统计(第一章)基础篇:R与概率统计(第一章)help(Distributions)例2:绘制二维标准正态分布的密度图x=y=seq(-3,3,length=100)density.2norm=function(x,y)exp(-(x2+y2)/2)/(2*pi)z=outer(x,y,density.2norm)persp(x,y,z,theta=0,phi=15,expand=1,col=blue)基础篇:R与概率统计(第一章)概率分布及随机数是概率统计中实施虚拟仿真和随机虚拟仿真和随机模拟模拟的主要工具,将在本书中大量使用,非常重要。非常重要。*近似计算*Monte Carlo 模拟
8、*Bootstrap估计*模型检验*仿真设计*基础篇:R与概率统计(第一章)(3)积分与概率 例2:设显然根据二维连续随机变量的特性,通过理论推导,可以得出精确结果的表达式(本题特殊在于独立性独立性):如何高精度计算 也曾经是个难题!基础篇:R与概率统计(第一章)(,)(0,0,1,1,0)(02,13)X YNPXY,求 23230101=(,)()()=(2)(0)(3)(1)Pf x y dxdyf x dxf y dy 221()d2txxet(3)积分与概率 定积分中的概率思维 概率与面积的关系 投点估计概率投点估计概率n=10000;xlen=2;ylen=9+exp(-9);s=
9、xlen*ylenx=runif(n,1,3);y=runif(n,0,ylen)sum(x2+exp(-x2)=y)/n*s 基础篇:R与概率统计(第一章)2321()dxIxex某次估计:8.7013比较精确:8.80605(4)数字特征对数据集中1.1.1,计算数据列y的平均值,标准差,极差等各种特征:mean,sd,range,min,max,median,对于多维数据,关注相关系数矩阵,协方差矩阵,均值向量等数字特征:cor,cov,colMeans,rowMeans,基础篇:R与概率统计(第一章)(5)极限理论大数定律:伯努利大数定律,切比雪夫大数定律,辛钦大数定律 B(n,p)不
10、相关/方差上界 独立同分布/期望 中心极限定理:独立同分布中心极限定理,二项分布中心极限定理 问题:如何通过实验直观验证大数定律和中心极限定理?问题:如何通过实验直观验证大数定律和中心极限定理?基础篇:R与概率统计(第一章)1.3 小结 本次课主要对课程、教材、R统计软件作了基本介绍本课程注重逻辑思维、理论方法,更强调实践与应用。重点:R统计软件和随机模拟基础 概率论的基本概念、方法和理论基础篇:R与概率统计(第一章)1.4 作业1.完成配套实验指导书中的实验1.1,1.22.回顾并熟悉概率论与数理统计的以下内容:(1)随机变量及其函数分布;(2)数字特征(3)极限理论思想及其应用;(4)抽样及抽样定理(5)参数估计与假设检验 基础篇:R与概率统计(第一章)