1、第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念2.2 经验分布、直方图和核密度2.3 常用概率分布及分位点2.4 常用的抽样分布2.5 Monte-Carlo方法2.6 Bootstrap 方法基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(1)总体与样本 所研究对象(通常具有多种属性)的全体称为自然总体自然总体,而其中某种属性对应数值的全体称为测量总体测量总体,构成总体的每个对象称为个体个体。数理统计一般研究的是测量总体,通常将其对应到随机变量 因此总体X和随机变量X就统一起来
2、。总体通常体量大,研究整个总体的代价也比较高昂。基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(1)总体与样本 从总体中随机抽取一定数量的个体称为样本样本,通常记为 ,其中n为样本容量。抽取一个个体就是对总体作一次随机试验。而对样本对应的试验结果就称为样本观测值样本观测值,一般记为 。显然讨论样本时通常将其当作随机变量,而实际数据分析时通常使用其样本观测值,因此样本具有变量变量-数值二重性数值二重性。基础篇:数理统计初步与模拟计算(第二章)12,nXXX12,nx xx第二章第二章 数理统计初步与模拟计算数理统计初步
3、与模拟计算2.1 数理统计的基本概念(1)总体与样本 本书讨论的是具有以下两种性质的样本:*样本与总体同分布 *样本之间相互独立 简单讲,总体 总体可以是一维,也可以是多维,甚至超高维。基础篇:数理统计初步与模拟计算(第二章)()(),iijXF xXF xXX,则且与相互独立矩阵(二维表)观点:一维:nx1矩阵 二维:nx2矩阵 多维:nxp矩阵 如果np会怎样?第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(2)自助样本 由于各种情况限制,导致样本获取的代价高昂,或者样本量本身就小,但是又无法继续增补有效样本。此时是否可以通过既得样本来产生更多的子样本
4、,进而实施可重复的样本分析。Bradley Efron 于1979年提出了自助样本及其相应的统计方法。从而大大促进了小样本的统计分析。基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(2)自助样本 以样本 为母本,通过有放回重抽样从母本母本中随机抽取等量等量的样本,作为一个子样本,该子样本称为自助样本自助样本。如:基础篇:数理统计初步与模拟计算(第二章)12,nx xx问题:自助样本能做什么?第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量 为了充分挖掘样本所包含的总
5、体信息,就需要对样本进行加工,即构造含样本但不含任何未知参数的实值函数并称其为统计量,统计量,统计量值。统计量值。统计量作为样本函数,显然是随机变量随机变量,因此它也有自身的概率分布,通常称为抽样分布抽样分布。基础篇:数理统计初步与模拟计算(第二章)12(,)nT x xx而称为12(,)nT XXX第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量 样本均值:总体均值 样本方差:总体方差 样本原点/中心矩:总体矩 基础篇:数理统计初步与模拟计算(第二章)11niiXXn2211()1niiSXXn11nkkiiAXn11()nkkiiMXXn
6、EXDX(),kkEXE XEX第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量 偏度:峰度:变异系数:样本标准误:基础篇:数理统计初步与模拟计算(第二章)3/232/gMM3()()XE XEX242/kMM4()()XE XEXSCVX21()(1)niiXXSSEn nn问题:如果X是标准正态,则偏度和峰度等于?第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量 基于样本值的序也可以构建统计量,主要用于非参数分析。次序统计量:满足最小、最大统计量和极差:中位数和p分位数:中程数和半极差:
7、基础篇:数理统计初步与模拟计算(第二章)(1)(2)(),nXXX(1)(2)()nxxx(1)()()(1),,nnXXXX1()2()(+1)22,1(),2当 为奇数时当 为偶数时nennXnMXXn(1)()(1),1(),2nppnpnpXnpxXXnp当为奇数时当为偶数时(1)()2nmXXR10.750.25Rxx第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量众数:出现频率最高的样本点.问题:问题:众数有什么特点?基础篇:数理统计初步与模拟计算(第二章)max,1,2,iiMoxf im#,1,2,1,2,ijfx ixjn
8、im 1,2,()取值集合Sxxx mmn第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.1 数理统计的基本概念(3)常用统计量二维情况下的协方差,相关系数可扩展成多维情况下的协方差阵,相关系数阵作用:作用:用来表达两个或多个变量之间的相关关系!基础篇:数理统计初步与模拟计算(第二章)11()()1nxyiiiSxxyyn12211()()()()niiinniiiixxyyrxxyy第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度样本数据分析的一个重要工作是推断总体所服从的分布 (包括:分布函数和密度函数)。问题:问题:如何估计分布函数
9、?提示:提示:定义大数定律格列汶科定理实验验证实际应用 基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度大数定律:用频率估计概率的可行性格列汶科定理:基础篇:数理统计初步与模拟计算(第二章)(limsup|()()|0)1nnx RPF xF x11()()nniiF xI xxn()()F xP Xx(),()(,()()(),()()对于确定的 和令nnnnxF xSxB n F xSxF xE F xF xn第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度大数定律:
10、用频率估计概率的可行性基础篇:数理统计初步与模拟计算(第二章)11()()nniiF xI xxn()0/1作为取值为的随机变量iI xx112111()()()()111()()=()(1()4nnniiiinniiE F xE I xxP xxF xnnD F xD I xxF xF xnnn第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验:绘制不同样本容量下的经验分布与分布函数的比较图par(mfrow=c(2,2)n=c(20,40,80,160)for(i in n)x=rnorm(i);z=ecdf(x)#绘制经验分布函数图 plot(
11、z,verticals=TRUE,do.p=FALSE,main=paste(n=,i)xx=seq(-3,3,by=0.01)lines(xx,pnorm(xx),lty=3)#添加标准正态分布函数曲线基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度密度是计算分布概率的基础,估计总体的密度函数更能从形态上揭示总体的分布特征,进而估算总体的分布概率.基础篇:数理统计初步与模拟计算(第二章)()()()ixixxf x dxF xP Xx第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直
12、方图和核密度直方图是估计密度的一种直观方法,其思路在于频率-概率的关系基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验:从正态中抽取100个随机数,绘制直方图,叠加正态密度曲线rx=rnorm(100)hist(rx,freq=FALSE)x=seq(-3,3,by=0.01)lines(x,dnorm(x)基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度核密度估计是一种精细地估计密度函数的方法,其思想:基于核函数构造核权函数进
13、行加权平均。基础篇:数理统计初步与模拟计算(第二章)+1+1()()(),1,2,0,其他iiiiinhinaxan aafxfxim(,xnnSxh xh1()nxixinI xS()2xnnnfxnh1/2,|1()0,xK x其他11()()nininnxxfxKnhh第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度核函数:通常采用偶函数型的密度函数偶函数型的密度函数,比如基础篇:数理统计初步与模拟计算(第二章)1/2,|1()0,xK x其他221()2xK xe23(1),|1()40,xxK x其他1|,|1()0,xxK x其他2215(
14、1),|1()160,xxK x其他3 370(1|),|1()810,xxK x其他cos(),|1()420,xxK x其他2335(1),|1()320,xxK x其他1(),2xxK xxRee21(),xxK xxRee第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验:对来自正态总体的50个随机数,估计总体的密度。unifk=function(x)ifelse(abs(x)=1,1/2,0);epank=function(x)ifelse(abs(x)1);=,(2)2nEDnn第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2
15、.3 常用概率分布及分位点关于分布的分位点上侧分位点:双侧分位点:注意记号:基础篇:数理统计初步与模拟计算(第二章)()(01),P Xx1)(2/2/1xXxP1111()()(,)(,),uutntnFm nFn m11(,)(,)F m nFn m22221()(21),()(1,)()2,nuntnuFntn 第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.4 常用的抽样分布定理(1)单正态总体的抽样定理基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.4 常用的抽样分布定理(2)双正态总体的抽样定理基础篇:数理统计初步
16、与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.4 常用的抽样分布定理(3)非正态总体的抽样定理 利用分布间的关系利用分布间的关系,中心极限定理中心极限定理 基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.4 常用的抽样分布定理系列实验:(1)t,x(1)t,x2 2,F,F分布的分位点可用正态分位点近似分布的分位点可用正态分位点近似n(n(或或m,nm,n)取多大的时候,这个近似是可以接受的?取多大的时候,这个近似是可以接受的?(2)(2)构造虚拟仿真实验验证定理构造虚拟仿真实验验证定理2.4.12.4.
17、1(3)(3)构造虚拟仿真实验验证定理构造虚拟仿真实验验证定理2.4.22.4.2(4)(4)构造虚拟仿真实验验证非正态抽样定理构造虚拟仿真实验验证非正态抽样定理基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.5 Monte-Carlo方法 蒙特卡罗(Monte Carlo)方法,或称计算机随机模拟方法,是一种基于随机数的计算方法。这一方法源于美国在第二次世界大战中研制原子弹的曼哈顿计划。该计划的主持人之一、数学家冯诺伊曼用驰名世界的赌城-摩纳哥的Monte Carlo-来命名这种方法,为它蒙上了一层神秘色彩。基本思想是将各种随机事件的概率
18、特征(概率分布、数学期望)与随机事件的模拟联系起来,用试验的方法确定事件的相应概率或数学期望。特点:问题的解是试验得到,而不是推导得到。特点:问题的解是试验得到,而不是推导得到。基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.5 Monte-Carlo方法应用Monte Carlo方法的基本过程如下:(1)构造问题的概率模型 分析问题,将其转化成随机性概率问题,建立概率模型(2)从已知概率分布抽样 产生已知分布的随机数序列,从而实现对随机事件的模拟。(3)建立所需的统计量 对求解的问题将其转化成统计量,用试验的结果给出估值。基础篇:数理统计
19、初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.5 Monte-Carlo方法的基础是随机数基础篇:数理统计初步与模拟计算(第二章).(),()(0,1)定理:连续型令严格单调,则r v XF xYF XYU111()()()()()()0,01,1(0,1)()(),01若存在反函数,则作为随机变量,其分布函数为YXF xFxYF XFyP YyP F XyyyYUP XFyFFyyy第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算试验:提取E(2)的随机数1000个,代入E(2)分布函数得到Y的抽样值,绘制Y的分布函数或者密度函数图。x=re
20、xp(1000,2)y=1-exp(-2*x)par(mfrow=c(1,2)plot(density(y)plot(ecdf(y)基础篇:数理统计初步与模拟计算(第二章).(2)()(0,1)?,r v XEYF XU第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算例子:如何求圆周率?例子:如何求圆周率?历史上著名的蒲丰投针试验,设平面上画有间距等于a的一簇平行线,取n枚长为l(la)的针随意扔到平面上。基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算2.5 Monte-Carlo方法pi.buffon=function(n,a=1
21、,L=0.8)theta=runif(n,0,pi);x=runif(n,0,a/2);test=sum(x=15 A4页;页;要有翔实的案例分析要有翔实的案例分析(最好结合最好结合R及数据分析及数据分析);选题不能雷同;选题不能雷同;基础篇:数理统计初步与模拟计算(第二章)第二章第二章 数理统计初步与模拟计算数理统计初步与模拟计算R练习练习1:看右图构思求圆周率:看右图构思求圆周率PI的模拟方法并的模拟方法并设计设计R程序加以实现。程序加以实现。R练习练习2:用随机模拟的方法验证:用随机模拟的方法验证 (1)卡方卡方/正态正态/泊松泊松/二项分布的独立可加性。二项分布的独立可加性。(2)中心极限定理中心极限定理R练习练习3:设计程序求:设计程序求n多大时无法区分多大时无法区分t分布分布与标准正态分布?与标准正态分布?基础篇:数理统计初步与模拟计算(第二章)