1、第三章第三章 参数估计参数估计3.1 点估计3.2 评价标准3.3 区间估计概述3.4 正态总体区间估计3.5 非正态总体区间估计3.6 Bootstrap区间估计方法篇:参数估计(第三章)第三章第三章 参数估计参数估计方法篇:参数估计(第三章)111(;)(;)=(,),knnXF xF xXXxx对于总体,的函数形式已知,但未知,其样本为,观测值为。111=(,)=(,)kk问题:对给出估计(表达式或值)点估计问题2:对给出范围估计(表达式或值)区间估计在上述背景下,所作的估计,就是所谓的参数估计。第三章第三章 参数估计参数估计3.1 点估计矩估计K.Pearson,1894统计思想涵盖以
2、下3点:(1)总体矩 通常是未知参数的函数(2)大数定律可知,样本矩 依概率收敛于总体矩(3)联立可构造近似方程组,并可求解例1:方法篇:参数估计(第三章)()rE X()rgrA()rE X()rrgA22(,),(,)XN 未知第三章第三章 参数估计参数估计3.1 点估计矩估计单参数通用模式:双参数通用模式:多参数通用模式:方法篇:参数估计(第三章)EXX2(1)EXXnDXSn1rkrrEXA第三章第三章 参数估计参数估计3.1 点估计矩估计例例2:设总体XU(0,A),A0未知,求A的矩估计量若样本观测值分别为1,2,9,8和1,2,13,8,则A的矩估计值分别是多少?思考几个问题1:
3、(1)矩估计的边界矛盾(2)矩估计的唯一性(3)矩估计的存在性(4)矩估计的评价方法篇:参数估计(第三章)1,nXX样本为,1 王宗尧,姜红燕,朱洪波.矩估计法的若干问题讨论J,菏泽学院学报,2013,35(2):10-12第三章第三章 参数估计参数估计3.1 点估计矩估计例例2的实验模拟。的实验模拟。#关于矩估计边界问题的模拟,A是其上界,但是估计经常超出AA=10;times=100;n=30moments=numeric(times)for(i in 1:times)x=runif(n,0,A);momentsi=2*mean(x)plot(1:times,moments,type=o,
4、col=red);abline(h=A)方法篇:参数估计(第三章)1 王宗尧,姜红燕,朱洪波.矩估计法的若干问题讨论J,菏泽学院学报,2013,35(2):10-12第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912一种理论性和实践性都非常强的估计方法,历经百年而不衰!基本思想在于:(1)若事件发生的概率越大则在现实中越有可能发生(2)不同取值的未知参数对应事件发生的概率也不尽相同(3)通过最优化或边界分析能得到使得事件发生概率达到最大的参数值方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912首先
5、有搞清楚研究的事件是什么?其次这个事件的概率 如何表达?方法篇:参数估计(第三章)11,nnXxXx=11(,)nnP XxXx=11111111(,;)(;)(,;)(,)(,),(,)(,;),innXininnnnnf xxfxL xxP XXxxdxdxf xxdxdx 定义成似然函数第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912明确优化的由来:样本值一旦观测就固定,且邻域dx也是固定的,只有未知参数是可变的,所以有:最后:如何计算得到满足上式的未知参数值?对数化:变连乘为累加极值偏导方程组联立求解若无解,则到边界分析取得最优值.方法篇:参数估计
6、(第三章)111max(,;),=max(,;)nnnf xxdxdxL xx第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912例3:方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912 例4(对例例2)设总体XU(0,A),A0未知,求A的极大似然估计量若样本观测值分别为1,2,9,8和1,2,13,8,则A的估计值分别是多少?解:此时,需分析边界:,使L(A)最大,则只有取方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912例5:方法篇
7、:参数估计(第三章)第三章第三章 参数估计参数估计3.1 点估计极大似然估计R.A.Fisher 1912 R求数值解:x=rcauchy(200,1)#产生随机样本做测试,其中参数为 1likely=function(mu,x)sum(log(1+(x-mu)2)#转化成极小值函数optimize(likely,c(0,4),x=x)-$minimum 1 1.036259#参数的估计$objective 1 259.6061#目标函数值方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.1 点估计小结(1)方法多样性:矩估计,极大似然估计;(2)各有优缺点,矩:简单、不唯一、低阶无
8、效则取高阶、越界等;极:需密度函数,必有唯一解,更符合实际;(3)谁更好?谁更好?方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.2 评价标准评价一个估计量的好坏必须建立在以大量观测为基础的统计分析上。估计量 是随机变量,参数 是未知的常数。定义偏差偏差:显然偏差也是一个随机变量,从统计意义上分析,实际上就是计算与偏差有关的数字特征,从特征角度来评价估计量的优劣。方法篇:参数估计(第三章)()B第三章第三章 参数估计参数估计3.2 评价标准(1)无偏性(2)无偏前提下的有效性方法篇:参数估计(第三章)()()0E BEE121212,EEDD优于12()()()DDD BDD只考虑
9、是无意义的,因为 的平均可能偏离很远与 毫无关系第三章第三章 参数估计参数估计3.2 评价标准(3)均方误差 无偏有偏均可 显然若是无偏,则均方误差评价就退化为有效性评价。方法篇:参数估计(第三章)22()()E BE2222()()=()()()()E BEEEEDE第三章第三章 参数估计参数估计3.2 评价标准(4)一致(相合)性一致性给出了样本容量n对估计的影响表述,即随着样本容量n的增大,估计量应该呈现出稳定于待估参数的趋势特性。方法篇:参数估计(第三章),0,0lim(|()|)lim(|)1nnPBP 第三章第三章 参数估计参数估计3.2 评价标准 理论/实验论证:实验:以正态分布
10、N(70,16)为总体,估计量构造如下设计:某个总体,抽样作100次,每次容量由100增到10000,上述4个统计量各自计算了100次,绘制成图作直观对比。方法篇:参数估计(第三章)XEX是的 无偏,线性最有效,一致 估计(1)()1,22nnXXXXXMe,第三章第三章 参数估计参数估计3.2 评价标准times=100;n=seq(10,2000,length=times)mat=matrix(0,nrow=times,ncol=4)for(i in 1:times)x=rnorm(ni,70,4)mati,1=mean(x);mati,2=(x1+xni)/2;mati,3=(min(x
11、)+max(x)/2;mati,4=median(x)matplot(mat,type=l,col=1:4)legend(70,66,c(mean,mid,half,median),lty=1:4,col=1:4)方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.3 区间估计概述点估计给出参数值的估计,但无法给出取该值的可信度,这在实际应用中是有缺陷的.为此,提出区间估计这种方法,它既给出参数的值的估计又能给出精度、可信度的表达。形式上,对于给定的可信度(置信度),寻找参数的一对估计区间 ,使得该区间包含 的概率为 方法篇:参数估计(第三章)1(01)1212(),11212()()
12、1PP,包含第三章第三章 参数估计参数估计3.3 区间估计概述 这是一个随机区间,因此需要基于统计意义对其加以说明。(1)希望 越短越好,因为它表示了估计的精度;(2)希望 越大越好,因为它表示了估计的可信度。但是,这两个需求是矛盾的,可信度越大必然导致区间长度变大。因此只能先确定一个要求,去优化另一个要求。方法篇:参数估计(第三章)1212(),21()E-1212()()1PP,包含第三章第三章 参数估计参数估计3.3 区间估计概述通常先确定置信度,进而寻求最短的区间长度。这个理论和方法最早是由J.Neyman,1934年引入的。此时称 为参数 关于置信度 的双侧双侧置信区间置信区间,称为
13、置信下限置信下限,称为置信上限置信上限。实际问题中,有时候更关心参数的上限或下限,若满足 则称 或 为单侧单侧置信区间置信区间。方法篇:参数估计(第三章)1212(),1(01)1212()1()1PP 或1(),+2(,)-第三章第三章 参数估计参数估计3.3 区间估计概述通用的求解过程:(1)在参数的点估计的基础上构造含参数但不含其他任何未知信息的样本函数T,使其服从完全已知的分布。最具创意部分最具创意部分(2)将 正因为T的分布已知,所以a,b可以确定,通常由双侧分位点取代。若是单侧区间估计则由单侧的分位点取代。考验推导能力考验推导能力 方法篇:参数估计(第三章)12()1()1P aT
14、bP 等价转化第三章第三章 参数估计参数估计3.4 正态总体区间估计单正态总体 只有两个参数,因此关于它们的区间估计可归结为:(1)方差已知,期望的区间估计(2)方差未知,期望的区间估计(3)期望已知,方差的区间估计(4)期望未知,方差的区间估计双正态总体有四个参数,因此关于它们的区间估计可归结为:(5)方差均已知期望差的区间估计 (6)方差均未知(相等)期望差的区间估计(7)方差均未知(不等)期望差的区间估计(8)方差均未知(样本量较大)期望差的区间估计(9)均值均已知方差比的区间估计 (10)均值均未知方差比的区间估计方法篇:参数估计(第三章)2(,)N 第三章第三章 参数估计参数估计3.
15、4 正态总体区间估计(2)方差未知,期望的区间估计方法篇:参数估计(第三章)22116.,(,1nnXXNxx 例 样本来自总体),未知,其观测值为求 的置信度度为的双侧置信区间。1/2/2/2/2/2/2/2/2(1)/()()1(/)1(/,/)aaXXTt nSnP tTtPtTtP XtSnXtSnXtSn XtSn 解:一般用 估计,从而构造含的函数 而得即置信区间为第三章第三章 参数估计参数估计3.4 正态总体区间估计(10)均值均未知方差比的区间估计方法篇:参数估计(第三章)221111222212127.,(,(,/1mnXXX NYYY NX Y 例 样本来自总体),样本来自
16、总体),均未知,相互独立,求的置信度度为的双侧置信区间。2222122222211/2/2222/221/22222/21/2/(1,1)/11()1()111(,)XYXXaYaYaXXYaYaSSFF mnSSSP FFFPSFSFSSSFSF 解:一般用估计,从而构造含函数 而即置信区间为第三章第三章 参数估计参数估计3.5 非正态总体区间估计思路是一样的,关键在于构造含参函数使之服从已知分布!(1)指数分布参数的区间估计方法篇:参数估计(第三章)2221/2/2221/2/212(2)(2)2(2)1(2)(2)(,)22n XnXPnn XnnnnXnX 第三章第三章 参数估计参数估
17、计3.5 非正态总体区间估计有时候可以利用中心极限定理来近似解决区间估计!(2)0-1分布参数的区间估计方法篇:参数估计(第三章)/2(0,1)(|)1(1)(1)XpXpXpNPnppnpp 近似通过解方程可以得到区间估计第三章第三章 参数估计参数估计 参数型区间估计通常都需要推导一个“枢轴统计量枢轴统计量”来完成,要么精确要么近似服从某一已知分布。请完成以下问题:有一样本观测值如下:50.20090,51.21600,51.77013,50.75797,50.96502,49.74111,50.75257,49.30683,49.86755,49.52322.样本容量=10,问:均值的置信
18、度为95%的区间估计?方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.6 Bootstrap区间估计基本思想:通过重复的子样本,计算待估参数或特征的值,再对值进行排序,然后根据区间估计的取法,得到分界点作为估计。假设估计参数或特征的统计量为(1)由样本 生成子样本(2)计算统计量值(3)对(4)依据方法篇:参数估计(第三章)1(,)ng xx1,nxx1,iinxx1(,)iiingg xx11,NNgggg()()从小到大排序成(/2)(/2)(/2)(/2)(g)1(,)NNNNNNP gggg 第三章第三章 参数估计参数估计实验探讨:(1)均方误差的bootstrap方法实现
19、(2)正态总体参数的估计法与bootstrap法的比较(3)非正态总体参数的估计法与bootstrap法的比较(4)未知总体分布的特征的估计方法比较方法篇:参数估计(第三章)第三章第三章 参数估计参数估计3.6 Bootstrap区间估计(1)均方误差的bootstrap方法实现均方误差:需要知道参数 的值才能准确估计,但参数 的真值通常是未知的。以什么来代替参数 的值是个问题,如何计算出均方误差的估计也是个问题。通常的做法:假设参数的估计量为 ,代入样本观测值得到的函数值 作为参数 的真值替代。以众多自助样本得到的 估计与 的偏差平方的平均来估计均方误差。方法篇:参数估计(第三章)2()E1
20、(,)nxx00第三章第三章 参数估计参数估计(1)均方误差的bootstrap方法实现以N(70,16)的期望为参数,求均方误差的bootstrap估计,并与真实结果比较。getmse=function(n,mu,xigma,times=1000)x=rnorm(n,mu,xigma);mu0=mean(x)mus=numeric(times)for(i in 1:times)musi=mean(sample(x,n,replace=TRUE)boot.mse=mean(mus-mu0)2);real.mse=xigma2/n c(boot.mse=boot.mse,real.mse=rea
21、l.mse)sapply(c(20,50,100),getmse,mu=70,xigma=4)方法篇:参数估计(第三章),1 ,2 ,3boot.mse 0.7846068 0.2876633 0.1536183real.mse 0.8000000 0.3200000 0.1600000第三章第三章 参数估计参数估计(2)正态总体参数的估计法与bootstrap法的比较-方差区间估计 var.interval=function(x,conf.level=0.95,times=10000)s2=var(x);n=length(x)ch1=qchisq(1-conf.level)/2,n-1);c
22、h2=qchisq(1+conf.level)/2,n-1)normal.int=c(lower=(n-1)*s2/ch2,upper=(n-1)*s2/ch1)s2s=numeric(times)for(i in 1:times)s2si=var(sample(x,n,replace=TRUE)sort(s2s)n1=trunc(times*(1-conf.level)/2);n2=times-n1;boot.int=c(lower=s2sn1,upper=s2sn2)list(normal.int=normal.int,boot.int=boot.int)var.interval(rnor
23、m(50,70,4)方法篇:参数估计(第三章)$normal.int lower upper 14.18354 31.56410$boot.int lower upper 14.89610 17.33268 第三章第三章 参数估计参数估计(4)未知总体分布的特征的估计方法比较随便一个样本:均值的区间估计显然常规方法不可行,但借助bootstrap方法却是简单的。statis.fun=function(data,inds)mean(datainds)x=rnorm(100,70,4)boot.out=boot(data=x,statistic=statis.fun,R=1000)boot.ci(boot.out)方法篇:参数估计(第三章)