1、1.点估计的基本概念点估计的基本概念2.置信区间估计的基本概念置信区间估计的基本概念3.两种基本的点估计方法两种基本的点估计方法4.有效估计和有效估计和C-R下界下界5.充分统计量充分统计量 参数估计解决问题的基本思想参数估计解决问题的基本思想;几种点估计方法的优缺点几种点估计方法的优缺点;常见点估计的评价常见点估计的评价;掌握大样本极大似然估计的近似分布掌握大样本极大似然估计的近似分布;置信区间估计的定义和常用求法置信区间估计的定义和常用求法;点估计与置信区间估计的主要区别点估计与置信区间估计的主要区别.点估计的基本概念点估计的基本概念两种基本的点估计方法两种基本的点估计方法 矩估计矩估计
2、极大似然估计极大似然估计 多项分布的极大似然估计多项分布的极大似然估计 极大似然估计的渐进分布极大似然估计的渐进分布置信区间估计的基本概念置信区间估计的基本概念 枢轴量的概念枢轴量的概念 小样本小样本置信区间求法置信区间求法极大似然估计的置信区间解法极大似然估计的置信区间解法有效估计和有效估计和C-R下界下界充分统计量充分统计量因子分解定理因子分解定理Rao-Blackwell定理定理1.点估计的基本概念点估计的基本概念 点估计点估计:就是由样本就是由样本x1,x2,xn确定一个统计量确定一个统计量 用它估计总体的未知参数,称为总体参数的估用它估计总体的未知参数,称为总体参数的估计量。当具体的
3、样本抽出后,可求得出样本统计量。当具体的样本抽出后,可求得出样本统计量的值。用它作为总体参数的估计值,称作计量的值。用它作为总体参数的估计值,称作总体参数的点估计值。总体参数的点估计值。nxxxg,21 矩估计矩估计(Moment Estimator)极大似然估计极大似然估计 (Maximum Likelihood estimator)多项分布的极大似然估计多项分布的极大似然估计 极大似然估计的渐进分布极大似然估计的渐进分布 极大似然估计的置信区间解法极大似然估计的置信区间解法设设 是一随机变量,是一随机变量,是它的一个样本。是它的一个样本。X12,.nXXX11nkkiiAXn称称 为为样本
4、的样本的 阶原点矩。阶原点矩。k若若 存在,则称之为存在,则称之为 X 的的 阶原点矩。记作阶原点矩。记作kE XkVk若若 存在,则称之为存在,则称之为 X 的的 阶中心矩。记作阶中心矩。记作kEXE XkUk11nkkiiBXXnk称称 为为样本的样本的 阶中心矩。阶中心矩。矩法估计:矩法估计:,kkkkVAUB1)矩估计法矩估计法2 点估计的常用方法点估计的常用方法设设 是一随机变量,是一随机变量,是它的一个样本。是它的一个样本。X12,.nXXX11nkkiiAXn称称 为为样本的样本的 阶原点矩。阶原点矩。k若若 存在,则称之为存在,则称之为 X 的的 阶原点矩。记作阶原点矩。记作k
5、E XkVk若若 存在,则称之为存在,则称之为 X 的的 阶中心矩。记作阶中心矩。记作kEXE XkUk11nkkiiBXXnk称称 为为样本的样本的 阶中心矩。阶中心矩。矩法估计:矩法估计:,kkkkVAUB1)矩估计法矩估计法2 点估计的常用方法点估计的常用方法 kkkkkAAA ,2121222111 nkknnXXXXXXXXX,2121222111 的的联联立立方方程程组组,个个未未知知参参数数这这是是包包含含kk 1即即,记记为为从从中中解解出出方方程程组组的的解解,1k 的的估估计计量量,分分别别作作为为,用用kk 11矩估计的原理:矩估计的原理:1.经验分布趋向于理论分布经验分
6、布趋向于理论分布;2.由辛钦大数定律知由辛钦大数定律知 nililXnA11P,l.,2,1kl.,llllAklA 估估计计用用所所以以我我们们令令1 .为为矩矩估估计计法法这这种种求求估估计计量量的的方方法法称称例1 设某少年儿童出版社每本书发生错字的次数X服从(用用矩矩估估计计法法)。参参数数试试估估计计得得到到以以下下样样本本新新出出版版不不同同的的的的图图书书本本未未知知,现现抽抽查查了了的的泊泊松松分分布布,参参数数为为,250 250126225490756543210knkk的的书书本本数数错错字字数数为为错错字字数数为为解解:,X令令 x 则则。所所以以估估计计值值22.1
7、22.1)16901750(2501 ,1 EX niiXXnA111,1是一个样本是一个样本未知未知设总体设总体nXXbabaUX的矩估计量。的矩估计量。求:求:ba,21baEX 2ba 令令4)(12)(22baab 22EX 2)(EXVarX 4)(12)(22baab 例例2解:解:1A 2A,21Aba 即即)(12212AAab )(12,22121AAabAba 即即)(32121AAAa )(3 2121AAAb 解得:解得:)(312 niiXXnX niiXXnX12)(3212AA )(1212XnXnnii niiXXn12)(12121XXnnii 例例2(续)(
8、续)u2)极大似然估计法)极大似然估计法设总体设总体X的概率分布为的概率分布为;xP 或概率密度为或概率密度为 ;xp其中其中是未知参数。是未知参数。如何求极大似然估如何求极大似然估计量呢?计量呢?2 点估计的常用方法点估计的常用方法2.点估计的常用方法点估计的常用方法-极大似然估计极大似然估计含多个参数含多个参数m,21m,21*2*1*,m令令似然方程似然方程或或 0ln*L0*L最大似然解最大似然解2.点估计的常用方法点估计的常用方法-极大似然估计极大似然估计多项分布参数的极大似然估计miimiiiimimmiximiimmppxxnpplpxnppxxpi111111111log!lo
9、g)!log(),.,(!),.,|,.,(miip11 很多情况下,假定一个变量X可能取m个状态,m2,每个状态假定可能性为p1,pm,独立进行n次试验,用Xi表示第i种状态出现的频数,X1,Xm会有多项分布,nxpnxpmixppxppplppxxnppliimiimiiiiiiimmiimiiiimim11,.,1,0),.,()1(log!log)!log(),.,(1111111例7:Hardy-Weinberg平衡定律 假定基因的频率在自然界是固定的,基因类型三类:AA,Aa,aa,它们出现的可能性为 其中 是父代为A的可能性,是父代为a的可能性 需要给出父代 的MLE.22,)1
10、(2,)1(1AA Aa aa 合计342 500 187 1029解:对数似然函数为log)2(2log)1log()2(!log)!log(log)1(2log)1log(!log)!log()(log!log)!log()(322213123221313131xxxxxxnxxxxnpxxnliiiiiiiii)(220212)(321232321XXXXXXXXXl4247.0极大似然估计的理论结果极大似然估计的分布有渐进的正态分布 222),(log(),(log()()1,0()()(xpExpEINnInmle 枢轴量的概念枢轴量的概念 小样本置信区间求法小样本置信区间求法 拔靴
11、法置信区间求法拔靴法置信区间求法u置信区间估计的概念置信区间估计的概念样本样本),(xpnxxx,21),(211nxxx),(212nxxx使得使得1),(),(,212,211nnxxxxxxP置信度置信度1-1-3.置信区间估计置信区间估计置信区间的含义 样本分布样本分布构造置信区间的一般方法(pilot function)1.ULdGcPdcG1),(),(利利用用以以上上不不等等式式解解出出,有有给给定定的的置置信信水水平平,在在和和定定两两个个常常数数这这个个函函数数为为枢枢轴轴量量,选选,称称计计参参数数它它的的分分布布不不依依赖赖于于待待估估造造的的一一个个点点估估计计出出发发
12、,构构枢枢轴轴量量定定义义:从从一一.总体均值的区间估计总体均值的区间估计总体服从正态分布总体服从正态分布,2 2已知时已知时,当当 ),(.,21Ndi iXXn时,时,)/,(2nNX(0,1)XUNn根据区间估计的定义,在根据区间估计的定义,在1 1置信度下,总体均置信度下,总体均值值的置信区间为:的置信区间为:1212UUP单一总体参数的区间估计单一总体参数的区间估计 即:即:122ZnXZP从而有从而有122nZXnZXP 即在即在1 1置信度下,置信度下,的置信区间为:的置信区间为:,22nZXnZX单个总体参数的区间估计单个总体参数的区间估计注意:有很多满足置信度的置信区间125
13、.0175.0UUP15.015.0UUP175.0125.0UUP1.数据的分布离散程度Measured by 2.样本容量X =/n3.置信水平(1-)Affects Z影响到区间精度的量 1984-1994 T/Maker Co.例例8 已知某零件的直径服从正态分布,从该批产已知某零件的直径服从正态分布,从该批产品中随机抽取品中随机抽取10件,测得平均直径为件,测得平均直径为202.5mm,已知总体标准差,已知总体标准差=2.5mm,试建,试建立该种零件平均直径的置信区间,给定置信立该种零件平均直径的置信区间,给定置信度为度为0.95。解:已知解:已知),(2NXX=202.5,=202
14、.5,n=10,1n=10,1=0.95=0.95 单个总体参数的区间估计单个总体参数的区间估计,22nZXnZX 即即105.296.15.202,105.296.15.202计算结果为:计算结果为:200.95,204.05200.95,204.05单个总体参数的区间估计单个总体参数的区间估计u2 2未知时未知时 (1 1)n30n30时,只需将时,只需将2 2由由S S2 2代替即可代替即可.nZXnZX22,中的中的用用 S S近似近似 (2)n30(2)n30时,由时,由 )1(ntnSXt所以所以 12/ttP即即 12/2/tnSXtP单个总体参数的区间估计单个总体参数的区间估计
15、u 例例9 9某大学从该校学生中随机抽取某大学从该校学生中随机抽取3030人,人,调查到他们平均每人每天完成作业时间调查到他们平均每人每天完成作业时间为为120120分钟,样本标准差为分钟,样本标准差为3030分钟,试分钟,试以以9595的置信水平估计该大学全体学生的置信水平估计该大学全体学生平均每天完成作业时间。平均每天完成作业时间。u 解:解:3030120SX 1-=0.95 1-=0.95 t t/2/2=2.04=2.04在在9595的置信度下,的置信度下,的置信区间为的置信区间为 nStXnStX2/2/,单个总体参数的区间估计举例单个总体参数的区间估计举例u二二.总体方差的区间估
16、计总体方差的区间估计)1()1(222nsn由于1)1(2221Snp 1)1()1(12222SnSnP即即)1()1(2222211nn,其中单个总体参数的区间估计单个总体参数的区间估计所以在所以在1-1-置信度下:置信度下:1222)1()1(,SnSn1222)1()1(,SnSn2 2的置信区间的置信区间总体标准差总体标准差的置信区间为的置信区间为单个总体参数的区间估计单个总体参数的区间估计)1()1(2222211nn,其中比例的置信区间的例子 400个毕业生中有32名进入研究生学习,构造 p 的95%置信区间估计:R程序:p.hat=32/400n=400alpha=0.05L=
17、p.hat-qnorm(1-alpha/2,0,1)*sqrt(p.hat*(1-p.hat)/n)U=p.hat+qnorm(1-alpha/2,0,1)*sqrt(p.hat*(1-p.hat)/n)样本量样本量 由由 1、正态:2、比例:(1)总体的方差越大,需要的样本量越大。)总体的方差越大,需要的样本量越大。(2)样本量)样本量n和置信区间长度的平方成反比。和置信区间长度的平方成反比。(3)置信度越高,样本量越大。)置信度越高,样本量越大。nZXnZX2/2/,在总体均值的区间估计时,半置信区间的宽度为:在总体均值的区间估计时,半置信区间的宽度为:nZ2需要考虑问题:需要考虑问题:(
18、1)(1)要求什么样的精度?即我们想构造多宽的区间?要求什么样的精度?即我们想构造多宽的区间?(2)(2)对于构造的置信区间来说,想要多大的置信度?即我对于构造的置信区间来说,想要多大的置信度?即我们想要多大的可靠度?们想要多大的可靠度?样本量的确定样本量的确定样本容量样本容量n n与总体方差、允许误差、置信度有以下关系:与总体方差、允许误差、置信度有以下关系:1.1.必要样本容量必要样本容量n n 与总体方差成正比。与总体方差成正比。2 2在给定的置信水平下,允许误差越大,样本在给定的置信水平下,允许误差越大,样本容量就可以越小。容量就可以越小。3.3.样本容量样本容量n n与置信度成正比。
19、与置信度成正比。估计总体均值时,样本量的确定估计总体均值时,样本量的确定例例10 一家广告公司想估计某类商店一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表去年所花的平均广告费有多少。经验表明,总体方差约为明,总体方差约为1 800 000。如置信。如置信度取度取95%,并要使估计值处在总体平均,并要使估计值处在总体平均值附近值附近500元的范围内,这家广告公司元的范围内,这家广告公司应取多大的样本?应取多大的样本?解:已知解:已知 500,96.1,05.0,18000002/2Z 2865.27500180000096.1222222n这家广告公司应抽选这家广告公司应抽选282
20、8个商店作样本(注意抽取样本数个商店作样本(注意抽取样本数总是整数,所以总是整数,所以n n应圆整成整数)。应圆整成整数)。估计总体均值时,样本量的确定估计总体均值时,样本量的确定估计总体比例时,允许误差为:估计总体比例时,允许误差为:)1(12ppn由上式可得出估计总体比例时,确定必要样本容量由上式可得出估计总体比例时,确定必要样本容量的公式。由于总体比率是未知的,因此要用样本比的公式。由于总体比率是未知的,因此要用样本比率代替率代替222222)1()1(ppppn估计总体比例时,样本量的确定估计总体比例时,样本量的确定例例11 一家市场调研公司想估计某地区一家市场调研公司想估计某地区有健
21、身器材的家庭所占的比例。该公司有健身器材的家庭所占的比例。该公司希望对希望对p 的估计误差不超过的估计误差不超过0.05,要求要求的可靠程度为的可靠程度为95%,应取多大量的样本?,应取多大量的样本?没有可利用的没有可利用的 估计值。估计值。解:对于服从二项分布的随机变量,当解:对于服从二项分布的随机变量,当 p5.0p时,其方差达到最大值。因此,在无法得到时,其方差达到最大值。因此,在无法得到 p值时,可以用值时,可以用 5.0p计算。计算。已知:已知:,96.1,05.0,05.02Z由于由于 p的估计值未知,可以采用的估计值未知,可以采用 5.0p计算必要的样本量:计算必要的样本量:估计
22、总体比例时,样本量的确定估计总体比例时,样本量的确定385)05.0()5.01)(5.0()96.1()1(22222ppn故为了以故为了以95%95%的可靠度保证估计误差不超过的可靠度保证估计误差不超过0.050.05,应取应取385385户进行调查。户进行调查。估计总体比例时,样本量的确定估计总体比例时,样本量的确定注意:比例近似正态分布时所要求的样本量注意:比例近似正态分布时所要求的样本量一、两个总体均值之差的估计一、两个总体均值之差的估计设两总体设两总体X XN(N(1 1,1 12 2),Y YN(N(2 2,2 22 2),由两总体分别独立的抽取容量为由两总体分别独立的抽取容量为
23、n n1 1和和n n2 2的样本,的样本,。、,方差为、令它们的平均数为2221SSYX?两个正态总体参数的比较两个正态总体参数的比较u1.1.两个总体方差两个总体方差 1 12 2,2 22 2,已知,已知,由于)(22212121nnNYX 在在1-1-置信度下,置信度下,1 1-2 2的置信区间为的置信区间为22212122221212nnYXnnYX,两个正态总体参数的比较两个正态总体参数的比较 2.2.两个总体方差两个总体方差 1 12 2,2 22 2,未知,未知,(1 1)1 12 22 22 2,且两样本容量均,且两样本容量均3030,由由S S1 12 2和和 S S2 2
24、2 2分别估计分别估计1 12 2和和2 22 2,即可,即可(2 2)1 12 2=2 22 2=2 2,2 2未知,未知,)2(11)()(2121021nntnnSYXt两个正态总体参数的比较两个正态总体参数的比较1 12 22 22 2且两样本且两样本均很大时均很大时由由S S1 12 2和和 S S2 22 2分别估计分别估计1 12 2和和2 22 2,即可,即可两个正态总体参数的比较两个正态总体参数的比较)2(11)()(2121021nntnnSYXt 1 12 2=2 22 2=2 2 2 2未知未知在在1-1-置信度下,置信度下,1 1-2 2的置信区间为的置信区间为两个正
25、态总体参数的比较两个正态总体参数的比较2112212211221211)2(,11)2(nnSnntYXnnSnntYX。其其中中,2)1()1(2122221112nnSnSnS两个正态总体参数的比较两个正态总体参数的比较 二二、两个总体方差比的置信区间估计、两个总体方差比的置信区间估计由于由于 )11(2122212221nnFSSF,1)11()11(212222122212121nnFSSnnFP,所所以以,两个正态总体参数的比较两个正态总体参数的比较u在在1-置信度下,置信度下,1222的置信区间为的置信区间为)11()11(212122212122221nnFSSnnFSS,两个正
26、态总体参数的比较两个正态总体参数的比较三、三、两个总体比例之差的区间估计两个总体比例之差的区间估计设两个总体比例分别为设两个总体比例分别为P P1 1和和P P2 2,为了估计,为了估计P P1 1-P-P2 2,分别从,分别从两个总体中各随机抽取容量为两个总体中各随机抽取容量为n n1 1和和n n2 2的两个随机样本,的两个随机样本,并计算两个样本的比例并计算两个样本的比例 。,)10()11)(1()()(212121NnnppppppU两个正态总体参数的比较两个正态总体参数的比较其中,其中,212211nnpnpnp在在1-1-置信度下,置信度下,p p1 1-p-p2 2的置信区间为
27、的置信区间为)11)(1()11)(1(2122121221nnppppnnpppp,两个正态总体参数的比较两个正态总体参数的比较u 例例1212某减肥用品公司对其所作的报纸广某减肥用品公司对其所作的报纸广告在两个城市的效果进行了比较,其分别告在两个城市的效果进行了比较,其分别从两个城市中随机抽取了从两个城市中随机抽取了800800名成年人,其名成年人,其中看过该广告的比例分别为中看过该广告的比例分别为,试求试求:两城市中看过该广告的成年人比例之两城市中看过该广告的成年人比例之差的置信度为差的置信度为95%95%的置信区间的置信区间:19.01p16.02p解:由于解:由于n n1 1,n n
28、2 2均为大样本,均为大样本,1-=0.951-=0.95,/2/2=1.96=1.96175.080080016.080019.0800p两个正态总体参数的比较两个正态总体参数的比较p p1 1-p-p2 2的置信区间为的置信区间为)80018001(825.0175.096.116.019.0故在故在95%95%置信度下,置信度下,p p1 1-p-p2 2的置信区间为(的置信区间为(0.0110.011,0.0490.049)。)。两个正态总体参数的比较两个正态总体参数的比较 有效估计有效估计 Cramer-Rao下界下界u罗罗克拉美不等式克拉美不等式(Cramer-Rao)两个以上的两
29、个以上的无偏估计量无偏估计量具有最小方差具有最小方差最小方差无偏估计量最小方差无偏估计量一个估计量一个估计量罗罗克拉美不等式克拉美不等式检验检验非最佳无偏非最佳无偏估计量估计量2.衡量估计量优劣的标准衡量估计量优劣的标准u罗罗克拉美不等式克拉美不等式对于一个无偏估计量对于一个无偏估计量 的方差的方差 在分在分布为正则的条件下,其方差不会小于一个正布为正则的条件下,其方差不会小于一个正数,这个正数是数,这个正数是 的下限,它依赖于总体的下限,它依赖于总体的概率密度函数和样本量的概率密度函数和样本量n 即即:)(Var)(Var2,1)(1)(xInfnEnIVar注:当注:当 等于不等式右端时,
30、这时称等于不等式右端时,这时称 为最佳为最佳无偏估计量。无偏估计量。Var2.衡量估计量优劣的标准衡量估计量优劣的标准例例1若若 ,是总体均值的最是总体均值的最优无偏估计量。优无偏估计量。证证),(2NXx222221),(xexfexxfln2)2ln(21(ln1ln),(ln222222ln(,)1()(1)f xxx 2.衡量估计量优劣的标准衡量估计量优劣的标准 充分统计量充分统计量 因子分解定理因子分解定理 Rao-Blackwell定理定理如何改进你的估计(Rao-Blackwell 定理)如果你设计了一个估计 假定T是一个充分统计量,那么 不等号成立当且仅当)|(TE22)()(
31、EE1)(Pu1).无偏性无偏性(unbiasedness)设为总体未知参数的估计量设为总体未知参数的估计量若若 则称是的无偏估计量,称具有无偏性。如果则称是的无偏估计量,称具有无偏性。如果)(E是有偏估计量,则它的偏差为是有偏估计量,则它的偏差为偏差偏差=)(E4.衡量估计量优劣的标准衡量估计量优劣的标准u注注:)(xEx具有无偏性。具有无偏性。,对于对于 22)(11xxnsi22)(sE,2s具有无偏性具有无偏性2.衡量估计量优劣的标准衡量估计量优劣的标准但但S S不是不是 的无偏估计的无偏估计u2)一致性(一致性(consistency)如果对任意小的正数,有如果对任意小的正数,有1l
32、imPn2Sx与则称则称是是的一致估计量,称的一致估计量,称具有一致性,可以证明具有一致性,可以证明均具有一致性。均具有一致性。2.衡量估计量优劣的标准衡量估计量优劣的标准u3)有效性有效性 21与121VarVar 21VarVar若若都是都是的无偏估计量且的无偏估计量且 或或 12则称则称较较为有效估计量。为有效估计量。为较Mex的有效估计量的有效估计量2.衡量估计量优劣的标准衡量估计量优劣的标准22),(lnxxf24224221)(1xExE罗罗克拉美下限值为克拉美下限值为 XVarnn2211X为为的最佳无偏估计的最佳无偏估计2 衡量估计量优劣的标准衡量估计量优劣的标准本章小结1.点估计的基本概念与常用求解方法点估计的基本概念与常用求解方法2.置信区间估计的概念与应用置信区间估计的概念与应用3.两种基本的点估计方法两种基本的点估计方法4.有效估计和有效估计和C-R下界下界5.充分统计量充分统计量