1、第三节第三节 区间估计区间估计四、大样本置信区间四、大样本置信区间五、两个正态总体下的置信区间五、两个正态总体下的置信区间一、置信区间的定义一、置信区间的定义二、置信区间的求法二、置信区间的求法 枢轴量法枢轴量法三、单个正态总体参数的置信区间三、单个正态总体参数的置信区间 问题问题:想象你经营一个食品商店想象你经营一个食品商店.问能否根据下问能否根据下面的市场调查结果进行决策面的市场调查结果进行决策:(1)点估计:软饮料的每日平均需求量是 300 瓶;(2)软饮料的每日平均需求量是每日 300 50 瓶.一、一、区间估计的定义区间估计的定义满足满足 定义定义1:设设是一个待估参数,是一个待估参
2、数,对给定的对给定的(01),若由样本若由样本 X1,X2,Xn 确定的两个确定的两个统计量统计量则称区间则称区间 是是的置信水平的置信水平(置信度置信度)为为1-的的置信区间置信区间(confidence interval).,LU分别称为分别称为(双侧双侧)置信下限置信下限和和置信上限置信上限.LU和),.,(),.,(11nUUnLLXXXX1LUP 注注1:对参数对参数作区间估计,就是要设法找出两个作区间估计,就是要设法找出两个只依赖于样本的界限只依赖于样本的界限(构造统计量构造统计量)LU和 一旦有了样本,就把一旦有了样本,就把估计在区间估计在区间 内内.,LU注注2:置信水平置信水
3、平 1-的频率解释的频率解释:在很多次的区间在很多次的区间估计的观测值中估计的观测值中,至少有至少有 100(1-)%次包含次包含.置信区间置信区间(95%的置信区间的置信区间)注注3:要求要求以很大的可能被包含在区间以很大的可能被包含在区间,LU内,即概率内,即概率 要尽可能大要尽可能大.也就是也就是要求估计尽量可靠要求估计尽量可靠.()LUP 估计的精度要尽可能的高估计的精度要尽可能的高.即要求区间长度即要求区间长度 尽可能短尽可能短.LU可靠度与精度是一对矛盾,可靠度与精度是一对矛盾,一般是在保证可靠度一般是在保证可靠度的条件下尽可能提高精度的条件下尽可能提高精度.%951()x()()
4、()置信区间过宽置信区间过宽,虽然包含虽然包含真值真值,但抽样误差过大但抽样误差过大:置信区间也有可置信区间也有可能不覆盖真值:能不覆盖真值:实际工作时的情形,实际工作时的情形,只有一次抽样:只有一次抽样:xxx置信度高置信度高,则结论更可靠则结论更可靠置信区间的意义:置信区间的意义:估计抽样误估计抽样误差差有时在实际中常用的还有单侧置信区间有时在实际中常用的还有单侧置信区间:则称则称 是是的置信水平为的置信水平为 1-的的(单侧单侧)置信下限置信下限.L 定义定义3:设设 是统计量是统计量,若若对给定的对给定的(0 1),对任意的,对任意的,有有),.,(1nLLXX -1L P则称则称 是
5、是的置信水平为的置信水平为1-的的(单侧单侧)置信上限置信上限.U 定义定义4:设设 是统计量是统计量,若若对给定的对给定的(01),对任意的对任意的,有有),.,(1nUUXX -1U P思考思考:如果一条广告说,某药品的有效率为如果一条广告说,某药品的有效率为80%,其误差为正负其误差为正负3%,你相信这条广告,你相信这条广告吗?这条广告的发布者隐瞒了什么信息?吗?这条广告的发布者隐瞒了什么信息?在求置信区间时最常用的方法是枢轴量法在求置信区间时最常用的方法是枢轴量法.步骤如下步骤如下:二、置信区间的求法二、置信区间的求法-枢轴量法枢轴量法1、设法构造一个样本和设法构造一个样本和的函数的函
6、数 G=G(X1 ,.,Xn,),使得使得 G 的分布为已知(即的分布为已知(即不依赖于未知参数不依赖于未知参数).称称 G 为为枢轴量枢轴量.2、适当地选择两个常数适当地选择两个常数 c、d,使对给定的使对给定的(0 1),有有()1,P cGd 3、将将 进行不等式变形化为进行不等式变形化为 ,则有则有cGd,LU()1LUP 最后的最后的 就是就是的水平为的水平为1-的的置信区间置信区间.,LU注注:(常用点估计)(常用点估计)总体均值总体均值 的点估计为的点估计为 ;总体方差总体方差2 的点估计为的点估计为 S 2;总体方差总体方差 的点估计为的点估计为 S。X求参数求参数 的置信度为
7、的置信度为 的置信区间的置信区间.,2已知 例如例如:设设 X1,Xn 是取自是取自 的样本,的样本,),(2 N 11、明确问题、明确问题,是求哪个参数的置信区间是求哪个参数的置信区间?置信水平是多少?置信水平是多少?2、寻找未知、寻找未知参数的一个良参数的一个良好估计好估计.解:解:三、单个正态总体的置信区间三、单个正态总体的置信区间 选选 的点估计为的点估计为 ,X 3、寻找一个待估参数和样本的函数,要求其、寻找一个待估参数和样本的函数,要求其分布为已知分布为已知.4、对于给定的置信水平、对于给定的置信水平,根据根据G 的分布,确定一个区间的分布,确定一个区间,使得使得G取值于该区间的概
8、率为置信水平取值于该区间的概率为置信水平.N(0,1)xGn取枢轴量对给定的置信水平对给定的置信水平1-,查正态分布表得查正态分布表得12,u12|1xPun使使 5、变形可得、变形可得未知参数的置未知参数的置信区间信区间.-2-1120.10.20.30.421u21u12121P xuxunn 变形为变形为1212,xuxunn也可简记也可简记为为12xun 于是所求于是所求的的置信度为置信度为1-的的置信区间为置信区间为注:我们总是希望置信区间尽可能短注:我们总是希望置信区间尽可能短.在概率密度为单峰且对称的情形,一般当在概率密度为单峰且对称的情形,一般当 c=-d 时时求得的置信区间的
9、长度为最短求得的置信区间的长度为最短.在概率密度不对称的情形,在概率密度不对称的情形,如如 分布,分布,F分布,习惯上仍取对称分布,习惯上仍取对称(即等尾)的即等尾)的分位点来计算未知参数的置信区间分位点来计算未知参数的置信区间.2 注注1:满足置信度要求的满足置信度要求的 c,d 通常不唯一通常不唯一.若有可能若有可能,应选应选择平均长度择平均长度 达到最短的达到最短的 c 与与 d,这在这在 G 的分的分布为单峰且对称分布通常容易实现布为单峰且对称分布通常容易实现.()LUE0dxxx()p xcccdd950.950.950.c=-d212()n22()n()p xx)(2nX/2 2/
10、2 2注注2:实际中实际中,选平均长度最短的选平均长度最短的 c,d 很难实现很难实现.因此常因此常选择这样的选择这样的 c,d,使得两个尾部概率各为使得两个尾部概率各为/2,即即:()()/2,P GcP Gd这样的置信区间称为这样的置信区间称为等尾置信区间等尾置信区间.这是在这是在G的分布的分布为偏态分布场合常采用的方法为偏态分布场合常采用的方法.如如:由由确定确定12(1)tn故故 的置信区间为的置信区间为2211(1),(1)SSx tnx tnnn(2)推导推导 选取枢轴量选取枢轴量)1(/ntnSXT1)1(/21ntnSXP(3)推导推导 选取枢轴量得得 2 的置信区间为的置信区
11、间为 2222221(1)(1),(1)(1)nSnSnn2222221(1)()1nSP 则由2222(1)(1)nSn-22468100.0250.050.0750.10.1250.152221222单个正态总体置信区间常用公式单个正态总体置信区间常用公式(1)方差方差 2已知已知,的置信区间的置信区间2211,(1)xuxunn(2)方差方差 2未知未知,的置信区间的置信区间 2211(1),(1)(2)SSx tnx tnnn(3)当当 未知时未知时,方差方差 2 的置信区间的置信区间2222221(1)(1),(3)(1)(1)nSnSnn注:两边开方即得到注:两边开方即得到 的置信
12、区间的置信区间(4)当当 已知时已知时,方差方差 2 的的 置信区间置信区间(这种情况在实际中很少)(这种情况在实际中很少)222211221(4()(),()nniiiiXXnn 221()niiXQn取枢轴量取枢轴量 ,得 2 的置信度为 置信区间为 122222121()()()1niiXPnn 由概率总体均值的区间估计总体均值的区间估计(例题分析例题分析)28.109,44.10192.336.105251096.136.10521 nux 36.105 x总体均值的区间估计总体均值的区间估计(例题分析例题分析)2.1503,8.14762.1314901677.24131.21490
13、2-1 nstx 1490 x77.24s总体方差的区间估计总体方差的区间估计(例题分析例题分析)4011.12)24()1(2025.022 n3641.39)24()1(2975.022-1 n39.18083.564011.1221.931253641.3921.9312522估计总体均值时样本量的确定估计总体均值时样本量的确定(例题分析例题分析)9704.964002000)96.1()(22222221 Eun 四、大样本置信区间四、大样本置信区间 若总体若总体 X 的分布未知的分布未知,但样本容量很大但样本容量很大,由中心极限由中心极限定理定理,可近似地视为可近似地视为2(,)xN
14、n对给定的置信度对给定的置信度1-,则则 EX 的置信区间可取为的置信区间可取为21()xun若若2 2 未知未知,则则 EX 的置信区间可取为的置信区间可取为21()Sxun总体均值的区间估计总体均值的区间估计(例题分析例题分析)63.41,37.3713.25.393677.7645.15.3921 nsux 5.39x77.7s五五.总体比率的置信区间总体比率的置信区间(大样本大样本)总体比率总体比率 Population Proportion:p 样本比率样本比率 Sample Proportion:如果是大样本,则:如果是大样本,则:其中其中 q=(1-p)因此因此p)/,(npqp
15、Np)1,0(/NnpqppZ总体比率的置信区间总体比率的置信区间 置信度为(1-)的置信区间为:由于 p 和 q 都是未知的,因此置信区间近似为:)/,/(2/12/1npqupnpqup )/,/(2/12/1nqpupnqpup 例例6:某城市想要估计下岗职工中女性所占的比某城市想要估计下岗职工中女性所占的比例,随机抽取了例,随机抽取了100名下岗职工,其中名下岗职工,其中65人为女人为女性。试估计该城市下岗职工中女性比例,并指出性。试估计该城市下岗职工中女性比例,并指出估计误差。置信水平要求为估计误差。置信水平要求为95%。已知已知 n=100,=0.05,置信区间为:置信区间为:65
16、%9.35%下岗职工中女性比例为下岗职工中女性比例为65%。估计误差为。估计误差为9.35%。65%p 0935.010035.065.096.1)1(2/1 nppu 置信区间的内涵:置信区间的内涵:区间区间 置信度置信度降低置信度可以使置信区间变窄(误导读者)降低置信度可以使置信区间变窄(误导读者)例题:一项有例题:一项有10000个人回答调查,同意某种观点的人的比例个人回答调查,同意某种观点的人的比例为为70%(有(有7000人同意),可以算出总体中同意该观点的比例人同意),可以算出总体中同意该观点的比例的的95%置信区间为(置信区间为(0.691,0.709);另一个调查者调查了另一个
17、调查者调查了50个人。他声称有个人。他声称有70%的比例反对该种观的比例反对该种观点,并说总体中反对该观点的置信区间也是(点,并说总体中反对该观点的置信区间也是(0.691,0.709);所以,第二个调查的置信区间的置信度仅为所以,第二个调查的置信区间的置信度仅为11%。138873.050/3.07.02/)691.0709.0(/2/1 nqpDu 5557.02/1 1114.0-1 例题:如果在置信度不变的情况下,你要使目前所得到的置信例题:如果在置信度不变的情况下,你要使目前所得到的置信区间的长度减少一半,样本量应增加到目前样本量的多少倍?区间的长度减少一半,样本量应增加到目前样本量
18、的多少倍?如果保持置信区间的长度不变,样本量的增加会使什么发生变如果保持置信区间的长度不变,样本量的增加会使什么发生变化?化?2222/122/1 DunnuD 因此由于:样本量应增加到目前样本量的样本量应增加到目前样本量的4倍。倍。如果保持置信区间的长度不变,样本量的增加会使置信度增加。如果保持置信区间的长度不变,样本量的增加会使置信度增加。来自现实世界的数据量越大,我们对现实世界的了解就越清楚来自现实世界的数据量越大,我们对现实世界的了解就越清楚nDuDun4421 2222/12222/11 12(,)mx xx为取自总体为取自总体 N(1 12)的样本的样本,12(,)ny yy为取自
19、总体为取自总体 N(2 22)的样本的样本,置信度为置信度为 1 ,以下分别讨论两均值差和两方差以下分别讨论两均值差和两方差比的置信区间比的置信区间.22,;,xyx Sy S分别表示两样本的均值与方差分别表示两样本的均值与方差.五、两个正态总体的置信区间五、两个正态总体的置信区间21的置信区间为的置信区间为(1)2221,已知时已知时,222121()x yumn21的置信区间的置信区间(一一)2221,22212,(2)未知未知,但但21的置信区间为2111()(2)xys tm nmn(5)(6)222(1)(1)2xymSnSsmn记相互独立相互独立的简单随机样本的简单随机样本.则则设
20、设nXXX,21与与mYYY,21分别是来分别是来21(,)XN 自正态总体自正态总体22(,)YN 与与的的2)1()1(11)()(222121 mnSmSnmnYX )2(mnt两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)5.321x996.1521s8.282x358.1922s677.1721212358.19)112(996.15)112(2 s56.37.3121121677.170739.2)8.285.32(二二)方差比方差比2221的置信区间的置信区间(1,2 未知未知)为为222212211,(1,1)(1,1)xxyySSFmnF mnSS两个总体方
21、差比的区间估计两个总体方差比的区间估计(例题分析例题分析)5201x26021s4802x28022s505.028026098.12802602221 例例8 8 某厂利用两条自动化流水线罐装番茄酱某厂利用两条自动化流水线罐装番茄酱.现分别现分别 从两条流水线上抽取了容量分别为从两条流水线上抽取了容量分别为 13 与与 17 的两个相互的两个相互独立的样本独立的样本1213,x xx1217,y yy 与已知222210.6,9.5,2.4,4.7xyxgygsgsg假设两条流水线上罐装的番茄酱的重量都服从正态分布假设两条流水线上罐装的番茄酱的重量都服从正态分布,其均值分别为其均值分别为 1
22、与与 2,若不知它们的方差是否相同若不知它们的方差是否相同,求它们的求它们的方差比的置信方差比的置信度为度为0.950.95的置信区间的置信区间.(1)若它们的方差相同若它们的方差相同,22221求均值差求均值差21的置信度为的置信度为0.95 的置信区间的置信区间;解解查表得查表得0.975(28)2.0484t21由公式由公式 的置信区间为的置信区间为211120354525545()()(.,.)xytm nsmn (1)取枢轴量取枢轴量12()()(2)11 xyt m nsmn222210.6,9.5,2.4,4.7xyxgygsgsg(2)枢轴量为枢轴量为222212221222/
23、(12,16)/xyxySSSFFS查表得查表得0.9750.0250.97511(12,16)2.89,(12,16)(16,12)3.15FFF2221 由公式得方差比由公式得方差比 的置信区间为的置信区间为2222097500251101767 160851111.,(.,.)(,)(,)xxyySSS FmnS Fmn222210.6,9.5,2.4,4.7xyxgygsgsg单侧置信区间单侧置信区间设灯泡寿命服从正态分布设灯泡寿命服从正态分布.求灯泡寿命均值求灯泡寿命均值的置信的置信水平为水平为 0.95 的同等单侧置信下限的同等单侧置信下限.例例9 从一批灯泡中随机抽取从一批灯泡中
24、随机抽取 5 只作寿命试验,测得只作寿命试验,测得寿命寿命 X(单位:小时)如下:(单位:小时)如下:1050,1100,1120,1250,1280(1)xt nSn方差方差 未知未知,2 解:解:的点估计取为样本均值的点估计取为样本均值 ,x 对给定的置信水平对给定的置信水平 确定分位点确定分位点1(1)tn 11(1)1xPtnSn 使使即即1(1)1SPxtnn 由样本值得由样本值得1065 小时。小时。即即的置信水平为的置信水平为1-的的单侧置信下限单侧置信下限为为1(1)Sx tnn 的置信水平为的置信水平为0.95的单侧置信下限是的单侧置信下限是1060,99.75xs查表得0.
25、95(4)2.1318tEXCEL中命令说明:中命令说明:“=NORMSDIST(z)”表示表示 N(0,1)的分布函数值的分布函数值“=CHIDIST(x,deg_freedom)”表示卡方分布表示卡方分布x 的概率的概率“=TDIST(x,deg_freedom,tails)”表示表示t 分布分布x 的概率的概率“=FDIST(x,deg_freedom1,deg_freedom2)”表示表示F分布分布x 的概率的概率“tails”取值为取值为1或或2EXCEL中命令说明:中命令说明:“=NORMSDIST(z)”表示表示 N(0,1)的分布函数值的分布函数值“=CHIDIST(x,deg
26、_freedom)”表示卡方分布表示卡方分布x 的概率的概率“=TDIST(x,deg_freedom,tails)”表示表示t 分布分布x 的概率的概率“=FDIST(x,deg_freedom1,deg_freedom2)”表示表示F分布分布x 的概率的概率“tails”取值为取值为1或或2EXCEL中命令说明:中命令说明:“=NORMSINV(0.95)”表示表示 N(0,1)的的0.95 分位数分位数“=CHIINV(0.05,n)”表示卡方分布的表示卡方分布的0.95 分位数分位数“=TINV(0.1,n)”表示表示 t 分布的分布的 0.95 分位数分位数“=FINV(0.05,m
27、,n)”表示表示 F 分布的分布的0.95 分位数分位数重要知识点:重要知识点:参数估计参数估计点估计点估计矩估计矩估计点估计的评价标准:无偏性点估计的评价标准:无偏性区间估计区间估计最大似然估计最大似然估计枢轴量法枢轴量法正态分布总体情形正态分布总体情形重要结论:重要结论:矩估计三部曲矩估计三部曲 求解总体矩求解总体矩(一般来说,有几个参数就求(一般来说,有几个参数就求几阶矩,得到的一定是参数的函数)几阶矩,得到的一定是参数的函数)用样本矩代替总体矩建立方程(组)用样本矩代替总体矩建立方程(组)求解方程(组)求解方程(组))(L)(ln L0)(ln dLd),.,(1nxx),.,(1nX
28、X 直接从函数形式出直接从函数形式出发发极大似然估计的具体步骤:极大似然估计的具体步骤:密度函数区间含有参数密度函数区间含有参数无偏性无偏性()E则称则称 为为 的的无偏估计无偏估计.若对任意若对任意 ,有有定义定义:设:设是未知参数是未知参数 的估计,的估计,),.,(1nXX 置信区间的求法置信区间的求法-枢轴量法枢轴量法1、设法构造一个样本和设法构造一个样本和的函数的函数 G=G(X1 ,.,Xn,),使得使得 G 的分布为已知(即的分布为已知(即不依赖于未知参数不依赖于未知参数).称称 G 为为枢轴量枢轴量.2、适当地选择两个常数适当地选择两个常数 c、d,使对给定的使对给定的(0 1),有有()1,P cGd 3、将将 进行不等式变形化为进行不等式变形化为 ,则有则有cGd,LU()1LUP 最后的最后的 就是就是的水平为的水平为1-的的置信区间置信区间.,LU第第 三三 章章 作作 业业习题习题 3 23 2、6 6、8 8、1212、1313作业上交时间:作业上交时间:1010月月1616日日