第六章-参数估计课件.ppt_163文库

资源描述

1、中国人民大学出版社All rights reserved1 1 抽样分布抽样分布 2 2 点估计点估计 3 3 区间估计区间估计4 4 一个总体参数的区间估计一个总体参数的区间估计5 5 两个总体参数的区间估计两个总体参数的区间估计6 6 样本量样本量1 1.1.1 抽样的基本概念抽样的基本概念 1 1.2.2 样本均值的抽样分布样本均值的抽样分布 1 1.3.3 中心极限定理中心极限定理在抽样问题中，我们把研究对象的全体称为总体总体（population），总体的数量特征就是总体参数总体参数（Population parameter）。为了解总体的情况，我们从总体中随机抽取的个个体称为样本

2、样本（sample），样本的数量特征就是统计量统计量（statistics），它与总体参数相对应。统计量是关于样本数据的函数，它不依赖任何未知参数，利用调查数据，就能直接计算得到统计量的值。设是从总体中抽取的容量为的一个样本，根据样本构造一个函数，该函数便是一个统计量，也称为样本统计量。当调查得到样本数据的值时，代入，计算出的数值，就得到了一个具体的统计量值。在这里，大写的表示变量，小写的表示变量的具体取值，相应的，表示统计量，而则表示统计量的一个具体结果。12,nXXX12,nT X XXn12,nx xxT12,nT XXX12,nXXX12,nx xx12,nT X X

3、X12,nT x xx设是从总体中抽取得到一个样本，则：样本均值为样本方差为样本均值和方差是最常见的统计量。12,nXXX11niiXXn22111niiSXXn设总体服从正态分布，为个互相独立且与总体同分布的随机变量，则样本均值服从期望为，方差为的正态分布。记作：上面的结果表明，样本均值的期望与总体均值相同，而方差则变为原来的，这说明用样本均值去估计总体均值，平均来说没有偏差（因为期望相等），当样本量增加时，样本均值的方差变小，即用样本均值估计总体均值会更加精确。X2,N 12,nXXXn11niiXXn2/n1/nnX2,/XNn 设总体的分布未知，但已知均值为，

4、方差为，抽取得到一个容量为的样本，当足够大（我们通常要求）时，则样本均值近似服从期望为，方差为的正态分布。中心极限定理中心极限定理告诉我们：不管总体服从什么样的分布，只要样本量足够大，样本均值都近似服从正态分布。2/n11niiXXn30n n2Xn参数估计的方法分为：参数估计的方法分为：点估计区间估计点估计点估计：直接以样本统计量的某个取值作为总体参数的估计值区间估计区间估计：给出一个区间，说起来留有余地，不像点估计那么绝对 2 2.1.1 点估计点估计 2 2.2.2 点估计优劣的评价标准点估计优劣的评价标准点估计（point estimation）就是直接以样本统计量的某

5、个取值作为总体参数的估计值。在统计中经常使用的点估计量有：用样本均值直接估计总体均值，用样本比例直接估计总体比例，用样本方差直接估计总体方差等。xp1)(22nxxsnii2【例例6.16.1】已知某种灯泡的寿命，其中和都是未知的。现随机抽取,10只灯泡，测得寿命（单位：小时）分别为1502，1453，1567，1510，1500,1468,1582,1534,1450,1504，试估计和。),(2NX22解：解：因为是全部灯泡的平均寿命，为样本平均寿命，根据点估计的思想，用估计，用估计。由于所以，和的估计值分别为1507小时和1970.222小时。xx2s2

6、150711niixnx222.19701)(122nxxsnii2评价估计量好坏的标准：评价估计量好坏的标准：无偏性有效性一致性1.1.无偏性定义无偏性定义如果的期望等于未知参数，即对一切可能的成立，则称为的无偏估计。E【例例6.6.2 2】设为从一均值为的总体中抽取的样本，请验证的如下估计量的无偏性：12,nx xx12112121123415,2,243nnXXXXXXXXXX解：解：由于，容易验证，。因而，都是的无偏估计。然而，因而它们都不是的无偏估计。()iE XiE1,2,3i 321,4122EE X5121233EE XX2.2.有效性定义有效性定义

7、设和均为参数的无偏估计，如果有则称比有效。当是所有无偏估计中方差最小的那个时，称为最小方差无偏估计。21 12VarVar123 3一致性定义一致性定义设是的一个估计量，若依概率收敛于，即对任意的，则称是的一致估计。同时满足上述三条标准的估计量称为一致最小方差无偏估计量一致最小方差无偏估计量。0lim|1nP定义定义设为总体的一个未知参数，是来自该总体的一个样本，对给定的，确定两个统计量和，若有成立，则称为的置信度为的置信区间。其中，称为置信下限，称为置信上限。为显著性水平，一般取较小的值，如，等。12,nx xx)10(LU1LUP,LU 1

8、UL 0.010.05区间长度则表示估计的范围，即估计的精度，区间长度越短越好。但置信度和区间长度是相互矛盾的。实际中，我们总是在保证置信度的前提下，尽可能地提高精度。UL4 4.1.1 正态分布总体正态分布总体 4 4.2.2 非正态分布总体非正态分布总体 4 4.3.3 比例的估计比例的估计 1 1正态总体，正态总体，已知已知当总体服从正态分布且已知时，样本均值的抽样分布均为正态分布，对进行标准化以后的随机变量将服从标准正态分布，即有：从而，总体均值在置信度下的置信区间为：1212,xZxZnn22xx(0,1)xzNn1【例例6.6.3 3】从某超市的货架上随机地抽得9包0.

9、5千克装的白糖，实测其重量分别为（单位：千克）：，从长期的实践中知道，该品牌的白糖重量服从正态分布已知，求的置信区间。0.512 0.515,0.510,0.510,0.488,0.524,0.518,0.506,497.0),(2N2201.0%95解：解：经计算，对于显著性水平，查标准正态分布表，可得，于是，的置信区间为5089.0 x05.00.9751.96Z%950.010.010.5089 1.96,0.5089 1.960.5024,0.5154992 2正态总体，正态总体，未知未知方差未知，且为小样本时，虽然同样可以用样本方差代替来构建总体均值的置信区间，但此时

10、，样本均值经标准化以后的随机变量服从自由度为的分布，即：2s21nt(1)xtt nsn2根据分布建立的总体均值在置信度下的置信区间为：其中，为自由度为时，分布中左侧面积为时的值。t11212(1),(1)ssxtnxtnnn12(1)tn1nt12【例例6.6.4 4】例6.3中，若未知，求的95%的置信区间。解：解：已知，直接计算可得对于显著性水平，查自由度为的分布表，可得。从而，的95%置信区间为：9n5089.0 x230.1184 10s05.08t306.2)8(975.0t330.1184 100.1184 100.50892.306,0.50892.

11、3060.5005,0.5173882 当总体是非正态分布总体时，在数学上可以证明，当样本足够大时，无论总体是否服从正态分布，样本均值的抽样分布均为正态分布，其数学期望为总体均值，方差为，其中为总体方差。对进行标准化以后的随机变量将服从标准正态分布，即有：从而，总体均值在置信度下的置信区间为：其中，是标准正态分布左侧面积为时的Z值。x2n2x(0,1)xzNn1212,xZxZnn12Z12n1如果总体的方差未知，则式中的可用样本标准差代替，此时总体均值的置信区间变为：s1212,ssxZxZnn【例例6.6.5 5】从某校随机地抽取100名男学生，测得平均身高为170厘

12、米，标准差为7.5厘米，试求该校男学生平均身高95的置信区间。解：解：由于为大样本，且总体方差未知，又 100，170，7.5，1-0.95，查表得 1.96，有 1701.961701.47因此，该校男学生平均身高的95的置信区间为68.5171.5厘米之间。nxs12Z12sxZn大样本情形（，时），比例的抽样分布可用正态分布近似。的数学期望为，的方差为。样本比例经标准化后的随机变量服从标准正态分布，即：5np(1)5npppp()E p(1)()Var pn(0,1)(1)pzNn从而，总体比例在置信度下的置信区间为：11212(1)(1),pZpZnn 值未知的解决办法：值未

13、知的解决办法：用样本比例来代替，总体比例的置信区间可表示为：较为保守的方法：当 0.5时，达到最大值。所以用0.5作为的估计值求出的将是最宽的置信区间：当0.3 0.7时，由这两种方法得到的结果很接近。p1212(1)(1),pppppZpZnn1(1)12120.250.25,pZpZnnp【例例6.6.6 6】从某社区抽取一个由200个家庭组成的样本，发现其中有36的家庭拥有电脑。试问，在99%的置信度下，该社区拥有电脑的家庭所占比例的置信区间是多少？解：解：若采用第一种方法，得到的置信区间为：O.362.58O.36O.09=0.27，0.45 1212(1)/,(1)/pZpp

14、n pZppn200)64.0)(36.0（若采用第二种方法，则得到置信区间：0362.58O.36O.09=0.27，0.45因此，该社区拥有电脑的家庭所占比例的置信区间是27%，45%。12120.25/,0.25/pZn pZn200)5.0)(5.0(5 5.1.1 独立样本独立样本 5 5.2.2 匹配样本匹配样本 5 5.3.3 比例之差的估计比例之差的估计独立样本指的是两个样本从两个总体中独立抽取，一个样本中的元素与另一个样本中的元素相互独立相互独立。假设有两个总体，它们均值分别为和，方差分别为和，现分别从这两个总体中独立地抽取大小为和的两个样本。在大样本情形下，无

15、论两个总体是否服从正态分布，两个样本均值之差的抽样分布均服从期望为 -，方差为的正态分布，即有：1221221n2n12221212nn2212121212,xxN uunn对进行标准化，则有12xx 12122212120,1xxuuZNnn当两个总体的方差为、已知时，由，可构造置信度下的的置信区间为当两个总体的方差、未知时，可以用两个样本方差来代替。置信区间为：212212|1PZz 112uu22221212121212121212,xxzxxznnnn212222221212121212121212,ssssxxzxxznnnn匹配样本匹配样本指的是一个样本中的数据与另一

16、个样本中的数据相对应。大样本条件下，使用匹配样本进行估计时，两个总体均值之差的置信度下的置信区间为其中，表示两个匹配样本数据的差值，表示各差值的均值，表示各差值的标准差。12du11212,dddzdznnddd若未知，可用样本数据来代替。而如果是小样本，若两个总体配对的观察值之差服从正态分布，则的置信区间为dds12du 11212,ddssdtdtnn【例例6.6.7 7】某机构对随机抽取的10名小学生采用A、B两套试卷测智力，结果如表6.1所示，试建立这两套试卷平均得分之差的95%置信区间。解：解：将每位学生A套试卷的得分与B套试卷得分相差，得到差值列。又查分布表可知，

17、得到这两套试卷平均得分之差的95%置信区间为：d114.1dniidddn2114.411dndiidsddnt0.975(9)2.262t4.414.414.1 2.262,4.12.2624.1 3.15,4.1 3.150.95,7.251010两个样本比例之差的抽样分布服从正态分布，将进行标准化，则有12pp12pp 1212112212(0,1)(1)(1)ppZNnn通常和是未知的，可以用样本比例和来代替。两个总体比例之差在置信度下的置信区间可构建为 121p2p1211122121212(1)(1)ppppppznn【例例6.6.8 8】H公司委托一家市场调查公司

18、对旗下产品进行调查，以对该公司产品在两个地区的市场占有率进行比较。调查公司从这两个地区分别随机调查了1000人，其中使用过H公司产品的被调查者所占的比例分别为30%和22%，试求这两个地区H公司产品市场占有率之差的95%置信区间。解：解：，=30%，=22%，故 =70%，=78%，查表可得，=1.96。代入算式，得：从而，两个地区产品市场占有率之差的95%置信区间为 121000nn1p2p11p21p12z0.975z30%70%22%78%30%22%1.96100010008%1.96 1.95%8%3.83%4.17%,11.83%4.17%,11.83%6 6.1.1 确定样本量的

19、一般问题确定样本量的一般问题6 6.2.2 一般问题的具体化一般问题的具体化在置信度下，总体均值的置信区间为，其区间长度为。置信区间长度的一半称为允许误差，表示在一定的置信度下，用样本均值去估计总体均值时所允许的最大绝对误差，用符号表示。允许误差、可靠性系数、总体标准差和样本量之间存在着如下关系：112xZn122Zn12Z12Zn 从而有12222Zn影响样本量的因素主要有：影响样本量的因素主要有：1可靠性系数所需要的样本量与可靠性系数成正比关系2总体方差所需要的样本量与总体方差也成正比关系3允许误差所需要的样本量与允许误差成反比关系6 6.2.1.2.1估计总体均值估

20、计总体均值1 1单个总体情形单个总体情形若总体方差未知，则可采用经验值代替。12222Zn【例例6.6.9 9】设某市家庭的月均收入服从正态分布，标准差为l000元，现要对该市家庭的月平均收入进行估计，若置信度为95，允许的估计误差在100元以内，样本量应定为多少？解：解：由题意，1000元，100元，1-0.95=0.05，查表得 1.96，代入算式，得 384.16385 385（人）0.975Z12222Zn2221.9610001002 2两个总体情形两个总体情形对于给定的允许误差和置信度，估计两个总体均值之差所需的样本量为：其中，和为从两个总体中抽取的样本量，和为两个总体的

21、方差。1222212122()Znn1n2n2122【例例6.16.10 0】假定两个总体的标准差分别为，若要求误差范围不超过5，相应的置信度为95%。假定估计两个总体均值之差时所需的样本量为多大？11221512nn12uu解：解：因而，所需的样本量为 =57,=57。12222222121222()1.96(1215)56.7575Znn1n2n6 6.2.2.2.2 估计总体比例估计总体比例1 1单个总体情形单个总体情形与估计总体均值时样本量的确定方法类似，单个总体情形，估计总体比例的允许误差的表达式为12(1)Zn 整理可得样本量的确定公式：1222(1)Zn【例例6.16.1

22、1 1】如果认为某地区私家车的拥有比例为0.5，且要求在95的置信度下保证这一比例的允许的估计误差不超过3，试问样本量应定为多少？解：解：据题意，0.03，0.5，0.05，查表可得 1.96，1067.111068 p0.975Z1222(1)Zn221.960.5 0.5(0.03)10682 2两个总体情形两个总体情形同样，在给定允许误差、置信度的条件下，估计两个总体比例之差所需要的样本量为：其中，和为从两个总体中抽取的样本量，和为两个总体的比例。1221122122(1)(1)Znn1n2n12【例例6.16.12 2】假定，允许误差 =0.05，相应的置信度为95%，估计两个总体比例之差时所需的样本量为多大？12nn12解：解：因而，所需的样本量和各为769。122211221222(1)(1)1.96(0.250.25)768.37690.05Znn1n2n中国人民大学出版社All rights reserved

展开阅读全文