1、中国人民大学出版社All rights reserved1 1 抽样分布抽样分布 2 2 点估计点估计 3 3 区间估计区间估计4 4 一个总体参数的区间估计一个总体参数的区间估计5 5 两个总体参数的区间估计两个总体参数的区间估计6 6 样本量样本量1 1.1.1 抽样的基本概念抽样的基本概念 1 1.2.2 样本均值的抽样分布样本均值的抽样分布 1 1.3.3 中心极限定理中心极限定理 在抽样问题中,我们把研究对象的全体称为总体总体(population),总体的数量特征就是总体参数总体参数(Population parameter)。为了解总体的情况,我们从总体中随机抽取的个个体称为样本
2、样本(sample),样本的数量特征就是统计量统计量(statistics),它与总体参数相对应。统计量是关于样本数据的函数,它不依赖任何未知参数,利用调查数据,就能直接计算得到统计量的值。设 是从总体中抽取的容量 为的一个样本,根据样本构造一个函数 ,该函数便是一个统计量,也称为样本统计量。当调查得到样本数据的值 时,代入 ,计算出 的数值,就得到了一个具体的统计量值。在这里,大写的 表示变量,小写的 表示变量的具体取值,相应的,表示统计量,而 则表示统计量的一个具体结果。12,nXXX12,nT X XXn12,nx xxT12,nT XXX12,nXXX12,nx xx12,nT X X
3、X12,nT x xx设 是从总体中抽取得到一个样本,则:样本均值为样本方差为样本均值和方差是最常见的统计量。12,nXXX11niiXXn22111niiSXXn设总体 服从正态分布 ,为 个互相独立且与总体同分布的随机变量,则样本均值 服从期望为 ,方差为 的正态分布。记作:上面的结果表明,样本均值的期望与总体均值相同,而方差则变为原来的 ,这说明用样本均值去估计总体均值,平均来说没有偏差(因为期望相等),当样本量 增加时,样本均值的方差变小,即用样本均值 估计总体均值 会更加精确。X2,N 12,nXXXn11niiXXn2/n1/nnX2,/XNn 设总体 的分布未知,但已知均值为 ,
4、方差为 ,抽取得到一个容量为 的样本,当 足够大(我们通常要求 )时,则样本均值近似服从期望为 ,方差为 的正态分布。中心极限定理中心极限定理告诉我们:不管总体服从什么样的分布,只要样本量足够大,样本均值都近似服从正态分布。2/n11niiXXn30n n2Xn参数估计的方法分为:参数估计的方法分为:点估计区间估计 点估计点估计:直接以样本统计量的某个取值作为总体参数的估计值区间估计区间估计:给出一个区间,说起来留有余地,不像点估计那么绝对 2 2.1.1 点估计点估计 2 2.2.2 点估计优劣的评价标准点估计优劣的评价标准 点估计(point estimation)就是直接以样本统计量的某
5、个取值作为总体参数的估计值。在统计中经常使用的点估计量有:用样本均值 直接估计总体均值 ,用样本比例 直接估计总体比例 ,用样本方差 直接估计总体方差 等。xp1)(22nxxsnii2【例例6.16.1】已知某种灯泡的寿命 ,其中 和 都是未知的。现随机抽取,10只灯泡,测得寿命(单位:小时)分别为1502,1453,1567,1510,1500,1468,1582,1534,1450,1504,试估计 和 。),(2NX22解:解:因为 是全部灯泡的平均寿命,为样本平均寿命,根据点估计的思想,用 估计 ,用 估计 。由于所以,和 的估计值分别为1507小时和1970.222小时。xx2s2
6、150711niixnx222.19701)(122nxxsnii2评价估计量好坏的标准:评价估计量好坏的标准:无偏性 有效性 一致性1.1.无偏性定义无偏性定义如果 的期望等于未知参数 ,即 对一切可能的成立,则称 为 的无偏估计。E【例例6.6.2 2】设 为从一均值为 的总体中抽取的样本,请验证 的如下估计量的无偏性:12,nx xx12112121123415,2,243nnXXXXXXXXXX解:解:由于 ,容易验证 ,。因而,都是 的无偏估计。然而,因而它们都不是 的无偏估计。()iE XiE1,2,3i 321,4122EE X5121233EE XX2.2.有效性定义有效性定义
7、 设 和 均为参数 的无偏估计,如果有 则称 比 有效。当 是所有无偏估计中方差最小的那个时,称 为最小方差无偏估计。21 12VarVar123 3一致性定义一致性定义设 是 的一个估计量,若 依概率收敛于 ,即对任意的 ,则称 是 的一致估计。同时满足上述三条标准的估计量称为一致最小方差无偏估计量一致最小方差无偏估计量。0lim|1nP定义定义 设 为总体的一个未知参数,是来自该总体的一个样本,对给定的 ,确定两个统计量 和 ,若有成立,则 称为 的置信度为 的置信区间。其中,称为置信下限,称为置信上限。为显著性水平,一般取较小的值,如 ,等。12,nx xx)10(LU1LUP,LU 1
8、UL 0.010.05区间长度 则表示估计的范围,即估计的精度,区间长度越短越好。但置信度和区间长度是相互矛盾的。实际中,我们总是在保证置信度的前提下,尽可能地提高精度。UL4 4.1.1 正态分布总体正态分布总体 4 4.2.2 非正态分布总体非正态分布总体 4 4.3.3 比例的估计比例的估计 1 1正态总体,正态总体,已知已知当总体服从正态分布且 已知时,样本均值 的抽样分布均为正态分布,对 进行标准化以后的随机变量将服从标准正态分布,即有:从而,总体均值 在置信度 下的置信区间为:1212,xZxZnn22xx(0,1)xzNn1【例例6.6.3 3】从某超市的货架上随机地抽得9包0.
9、5千克装的白糖,实测其重量分别为(单位:千克):,从长期的实践中知道,该品牌的白糖重量服从正态分布已知 ,求 的 置信区间。0.512 0.515,0.510,0.510,0.488,0.524,0.518,0.506,497.0),(2N2201.0%95解:解:经计算,对于显著性水平 ,查标准正态分布表,可得 ,于是,的 置信区间为5089.0 x05.00.9751.96Z%950.010.010.5089 1.96,0.5089 1.960.5024,0.5154992 2正态总体,正态总体,未知未知方差未知,且为小样本时,虽然同样可以用样本方差 代替 来构建总体均值的置信区间,但此时
10、,样本均值经标准化以后的随机变量服从自由度为 的 分布,即:2s21nt(1)xtt nsn2根据 分布建立的总体均值 在置信度 下的置信区间为:其中,为自由度为 时,分布中左侧面积为 时的值。t11212(1),(1)ssxtnxtnnn12(1)tn1nt12【例例6.6.4 4】例6.3中,若 未知,求 的95%的置信区间。解:解:已知 ,直接计算可得对于显著性水平 ,查自由度为 的 分布表,可得 。从而,的95%置信区间为:9n5089.0 x230.1184 10s05.08t306.2)8(975.0t330.1184 100.1184 100.50892.306,0.50892.
11、3060.5005,0.5173882 当总体是非正态分布总体时,在数学上可以证明,当样本足够大时,无论总体是否服从正态分布,样本均值 的抽样分布均为正态分布,其数学期望为总体均值 ,方差为 ,其中 为总体方差。对 进行标准化以后的随机变量将服从标准正态分布,即有:从而,总体均值 在置信度 下的置信区间为:其中,是标准正态分布左侧面积为 时的Z值。x2n2x(0,1)xzNn1212,xZxZnn12Z12n1如果总体的方差未知,则式中的 可用样本标准差 代替 ,此时总体均值的置信区间变为:s1212,ssxZxZnn【例例6.6.5 5】从某校随机地抽取100名男学生,测得平均身高为170厘
12、米,标准差为7.5厘米,试求该校男学生平均身高95的置信区间。解:解:由于为大样本,且总体方差未知,又 100,170,7.5,1-0.95,查表得 1.96,有 1701.961701.47因此,该校男学生平均身高的95的置信区间为68.5171.5厘米之间。nxs12Z12sxZn大样本情形(,时),比例 的抽样分布可用正态分布近似。的数学期望为 ,的方差为 。样本比例经标准化后的随机变量服从标准正态分布,即:5np(1)5npppp()E p(1)()Var pn(0,1)(1)pzNn从而,总体比例 在置信度 下的置信区间为:11212(1)(1),pZpZnn 值未知的解决办法:值未
13、知的解决办法:用样本比例 来代替 ,总体比例的置信区间可表示为:较为保守的方法:当 0.5时,达到最大值。所以 用0.5作为 的估计值求出的将是最宽的置信区间:当0.3 0.7时,由这两种方法得到的结果很接近。p1212(1)(1),pppppZpZnn1(1)12120.250.25,pZpZnnp【例例6.6.6 6】从某社区抽取一个由200个家庭组成的样本,发现其中有36的家庭拥有电脑。试问,在99%的置信度下,该社区拥有电脑的家庭所占比例的置信区间是多少?解:解:若采用第一种方法,得到的置信区间为:O.362.58O.36O.09=0.27,0.45 1212(1)/,(1)/pZpp
14、n pZppn200)64.0)(36.0(若采用第二种方法,则得到置信区间:0362.58O.36O.09=0.27,0.45因此,该社区拥有电脑的家庭所占比例的置信区间是27%,45%。12120.25/,0.25/pZn pZn200)5.0)(5.0(5 5.1.1 独立样本独立样本 5 5.2.2 匹配样本匹配样本 5 5.3.3 比例之差的估计比例之差的估计 独立样本指的是两个样本从两个总体中独立抽取,一个样本中的元素与另一个样本中的元素相互独立相互独立。假设有两个总体,它们均值分别为 和 ,方差分别为 和 ,现分别从这两个总体中独立地抽取大小为 和 的两个样本。在大样本情形下,无
15、论两个总体是否服从正态分布,两个样本均值之差的抽样分布均服从期望为 -,方差为 的正态分布,即有:1221221n2n12221212nn2212121212,xxN uunn对 进行标准化,则有12xx 12122212120,1xxuuZNnn当两个总体的方差为 、已知时,由 ,可构造 置信度下的 的置信区间为当两个总体的方差 、未知时,可以用两个样本方差来代替。置信区间为:212212|1PZz 112uu22221212121212121212,xxzxxznnnn212222221212121212121212,ssssxxzxxznnnn匹配样本匹配样本指的是一个样本中的数据与另一
16、个样本中的数据相对应。大样本条件下,使用匹配样本进行估计时,两个总体均值之差 的 置信度下的置信区间为 其中,表示两个匹配样本数据的差值,表示各差值的均值,表示各差值的标准差。12du11212,dddzdznnddd若 未知,可用样本数据 来代替。而如果是小样本,若两个总体配对的观察值之差服从正态分布,则 的置信区间为dds12du 11212,ddssdtdtnn【例例6.6.7 7】某机构对随机抽取的10名小学生采用A、B两套试卷测智力,结果如表6.1所示,试建立这两套试卷平均得分之差的95%置信区间。解:解:将每位学生A套试卷的得分与B套试卷得分相差,得到差值 列。又查 分布表可知 ,
17、得到这两套试卷平均得分之差的95%置信区间为:d114.1dniidddn2114.411dndiidsddnt0.975(9)2.262t4.414.414.1 2.262,4.12.2624.1 3.15,4.1 3.150.95,7.251010两个样本比例之差 的抽样分布服从正态分布,将 进行标准化,则有12pp12pp 1212112212(0,1)(1)(1)ppZNnn通常 和 是未知的,可以用样本比例 和 来代替。两个总体比例之差 在 置信度下的置信区间可构建为 121p2p1211122121212(1)(1)ppppppznn【例例6.6.8 8】H公司委托一家市场调查公司
18、对旗下产品进行调查,以对该公司产品在两个地区的市场占有率进行比较。调查公司从这两个地区分别随机调查了1000人,其中使用过H公司产品的被调查者所占的比例分别为30%和22%,试求这两个地区H公司产品市场占有率之差的95%置信区间。解:解:,=30%,=22%,故 =70%,=78%,查表可得,=1.96。代入算式,得:从而,两个地区产品市场占有率之差的95%置信区间为 121000nn1p2p11p21p12z0.975z30%70%22%78%30%22%1.96100010008%1.96 1.95%8%3.83%4.17%,11.83%4.17%,11.83%6 6.1.1 确定样本量的
19、一般问题确定样本量的一般问题6 6.2.2 一般问题的具体化一般问题的具体化 在 置信度下,总体均值 的置信区间为 ,其区间长度为 。置信区间长度的一半称为允许误差,表示在一定的置信度下,用样本均值去估计总体均值时所允许的最大绝对误差,用符号 表示。允许误差 、可靠性系数 、总体标准差和样本量之间存在着如下关系:112xZn122Zn12Z12Zn 从而有12222Zn影响样本量的因素主要有:影响样本量的因素主要有:1可靠性系数 所需要的样本量与可靠性系数成正比关系2总体方差 所需要的样本量与总体方差也成正比关系3允许误差 所需要的样本量与允许误差成反比关系6 6.2.1.2.1估计总体均值估
20、计总体均值1 1单个总体情形单个总体情形 若总体方差未知,则可采用经验值代替。12222Zn【例例6.6.9 9】设某市家庭的月均收入服从正态分布,标准差为l000元,现要对该市家庭的月平均收入进行估计,若置信度为95,允许的估计误差在100元以内,样本量应定为多少?解:解:由题意,1000元,100元,1-0.95=0.05,查表得 1.96,代入算式,得 384.16385 385(人)0.975Z12222Zn2221.9610001002 2两个总体情形两个总体情形 对于给定的允许误差和置信度,估计两个总体均值之差所需的样本量为:其中,和 为从两个总体中抽取的样本量,和 为两个总体 的
21、方差。1222212122()Znn1n2n2122【例例6.16.10 0】假定两个总体的标准差分别为 ,若要求误差范围不超过5,相应的置信度为95%。假定 估计两个总体均值之差 时所需的样本量为多大?11221512nn12uu解:解:因而,所需的样本量为 =57,=57。12222222121222()1.96(1215)56.7575Znn1n2n6 6.2.2.2.2 估计总体比例估计总体比例1 1单个总体情形单个总体情形 与估计总体均值时样本量的确定方法类似,单个总体情形,估计总体比例的允许误差的表达式为12(1)Zn 整理可得样本量的确定公式:1222(1)Zn【例例6.16.1
22、1 1】如果认为某地区私家车的拥有比例为0.5,且要求在95的置信度下保证这一比例的允许的估计误差不超过3,试问样本量应定为多少?解:解:据题意,0.03,0.5,0.05,查表可得 1.96,1067.111068 p0.975Z1222(1)Zn221.960.5 0.5(0.03)10682 2两个总体情形两个总体情形 同样,在给定允许误差、置信度的条件下,估计两个总体比例之差所需要的样本量为:其中,和 为从两个总体中抽取的样本量,和 为两个总体 的比例。1221122122(1)(1)Znn1n2n12【例例6.16.12 2】假定 ,允许误差 =0.05,相应的置信度为95%,估计两个总体比例之差 时所需的样本量为多大?12nn12解:解:因而,所需的样本量 和 各为769。122211221222(1)(1)1.96(0.250.25)768.37690.05Znn1n2n中国人民大学出版社All rights reserved