1、抽样分布与参数估计修改稿抽样分布与参数估计修改稿第一节抽样调查的基本概念与方法第一节抽样调查的基本概念与方法 一、抽样调查的概念和作用一、抽样调查的概念和作用(一)抽样调查-是指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种调查组织形式。(二)抽样调查的作用二、抽样调查中的几个基本概念二、抽样调查中的几个基本概念1、全及总体2、样本3、总体参数-主要有:总体平均数总体比例 总体比例的期望 总体比例方差总体方差总体标准差 二、抽样调查中的几个基本概念二、抽样调查中的几个基本概念4、统计量-主要有:样本平均数 样本比例 样本方差
2、样本标准差 5、样本容量和样本个数 样本容量是指一个样本所包含的单位数,即n。样本个数又称样本可能数目,是从一个总体中可能抽取多少个样本。三、抽样方法有二种三、抽样方法有二种 1、重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,放回去,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫重复抽样,也叫重置抽样。2、不重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,不再放回去,再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫不重复抽样,也叫不重置抽样。样本统计量的概率分布(频率分布)是一种理论概率分布随机变量是 样本统计量样本统计量样本均值,样本比例,样本
3、方差等结果来自容量相同的所有可能样本提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 第二节第二节 抽样分布抽样分布(sampling distribution)抽样分布抽样分布(sampling distribution)一、一、样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布(例题分析)5.21NxNii25.1)(122NxNii样本均值的抽样分布(例题分析)3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2
4、的样本(共的样本(共16个)个)样本均值的抽样分布(例题分析)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)样本均值的分布与总体分布的比较(例题分析)5.2X625.02X即:即 5.2ffxXnffxxX222625.0nffxxX79.02nNx2,样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布(数学期望与方差)(XEnX22122NnNnX均值的抽样标准误所有可能的样本均值的标准差,测度所有样本均值的离散程度小于总体标
5、准差计算公式为nX二、样本比例的抽样分布样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布(数学期望与方差)(PEnP)1(21)1(2NnNnP第三节 正态分布和正态逼近一、正态分布2212,e21)(22Nxxxfxf(x)=随机变量 X 的频数 =正态随机变量X的均值=正态随机变量X的方差 =3.1415926;e=2.71828x=随机变量的取值(-x )密度函数是描述概率分布情况的,正态分布的密度函数为:正态分布的概率?d)()(baxxfbxaP二、标准正态分布(standardize the normal distribution)zzz,e21)(22随机变量
6、具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布)1,0(NXZzzzzzzdze21d)()(2-2标准正态分布XZ标准正态分布表的使用为了应用上的方便,是将z从05的概率编成正态分布表,直接查表求得概率。对于标准正态分布,即ZN(0,1),有P(a Zb)b aP(|Z|z)对于负的 z,可由(-z)z得到对于一般正态分布,即XN(,),有abbXaP)()()(xxXP 121zzzzz常用的概率分布表 在统计推断中,常常要求变量落在(-z,z)区间的概率,即:P(|Z|z)2 z 1常用的概率分布表 z P(|Z|z)0.5 1 1.96
7、 2 2.5 3 0.3829 0.6827 0.95 0.9545 0.9876 0.9973 标准化的例子 P(5 X 6.2)12.01052.6XZ标准化的例子P(2.9 X 7.1)21.01051.7 21.01059.2XZXZ正态分布(例题分析)02275.097725.01)2(1)105070(1)70(1)70(XPXP6826.018413.021)1(2)1()1()105040()105060()6040(XP三、关于正态分布的定理(一)正态分布再生定理X5x50 x5.2x(二)中心极限定理(central limit theorem)xn x 样本比例的抽样分布
8、样本比例的抽样分布 总体比例是服从01分布。因此中心极限定理也适用于样本比例的分布。具体说,从任一总体比例为 、方差为 的01分布总体中,抽取容量为n的样本,其样本比例p的分布随着样本单位数n的增大而趋近于平均数方差 的正态分布。在实际工作中,总体变量的分布通常是不知道的,样本平均数或比例的分布是否接近于正态,可接近到什么程度,取决于样本容量。样本容量越大,样本平均数或比例的分布也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。1)(PEnP)1(2例例6.2 一汽车蓄电池商声称其生产的电池具有均值为 54 个月,标准差为 6 个月的寿命分布。现假设某消费团体决定
9、检验该厂的说法是否准确,为此购买了 50 个该厂生产的电池进行寿命试验。假设厂商声称是正确的,试描述 50 个电池的平均寿命的抽样分布。假设厂商声称正确,则50个电池的平均寿命不超过52 个月的概率为多少?解:解:根据中心极限定理,当厂商假定正确时,50个电池的平均寿命 近似服从正态分布,有X85.072.072.0506,54222XXXn即285.0,54 NX0094.09906.0135.2135.2135.285.0545285.05452ZPZPXPXP四、样本方差的抽样分布)1()1(222nsn22)1(sn 分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称
10、的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 2分布(性质和特点)2分布(图示)选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差S2计算卡方值计算卡方值 2=(n-1)S2/2计算出所有的计算出所有的 2值值总体总体课堂练习课堂练习1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从
11、均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准定为多少元?2、今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了81名推销员并在年终时将每个人的病休日数目记录下来。a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么
12、这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92,18。b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每名推销员所用病休日的真正平均数小于前些年的平均数92?3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。b 样本中许可证的平均价值小于7 500美元的概率是多少?
13、c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?课堂练习参考答案课堂练习参考答案1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准定为多少元?解:%956004000036000040000 xxz)xxz元(40987645.160040000 2、(P261 7.27)今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用
14、的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了81名推销员并在年终时将每个人的病休日数目记录下来。a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92,18。(0.0139)b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每
15、名推销员所用病休日的真正平均数小于前些年的平均数92?(证据充分)3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。(8000,237.172 )b 样本中许可证的平均价值小于7 500美元的概率是多少?(0.0174)c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?(0.9652)作业作业 统计学第四版:P154 5.
16、17 P173 6.1 参数估计在统计方法中的地位参数估计参数估计假设检验假设检验 统计方法统计方法描述统计描述统计推断统计推断统计第第 四节四节 总体总体参数估计参数估计统计推断的过程均均一、一、参数估计参数估计概述概述科学的抽样估计方法要具备三个基本条件1、要有合适的统计量作为估计量。比如,从一个样本可以计算平均数、中位数、众数等等,用哪个来作为总体平均数的估计量呢?2、要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。|-|-p|P 由于统计量本身也是随机变量,所以要使估计完全没有误差是难以做到。但是误差太大,这种估计也
17、没有意义;误差太小势必增加人力物力和财力以及时间,这样抽样调查也失去了意义。所以要规定一定的误差范围,只要误差在允许的误差范围内的估计都是有效的。xx一、一、参数估计参数估计概述概述3、要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。如果我们愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计将有10次是错误的,90次是正确的。90%就称为置信度或称为概率保证程度。要求估计的置信度达到100%是不可能的,但置信度太低,也没有意义,所以要有一个可接受的置信度。参数估计的基本方法有点估计和区间估计两种。二、点估计二、点估计1、概念、概念 点估计就
18、是直接以样本指标代表总体指标。例如从某灯泡厂抽100只灯泡检验,其平均耐用时间为1100小时,产品合格率为90%,就推断该厂生产的灯泡平均耐用时间为1100小时,产品合格率为90%。此法的缺点是既没有说明这种推断的准确程度,也无法说明其可靠程度,只是一种粗略的估计。但是它又不同于拍脑袋的瞎猜,它是有科学根据的,对那些要求不太高的判断和分析,此法还是可以采用的。二、点估计二、点估计2、优良估计量的三个标准、优良估计量的三个标准 估计总体参数,未必只能用一个统计量,也可以用其他统计量。例如估计总体平均数,可以用样本平均数,也可以用样本中位数等等。应该用哪一个呢?就应该有一个标准。优良估计量有三个标
19、准:无偏性 即样本统计量的期望值(平均数)等于被估计的总体参数。前已证明,样本算术平均数作为总体平均数的估计量是符合无偏性要求的。即:xE pE 22sE一致性一致性 即当样本的单位数充分大时,样本统计量也充分靠近总体参数。可以证明,以样本平均数估计总体平均数时,也符合一致性的要求,即存在下列关系式:1)(limxPn有效性有效性 即作为优良估计量的方差应该比其他估计量的方差小。例如用样本平均数或用总体任一变量来估计总体平均数都是无偏估计,但是样本平均数的方差比总体方差小,所以,样本平均数是更为有效的估计量。即:类似的有:样本比例是(0,1)分布平均数的表现形式,所以也完全符合优良估计量的标准
20、。不是所有的估计量都符合以上标准。可以说符合以上标准的统计量比不符合或不完全符合以上标准的统计量更为优良。Xx22 nXx22 nnp122二战中的点估计二战中的点估计 德军有多少辆坦克?德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号
21、大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计N的公式的缺点是:不能保证均值的2倍一定大于记录中的最大编号。二战中的点估计二战中的点估计 德军有多少辆坦克?德军有多少辆坦克?N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中 n 是被俘虏坦克个数。假如你俘虏了10 辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录
22、仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!资料来源:GUDMUND R.IVERSEN和MARY GERGRN著,吴喜之等译:统计学基本概念和方法,高等教育出版社,施普林格出版社,2000。三、区间估计三、区间估计区间估计-是根据样本统计量,去推断总体参数的可 能范围。例如,估计总体参数在样本统计量加减一个抽样标准差范围内,即:概率为68.27%概率为95.45%可见,区间估计既说清了估计结果的准确性,又同时表明了它的可靠程度,是一种更为科学的估计。nxnxnpnp11nxnx22npnp1212 第五节第五节 一个总体参数的区间估计一个
23、总体参数的区间估计 一、总体均值的区间估计一、总体均值的区间估计(一)正态总体、方差已知,或非正态总体、大样本1、理论利用正态分布的有关定理,此时样本平均数服从或趋近于正态分布,即:重复抽样情况下:不重复抽样情况下:nXNx/,21,2NnNnXNx 因此可以利用正态分布来近似地估计样本平均数在某个区间的概率。即:nzxPnzxnzPx222)(=1时,P(|=)标准化=2zxxn%27.681121nxP区间估计的图示XXzxP22、误差范围、概率度、误差范围、概率度 =叫误差范围,也叫估计误差或允许误差。是一个系数,系数越大,样本统计量出现的概率或保证程度越大,反之亦反。其对应概率可查正态
24、分布概率表。可见,样本统计量出现的概率大小,与该系数有关,故被称为概率度。是事先确定的概率值,也称为风险值,是估计出错的概率;1-称为置信水平。xnz22z3、区间估计的方法、区间估计的方法 在这里是以总体平均数为中心来推断样本平均数所在的区间及其出现的概率。在实际中,正好相反,是以样本指标为中心去推断总体平均所在的区间和概率的,也就是要把上面的式子改为:实际上这二个式子是等价的,请大家自己推导。nzxnz22nzxnz22x3、区间估计的方法、区间估计的方法 如果总体服从正态分布但 未知,或总体并不服从正态分布,只要是在大样本条件下,公式中的总体方差可用样本方差S2代替,这时总体均值 在1-
25、置信水平下的置信区间可以写为:例子见教材P1822nszx2nszx2总体均值的区间估计(例题分析)25袋食品的重量袋食品的重量 112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3总体均值的区间估计(例题分析)28.109,44.10192.336.105251096.136.1052nzx36.105x总体均值的区间估计(例题分析)36个投保人年龄的数据个投保人年龄的数据 2335392736443642
26、46433133425345544724342839364440394938344850343945484532总体均值的区间估计(例题分析)63.41,37.3713.25.393677.7645.15.392nszx5.39x77.7s(二)(二)正态总体、正态总体、未知、小样本未知、小样本1.假定条件总体服从正态分布,且方差()未知小样本(n 30)2.使用 t 分布统计量)1(ntnSXtnStX2t 分布不同自由度的t分布总体均值的区间估计(例题分析)16灯泡使用寿命的数据灯泡使用寿命的数据 1510152014801500145014801510152014801490153015
27、101460146014701470总体均值的区间估计(例题分析)2.1503,8.14762.1314901677.24131.214902nstx1490 x77.24s二、总体比例的区间估计二、总体比例的区间估计1.假定条件总体服从二项分布可以由正态分布来近似2.使用正态分布统计量)1,0()1(NnPPPZ)()-1()1(22未知时或nPPzPnzP总体比例的区间估计(例题分析)%35.74%,65.55%35.9%65100%)651%(6596.1%65)1(2nppzp三、总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差 2 的点估计量为S2
28、,且4.总体方差在1-置信水平下的置信区间为11222nSn111122122222nSnnSn总体方差的区间估计(图示)总体方差的区间估计(例题分析)25袋食品的重量袋食品的重量 112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3总体方差的区间估计(例题分析)401.12)24()1(2975.0212n364.39)24()1(2025.022n39.18083.56401.1221.93125364.
29、3921.9312522课堂练习课堂练习 1、进入学院或大学的成人大学生的数量不断增加,而且有很多人专修市场营销学。曾经进行过一项研究,旨在确定目前从事市场营销工作的人对当初在校学习时自己班上成人大学生的看法。从美国市场营销学会会员名录中随机抽选了一个由290名市场营销人员组成的样本,让样本中人员对一系列反映看法的说法表示态度。第一种说法是“成人大学生(年龄达24岁或更大的本科生)对参加班上的讨论比年龄较小的学生更积极。”态度按5分制来测量(1非常同意,2=同意,3没有意见,4不同意,5很不同意)。对于成人进大学的看法,样本的平均态度分是194,标准差为092。a用98置信区间估计市场营销人员
30、对成人大学生参加课堂学习的真正平均态度分。b怎样才能减小a中的置信区间宽度?2许多北美城市已经建成或正在考虑建设轻型铁路运输(1ight rail transit,缩作LRT)系统,以取代使用大型载客列车和地下铁道列车的重型铁路运输系统。LRT系统有点像19世纪初的有轨电车,只是车身更长,噪音更小,速度更快,而且比较舒适。在一项研究工作中,考察了已经建成或正在规划建设LRT系统的10个城市中LRT的运行特点。对都市规划人员来说,有一个重要特征是将客运收入除以运行费用所得出的票箱回收率。由10个城市组成的一个样本给出平均票箱回收率为0604,标准差为0163。a试对北美城市中LRT系统的真正平均
31、票箱回收率构造95置信区间。b.如果样本容量从n10增加到n20,置信区间的宽度会发生什么变化?3当你选购一种产品时,考虑得最多的是什么?是价格还是质量?RoperStarch Worldwide调查了2 000名成年美国人,结果有64的人说他们主要根据价格作出购买决策。a试对根据价格而不是根据产品质量作出购买决策的成年美国人的真正百分率构造99置信区间。b对此区间作出解释。c如将置信系数从o99降到o95,a中置信区间的宽度将发生什么变化?课堂练习参考答案课堂练习参考答案 1、进入学院或大学的成人大学生的数量不断增加,而且有很多人专修市场营销学。曾经进行过一项研究,旨在确定目前从事市场营销工
32、作的人对当初在校学习时自己班上成人大学生的看法。从美国市场营销学会会员名录中随机抽选了一个由290名市场营销人员组成的样本,让样本中人员对一系列反映看法的说法表示态度。第一种说法是“成人大学生(年龄达24岁或更大的本科生)对参加班上的讨论比年龄较小的学生更积极。”态度按5分制来测量(1非常同意,2=同意,3没有意见,4不同意,5很不同意)。对于成人进大学的看法,样本的平均态度分是194,标准差为092。a用98置信区间估计市场营销人员对成人大学生参加课堂学习的真正平均态度分。(1.815,2.065)b怎样才能减小a中的置信区间宽度?(增大n或减小概率系数.)2许多北美城市已经建成或正在考虑建
33、设轻型铁路运输(1ight rail transit,缩作LRT)系统,以取代使用大型载客列车和地下铁道列车的重型铁路运输系统。LRT系统有点像19世纪初的有轨电车,只是车身更长,噪音更小,速度更快,而且比较舒适。在一项研究工作中,考察了已经建成或正在规划建设LRT系统的10个城市中LRT的运行特点。对都市规划人员来说,有一个重要特征是将客运收入除以运行费用所得出的票箱回收率。由10个城市组成的一个样本给出平均票箱回收率为0604,标准差为0163。a试对北美城市中LRT系统的真正平均票箱回收率构造95置信区间。(0.604 0.117)b.如果样本容量从n10增加到n20,置信区间的宽度会发
34、生什么变化?(变窄)?3当你选购一种产品时,考虑得最多的是什么?是价格还是质量?RoperStarch Worldwide调查了2 000名成年美国人,结果有64的人说他们主要根据价格作出购买决策。a试对根据价格而不是根据产品质量作出购买决策的成年美国人的真正百分率构造99置信区间。(0.64 0.028)b对此区间作出解释。c如将置信系数从o99降到o95,a中置信区间的宽度将发生什么变化?(变窄)作业统计学第三版:P204:7.1 7.8 7.11 7.19(1)第六节第六节 两个总体参数的区间估计两个总体参数的区间估计一、两个总体参数推断时样本统计量的抽样分布一、两个总体参数推断时样本统
35、计量的抽样分布 两个样本均值之差的抽样分布两个样本均值之差的抽样分布 两个样本比例之差的抽样分布两个样本比例之差的抽样分布 两个样本方差比的抽样分布两个样本方差比的抽样分布二、两个总体参数的区间估计二、两个总体参数的区间估计两个总体都为正态分布,即 ,两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和 一、两个总体参数推断时样本统计量的抽样分布一、两个总体参数推断时样本统计量的抽样分布 两个样本均值之差的抽样分布两个样本均值之差的抽样分布),(2111NX),(2222NX21XX 2121)(XXE222121221nnXX两个样本均值之差的抽
36、样分布两个样本均值之差的抽样分布 总体总体1 总体总体2抽取简单随机样抽取简单随机样样本容量样本容量 n1计算计算X1抽取简单随机样抽取简单随机样样本容量样本容量 n2计算计算X2计算每一对样本计算每一对样本的的X1-X2所有可能样本所有可能样本的的X1-X2 两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和 两个样本比例之差的抽样分布两个样本比例之差的抽样分布2121)(PPE2221112)1()1(21nnPP(三)两个样本方差比的分布)1,1(212221nnF
37、ss由统计学家费舍(R.A.Fisher)提出的,以其姓氏的第一个字母来命名则设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为F分布(F distribution)21nVnUF),(21nnFFF分布(图示)F 分布的查表分布的查表则设,1,121nnFF1,121nnFFP1,1211nnFFPF一般F 分布表只列出值(),但根据F 分布的性质,有1,111,112211nnFnnF(6.5)例403.048.2115,12112,1505.095.0FF5.0二、二、两个总体参数
38、的区间估计两个总体参数的区间估计两个总体均值之差的区间估计两个总体均值之差的区间估计两个总体比例的之差区间估计两个总体比例的之差区间估计两个总体方差比的区间估计两个总体方差比的区间估计两个总体参数的区间估计总体参数总体参数符号表示符号表示样本统计量样本统计量均值之差比例之差方差比2121222121XX 21PP 2221SS两个总体均值之差的区间估计(独立大样本)1.假定条件两个总体都服从正态分布,1、2已知若不是正态分布,可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量Z)1,0()()(2221212121NnnXXZ两个总体均值之差的区间估计(独立大
39、样本)1.1、2已知时,两个总体均值之差1-2在1-置信水平下的置信区间为222121221)(nnzXX222121221)(nSnSzXX两个总体均值之差的估计(例题分析)两个样本的有关数据两个样本的有关数据 中学中学1中学中学2n1=46n2=33S1=5.8 S2=7.2861x782x两个总体均值之差的估计(例题分析)97.10,03.5(97.28332.7468.596.1)7886()(22222121221nsnszxx两个总体均值之差的两个总体均值之差的区间区间估计估计(独立小样本独立小样本:)1.假定条件两个总体都服从正态分布两个总体方差未知但相等:1=2两个独立的小样本
40、(n130和n230)总体方差的合并估计量2)1()1(212222112nnSnSnSp21221211nnSnSnSppp两个总体均值之差的两个总体均值之差的区间区间估计估计(独立小样本独立小样本:)两个样本均值之差的标准化)2(11)()(21212121nntnnSXXtp21221221112nnSnntXXp两个总体均值之差的估计(例题分析)两个方法组装产品所需的时间两个方法组装产品所需的时间 方法方法1方法方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.83
41、0.030.226.5两个总体均值之差的估计(例题分析)5.321x996.1521s8.282x358.1922s677.1721212358.19)112(996.15)112(2ps56.37.3121121677.170739.2)8.285.32(两个总体均值之差的估计两个总体均值之差的估计(小样本小样本:)第一种情况:两个样本容量相等即1.假定条件两个总体都服从正态分布两个总体方差未知且不相等:12两个独立的小样本(n130和n230)且使用统计量)2()()(212221212121nntnSnSXXt21nn 21nn 两个总体均值之差的估计两个总体均值之差的估计(小样本小样本
42、:)两个总体均值之差1-2在1-置信水平下的置信区间为22212121221)2(nSnSnntXX两个总体均值之差的估计两个总体均值之差的估计(小样本小样本:)第二种情况:两个样本容量不相等即 1.假定条件两个总体都服从正态分布两个总体方差未知且不相等:12两个独立的小样本(n130和n230)且使用统计量)()()(2221212121vtnSnSXXt21nn 21nn 两个总体均值之差的估计两个总体均值之差的估计(小样本小样本:)两个总体均值之差1-2在1-置信水平下的置信区间为222121221)(nSnSvtXX1222221121212222121nnSnnSnSnSv两个总体均
43、值之差的估计两个总体均值之差的估计(例题分析例题分析)两个方法组装产品所需的时间两个方法组装产品所需的时间 方法方法1方法方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.2两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)5.321x996.1521s875.272x014.2322s13188.13188014.2311212996.158014.2312996.15222v433.4625.48014.2312996.151604.2)875.275.32(两个
44、总体均值之差的区间估计两个总体均值之差的区间估计(匹配样本匹配样本)两个总体均值之差的估计(匹配大样本)假定条件两个匹配的大样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布两个总体均值之差d=1-2在1-置信水平下的置信区间为nzdd2两个总体均值之差的估计(匹配小样本)假定条件两个匹配的小样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布 两个总体均值之差d=1-2在1-置信水平下的置信区间为nsntdd)1(2两个总体均值之差的估计(例题分析)10名学生两套试卷的得分名学生两套试卷的得分 学生编号学生编号试卷试卷A试卷试卷B差值差值d17871726344
45、193726111489845691741754951-27685513876601698577810553916两个总体均值之差的估计(例题分析)11101101dniindd53.61)(12dniidndds67.4111053.62622.211)1(2nsntdd1.假定条件两个总体服从二项分布可以用正态分布来近似两个样本是独立的2.两个总体比例之差1-2在1-置信水平下的置信区间为两个总体比例之差的区间估计两个总体比例之差的区间估计222111221)1()1(nPPnPPzPP两个总体比例之差的估计两个总体比例之差的估计(例题分析例题分析)两个总体比例之差的估计两个总体比例之差的
46、估计(例题分析例题分析)%32.19,%68.6%32.6%13400%)321(%32500%)451(%4596.1%32%45两个总体方差比的区间估计两个总体方差比的区间估计1.比较两个总体的方差比用两个样本的方差比来判断如果S12/S22接近于1,说明两个总体方差很接近如果S12/S22远离1,说明两个总体方差之间存在差异2.总体方差比在1-置信水平下的置信区间为212221222122221FSSFSS),(1),(1222121nnFnnF两个总体方差比的区间估计两个总体方差比的区间估计(图示图示)两个总体方差比的区间估计两个总体方差比的区间估计(例题分析例题分析)5201x260
47、21s4802x28022s两个总体方差比的区间估计两个总体方差比的区间估计(例题分析例题分析)505.028026098.12802602221课堂练习课堂练习 一种新型减肥食品由含蛋白质的液体饮食组成,食品与药物管理局正在对这种减肥食品作投入市场前的检验。一个随机样本由5人组成,在他们服用这种减肥食品前记录下每个人的体重。然后让他们连续服用这种食品三周,再次记录他们的体重(以磅计量)。有一次这样的试验结果列于下表。试对服用减肥食品前和后的真正平均体重之差构造95置信区间。受试验者 服用减肥食品前的体重 服用减肥食品后的体重 l 150 143 2 195 190 3 188 185 4 1
48、97 191 5 204 200 课堂练习参考答案课堂练习参考答案 一种新型减肥食品由含蛋白质的液体饮食组成,食品与药物管理局正在对这种减肥食品作投入市场前的检验。一个随机样本由5人组成,在他们服用这种减肥食品前记录下每个人的体重。然后让他们连续服用这种食品三周,再次记录他们的体重(以磅计量)。有一次这样的试验结果列于下表。试对服用减肥食品前和后的真正平均体重之差构造95置信区间。(3037 ,6.63)磅受试验者 服用减肥食品前的体重 服用减肥食品后的体重 l 150 143 2 195 190 3 188 185 4 197 191 5 204 200 作业统计学第四版:P206:7.24
49、第七节第七节 样本容量的确定样本容量的确定估计总体均值时样本容量的确定估计总体均值时样本容量的确定估计总体比例时样本容量的确定估计总体比例时样本容量的确定估计总体均值时样本量n为样本量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差的平方成反比与可靠性系数成正比样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等估计总体均值时样本量的确定 2222)(EznnzE2估计总体均值时样本量的确定(例题分析)估计总体均值时样本量的确定 (例题分析)9704.964002000)96.1()(22
50、22222Ezn例例 6.11一家广告公司想估计某类商店去年所花的平均广告费有多少经验表明,总体方差约为 1 800 000。如置信度取 95%,并要使估计值处在总体平均值附近 500 元的范围内,这家广告公司应取多大的样本?根据比例区间估计公式可得样本量n为估计总体比例时样本量的确定 222)1()(EznnzE)1(2估计总体比例时样本容量的确定(例题分析)1393.13805.0)9.01(9.0)96.1()1()(22222Ezn例例 6.12一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对 的估计误差不超过 0.05,要求的可靠程度为95%,应取多大容量的样本