1、统计推断的过程统计推断的过程抽样分布抽样分布12,.nXXX 样本样本 对应的不含未知参数的实值函数对应的不含未知参数的实值函数称作称作统计量统计量,记作:记作:12,.nfXXX它本身也是一随机变量。它的分布它本身也是一随机变量。它的分布称作称作抽样分布抽样分布。数理统计需要用统计量来推断被抽样的总体,因此讨论数理统计需要用统计量来推断被抽样的总体,因此讨论抽样分布就成为数理统计的一个十分重要和基本的理论课题。抽样分布就成为数理统计的一个十分重要和基本的理论课题。这里主要介绍某些常用的统计量的分布,要求能正确这里主要介绍某些常用的统计量的分布,要求能正确掌握各种分布成立的条件和结论,为将来的
2、应用打下基础。掌握各种分布成立的条件和结论,为将来的应用打下基础。对总体对总体 X 和给定的和给定的 ,若存在,若存在 ,使,使01xP Xx,则称,则称 为为 X 分布的分布的上侧上侧 分位数分位数或或x 分位数分位数上侧临介值上侧临介值,使,使2122P XxP Xx212,xx的的 称为称为 X 分布的分布的双侧双侧 分位数分位数。2x2x222P Xx2x 特别地,若特别地,若 X 的分布密度是关于的分布密度是关于 轴对称的,则它轴对称的,则它的双侧分位数是使的双侧分位数是使 的的y2x12x22例例1 设设 1,0.1XE求上侧求上侧 分位数及双侧分位数及双侧 分位数。分位数。0.1
3、0.1P Xx解:解:0.10.10.10.1xxxxxe dxee0.12.303x上侧上侧 分位数分位数0.050.05P Xx 分位数分位数0.1x0.050.05xxe dx0.950.05P Xx0.052.996x0.9500.05xxe dx0.950.051x双侧双侧 分位数是:分位数是:0.950.050.0512.996xx和和0.05x0.95x例例2 设设 0,1,0.05,UN求上侧求上侧 分位数及双侧分位数及双侧 分位数。分位数。u0.050.05P Uu解:解:0.050.95u0.051.645u上侧上侧 分位数分位数0.05 20.05P Uu0.0250.0
4、25P Uu0.0251.960u双侧双侧 分位数分位数2u 分位数分位数 正态总体的样本均值的抽样分布正态总体的样本均值的抽样分布设设212,.nXNXXXX 又又是是的一个样本。则的一个样本。则22,XNNnn证明:证明:11niiXXn也服从正态分布。也服从正态分布。X 1111nniiiiE XEXE Xnn因因 221111nniiiiD XDXD Xnnn2,XNn0,1XNn更进一步,有更进一步,有设设212,.nXNXXXX 又又是是的一个样本。则的一个样本。则22,XNNnn11,niiXXn因为因为 所以,所以,也服从正态分布。也服从正态分布。X证法证法2:由独立同分布的中
5、心极限定理,:由独立同分布的中心极限定理,21,niiXN nn 1111nniiiiE XEXEXnn又又 221111nniiiiD XDXDXnnn2,XNn所以所以例例3 设设 是它的一个样本,是它的一个样本,1220165,25,.XNXXX求求1653P X 1653P X 11653P X 31 211.25 解:解:25165,165,1.2520XNN222.680.0074 正态总体的样本均值的抽样分布正态总体的样本均值的抽样分布自由度记作自由度记作df 正态总体的样本方差的抽样分布正态总体的样本方差的抽样分布设设120,1,.nXNXXXX又又是是的一个样本。的一个样本。
6、则统计量则统计量 2222212.nXXXn称称 服从服从自由度自由度为为 的的 分布,有时也将分布,有时也将 记作记作 2n2n22分布分布2即:服从标准正态分布的相互独立的即:服从标准正态分布的相互独立的 个随机变量个随机变量 的平方和服从的平方和服从 分布。分布。n 2n 12221,0220,0nxnxexnf xx 正态总体的样本方差的抽样分布正态总体的样本方差的抽样分布服从服从 分布分布的随机变量的随机变量 的概率密度函数为的概率密度函数为22其中其中 1202nxnxe dx 10 xxe dx一般地一般地称为称为 函数函数。服从服从 分布的随机变量的分布密度图形:分布的随机变量
7、的分布密度图形:2分布的性质分布的性质 2设设 且它们相互独立,则且它们相互独立,则 22221122,nn2221212nn求求 的分布。的分布。2211niiX2,XN 解:解:例例4 设设 是它的一个样本,是它的一个样本,212,.nXNXXX 0,1XN0,1iXN222111nniiiiXX 2n样本均值的抽样分布与中心极限定理样本均值的抽样分布与中心极限定理X5x50 x5.2x中心极限定理中心极限定理(central limit theorem)xn x 正态总体的样本方差的抽样分布正态总体的样本方差的抽样分布设设212,.nXNXXXX 又又是是的一个样本。的一个样本。定理定理
8、 5.1则(则(1)样本均值)样本均值 与样本方差与样本方差 相互独立。相互独立。2XS(2)22212211niiXXnSn 222121niniiiXXn(3)例例5 设设 是它的一个样本,是它的一个样本,12200,25,.,XNXXX求求 220211190,2205iiXPXU的分布。的分布。解:解:10,15XN2022112025iiX2021190iiPX2021117.625iiPX 202111907.62525iiPX1 0.9950.005 2193,0.7525SP使使 2222015520XXU例例5 设设 是它的一个样本,是它的一个样本,12200,25,.,XN
9、XXX求求 220211190,2205iiXPXU的分布。的分布。2193,0.7525SP使使 20,1520XN解:解:例例5 设设 是它的一个样本,是它的一个样本,12200,25,.,XNXXX求求 220211190,2205iiXPXU的分布。的分布。2193,0.7525SP使使 221931925S解:解:查表得:查表得:21914.560.7525SP即:即:14.56(上侧临介值:(上侧临介值:)20.75 正态总体的样本均值与标准差之比的抽样分布正态总体的样本均值与标准差之比的抽样分布 在后面讲到的参数估计和假设检验中,对于正态总体在后面讲到的参数估计和假设检验中,对于
10、正态总体的样本的样本 ,经常要用到统计量:,经常要用到统计量:12,.nXXXXtSn欲考察它的分布要先介绍一个抽样分布欲考察它的分布要先介绍一个抽样分布 分布分布t它描述的是样本均值与标准差之比。它描述的是样本均值与标准差之比。设设 20,1,XNYnXY且且 与与 相互独立,相互独立,则随机变量则随机变量XTYn服从自由度为服从自由度为 的的 分布分布,nt记作:记作:Tt n 正态总体的样本均值与标准差之比的抽样分布正态总体的样本均值与标准差之比的抽样分布该分布的密度函数图形类似该分布的密度函数图形类似标准正态分布的密度函数的标准正态分布的密度函数的图形,图形,n越大越接近。越大越接近。
11、例例6 设设 2,0.05,Tt求上侧求上侧 分位数及双侧分位数及双侧 分位数。分位数。0.0520.05P Tt解:解:0.0522.920t上侧上侧 分位数分位数0.0524.303t双侧双侧 分位数分位数 0.05220.05P Tt 0.0520.0520.0252P Tt 正态总体的样本均值与标准差之比的抽样分布正态总体的样本均值与标准差之比的抽样分布 正态总体的样本均值与标准差之比的抽样分布正态总体的样本均值与标准差之比的抽样分布设设212,.nXNXXXX 又又是是的一个样本。的一个样本。定理定理5.21Xtt nSn则统计量:则统计量:121212211nXYtt nnSnn则
12、统计量:则统计量:设设12112,.nXNXXXX 是是的一个样本的一个样本定理定理5.322212,.nYNY YYY是是的一个样本。的一个样本。121212,.,.nnXXXY YY又又与与相互独立,相互独立,其中:其中:22112212112nnSnSSnn前面提到:两个前面提到:两个 随机变量的和的分布仍是随机变量的和的分布仍是 分布。分布。22它是描述两个它是描述两个 随机变量的商的分布的。随机变量的商的分布的。2 两个正态总体的样本方差之比的抽样分布两个正态总体的样本方差之比的抽样分布先介绍一个顶顶重要的分布先介绍一个顶顶重要的分布分布分布F但两个但两个 随机变量的商的分布却是随机
13、变量的商的分布却是22212,XnYnXY设随机变量设随机变量且且 与与相互独立,则随机变量相互独立,则随机变量1122,XnFF n nYn称称 F 服从第一自由度为服从第一自由度为 ,第二自由度为,第二自由度为 的的 F 分布。分布。1n2n 两个正态总体的样本方差之比的抽样分布两个正态总体的样本方差之比的抽样分布例例7 若若 求求 的分布。的分布。2,Tt nT解:因为解:因为 Tt n 2222,1UTUV n 2,0,1,UTUNVnV n其中其中可设可设2211,UTFnV n 两个正态总体的样本方差之比的抽样分布两个正态总体的样本方差之比的抽样分布书后的书后的 F 分布表给出的是
14、当分布表给出的是当0.1,0.05,0.01时的时的还可利用下列公式求出当还可利用下列公式求出当 较大时的近似临介值:较大时的近似临介值:112211,Fn nFn n0.0515,10F0.9510,5F如如10.30033.331212,P F n nFn n满足满足的临介值的临介值12,Fn n 两个正态总体的样本方差之比的抽样分布两个正态总体的样本方差之比的抽样分布2122221212222121221,1SSSF nnS则统计量:则统计量:设设121112,.nXNXXXX 是是的一个样本的一个样本定理定理5.4222212,.nYNY YYY是是的一个样本。的一个样本。121212
15、,.,.nnXXXY YY又又与与相互独立,相互独立,22212,.nYNY YYY是是的一个样本。的一个样本。1212,.,.nnXXXY YY又又与与相互独立,相互独立,21112,.nXNXXXX 是是的一个样本的一个样本例例8 设设221222211,1SF nnS22122211niiniiXXYY求统计量:求统计量:的分布。的分布。22122211niiniiXXYY解:解:2212221111niiniiXXnYYn如果随机变量的概率密度函数为如果随机变量的概率密度函数为 1,00,0 xxexf xx其中其中 且且 0,0,10 xxe dx则称则称 X 服从服从 分布,记作分
16、布,记作,X 分布与分布与 函数(附录)函数(附录)10 xxe dx称为称为 函数函数。有如下性质:。有如下性质:100当当 时收敛,且时收敛,且 1211,2 3111当当 时有时有例例2 11122nnnnnn 12.2 111!nnn 由此也可说由此也可说 函数是阶乘的推广。函数是阶乘的推广。110!据说,这里据说,这里正是一般定义正是一般定义 的由来。的由来。0!11,分布的一个特殊情形分布的一个特殊情形 是一指数分布。是一指数分布。如果随机变量的概率密度函数为如果随机变量的概率密度函数为 1,00,0 xxexf xx其中其中 且且 0,0,10 xxe dx则称则称 X 服从服从
17、 分布,记作分布,记作,X 很多重要分布是很多重要分布是 分布的特殊情形。分布的特殊情形。分布的另一特殊情形分布的另一特殊情形 是是 分布。分布。,2 2n n2抽样分布抽样分布(sampling distribution)抽样分布与总体分布的关系抽样分布与总体分布的关系正态分布正态分布非正态分布非正态分布正态分布正态分布正态分布正态分布非正态分布非正态分布1.样本均值的数学期望样本均值的数学期望2.样本均值的方差样本均值的方差重复抽样不重复抽样样本均值的抽样分布样本均值的抽样分布(数学期望与方数学期望与方差差)(XEnX22122NnNnX样本均值的抽样分布样本均值的抽样分布(数学期望与方差
18、数学期望与方差)为样本数目MnMXnixiX222122625.016)5.20.4()5.20.1()(5.2160.45.10.11MXniiX样本比例的抽样分布样本比例的抽样分布1.总体总体(或样本或样本)中具有某种属性的单位与全部单中具有某种属性的单位与全部单位总数之比位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比2.总体比例可表示为总体比例可表示为3.样本比例可表示为样本比例可表示为4.比例比例(proportion)NNNN101或nnPnnP101或1.容量相同的所有可能样本的样本比例的概容量相同的所有可能样本的样本比例的概率分布率分布2.当样本容量很
19、大时,样本比例的抽样分布当样本容量很大时,样本比例的抽样分布可用正态分布近似可用正态分布近似 3.一种理论概率分布一种理论概率分布4.推断总体总体比例推断总体总体比例 的理论基础的理论基础样本比例的抽样分布样本比例的抽样分布1.样本比例的数学期望样本比例的数学期望2.样本比例的方差样本比例的方差重复抽样不重复抽样样本比例的抽样分布样本比例的抽样分布(数学期望与方差数学期望与方差)(PEnP)1(21)1(2NnNnP区间估计的图示区间估计的图示XXzX21.将构造置信区间的步骤重复很多次,置将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的信区间包含总体参数真值的次数所占的比
20、例称为置信水平比例称为置信水平 2.表示为表示为(1-为是总体参数未在区间内的比例3.常用的置信水平值有常用的置信水平值有 99%,95%,90%相应的相应的 为0.01,0.05,0.10置信水平置信水平 1.由样本统计量所构造的总体参数的估计区间称由样本统计量所构造的总体参数的估计区间称为置信区间为置信区间2.统计学家在某种程度上确信这个区间会包含真统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间正的总体参数,所以给它取名为置信区间 3.用一个具体的样本所构造的区间是一个特定的用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是区间,
21、我们无法知道这个样本所产生的区间是否包含总体参数的真值否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间置信区间(confidence interval)置信区间与置信水平置信区间与置信水平 xxX影响区间宽度的因素影响区间宽度的因素1.总体数据的离散程度,总体数据的离散程度,用用 来测度来测度2.样本容量,样本容量,3.置信水平置信水平(1-),影响,影响 z 的大小的大小nX5.3 总体均值的区间估计一.一.正态总体且方差已知,或正态总体且方差已知,或 正态总体,方差未知、大样正态总体,方差未知、大样本本
22、二.二.正态总体,方差未知、小样本正态总体,方差未知、小样本一个总体参数的区间估计一个总体参数的区间估计总体参数符号表示样本统计量均值均值比例比例方差方差2XP2S总 体 均 值 的 区 间 估 计总 体 均 值 的 区 间 估 计(正态总体、正态总体、已知,或非正态总体、大已知,或非正态总体、大样本样本)总体均值的区间估计总体均值的区间估计(大样本大样本)1.假定条件假定条件总体服从正态分布,且方差()未知如果不是正态分布,可由正态分布来近似(n 30)2.总体均值总体均值 在在1-置信水平下的置信水平下的置信区间为置信区间为)(22未知或nszxnzx)(1122未知或NnNnszxNnN
23、nzx总体均值的区间估计总体均值的区间估计(例题分析例题分析)915.096.14.212nzx总体均值的区间估计总体均值的区间估计(例题分析例题分析)28.109,44.10192.336.105251096.136.1052nzx36.105x总体均值的区间估计总体均值的区间估计(例题分析例题分析)36个投保人年龄的数据 233539273644364246433133425345544724342839364440394938344850343945484532总体均值的区间估计总体均值的区间估计(例题分析例题分析)63.41,37.3713.25.393677.7645.15.392n
24、szx5.39x77.7s总 体 均 值 的 区 间 估 计总 体 均 值 的 区 间 估 计(正态总体、正态总体、未知、小样本未知、小样本)总体均值的区间估计总体均值的区间估计(小样本小样本)1.假定条件假定条件总体服从正态分布,且方差()未知小样本(n 30)2.使用使用 t 分布统计量分布统计量)1(ntnSXtnStX2t 分布分布总体均值的区间估计总体均值的区间估计(例题分析例题分析)16灯泡使用寿命的数据 1510152014801500145014801510152014801490153015101460146014701470总体均值的区间估计总体均值的区间估计(例题分析例题
25、分析)2.1503,8.14762.1314901677.24131.214902ntx1490 x77.24s5.4 总体比例的区间估计一.一.大样本重复抽样时的估计方法大样本重复抽样时的估计方法二.二.大样本不重复抽样时的估计方法大样本不重复抽样时的估计方法总体比例的区间估计总体比例的区间估计总体比例的区间估计总体比例的区间估计1.假定条件假定条件总体服从二项分布可以由正态分布来近似2.使用正态分布统计量使用正态分布统计量)1,0()1(NnPPPZ)()-1()1(22未知时或nPPzPnzP总体比例的区间估计总体比例的区间估计(例题分析例题分析)%35.74%,65.55%35.9%6
26、5100%)651%(6596.1%65)1(2nppzp估计总体均值时样本容量的确估计总体均值时样本容量的确定定1.估计总体均值时样本容量估计总体均值时样本容量n为为2.样本容量样本容量n与总体方差与总体方差 2、边际误差、边际误差E、可可靠性系数靠性系数Z或或t之间的关系为之间的关系为与总体方差成正比与边际误差成反比与可靠性系数成正比估计总体均值时样本容量的确定估计总体均值时样本容量的确定 2222)(EznnzE2估计总体均值时样本容量的确定估计总体均值时样本容量的确定(例题分析例题分析)估计总体均值时样本容量的确定估计总体均值时样本容量的确定(例题分析例题分析)9704.964002000)96.1()(2222222Ezn估计总体比例时样本容量的确估计总体比例时样本容量的确定定1.根据比例区间估计公式可得样本容量根据比例区间估计公式可得样本容量n为为估计总体比例时样本容量的确定估计总体比例时样本容量的确定 222)1()(EznnzE)1(2估计总体比例时样本容量的确定估计总体比例时样本容量的确定(例题分析例题分析)1393.13805.0)9.01(9.0)96.1()1()(22222Ezn