1、第第 3 章章 随机变量及抽样分布随机变量及抽样分布李芳凤李芳凤 email: 概率论与统计学都是从数量关系上研究随机现象的统计规律性。在概率论中,所研究随机变量的分布是已知的;在统计中,所研究的随机变量的分布是未知或不完全知道,需要通过对所研究的随机变量进行重复独立的观察,得到观察值,分析并推断整体分布。)(xFX以随机变量以随机变量X X代表总体的特征代表总体的特征总体 个体特征一批产品 每件产品 等级一批灯泡 每个灯泡 寿命一年的日平均气温每天日平均气温 度数数轴上某一线段 线段中每一点 坐标一批彩票 每张彩票 号码人们感兴趣的是总体的某一个或几个数量指标的分布情况。每个个体所取的值不同
2、,但它按一定规律分布。12,nXXX12,nXXX12,nXXX12,nxxx),(2NX54321,XXXXX980,960,1030,1300,850980,960,1030,1300,850简单随机样本1.若X1,X2,Xn是相互独立的2.每一个Xi(i=1,2,n)的分布都与总体X的分布相同则称X1,X2,Xn为容量为n的样本为简单随机样本。10 样本是总体的代表和反映,但在我们抽取样本之后,并不直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本所包含的关于我们所关心的事物的信息集中起来,这便是针对不同的问题构造出样本的某种函数,这种函数在统计学中称为统计量。统计量统
3、计量 引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。统计量中应该不含有未知参数统计量中应该不含有未知参数;如果如果统计量中仍含有未知参数,就无法依靠样本观测统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。常用的统计量常用的统计量122221122111(2)11()()11(3)1()1niinniiiiniiXXnSXXXnXnnSSXXn()样本平均值样本方差样本标准差样本矩样本矩样本均值
4、和样本方差的更一般的推广是样样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。本矩,这是一类常见的统计量。1.定义定义 mk=(xik)/n 称为样本称为样本k 阶阶原点矩原点矩,特别,特别,样本一阶原点矩就是样本均值。样本一阶原点矩就是样本均值。称为样本称为样本k阶阶中心中心矩矩。特别,特别,样本二阶中心矩就是样本方差。样本二阶中心矩就是样本方差。vk=(xi x)k/nxx样本偏度样本偏度a3反映了总体分布密度曲线的对称性反映了总体分布密度曲线的对称性信息。样本峰度信息。样本峰度a4反映了总体分布密度曲线在反映了总体分布密度曲线在其峰值附近的陡峭程度。其峰值附近的陡峭程度。2
5、定义:定义:a3=v3/v23/2 称为称为样本偏度样本偏度,a4=v4/v22-3 称为称为样本峰度样本峰度。1.样本统计量的概率分布,是一种理论分布q在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 2.随机变量是 样本统计量样本统计量q样本均值,样本比例,样本方差等3.结果来自容量相同容量相同的所有所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布(sampling distribution)抽样分布的形成过程(sampling distribution)1.由阿贝(Abbe)于1863年首先给出,后来由海
6、尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来c2-分布(c2-distribution)(22ncc记记为为定义:设 相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为 n 的 分布.nXXX,21222212nXXX c c2c222121,02()()0,0 xnnne xxf xx其中,01)(dtetxtx)(2nc的密度函数的密度函数为为自由度为自由度为 n 的的5101520250.10.20.30.4n=2n=3n=5n=10n=15则1)(,1)(,0)(2iiiXEXDXEnXEEnii122c3d21)(
7、2244xexXExi2)()()(2242iiiXEXEXDnXDDnii2122c设22()(0,1)1,2,inXNincc1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称.c2-分布(性质和特点)1.期望为:E(c2)=n,方差为:D(c2)=2n(n为自由度)2.可加性:若U和V为两个独立的c2分布随机变量,Uc2(n1),Vc2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布 c2-分布(性质和特点)212()()UVnnc 可加性23.nc 时,分布的极限分布是正态分布。分布的性质分布的性质)(2
8、nc),(2N4.设 相互独立,都服从正态分布12,.,nX XX则)()(121222nXniicc22()(21,1).nnNnc当 很大时,近似服从22145()(21).2.pppnpnnpc实际上,当时,分位数其中为正态 分位数51015200.020.040.060.080.1n=10分位数有表可查分位数有表可查分布的上分布的上c)(2nc20.05(10)分布的分位点分布的分位点分位点(数)分位点(数)分布的上分布的上为为的点的点,称满足条件,称满足条件对于给定的正数对于给定的正数定义:设定义:设ccccccc)()()()()10(),(22)(22222nndxxfnPnn)
9、(2nc307.18)10(05.02c例如例如c2-分布(用Excel计算c2分布的概率)1.利用Excel提供的【CHIDIST】统计函数,计算c2分布右单尾的概率值l 语法:CHIDIST(x,degrees_freedom),其中df为自由度,x是随机变量的取值2.利用【CHIINV】函数则可以计算给定右尾概率和自由度时相应的反函数值 l 语法:l CHIINV(probability,degrees_freedom)t-分布(t-distribution)t t 分布分布 (Student 分布)定义定义则称 T 服从自由度为 n 的t 分布.记为其概率密度函数为nYXT tntnn
10、ntfn2121221)(),(,)1,0(2nYNXcX,Y相互独立相互独立,设)(nttt 分布的性质分布的性质1f n(t)是偶函数,2221)()(,tnettfn-3-2-11230.10.20.30.4n=1n=20t 分布的图形分布的图形(红色的是标准正态分布红色的是标准正态分布)30n 实际应用中,分位数有表可查分位数有表可查分布的上分布的上)(nt分布的分位点分布的分位点分位点(数)分位点(数)分布的上分布的上为为的点的点,称满足条件,称满足条件对于给定的正数对于给定的正数定义:设定义:设)()()()()10(),()(ntntdxxfnttPnttnt)(nt-3-2-1
11、1230.050.10.150.20.250.30.35n=10)()(1ntnt0.051.81250.05(10)1.8125P Ttt-t8125.1)10(95.0t)(ntTP例如:例如:t分布的分位点的性质用用Excel计算计算t分布的概率和临界值分布的概率和临界值1.利用Excel中的【TDIST】统计函数,可以计算给定值和自由度时分布的概率值l 语法:语法:l TDIST(x,degrees_freedom,tails)2.利用【TINV】函数则可以计算给定概率和自由度时的相应 l 语法:语法:l TINV(probability,degrees_freedom)与t分布有关的
12、抽样分布,样本为(),)1()1(22122nXXSnniic22)1(Sn 与X相互独立设总体1,nXX),(2nNX)1,0(NnX)1(ntnSXSnX(1)(2)2(,)XN 定理定理 设设X1,X2,Xn是取自正态总体是取自正态总体),(2 N的样本的样本,2SX和和分别为样本均值和样本方差分别为样本均值和样本方差,则有则有)1(ntnSXt 定理定理 (两总体样本均值差的分布两总体样本均值差的分布)2(112)1()1()(21212122221121nntnnnnSnSnYX,设设),(),(2221NYNXYX和和分别是这两个样本的分别是这两个样本的且且X与与Y独立独立,X1,
13、X2,1nX是取自是取自X的样本的样本,取自取自Y的样本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差,均值均值,2221SS 和和则有则有Y1,Y2,2nY是是样本样本1.为纪念统计学家费希尔(R.A.Fisher)以其姓氏的第一个字母来命名2.定义 若XX2(m),YX2(n),X,Y相互独立,则称随机变量为服从第一自由度为n1,第二自由度为n2的F分布,记为F-分布(F distribution),(nmFnYmXF 不同自由度的F分布51015200.020.040.060.080.1m=n=10分位数有表可查分位数有表可查分布的上分布的上F分布的分位点分布的分位点分位点
14、分布的上为的点,称满足条件对于给定的正数定义:设),(),()(),()10(),(),(nmFnmFdxxfnmFFPnmFFnmFF),(nmFF 分布的性质分布的性质1234560.10.20.30.40.50.6例如),(1),(1nmFmnF19.51)5,4(1)4,5(05.095.0FF解求F(n,m)19.5)5,4(05.0F?)4,5(95.0F(用Excel计算F分布的概率和临界值)1.利用Excel提供的【FDIST】统计函数,计算分布右单尾的概率值l 语法:l FDIST(x,degrees_freedom1,degrees_freedom2)2.利用【FINV】函
15、数则可以计算给定单尾概率和自由度时的相应分位数分位数l 语法:l FINV(probability,degrees_freedom1,degrees_freedom2)1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的分布样本均值的分布(例题分析)样本均值的分布3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2 的样本(共的样本(共16个)个)3.53.02.52.033.02.5
16、2.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)样本均值的分布与总体分布的比较样本均值的分布与中心极限定理x中心极限定理(central limit theorem)中心极限定理(central limit theorem)1.样本均值的分布2.样本均值的期望值和方差样本均值的分布(数学期望与方差)抽样分布与总体分布的关系正态分布正态分布非正态分布非正态分布样本均值样本均值正态分布正态分布样本均值样本均值正态分布正态分布样本均值样本均值非正态分布非正态分布例 某汽车电瓶商声称其生产的电
17、瓶具有均值为60个月、标准差为6个月的寿命分布。假设质检部门决定检验该厂的说法是否准确,随机抽取了50个电瓶进行寿命试验。1)假定厂商声称是正确的,描述50个电瓶的平均寿命的抽样分布。2)假定厂商声称是正确的,则50个样品组成的样本平均寿命不超过57个月的概率为多少?n解(1)根据中心极限定理,推出50个电瓶的平均寿命的分布近似服从正态分布n=60,2=36/50=0.72,则=0.85n即练习 设XN(9,4),试描述10X的抽样分布。n由于nE(10X)=10E(X)=90nD(10X)=100D(X)=1004=400 n所以 10(90,400)XNn练习某公司用机器向瓶子里灌装液体洗
18、净剂,规定每瓶装毫升,通过观察发现灌装量服从方差2=1的正态分布。如果每箱装25瓶这样的洗净剂,试问这25瓶洗净剂的平均灌装量与标定值相差不超过0.3毫升的概率是多少?2,XNn解:总体方差知道的情况下,1)0.3P x0.3xPnn0.30.3125125xPn1.51.5Pz21.51=2*0.9332-1=0.8664样本方差的分布)1()1(222nsnc,样本为(),22(1)nS设总体1,nXX2(,)XN 21niiXX222(1)(1)nsnc2211niiXXSn22.(,3),1616.5XNXS例设总体其中 为未知参数,从总体 中抽取容量为的样本,求样本方差小于的概率.2
19、222216 15(15)33SScc-解:)5.163535()5.16(22SPSP)5.2735(2SP)5.2735(12SP488.27)15(025.02c975.0025.01)5.16(2SP由于由于212(,),nXNXXX设总体为样本 则 2(1)(,)XNn(2)(0,1)/XNn(3)(1)/Xt nSn222221(1)1(4)()(1)niinSXXnc总结Excel中的统计函数BINOMDIST计算二项分布的概率POISSON计算泊松分布的概率HYPGEOMDIST计算超几何分布的概率NORMDIST计算正态分布的概率NORMINV计算正态分布的区间点(临界值)NORMSDIST 计算标准正态分布的概率NORMSINV计算标准正态分布的区间点(分位数)CHIDIST计算x2分布的右尾概率CHIINV计算给定x2分布的右尾概率的临界值FDIST 计算F分布的右尾概率FINV 计算给定F右尾概率的临界TDIST计算给定t值的分布概率TINV计算给定概率的t值n作业