1、第五章第五章 正态分布、常用统计分布和极限定理正态分布、常用统计分布和极限定理常见的连续型随机变量的概率分布常见的连续型随机变量的概率分布t-分布分布连续型随机变连续型随机变量的概率分布量的概率分布2 2分布分布正态分布正态分布F-分布分布正正 态态 分分 布布正态分布的重要性正态分布的重要性1.由C.F.高斯(Carl Friedrich Gauss,17771855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.可用于近似离散型随机变量的分布 例如:二项分布4.统计推断的基础概率密度函数概率密度函数(x)=随机变量 的密度函数 =方差 =均值=3.14159;
2、e=2.71828x=随机变量的取值(-x )正态分布函数的性质正态分布函数的性质1.图形是关于x=对称的钟形曲线,且峰值在x=处,也是分布的中位数和众数2.正态分布是一个分布族,每一特定正态分布通过均值的标准差来确定。决定正态分布曲线的位置,决定曲线的平缓程度,即胖瘦。3.当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交4.正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 和和 对对正态曲线的影响正态曲线的影响xCAB正态分布的概率正态分布的概率正态分布曲线下面的面积正态分布曲线下面的面积P(33)0.9973
3、-,+-2,+2-3,+368.27%95.45%99.73%P()0.6827 P(22)0.9545 标准正态分布的重要性标准正态分布的重要性1.一般的正态分布取决于均值和标准差 2.计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的3.若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表4.Z分数(标准正态变量)XZ标准正态分布标准正态分布1.标准正态分布的概率密度函数3.随机变量具有均值为0,标准差为1的正态分布2.标准正态分布的分布函数),(,10)(2NN标准正态分布标准正态分布标准化的例子标准化的例子 P P(5 X X 6.2)标准正态分布曲
4、线下面的面积标准正态分布曲线下面的面积P(3Z3)0.9973 -1,+1-2,+2-3,+368.27%95.45%99.73%P(1 Z1)0.6827 P(2Z2)0.9545 标准正态分布与一般正态分布标准正态分布与一般正态分布68.27%95.45%99.73%68.27%95.45%99.73%标准正态分布表的使用标准正态分布表的使用1.将一个一般的转换为标准正态分布2.计算概率时,查标准正态概率分布表3.对于负的 x,可由(-x)x得到4.对于标准正态分布,即N(0,1),有P(a b)b aP(|a)2 a 15.对于一般正态分布,即N(,),有标准化的例子标准化的例子P P(
5、2.9(2.9 7.1)7.1)正态分布正态分布(实例)(实例)设N(0,1),求以下概率:(1)P(2);(3)P(-1 3);(4)P(|2)(1)P(2)=1-P(2)=1-0.9973=0.0227 (3)P(-1 3)=P(3)-P(-1)=(3)-(-1)=(3)1-(1)=0.9987-(1-0.8413)=0.8354 (4)P(|2)=P(-2|2)=(2)-(-2)=(2)-1-(2)=2(2)-1=0.9545正态分布正态分布(实例)(实例)设N(5,32),求以下概率 (1)P(10);(2)P(2 10)(1)正态分布正态分布(例题分析例题分析)【例】假定某公司职员每
6、周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?2023-5-1320卡方分布卡方分布 卡方分布是一种连续型随机变量的概率分布,主要用于列联卡方分布是一种连续型随机变量的概率分布,主要用于列联表表检验。检验。1.1.数学形式数学形式设随机变量设随机变量X X1 1,X X2 2,X Xk k,相互独立,且都服从同一的正态分布,相互独立,且都服从同一的正态分布N N(,2 2)。那么,我们可以先把它们变为标准正态变量。那么,我们可以先把它们变为标准正态变量Z Z1 1,Z Z2
7、 2,Z Zk k,k k个独立标准正态变量的平方和被定义为卡方分布个独立标准正态变量的平方和被定义为卡方分布。通常把这个分布叫做自由度为。通常把这个分布叫做自由度为K K的的X X2 2分布。分布。kiikiikZxxxx12122222212)(1)()()(其中其中k为卡方分布的自由度,它表示定义式中独立变量的个数。为卡方分布的自由度,它表示定义式中独立变量的个数。2023-5-1321 注意注意 写法的含义:它写法的含义:它表示自由度为表示自由度为k的卡方分布,当的卡方分布,当其分布函数其分布函数 时,其随机变量时,其随机变量 的临界值的临界值(参见图参见图)。具体来说,在假设。具体来
8、说,在假设检验中,它表示在显著性水平检验中,它表示在显著性水平上卡方分布随机变量上卡方分布随机变量 的的临界值。临界值。关于卡方分布的分布函数,附表关于卡方分布的分布函数,附表7 7对不同的自由度对不同的自由度k k及不同及不同的临的临界概率界概率(0(01)1),给出了满足下面概率式的,给出了满足下面概率式的 的的值值(参见参见图图)。22)(2k22);()(22dxkxP);(22kP)(2k2023-5-1322 例例 已知已知k5,15,求临界概率,求临界概率。解解 查卡方分布表,在表中自由度为查卡方分布表,在表中自由度为5的横行中找到的横行中找到与与15最接近的数值是最接近的数值是
9、15086,得到,得到的近似值为的近似值为001。由此可知由此可知 001 解解 查卡方分布表查卡方分布表(附表附表7)7)得得 例例 试求下列各值:试求下列各值:)5(2)5;(201.02P)7()4(),7()3(),10()2(),10()1(295.0205.0295.0205.0167.2)7()4(067.14)7()3(940.3)10()2(307.18)10()1(295.0205.0295.0205.02023-5-1323F F 分布分布 F 分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体的方差是否相等,多个总体的均值是否相等。1.数学形式 设 和 相
10、互独立,那么随机变量)(22k)(12k 服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由度,分母上的自由度k2叫做第二自由度。22211221/)(/)(),(kkkkkkF2023-5-1324 如果如果 和和 是两个独立随是两个独立随机样本的方差,样本来源于具有相同机样本的方差,样本来源于具有相同方差方差2的两个正态总体,样本容量的两个正态总体,样本容量分别为分别为n1和和n2,那么根据,那么根据(822)式,式,随机变量随机变量F 服从于自由度为服从于自由度为(n11和和n21)的的F分布。分布。例例 试求下列各值:试求下列各值:21S222122221211)
11、1/()1/(SSnSnnSnF)5,3()5();5,3()4();15,7()3();10,6()2();10,6()1(01.005.005.001.005.0FFFFF06.12)5,3()5(;41.5)5,3()4(;71.2)15,7()3(;39.5)10,6()2(;22.3)10,6()1(01.005.005.001.005.0FFFFF解解查查F分布表分布表(附表附表8)得得 22S2023-5-13252.2.F F分布性质分布性质 (1)(1)随机变量随机变量F F恒为正值,恒为正值,F F分布也是一个连续的非对分布也是一个连续的非对称分布。称分布。(2)(2)分布
12、具有一定程度的分布具有一定程度的反对称性。反对称性。(3)(3)F F分布的期望值与变异数分布的期望值与变异数(方方差差),(1),(21211kkFkkF)2(2)(221kkkFE)4()4()2()2(2)(22221212kkkkkkkFDt t 分布的概念分布的概念如果、相互独立,且N(0,1),2(k),那么 t(k)就是自由度为k的t分布t分布是单峰对称分布,取值在-到+之间E(t)=0D(t)=k/(k-2),在k2时当k逐渐增大时,t分布趋近于标准正态分布.当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布,t分布的概率即为曲线下的面积。t=t(k)kt
13、 -t -分布的形状(图示)分布的形状(图示)Xt 分布与正态分布的比较分布与正态分布的比较t-分布分布正态正态分布分布不同自由度的不同自由度的t分布分布标准正态分布标准正态分布t(df=13)t(df=5)查查 t -t -分布表分布表XT(k)分布分布ta/2tP(tt)/2P(t t)/2第五节第五节 大数定律和中心极限定理大数定律和中心极限定理一、大数定律人们发现,在一个随机事件中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性简单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率,平
14、均值稳定于期望值”1.切贝谢夫不等式2.贝努里大数定律3.切贝谢夫大数定律1.1.切贝谢夫不等式切贝谢夫不等式如果随机变量,有数学期望E()和方差D(),则不论的分布如何,对于任何正数,都可以断言,与E()的绝对离差-E()大于等于的概率不超过D()/2例:p16222D()P(E()D()P(E()1切贝谢夫不等式(例题)切贝谢夫不等式(例题)某地进行了收入情况调查。收入的分布不清楚。但知道平均收入为80元,标准差为10元。问60元-100元之间的概率是多少?解:由于切贝谢夫不等式是不受分布限制的,因此本题在分布不清楚的情况下,可带入公式进行估算。根据题意,E()=80(元),取20(元),
15、则即收入在60-100元之间的概率值将大于0.75。为了比较,不妨设本题的收入情况满足正态分布,那么根据正态分布可以计算:222D()P(8 02 0)111 0/2 00.7 5P(8020)(60100)608010080()1010(22)0.9544PPZPZ2.2.贝努里大数定律贝努里大数定律设m是n次独立观测中事件A出现的次数,而p是事件A在每次观测中出现的概率,那么对于任何一个正数,有从数量上说明,在相同条件下进行多次观察时,随机事件的频率m/n有接近于它概率的趋势。贝努里大数定律为用抽样成数(m/n)来估计总体成数p奠定了基础。nlim()=1mPpn 3.3.切贝谢夫大数定律
16、切贝谢夫大数定律设随机变量1,2,3,相互独立且服从同一分布,E(i)=,D(i)=2,那么,对于任何一个正数,有切贝谢夫大数定律表示,当试验次数切贝谢夫大数定律表示,当试验次数n n足够大时,足够大时,n n个随机变个随机变量的平均值量的平均值 与单个随机变量的数学期望与单个随机变量的数学期望 的差可以任意地小的差可以任意地小,这个事实以接近于,这个事实以接近于1 1的很大概率来说是正确的,即的很大概率来说是正确的,即 趋近于趋近于数学期望数学期望。因此在实际抽样调查时,可以用抽样的均值。因此在实际抽样调查时,可以用抽样的均值 作作为总体均值为总体均值 的近似值。的近似值。n12nlim(=
17、30)时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布一个任意分布的总体中心极限定理中心极限定理 (central limit theorem)抽样分布与总体分布的关系抽样分布与总体分布的关系总体分布总体分布正态分布正态分布非正态分布非正态分布样本均值样本均值正态分布正态分布样本均值正态分布样本均值样本均值非正态分布非正态分布X当总体服从正态分布N (,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n)T 统计量的分布统计量的分布设X1,X2,Xn是来自正态总体N(,2)的一个样本,那么为统计量,它服从自由度为(n-1)
18、的t 分布Xt 分布与正态分布的比较分布与正态分布的比较t-分布分布正态正态 分布分布不同自由度的不同自由度的t分布分布标准正态分布标准正态分布t(df=13)t(df=5)统计量的标准误统计量的标准误 (standard error)1.1.样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差误差2.2.标准误衡量的是统计量的离散程度,在参数估计和假设检验中,它是标准误衡量的是统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。用于衡量样本统计量与总体参数之间差距的一个重要尺
19、度。3.3.以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为为 它反映的是统计量它反映的是统计量 围绕围绕 的分散程度或者说反映了抽样均值的分散程度或者说反映了抽样均值 与与 的平均误差水平。的平均误差水平。4.4.标准误表示的是抽样的误差。因为从一个总体中可以抽取出无数多种标准误表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体是当前的样
20、本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误更大的是受到样本容量的影响。样本容量越均数的相对误差。标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么大,标准误越小,那么抽样误差抽样误差就越小,就表明所抽取的样本能够较就越小,就表明所抽取的样本能够较好地代表总体。好地代表总体。xx估计的标准误估计的标准误 (standard error of estimation)1.当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误差,由于在实际应用中,总体的总是未知的,所计算的标准误差实际上都是估计标准误差,因此估计标准误差就简称为标
21、准误差。2.以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为例例1,随机抽取某大学的学生,随机抽取某大学的学生100名,平均体重名,平均体重kgx58kgnSE11001025.21005.22nSE)10022.5N(168,x即2),(2nNx)25.2168170(SExp(0.889)1(0.889)1 0.8159 0.1841p Z 思考题和练习题思考题和练习题v 一、思考题v 1.正态分布有哪些特点?什么是标准正态分布?v 2.解释中心极限定理的含义?v 3.解释样本统计量的概率分布(抽样分布)v 4.什么是统计量的标准误差?它有什么用途?二、练习题v 1.已知随机变量满足正态分布N ,求P(61)=?和Pv 2.已知Z满足标准正态分布N(0,1),求以下各a值情况下,P =a中的 值。(1)当a=0.1(2)当a=0.05(3)当a=0.012(50,5)(4455)()z