1、第五章 大数定律和中心极限定理 关键词:契比雪夫不等式大数定律中心极限定理1.1 大数定律背景 本章的大数定律,对第一章中提出的 “频率稳定性”,给出理论上的论证为了证明大数定理,先介绍一个重要不等式2.222225.1,0,1XE XD XP XE XP XE X 定理契比雪夫不等式:设随机变量 具有数学期望方差 则对于任意都有:定理的为:等价形式,f x证明:仅就X为连续型时证之 设X的概率密度为 xP Xf x dx则 22xxf x dx 221xf x dx222D X()f x3.4.例1:在n重贝努里试验中,若已知每次试验事件A 出现的概率为0.75,试利用契比雪夫不等式估 计n
2、,使A出现的频率在0.74至0.76之间的概率不 小于0.90。nA解:设在 重贝努里试验中,事件 出现的次数为X,,0.75b n则X,0.75,0.1875,E Xnpn D Xnpqn nXfAn又 0.740.760.750.01XPP Xnnn而20.187510.01nn 187510.90n 18750n5.随机变量序列依概率收敛的定义 1235.1,0,0,nnnX Xlim P XXpn 。定义:设随机变量序列X若存在某常数,使得均有:则称随机变量序列依概率收敛于常数,记为:X()pXg xxnpg Xgn 性质:已知,并知函数在=处连续,则6.122115.2,101lim
3、lim1nnnkknnknnkXXnYXnPYPXn 定 理契 比 雪 夫 不 等 式 的 特 殊 情 形:设 随 机 变 量 序 列 X相 互 独 立,且 具 有 相 同 的 数 学 期 望和 相 同 的 方 差,作 前个 随 机 变 量 的 算 术 平 均:则,有:111,nnkkE YEXnnn证明:由于11nnkkD YDXn211nkkD Xn2221nnn22111nkknPXn 由契比雪夫不等式得:111nknklim PXn7.辛钦大数定理(弱大数定理)辛钦大数定理(弱大数定理)设设X X1 1,X,X2 2,X,Xn n为独立、同分布的随机变量,为独立、同分布的随机变量,且有
4、相同的数学期望且有相同的数学期望E E(X Xi i)=(i=1,2,=1,2,),),则对则对00,有,有11lim1niinXnP1nii=1XXn或或者者,序 序列列 以概率收敛于以概率收敛于 PX 即即 8.03,3,4分9.大数定律的重要意义:大数定律的重要意义:贝努里大数定律建立了在大量重复独立试验中事件出现频贝努里大数定律建立了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意率的稳定性,正因为这种稳定性,概率的概念才有客观意义,贝努里大数定律还提供了通过试验来确定事件概率的义,贝努里大数定律还提供了通过试验来确定事件概率的方法,既然频率方法,既然频
5、率n nA A/n/n与概率与概率p p有较大偏差的可能性很小,我有较大偏差的可能性很小,我们便可以通过做试验确定某事件发生的频率并把它作为相们便可以通过做试验确定某事件发生的频率并把它作为相应的概率估计,这种方法即是在第应的概率估计,这种方法即是在第7 7章将要介绍的参数估章将要介绍的参数估计法,参数估计的重要理论基础之一就是大数定理。计法,参数估计的重要理论基础之一就是大数定理。5.3,0,1AAnApnnnAlim Ppn 定理贝努里大数定理 设事件 在每次试验中发生的概率为,记为 次独立重复试验 中 发生的次数 则有:,Anb n p证明:利用契比雪夫不等式,因故:11,AAnEE n
6、nppnnn20,1AnpqPpnn 于是,有2211AAnpqDD nnpqnnnn1Annlim Ppn即得:10.2 中心极限定理背景:有许多随机变量随机变量,它们是由大量大量的相相互独立的互独立的随机变量的综合影响所形成的,而其中每个个别的因素作用都很小很小,这种随机随机变量变量往往服从或近似服从正态分布,或者说它的极限分布是正态分布,中心极限定理正是从数学上论证了这一现象,它在长达两个世纪的时期内曾是概率论研究的中心课题。11.5.4 定理独立同分布的中心极限定理2110,1.(,),()()().nniinYNN nnbnanP aXbnn nii此定理表明,当 充分大时,近似服从
7、即:X(近似)从而,1X nii=1思考题:X 的近似n分布是什么?2(,)Nn答案:2122112,0,1,2,1,2niiniinnitxinnnXXE XD XiXnnYnXnxRlim P Yxlim Pxedtn 设随机变量X相互独立同分布,则前 个变量的和的标准化变量为:有:证明略。12.02,4,3分13.5.5 定理德莫佛-拉普拉斯定理2215.4,(1)2txAnnnplim Pxedtnpp由定理1 0 iiAiA第 次试验时 发生证明:令X第 次试验时 未发生 2201,1lim(),(1)2AtxAnnnAP AppnnpxPxedtxnpp 设为 次贝努里试验中 发生
8、的次数,则对任意,有:12,(1,).nXXbpi则X相互独立同分布,X12,AnnXXX由于()(,(1).N np nppA即:n近似()(1)()(1)AP anbbnpnppanpnpp 二项分布和正态分布的关系14.示意例图15.例2:设某种电器元件的寿命服从均值为100小时的指 数分布,现随机取得16只,设它们的寿命是相互 独立的,求这16只元件的寿命的总和大于1920小 时的概率。121616,XX解:记只电器元件的寿命分别为X16116iiX则只电器元件的寿命总和为X,2100,100iiE XD X由题设16116 10016000,14 100400iiXXN根据独立同分布
9、的中心极限定理:Y近似服从 192011920P XP X 1920 16001400 10.80.2119 16.例3:某保险公司的老年人寿保险有1万人参加,每人每年交200元,若老人在该年内死亡,公司付给受益人1万元。设老年人死亡率为0.017,试求保险公司在一年内这项保险亏本的概率。200P X,10000,0.017b n pnp解:设X为一年中投保老人的死亡数,则X由德莫佛-拉普拉斯中心极限定理,保险公司亏本的概率为:1000010000 200PX 20011npnpp 12.3210.01 10思考题:求保险公司至少盈利万元的概率。答案:0.93717.例4:设某工厂有400台同
10、类机器,各台机器发生故障的概 率都是0.02,各台机器工作是相互独立的,试求机 器出故障的台数不小于2的概率。400 0.02 0.982.8121(1)17 0.99382.8npqnpP XP Xnpq ,400,0.02 b解:设机器出故障的台数为X 则X,分别用三种方法计算:1.用二项分布计算40039921011 0.98400 0.02 0.980.9972P XP XP X 2.用泊松分布近似计算400 0.028 21011 0.0003350.0026840.9969npP XP XP X 查表得3.用正态分布近似计算18.作业题P95:1919.第五章复习20.222225
11、.1,0,1XE XD XP XE XP XE X 定理契比雪夫不等式:设随机变量 具有数学期望方差 则对于任意都有:定理的为:等价形式,f x证明:仅就X为连续型时证之 设X的概率密度为 xP Xf x dx则 22xxf x dx 221xf x dx222D X()f x21.122115.2,101limlim1nnnkknnknnkXXnYXnPYPXn 定 理契 比 雪 夫 不 等 式 的 特 殊 情 形:设 随 机 变 量 序 列 X相 互 独 立,且 具 有 相 同 的 数 学 期 望和 相 同 的 方 差,作 前个 随 机 变 量 的 算 术 平 均:则,有:111,nnkk
12、E YEXnnn证明:由于11nnkkD YDXn211nkkD Xn2221nnn22111nkknPXn 由契比雪夫不等式得:111nknklim PXn22.辛钦大数定理(弱大数定理)辛钦大数定理(弱大数定理)设设X X1 1,X,X2 2,X,Xn n为独立、同分布的随机变量,为独立、同分布的随机变量,且有相同的数学期望且有相同的数学期望E E(X Xi i)=(i=1,2,=1,2,),),则对则对00,有,有11lim1niinXnP1nii=1XXn或或者者,序 序列列 以概率收敛于以概率收敛于 PX 即即 23.大数定律的重要意义:大数定律的重要意义:贝努里大数定律建立了在大量
13、重复独立试验中事件出现频贝努里大数定律建立了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意率的稳定性,正因为这种稳定性,概率的概念才有客观意义,贝努里大数定律还提供了通过试验来确定事件概率的义,贝努里大数定律还提供了通过试验来确定事件概率的方法,既然频率方法,既然频率n nA A/n/n与概率与概率p p有较大偏差的可能性很小,我有较大偏差的可能性很小,我们便可以通过做试验确定某事件发生的频率并把它作为相们便可以通过做试验确定某事件发生的频率并把它作为相应的概率估计,这种方法即是在第应的概率估计,这种方法即是在第7 7章将要介绍的参数估章将要介绍的参数估计法,
14、参数估计的重要理论基础之一就是大数定理。计法,参数估计的重要理论基础之一就是大数定理。5.3,0,1AAnApnnnAlim Ppn 定理贝努里大数定理 设事件 在每次试验中发生的概率为,记为 次独立重复试验 中 发生的次数 则有:,Anb n p证明:利用契比雪夫不等式,因故:11,AAnEE nnppnnn20,1AnpqPpnn 于是,有2211AAnpqDD nnpqnnnn1Annlim Ppn即得:24.5.4 定理独立同分布的中心极限定理2110,1.(,),()()().nniinYNN nnbnanP aXbnn nii此定理表明,当 充分大时,近似服从即:X(近似)从而,1
15、X nii=1思考题:X 的近似n分布是什么?2(,)Nn答案:2122112,0,1,2,1,2niiniinnitxinnnXXE XD XiXnnYnXnxRlim P Yxlim Pxedtn 设随机变量X相互独立同分布,则前 个变量的和的标准化变量为:有:证明略。25.5.5 定理德莫佛-拉普拉斯定理2215.4,(1)2txAnnnplim Pxedtnpp由定理1 0 iiAiA第 次试验时 发生证明:令X第 次试验时 未发生 2201,1lim(),(1)2AtxAnnnAP AppnnpxPxedtxnpp 设为 次贝努里试验中 发生的次数,则对任意,有:12,(1,).nX
16、Xbpi则X相互独立同分布,X12,AnnXXX由于()(,(1).N np nppA即:n近似()(1)()(1)AP anbbnpnppanpnpp 二项分布和正态分布的关系26.第六章 数理统计的基本概念关键词:总 体 个 体 样 本 统 计 量 2分布t 分布F 分布27.补充统计图:直方图和箱线图补充统计图:直方图和箱线图直方图:概念演示;函数hist or imhist频率直方图(概率直方图)概念28.29.直方图30.频率直方图31.减少频率直方图的柱子数目(256 32)32.箱线图箱线图(matlab-Boxplot)Outlier异常值33.34.求箱线图不存在异常值的流程
17、示意图第一步 第二步35.求箱线图不存在异常值的流程示意图第三步 第四步36.求箱线图不存在异常值的流程示意图第五步 第六步37.求箱线图不存在异常值的流程示意图第五步 第六步38.求箱线图不存在异常值的流程示意图第七步(结束步)39.求箱线图存在异常值的流程示意图第一步 第二步40.求箱线图存在异常值的流程示意图第三步 第四步41.求箱线图存在异常值的流程示意图第五步 第六步42.求箱线图存在异常值的流程示意图第七步 第八步43.引言:数理统计学数理统计学是一门关于数据收集、整理、分析 和推断的科学。在概率论中已经知道,由于大量的随机试验中各种结果的出现必然呈现它的规律性,因而从理论上讲只要
18、对随机现象进行足够多次观察,各种结果的规律性一定能清楚地呈现,但是实际上所允许的观察永远是有限的,甚至是少量的。例如:若规定灯泡寿命低于1000小时者为次品,如何确定次品率?由于灯泡寿命试验是破坏性试验,不可能把整批灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验,以样本的信息来推断总体的信息,这是数理统计学研究的问题之一。44.1 总体和样本总体总体:研究对象的全体。如一批灯泡。个体个体:组成总体的每个元素。如某个灯泡。抽样抽样:从总体总体X中抽取有限个个体对总体进行观察的取值过程。随机样本随机样本:随机随机抽取的n个个体的集合(X1,X2,Xn),n为样本容量样本容量简单随机样本简单随机样
19、本:满足以下两个条件的随机样本(X1,X2,Xn)称 为简单随机样本。1.1.每个每个X Xi i与与X X同分布同分布2.X2.X1 1,X,X2 2,X Xn n是相互独立的随机变量是相互独立的随机变量说明:后面提到的样本均指简单随机样本,由概率论知,若总体X 具有概率密度f(x),则样本(X1,X2,Xn)具有联合密度函数:121,nnniifx xxf x45.),(21nXXX样本:样本:(1)从总体中随机抽取从总体中随机抽取n个个体个个体,21nXXXn维随机变量维随机变量 就是一个就是一个样本样本,n为样本容量为样本容量。(2)对这对这n个个体个个体 进行测试,得进行测试,得到一
20、组数据到一组数据 ,这组数据叫做,这组数据叫做样样本值,样本值也简称为样本本值,样本值也简称为样本。,21nXXX),(21nxxx这就是样本的这就是样本的二重性。二重性。样本概念的样本概念的二重性二重性46.数理统计:数理统计:利用样本利用样本 对总体对总体X 的的 ),(21nXXX等等)(),(),(XDXExF做出推断做出推断(估计)。估计)。47.二二.统计量统计量 如,考察物体如,考察物体a的长度,测量的长度,测量10次,得到数据次,得到数据总体总体1021,xxx样本样本102101211xxaxxaxa 统计量:统计量:整理分析由样本构造出整理分析由样本构造出来的统计量,然后利
21、用来的统计量,然后利用统计量对总体进行推断统计量对总体进行推断(关键的环节)(关键的环节)48.1.统计量:统计量:样本的函数样本的函数 ,且不,且不含未知参数。含未知参数。2.称为统计量的值。称为统计量的值。),(21nXXXg为为r.v.2.常见的统计量常见的统计量 niiXnX11:)1(样本均值样本均值估计估计)(XE niiXXnS122)(11:)2(样样本本方方差差估计估计)(XD弱大数定理弱大数定理49.niiXXnS12)(11:)3(样样本本标标准准差差估计估计)(XD11nkkiiAXn估计估计)(kXE11()nkkiiBXXn估计估计)(kXEXE 估计估计)(XD特
22、别的,特别的,1211()2niiAXBXXn212nBSn(4)样本的)样本的k阶原点矩阶原点矩:(5)样本的)样本的k阶中心矩阶中心矩:50.221231232123323121,1 X 2 X2 3 max,1 4 5 iiNXXXXXXXXXXX 思考题:(一)设在总体中抽取样本其中 已知,未知 指出在中哪些是统计量,哪些不是统计量,为什么?222,.,(),()()_,()_,()_.nXXXE XD XE XD XE S1(二)设X是总体 的样本,若,则答:只有(4)不是统计量。2n251.)(211)(112_122_12XXXXEnXXnEESiniinii_22111_221
23、12()11()1nnniiiiiniiEXX XXnEXnE Xn22222_222222222()()()1()()1iiiEXDXEXE XD XE XnESnnnnn52.理想信号53.测量信号54.55.连续测量20次后求样本均值56.连续测量50次后求样本均值57.连续测量200次后求样本均值58.随机变量独立性的定理 1112111211111122112,1,2,6.1,iikinnnnnninnkkknnnXXnygxxxxRikknnnYgXXYgXXXkXYgn设X是相互独立的 个随机变量,又设是 个连续函数,且有则 个随机变量:是理:定相互独立的。返回返回59.2 常用
24、的分布 12222221,0,1 1,2,11nnniiiXXXNinnn设随机变量X相互独立,X 则称 服从自由度为 的,定 指式右端包含分布记为自的独立变度义:由量的个数 2212101 02 22 0 6 0.3nynxyeynfynyxe dx分布的概率密度为:其理中定:2分布2.557.51012.51517.50.10.20.30.4n=4n=1n=10 1(0)21131/2 函数的性质:1)60.2分布的一些重要性质:22221.,2nEn Dn设则有22211221212122.,YnYnY YYYnn设且相互独立,则有22分布的可加性性质 称为,可推广到有限个的情形:221
25、211,mmiimiiiiYnY YYYn设且相互独立,则 22222,01,nnfdynynn为分布的上 分对给定的概率称满足条件的点上 分位数的值可查位数分布表 2n02分布的分位数x()f x-61.2212222122223451,1()(2)(),nniiNXXXXXbXXXk 1例:设总体X已知。是取自总体X的样本 求(1)统计量 的分布;(2)设n=5,若a(X 则a,b,k各为多少?1,2,iiXYin解:(1)作变换 12,0,1 1,2,niY YYYNin显然相互独立,且 22211()nniiiiXYn2于是 22212122()(2)(0,2),(1)2XXXXN22
26、23453452(2)2(0,6),(1)6XXXXXXN123452223451222(2)()(2)26XXXXXXXXXX与2相互独立,故221,21,62.abk62.20,1,NYnXTntTtYnY n设X并且X相互独立,服从自由度为 的 分布,记 则称随变量为机定义:,01,tnf t n dttnt ntt对给定的称满足条件的点为分布的上。分布的上 分位数可位数查分分布表t分布 1212226.4 ,1,nnntt nf t ntnn 定理:分布的概率密度为:tn f xx0t分布的分位数10n 313x()f x1n 4n 2021t分布的密度函数1()()tntn t-63
27、.t分布的性质:分布的性质:(1)即 分布的极限(分布是标准正态分布(2),则 64.221211212212,/,/nYnYX nFn nFFF n nY nnn设X且X独立,则称随机变量服定义:从自由度的 分布,记为 其中 称为第一自由度,称为第二自由度F分布 12121222121212122122121110,1 0,;,0 6.,05 1nnnnnnnbF n nn nxnn xxBf x n nxabB a bxxdx分定理:布的概率密度为:其中ab 12211(,),(,)FF n nF n nF性质:则65.121212,1212,01,;,Fn nf x n ndxFn nF
28、 n nFn nF 对于给定的称满足条件的点为分布的上 分位数。的值可查 分布表0 x12 f x21,20nn 225n 210n F分布的密度函数0 x12,Fn n()f xF分布的分位数111221(,)(,)Fn nF n nF-66.z,0,1,01XNZP XZZ此外 设若满足条件 则称点为标准正态分布的上 分位数。1ZZ 67.例例2:设设X1,X2,X3,X4是来自正态总体是来自正态总体N(0,22)的简的简单随机样本,单随机样本,则服从则服从_分布分布;2423221XXXX3 )3(t)3()2X()2X()2X(,)1,0(N2X22423221 )3(t3/)2X()
29、2X()2X(2X2423221 68.例例3:设设X1,X2,X3,X4是来自正态总体是来自正态总体N(0,22)的简的简单随机样本,则单随机样本,则()()()服从)服从_分布。分布。)2,2(F)2()2X()2X()2()2X()2X(2242322221 )2,2(F2/)2X()2X(2/)2X()2X(24232221 69.70.四四.正态总体统计量的分布正态总体统计量的分布定理定理1 设总体设总体的的简简单单随随机机样样本本。为为来来自自总总体体XXXXNXn,),(212 2(,)XNn)(121nXXXnX 线性组合线性组合正态分布正态分布 ,nnXE1 nnnXD222
30、1 ),(2nNX 71.标准化,得到标准化,得到)1,0(/NnXU 222111.()niiXn定定理理二二:()且相互独立且相互独立,,2,1),1,0(niNXi )(12121222nXXniinii 72.(1)/Xt nSn定定理理三三:2(2),X S定定理理二二:相相互互 立 立2222211(1)(3)(1)niinSXXn121:()()()0nnXXXXXX受到受到1个约束,独立的变量个数为个约束,独立的变量个数为n-1独独73.)1,0(/NnXU )1()1(222 nSn 且相互独立且相互独立)1(/)1()1(/22 ntnSXnSnnX 74.75.76.77
31、.78.12221111222212222112221212221212122212,1 1,12(0,1),3 nnXXYYNNSSSFF nnSXYNnnXY 设样本和分别来自总体和 并且它们相互独立,其样本方差分别为定理4则:当时:,21212221122221221111 ,2WWWWt nnSnnnSnSSSSnn其中79.2111222121122222212222111,111FnSnSF nnnSSn且两者独立,由 分布的定义,有:22112222122212111,1nSnSnn证明:1 由定理2知,221212122212121212221212(2),(,),(,),(,
32、)()()(0,1)XNYNnnXYXYNnnXYNnn由定理1且 与 相互独立,所以,即80.12120,111XYUNnn 213 222当=时,由(2)得2,且它们相互独立 故有分布的可加性知:22112222122211 1,1nSnSnn又由给定条件知:6.1,UV由定理知:与 相互独立2211222122112nSnSVnn121212122112wtXYUt nnVnnSnn于是按 分布知:.82.其中 则 83.84.85.作业题P95:1986.作业题P111:887.复习88.2 常用的分布 12222221,0,1 1,2,11nnniiiXXXNinnn设随机变量X相互
33、独立,X 则称 服从自由度为 的,定 指式右端包含分布记为自的独立变度义:由量的个数2分布2分布的一些重要性质:22221.,2nEn Dn设则有22211221212122.,YnYnY YYYnn设且相互独立,则有 2n02分布的分位数x()f x89.20,1,NYnXTntTtYnY n设X并且X相互独立,服从自由度为 的 分布,记 则称随变量为机定义:,01,tnf t n dttnt ntt对给定的称满足条件的点为分布的上。分布的上 分位数可位数查分分布表t分布 tn f xx0t分布的分位数10n 313x()f x1n 4n 2021t分布的密度函数1()()tntn t分布的
34、极限分布是标准正态分布90.221211212212,/,/nYnYX nFn nFFF n nY nnn设X且X独立,则称随机变量服定义:从自由度的 分布,记为 其中 称为第一自由度,称为第二自由度F分布12211(,),(,)FF n nF n nF性质:则111221(,)(,)Fn nF n n0 x12 f x21,20nn 225n 210n F分布的密度函数0 x12,Fn n()f xF分布的分位数91.四个定理四个定理.正态总体统计量的分布正态总体统计量的分布定理定理1 设总体设总体的的简简单单随随机机样样本本。为为来来自自总总体体XXXXNXn,),(212 2(,)XNn
35、标准化,得到标准化,得到)1,0(/NnXU (1)/Xt nSn定定理理三三:92.222111.()niiXn定定理理二二:()2(2),X S 相相互互 立 立2222211(1)(3)(1)niinSXXn121:()()()0nnXXXXXX受到受到1个约束,独立的变量个数为个约束,独立的变量个数为n-1独独93.1222111122221222211222121222121222212,1 1,12(0,1),3 nnXXYYNNSSSFF nnSXYNnnX 设样本和分别来自总体和 并且它们相互独立,其样本方差分别为则:当(未知数)理4时,定:121212221122221221111 ,2WWWWYt nnSnnnSnSSSSnn其中94.返回返回95.返回返回96.97.返回返回98.99.