1、第五章第五章 大数定律与中心极限定理大数定律与中心极限定理 本章要解决的问题 1. 为何能以某事件发生的频率 作为该事件的 概率的估计?2. 为何能以样本均值作为总体 期望的估计?3. 为何正态分布在概率论中占 有极其重要的地位?4. 大样本统计推断的理论基础 是什么?答复大数大数定律定律中心极中心极限定理限定理设非负 r.v. X 的期望 E( X )存在,则对于任意实数 0,)()(XEXP证证 仅证连续型 r.v.的情形dxxfXP)()(dxxfx)(0)(1dxxxf)( XE 重要不等式重要不等式 5.1 大数定律大数定律设随机变量 X 的方差 D ( X )存在,则对于任意实数
2、0,2)()| )(|XDXEXP推论推论 1 切贝雪夫( chebyshev)不等式或2)(1)| )(|XDXEXP当 2 D(X) 无实际意义,例例1 1 设有一大批种子,其中良种占1/6. 试估计在任选的 6000 粒种子中, 良种所占比例与1/6 比较上下小于1%的概率.解解 设 X 表示 6000 粒种子中的良种数 ,X B (6000,1/6 )01. 0616000XP65000)(,1000)(XDXE)60|1000(|XP2606500017685. 010883实际精确计算1060940XP01. 0616000XP1059941600060006561kkkkC959
3、036. 0用Poisson 分布近似计算1060940XP01. 0616000XP937934. 010599411000!1000kkke取 = 1000例例2 2 设每次试验中,事件 A 发生的概率为 0.75, 试用 Chebyshev 不等式估计, n 多大时, 才能在 n 次独立重复试验中, 事件 A 出现的频率在0.74 0.76 之间的概率大于 0.90?解解 设 X 表示 n 次独立重复试验中事件 A发生的次数 , 则X B(n,0.75)nXDnXE1875. 0)(,75. 0)(90. 076. 074. 0nXP要使,求 n即90. 076. 074. 0nXnP即
4、90. 001. 0|75. 0|nnXP由 Chebyshev 不等式, = 0.01n ,故2)01. 0(1875. 0101. 0|75. 0|nnnnXP令90. 0)01. 0(1875. 012nn解得18750n定义定义若存在随机变量X,对0limXXPnn0有设,2, 1nXXX为随机变量序列,或1limXXPnn则称 r.v. 序列nX依概率收敛于随机变量 X,记为XXPn大数定律大数定律定义定义5.2, 2 , 1,)(,)(22kXDXEkkkk若011lim11nkknkknnXnP对任意随机变量序列nX:则称服从大数定律。nX马尔可夫大数定律设随机变量序列nX满足马
5、尔可夫条件:nkknXDn12),( , 0)(1则0有011lim11nkknkknnXnPChebyshev 大数定律,21nXXX两两互不 设 r.v. 序列, 2 , 1,)(kCXDk相关的随机变量序列,又存在常数C0,使则 nX服从大数定律。独立同分布大数定律若nX为相互独立且服从同一分布的随机变量序列,其2)(,)(kkXDXE均存在,nX服从大数定律。则定理的意义定理的意义当 n 足够大时, 算术平均值几乎是一常数.具有相同数学期望和方差的独立 r.v.序列的算术平均值依概率收敛于数学期望.算术算术均值均值数学数学期望期望近似代替可被,21nXXX相 设 r.v.序列, 2 ,
6、 1,)(iXEkki则0有01lim1knikinXnP互独立具有相同的分布,且记knikiMXn11注注111nPM),(21kMMMgnP),(21kg则则22nPMknPkM),(21kxxxg连续,若贝努里(Bernoulli) 大数定律设 nA 是 n 次独立重复试验中事件 A 发生的次数, p 是每次试验中 A 发生的概率, 则0有0limpnnPAn或1limpnnPAnpnnPA0故.0limpnnPAnnpq21证证 因为因为),(pnBnAnpqnpqnnnDpnnEnpqnDnpnEAAAA21)(,)()(,)(,所以由 Chebyshev 不等式得即pnnnPA在概
7、率的统计定义中, 事件 A 发生的频率 “ 稳定于”事件 A 在一次试验中发生的概率是指:nnA频率与 p 有较大偏差pnnA是小概率事件, 因而在 n 足够大时, 可以用频率近似代替 p . 这种稳定称为依概率稳定.贝努里贝努里(Bernoulli)(Bernoulli)大数定律的意义大数定律的意义nnA 电视台需作节目电视台需作节目A 收视率收视率的调查的调查.每天在播电视的同时每天在播电视的同时, 随机地向随机地向当地居民打电话询问是否在看电视当地居民打电话询问是否在看电视. 若若在看电视在看电视, 再问是否在看节目再问是否在看节目A. 设回答设回答 问问 题题看电视的居民户数为看电视的
8、居民户数为 n. 若要若要保证以保证以 95%的概率使调查误的概率使调查误差在差在10%之内之内, n 应取多大?应取多大?每晚节目每晚节目A 播出一小时播出一小时, 调调查需同时进行查需同时进行, 设每小时每人能设每小时每人能调查调查20户户, 每户居民每晚看电视每户居民每晚看电视的概率为的概率为70%, 电视台需安排多电视台需安排多少人作调查少人作调查. 又,若使调查误差在又,若使调查误差在 1 %之内之内, n 应取多大?应取多大?5.2 中心极限定理中心极限定理定定理理一一林德伯格-列维中心极限定理 独立同分布的中心极限定理独立同分布的中心极限定理 定定理理二二棣莫弗-拉普拉斯中心极限
9、定理 二项分布以正态分布为极限分布二项分布以正态分布为极限分布 (Lindberg-levi)(De Moivre-Laplace)独立同分布的中心极限定理独立同分布的中心极限定理 设随机变量序列,21nXXX独立同一分布, 且有期望和方差:, 2 , 1,0)(,)(2kXDXEkk则对于任意实数 x ,xtnkkndtexnnXP21221lim定理定理 1)(x注注则 Y n 为nkkX1的标准化随机变量.)(limxxYPnn即 n 足够大时,Y n 的分布函数近似于标准正态随机变量的分布函数nnXYnkkn1记)1 , 0( NYn近似nkkX1nYnn),(2nnN近似服从中心极限
10、定理的意义中心极限定理的意义 在第二章曾讲过有许多随机现象服从正态分布 若联系于此随机现象的随机变量为X ,是由于许多彼次没有什么相依关系、对随机现象谁也不能起突出影响,而均匀地起到微小作用的随机因素共同作用则它可被看成为许多相互独立的起微小作kkX用的因素Xk的总和 ,而这个总和服从或近似服从正态分布.(即这些因素的叠加)的结果.德莫佛德莫佛拉普拉斯中心极限定理拉普拉斯中心极限定理 (DeMoivre-Laplace ) 设 Y n B( n , p) , 0 p 1, n = 1,2,则对任一实数 x,有xtnndtexpnpnpYP2221)1 (lim即对任意的 a b,batnndt
11、ebpnpnpYaP2221)1 (limY n N (np , np(1-p) (近似)定理定理2例例1 1 炮火轰击敌方防御工事 100 次, 每次轰击命中的炮弹数服从同一分布, 其数学期望为 2 , 均方差为1.5. 若各次轰击命中的炮弹数是相互独立的, 求100 次轰击(1) 至少命中180发炮弹的概率;(2) 命中的炮弹数不到200发的概率.解解 设 X k 表示第 k 次轰击命中的炮弹数100, 2 , 1,5 . 1)(, 2)(2kXDXEkk10021,XXX相互独立,设 X 表示100次轰击命中的炮弹数, 则,225)(,200)(,1001XDXEXXkk)225,200
12、( NX近似由独立同分布中心极限定理, 有(1) 152001801)180(XP(2)15200015200200)2000 (XP91. 0) 3 . 1 () 3 . 1(15 . 0)33.13()0(例例2 2 售报员在报摊上卖报, 已知每个过路人在报摊上买报的概率为1/3. 令X 是出售了100份报时过路人的数目,求 P (280 X 320).解解 令Xi 为售出了第 i 1 份报纸后到售出第i 份报纸时的过路人数, i = 1,2,100, 2 , 1,1)(3/ 11kppkXPpki(几何分布)61)(, 31)(3/123/1pipippXDpXE1001kkXX1002
13、1,XXX相互独立,600)(,300)(XDXE)()600,300(近似NX600300280600300320)320280(XP160020218165. 025878.0由独立同分布中心极限定理, 有例例3 3 检验员逐个检查某产品,每查一个需用10秒钟. 但有的产品需重复检查一次,再用去10秒钟. 若产品需重复检查的概率为 0.5, 求检验员在 8 小时内检查的产品多于1900个的概率.解解 若在 8 小时内检查的产品多于1900个,即检查1900个产品所用的时间小于 8 小时.设 X 为检查1900 个产品所用的时间(秒)设 Xk 为检查第 k 个产品所用的时间(单位:秒), k
14、 = 1,2,1900 XkP 10 200.5 0.525)(,15)(kkXDXE19001kkXX190021,XXX相互独立同分布,47500251900)(28500151900)(XDXE)47500,28500( NX近似)2880019000()83600190010(XpXP589.43376. 19162. 0475002850019000475002850028800例例4 4 某车间有200台车床,每台独立工作,开工率为0.6. 开工时每台耗电量为 r 千瓦. 问供 电所至少要供给这个车间多少电力, 才能以 99.9% 的概率保证这个车间不会因供电不足而影响生产?解解
15、设至少要供给这个车间 a 千瓦的电力,X 为开工的车床数 , 则 X B(200,0.6) , X N (120, 48) (近似)由德莫佛德莫佛拉普拉斯中心极限定理拉普拉斯中心极限定理, 有 48120048120/)0 (raarXP0)32.17(48120/ra问题转化为求 a , 使%9 .99)0(arXP反查标准正态函数分布表,得%9 .9909. 3令09.348120ra解得rra141)1204809. 3(千瓦)例例5 5 设有一批种子,其中良种占1/6. 试估计在任选的6000粒种子中,良种比例与 1/6 比较上下不超过1%的概率.解解 设 X 表示6000粒种子中的良
16、种数 , X B( 6000 , 1/6 )65000,1000 NX近似由德莫佛拉普拉斯中心极限定理, 则有6500010009406500010001060650006065000601650006029624.001. 0616000XP601000 XP比较几个近似计算的结果比较几个近似计算的结果中心极限定理9624. 001. 0616000XP二项分布(精确结果)9590. 001. 0616000XPPoisson 分布9379. 001. 0616000XPChebyshev 不等式7685. 001. 0616000XP 设某农贸市场某种商品每日的价格的变化是个相互独立且均值
17、为0, 方差为 2 = 2的随机变量 Yn,并满足) 1(1nYXXnnn其中Xn是第n天该商品的价格.如果今天的价格为100,求18天后该商品的价格在 96 与 104 之间的概率.*补充作业解 设 表示今天该商品的价格, 为1818X0X天后该商品的价格, 则.494. 01747. 021810181716181718iiYXYYXYXX)364361364(181iiYP)44()10496(18118iiYPXP得1) 3/2(2) 3/2() 3/2( 一本书有一本书有 1 000 000 个印刷符号个印刷符号, 排版时每个符号被排错的概率为千分排版时每个符号被排错的概率为千分之一之一. 校对时校对时, 每个排版错误被改正的每个排版错误被改正的概率为概率为0.99. 求在校对后错误不多于求在校对后错误不多于15 个的概率个的概率. 问问 题题