1、 第5章 概率统计及其应用 5.1 随机事件与概率 5.1.1 随机事件 定义定义5.1 样本空间的子集,称为该随机试验的一个随机事件,简称事件,常用大写字母A,B,C,表示,记为A ,B ,C,.5.1.2 事件的概率(1)统计概率 定义定义5.2 (概率的统计定义)如果在n次重复试验中,当n充分大时,事件A在这n次试验中出现的频率稳定在某个固定常数p附近,则称此常数p为事件A出现的统计概率,简称概率,记为(2)古典概率 定义定义5.3 (概率的古典定义)在古典概型中,如果基本事件的总数为n,而事件A又由其中mA个基本事件组成,则定义事件A的概率为 这叫概率的古典定义,由它所定义的概率,称为
2、古典概率.可见,对古典概型的问题,只要求出基本事件总数n和事件A所包含的基本事件数mA,由公式(5.)就可直接计算事件A的概率了.(3)事件的关系和运算 1)包含 如果事件A发生,必然导致事件B发生,则称事件B包含事件A(或称A是B的子事件),记为 A B.2)相等 如果A B,且B A,则称事件A与事件B相等或等价,记为A=B.3)并 两事件A与B中至少有一个发生所构成的事件称为A与B的并(或和),记为AB.4)交 两事件A与B同时发生所构成的事件,称为A与B的交(或积),记为AB或AB.例如,A2A3=A1 5)互斥 事件A与事件B不能同时发生,即AB=,则称事件A与B互斥.如产品合格A1
3、与产品不合格 为互斥事件.)互逆 如两事件A与B不同时发生,但又必须有一个发生,即AB=,且AB=,则称事件A与B互逆(或对立)或称B是 (或A是 )的对立事件,记为B=A(或A=B).7)差事件A发生,但事件B不发生所构成的事件称为事件A与B的差,记为A-B,显然图5.1(4)概率的性质 性质性质1(非负性)对任何事件A,均有 性质性质2(规范性)必然事件的概率为1,即 性质性质3(互斥可加性)若事件A,B互斥,即AB=,则 推论推论1 若A1,A2,An两两互斥,即 推论推论2 对立事件概率之和为1,即 性质性质 P()=.即不可能事件的概率为零.性质性质5 若A B,则 性质性质6 (广
4、义加法定理)若A,B为任何二事件,则有 5.1.3 条件概率及其应用 在实际问题中,不仅要考虑事件A的概率P(A),有时还需要研究在“事件B已发生”的条件下,事件A发生的条件概率.记为P(A|B).(1)条件概率 定义定义5.4 在事件B发生的条件下,事件A发生的概率叫做事件A在事件B发生的前提下的条件概率,记作 若A,B为两任意事件,且P(B),则(2)乘法定理 设P(B),则 或设P(A),则 类似地,例例9 设在96件产品中有3件次品,今无放回地依次抽取两件,问两件都是合格品的概率是多少?解解 设Ai表示“第i次取得合格品”,则两件都是合格品就是A1,A2同时发生,要求的是P(A1 A2
5、),由乘法公式(3)事件的独立性 定义定义5.5 若事件A与B满足条件:则称事件A,B,C相互独立.定理定理5.1 若事件A,B相互独立,则 这三对事件都相互独立.*(4)全概率公式与贝叶斯公式 1)全概率公式 设事件A1,A2,An满足:则对任何事件B有 2)贝叶斯贝叶斯(Bayes)公式公式 设n个事件A1,A2,An满足:则对任一概率不为零的事件B有:5.1.4 二项概率公式(1)贝努里(Bernouli)概型 在相同的条件下,将同一试验重复做n次,如果每次试验的结果都与其他各次试验的结果无关,则称这种试验为重复独立试验.又如果每次试验只有两种可能结果A与 ,且事件A发生的概率P(A)在
6、每次试验中保持不变,这种n次重复独立试验的随机现象称为n重贝努里概型.这是一种非常重要而又常见的概型,它有广泛的应用,许多实际问题都可归纳为这种概型.一个有放回的抽样模型,就是一个标准的贝努里概型.(2)二项概率公式 若一次试验中事件A发生的概率为p,则在n重贝努里试验中,事件A恰好发生k次的概率为 其中q=-p.5.2 随机变量及其分布 5.2.1 随机变量及其分布函数(1)随机变量 定义定义5.6 对于随机试验的每个可能结果,都有唯一的一个实数值X()与它对应,则称X()为一个随机变量,简记为X.(2)随机变量的分布函数 定义定义5.7 设X是一个随机变量,x是任意一实数,令 则称函数F(
7、x)为随机变量X的分布函数.(3)分布函数的性质 性质性质1(有界性)F(x)1.性质性质2(单调不减性)若x1x2,则F(x1)F(x2).性质性质3(左连续性)F(x-0)=F(x).5.2.2 离散型随机变量及其分布(1)概率函数和分布函数 定义定义5.8 设随机变量X的可取值为:x1,x2,xi,其相应的概率分别为p1,p2,pi,则等式 称为随机变量X的概率函数,表格 称为X的概率函数或分布列,并称X为离散型随机变量.离散型随机变量的概率函数具有以下两个基本性质:(2)常用的典型分布 1)两点(0-1)分布 若随机变量X只能取0和1两个值,它们的概率分布是PX=1p,PX=0q(pq
8、=1),则称X服从两点(0-1)分布,或称X具有0-1分布.只要事件总数只有两个基本事件的,都能用两点分布来描述它.两点分布的分布列为 分布函数为 2)二项分布 若随机变量X的概率函数为 且1p1,1-p=q,则称X服从以n,p为参数的二项分布,记为XB(n,p).3)泊松(Poisson)分布 若随机变量X可取一切非负整数,且概率函数为 则称X服从参数为的泊松分布,记作XP()5.2.3 连续型随机变量及其分布(1)密度函数和分布函数 1)定义5.9 如果存在非负函数f(x),使对任意实数x,随机变量X的分布函数 则称X为连续型随机变量,f(x)为X的概率密度函数,简称概率函数或密度函数,常
9、称为密度函数.yf(x)的几何图形称为X的分布曲线.2)密度函数的性质 由定义可知,密度函数f(x)具有如下性质:性质性质 f(x).即X的分布曲线在Ox轴上方.性质性质2 即介于分布曲线与Ox轴之间面积总和为.事实上,性质性质3 即X落在区间a,b)内的概率等于随机变量X的密度函数f(x)在区间a,b)上的定积分值,或等于区间a,b)上分布曲线下的曲边梯形的面积.事实上,性质性质4 在f(x)的连续点处,有 这里分析一下f(x)的意义:(2)常用的典型分布 1)均匀分布 若随机变量X的密度函数为 则称X在a,b上服从参数为a,b的均匀分布,记为XUa,b.均匀分布的分布函数为 均匀分布的密度
10、函数与分布函数的图形如图5.6所示.图5.6 2)指数分布 若随机变量X的密度函数为 其中k0,则称X服从参数为k的指数分布,它的分布函数为 指数分布的实际背景是各种消耗性产品的“寿命”.正因如此,指数分布常用来描述各种“寿命问题”.3)正态分布 若随机变量X的密度函数为 其中a,为常数,且,则称X服从参数为a,2的正态分布,记作XN(a,2).它的分布函数为 y=f(x)的图形如图5.7所示.由微积分学知道:x=a时,f(x)达到最大 分布曲线y=f(x)对称于直线x=a;分布曲线y=f(x)两个拐点的横坐标为x=a;分布曲线yf(x)以x轴为水平渐近线;若固定,改变a之值,则分布曲线yf(
11、x)沿x轴平行移动,曲线的几何形状不改变;若固定a,而改变之值,由f(x)的最大值可知,当越大,yf(x)的图形越平坦,当越小,yf(x)的图形越陡峭,如图5.8所示.图5.7图5.8 特别地,若XN(a,2),当a=,=时,称X服从标准正态分布,记作XN(,).标准正态分布的密度函数和分布函数分别用 (x)和(x)来表示,即 标准正态变量X的密度函数 (x)和分布函数(x)的图形如图5.(a),(b)所示.正态分布具有以下性质:性质性质1 若XN(,),则(见图5.9(a)性质性质2 若XN(a,2),YN(,),且其分布函数分别为F(x)和(x),则图5.9*性质性质 若XN(a,2),则
12、 5.3 随机变量的数字特征 5.3.1 数学期望(1)离散型随机变量的数学期望 定义定义5.10 设离散型随机变量X的概率函数为 则称和式 为随机变量X的数学期望(或均值),记作EX,即 当X可取无穷多个值时,若级数 绝对收敛,则EX存在,且EX=.如Yg(X)是随机变量X的函数,则Y的数学期望记为 其中pi为X的概率函数.例27 设X的分布列为 求EX,EX2,E(X2-).这里指出,随机变量X的数学期望EX可为一切实数,且它表达了X取值的“集中趋势”.(3)数学期望的性质 设a,b,c为常数,X,Y为随机变量,且EX,EY均存在,则数学期望具有以下性质:性质性质 Ec=c,即常数的数学期
13、望就是它本身.性质性质 EcX=cEX.性质性质 E(XY)EXEY.推论推论 E(X1+X2+Xn)=EX1+EX2+EXn.性质性质 E(aX+b)=aEX+b.性质性质 设X,Y独立,则E(XY)=EXEY.推论推论 设X1,X2,,Xn相互独立,则 5.3.2 方差(1)方差概念 定义定义5.12 设随机变量X的数学期望为EX,如果 存在,则称E(X-EX)2为随机变量X的方差,记为DX,即 又称 为X的标准差或均方差,记为(X).(2)方差的性质 设a,b,c为常数,且DX,DY存在,方差具有以下性质:性质性质 Dc=.即常数的方差为零.性质性质 DcX=c2DX.性质性质 若X,Y
14、相互独立,则D(XY)=DX+DY*5.3.3 统计中常用的矩(1)原点矩 定义定义5.13 设X是随机变量,若对于正整数k,|X|k的数学期望E|X|k+(k=,),则称EXk 为X的k阶原点矩,记为vk,即 显然,数学期望就是一阶原点矩,即EX=v1.(2)中心矩 定义定义5.14 设X是随机变量,若对于X的离差的正整数k次幂|X-EX|k的数学期望E|X-EX|k+(k=1,2,),则称E(XEX)k为X的k阶中心矩.记为 显然,方差就是二阶中心矩,即DX=且一阶中心矩恒为零,即E(X-EX)=.(3)相关矩(或协方差)由于随机变量X与Y各自的期望与方差仅仅反映它们作为一维随机变量自身的
15、特征.对于二维随机变量(X,Y),自然希望定义出能够反映各分量X与Y之间的联系的某种数字特征,这就引出了相关矩的概念.定义定义5.15 设X、Y为定义在同一样本空间上的两个随机变量,对二维随机向量(X,Y),若E(X-EX)(Y-EY)存在,则称它为随机变量X与Y的相关矩(或协方差),记为Cov(X,Y),即 相关矩是二维随机变量的一个重要数字特征,它刻画了X与Y的取值之间的相互联系,用来描述随机变量之间的相关性.顺便指出:若X与Y相互独立,则Cov(X,Y)=.反之,不成立.又若X、Y为随机变量,则(4)相关系数 定义定义5.16 设随机变量X与Y的相关矩Cov(X,Y)和各自的方差均存在,
16、且DX,DY,则称 为X与Y的相关系数,记为(X,Y),即(5)切比谢夫不等式设随机变量X有数学期望EX和方差DX,则对任意的,有 5.4 统计分析中的样本分布 5.4.1 几个基本概念(1)总体与个体 在数理统计中,把研究对象的全体所构成的集合称为总体,把构成总体的每个单元称为个体(或样品).(2)样本与容量 定义5.17 若按一定规则,从总体X中,随机抽取n个个体X1,X2,Xn,这n个个体X1,X2,Xn 就称为总体X的一个容量为n的样本,简称样本.定义定义5.18 在数理统计中,把满足相互独立且与总体X同分布的样本X1,X2,Xn,称为简单随机样本.(3)统计量 定义定义5.19 设X
17、1,X2,Xn是总体的样本,则样本的函数 称为统计量.5.4.2 样本的数字特征 定义定义5.20 设X1,X2,Xn是总体X的样本,称统计量 为样本均值,记为 称统计量 为样本方差,记为 并称 为样本标准差.在实际应用中,用得最多的还是一阶样本原点矩和二阶样本中心矩,亦即样本均值 和样本方差S2.显然 5.4.3 抽样分布(1)u-分布 定理5.2(样本均值的分布)设样本X1,X2,Xn来自正态总体XN(a,2),则统计量 推论 若XN(a,2),X1,X2,Xn为总体X的样本,且 为其样本均值.则统计量 服从标准正态分布,即 通常称它为U统计量,后面将用U统计量对总体进行推断.U统计量的分
18、布称为u-分布.(2)-分布 定义定义5.21 设样本X1,X2,Xn来自标准正态总体XN(0,1),则统计量 称为自由度为n的 变量,其分布称自由度为n的 -分布,记为 (n).变量的分布曲线与n有关,如图5.10所示,当n越大时,它就越接近正态分布,当n30时,-分布就可用正态分布去近似.-统计量有以下性质:设X1,X2,Xn为来自正态总体XN(a,)的样本,则(3)t-分布 定义定义5.22 设样本X1,X2,Xn来自正态总体XN(a,2),S2分别为该样本的均值与方差,则统计量 称为自由度为(n-)的T变量,其分布称为自由度为(n-)的t-分布,记为Tt(n-).5.5 参数估计与实例
19、 5.5.1 点估计 定义定义5.23 设 为未知参数的估计量,若 则称 为的无偏估计量.5.5.2 区间估计(1)区间估计的意义 定义定义5.24 设总体X的分布中含有未知参数,由X的样本X1,X2,Xn所确定的两个统计量T1和T2,如果对于给定的正数()有 则称区间(T1,T2)是的对应于置信概率为1-的置信区间,T1和T2分别叫做置信区间的置信下限和置信上限,100(1-)%称为置信度(或信度,或置信概率).(2)EX的区间估计 1)已知DX,求EX的置信区间 设总体XN(a,2),其中2已知,X1,X2,Xn为来自总体X的样本,则统计量 ,由正态分布表(附录表),对给定的 ,存在一个值
20、(临界值),使 这就是说,EX落在区间 内 的概率为-,区间 称为EX的置信区间,称为估计不准概率,-称为置信概率,称为在 条件下的临界值.2)未知DX,求EX的置信区间 实际应用中,经常遇到的是方差未知的情况,这时自然想到用S2来代替未知方差DX,设X1,X2,Xn为来自正态总体的样本,则统计量 对给定的 ,查t-分布表(附录表)得临界值 ,使 于是得EX的置信区间为(3)方差DX的区间估计 1)未知期望EX,求DX的置信区间 设X1,X2,Xn为来自总体XN(a,2)的样本,a,2均未知,为了确定方差2的置信区间,可用样本方差S 2去作总体方差2的估计,采用统计量 .对给定的 ,查 -分布
21、表(附录表4)得临界值 ,使得 于是,得方差DX=2的置信区间为 或 2)已知期望EX=a,求DX的置信区间 此时DX=2的(-)的置信区间为*5.6 假设检验与实例 5.6.1 假设检验的基本思想方法 假设检验的基本思想是根据“小概率原理”而采用某种带有概率性质的反证法.5.6.2 正态总体均值a的假设检验(1)已知方差 ,检验假设H0:aa0 设X1,X2,Xn为来自正态总体XN(a,)的样本,若H0:a=a0(H0表示假设符号,a0是已知常数)为真,则样本均值 于是统计量 对于给定的显著性水平,由附录表可得临界值 ,并使得 显然 是一小概率事件.当样本X1,X2,Xn取观测值x1,x2,
22、xn时,统计量U的值为U0,且:若 时,这说明小概率事件在一次具体试验中出现了,因此应该拒绝假设H0:a=a0;若 时,则应该接受假设H0:a=a0.上述检验法称为u检验法检验法.当拒绝假设H0时,常称总体期望a与a0有显著差异;而接受假设H0时,常称总体期望a与a0无显著差异.现将u检验法步骤归结如下:1)提出检验假设H0:a=a0;2)选取统计量 3)给定显著水平 ,由 确定临界值 ;4)计算统计量U的实现值U0;5)做出判断,当 时,则拒绝假设H0;当 时,则接受假设H0.(2)未知方差2时,检验假设H0:a=a0 设样本X1,X2,Xn来自正态总体X N(a,2),要检验假设H0:a=
23、a0(其中a,2均为未知参数).这里由于方差2未知,上面u检验法不能适用,为了得到一个不含未知参数2的统计量,自然想到用方差的无偏估计量S2来代替2,于是选统计量 若H0:a=a0为真时,当给定,由附录表,可得临界值 ,并使 计算T的实现值为T0,若 ,就拒绝H0;若 ,就接受H0.这种检验叫t检验法.5.6.3 正态总体方差2的假设检验 设样本X1,X2,Xn来自正态总体XN(a,2),这里2为未知参数,现在要检验假设 (1)已知期望a时,检验假设 当H0为真时,统计量 若给定显著性水平 ,则可由附录表4,查得临界值 与 使得 这种检验方法叫2检验法.(2)未知期望a时,检验假设 当H0为真
24、时,统计量 若给定显著性水平 ,则可由附录表,查得临界值 使得 如图5.15所示.当由样本算得统计量2的值 ,若 ,则拒绝H0;若 ,则接受H0.5.7 线性回归与实例 5.7.1 回归分析的意义(1)两种不同类型的变量关系图5.15 类型类型:确定关系:确定关系 这类关系的特点是:对给定的变量x,另一变量y有确定的对应值.如平面区域圆的面积:S(圆面积)=r2(半径),电学中的欧姆定律:U(电压)=I(电流强度)R(电阻)等,这些都是我们所熟知的函数关系.类型类型:相关关系:相关关系 这类关系的特点是:变量具有某种不确定性的关系.如人的身高与体重的关系,一般来说,人高一些,体重大一些,但同样
25、高度的人,体重往往不尽相同.即不能由“身高”去确定“体重”.又如,农作物的收获量与气候、降雨、肥量等因素有关,但是同样的气候、雨量、肥量条件,其收获量未必完全相同.又再如,某商品的需求量与价格有关,一般而言,价高需求量小,价低需求量大,但同一价格的商品,需求量往往也有所不同.这些变量之间的关系无法用一个确切的数学表达式把它们表示出来,但确实它们之间又存在着密切关系.这种变量关系从本质上来说,是随机变量之间的关系,在统计分析中,把它们称为相关关系或统计关系.(2)回归分析的主要任务 回归分析的任务就是根据变量x与y的样本点(xi,yi),寻求并检验变量之间相关关系的回归函数,从而运用这个函数(经
26、验公式)达到预测或控制的目的.5.7.2 一元线性回归方程的建立(1)一元回归直线 若已知变量x与y之间存在某种相关关系,为了研究它们的具体关系,其中最简单的方法是通过样本观测值(xi,yi)(i=,n)做出散点图,看散点图中的散点是否大致分布在一条直线上,如散点几乎分布在一条直线上,就用一直线方程y=a+bx来近似地描述变量y与x的相关关系,这就是线性回归直线.(2)回归直线方程的建立 设x与y是两个具有相关关系的变量,采用独立试验的方法,对一个容量为n的样本观测值:(x1,y1),(x2,y2),(xn,yn),如何求出其回归直线方程,即如何确定 =a+bx中的a与b?所求的回归直线方程,
27、自然希望它尽可能地靠近每一个样本点(xi,yi),显然这样的直线有一个显著的特点:“对于所有xi,观测值yi与回归值 的偏离达到最小.”当x=xi时,y的观测值为yi,而其回归值为 =a+bxi,所以在xi处观测值yi与回归值 的离差为 如图5.19所示.为避免其离差的相互抵消,采用离差平方和 来刻画(xi,yi)与直线y=a+bx的偏离程度,一般所说的回归直线就是使Q为最小的直线.使Q(a,b)达到最小值的a与b的估计值 与 ,就是所需要的回归直线的截距与斜率,因此,求回归直线问题便转化为求Q取最小值的a与b的问题.根据微积分学求极值的原理,当Q(a,b)可微时,有 这是关于a,b的二元线性
28、方程组,解之得 显然,(5.51)式中的(,)就是使Q(a,b)达到最小值的(a,b)值,于是所求的线性回归方程就是 为便于记忆求回归系数 的公式,引入以下记号 此时 5.7.3 相关程度的检验(1)相关系数 定义5.25 称统计量 为样本相关系数.(2)相关系数的显著性检验 人们根据统计量r的概率性质,编制出了r的临界值表,即附录表6,表中的数据就刻画了|r|与的接近程度,具体检验步骤如下:1)提出假设H0:b=0.2)给出显著性水平 ,查自由度为(n-)的相关系数表(即附录表6)得临界值r(n-2).3)计算相关系数r的实现值r0.4)比较 的大小,若 则x与y线性相关显著,即 有意义;若
29、 则x与y线性相关不显著,或x与y不存在线性关系,即 无意义.其直观意义,见图5.20.5.7.4 线性回归分析的应用(1)回归预测图5.20 如果回归直线配制较好,就可以用它来作变量的预测,对任一给定的x0相应的y0一般是以回归直线上的对应值 为中心的服从正态分布的随机变量.设这个随机变量y的方差为2,则 此式表明,当x=x0时,对应的y值以0.95的概率落入区间 这个区间称为y的0.95预测区间,称为y的点预测值.y的方差往往是未知的,但可以证明,它的方差近似为 其中 用Sy代替,则对给定的x0,概率为0.95的y0的预测区间为 一般为方便起见,近似地取1.96为2,则上述区间近似为 由于
30、x取值是变的,因此y的预测区间上、下限是平行于回归直线的两条直线:如图5.21所示(2)回归控制 如果希望y落在区间(y1,y2)内,则x取值区间可由图5.21中直线L1L2对应的关系所确定,设 解出x1,x2,则 当 时,控制区间为(x1,x2);当 时,控制区间为(x2,x1).但必须注意:只有当(y2-y1)4Sy时,所求控制区间才有意义.图5.21 5.7.5 线性回归直线的简便求法(1)平均值法 用平均值法来求线性回归直线方程 =a+bx中的系数a和b.其具体做法是:第一步,将n组数据(xi,yi)分别代入回归方程 =a+bx;第二步,把这n个方程均分为两组(分的组数等于欲求未知数的个数);第三步,把每组内的方程分别相加,得到一个二元一次联立方程组;第四步,解以上二元一次联立方程组,得系数a和b,即得所求线性回归直线方程 =a+bx.(2)紧绳法 这种方法是将组数据所成的散点描在坐标纸上.如若画出的点群(即散点图)形成一直线形带,就在这点群中间画一条直线,使得该直线两边的点子差不多相等并尽可能靠拢.这条直线可以被近似地当作回归直线.利用它在坐标纸上就可直接进行预报.