1、统计学StatisticsStatistics第第 5 5 章章 概率和分布概率和分布u 5.1 5.1 概率的几种确定方法概率的几种确定方法u 5.2 5.2 离散变量的概率分布离散变量的概率分布u 5.3 5.3 连续变量的概率分布连续变量的概率分布u 5.4 5.4 抽样分布抽样分布u 5.5 5.5 小结小结第第 5 5 章章 概率和分布概率和分布5.1 5.1 概率的几种确定方法概率的几种确定方法概率的几种确定方法概率的几种确定方法等可能事件的概率等可能事件的概率发生概率相等的事件就是通常所说的等可能事件等可能事件(equally likely event)。一般地,如果某一试验的所
2、有可能结果数是n,而每种结果发生的概率是相等的,那么每种结果在一次试验中出现的概率就是1/n。如果要考察某些组合结果发生的概率,只需要把组合结果中所包含的可能结果的数目k除以n即可,也就是k/n。概率的几种确定方法概率的几种确定方法用频率逼近概率用频率逼近概率利用某一事件在多次重复试验中出现的次数占总试验次数的比例来估计概率,这个比例称为相对频数相对频数(relative frequency)或频率频率。理论上认为,相同条件下重复的试验次数n趋于无穷时,特定事件A发生的次数m就会趋于稳定,据此计算得到的频率就会逼近事件A发生的真实概率,即有 。nmAP)(基于上述理论可以得出,在不同试验次数n
3、的情况下,特定事件出现的频率m/n将围绕该事件发生的真实概率波动,并且随着试验次数n的增加,其波动的幅度将逐渐减小,最终趋于稳定,这个稳定的频率就是真实的概率。概率的几种确定方法概率的几种确定方法主观主观概率概率现实生活中还有很多事件既不是等概率的,也无法进行重复试验。这些事件都不可能通过重复试验来估计其发生的概率,但人们可以结合已经掌握的一些信息、相关因素或专业知识,基于自己的主观判断,给出一个概率,这就是主观概率主观概率(subjective probability)。第第 5 5 章章 概率和分布概率和分布5.2 5.2 离散变量的概率分布离散变量的概率分布离散变量的概率分布离散变量的概
4、率分布用 表示离散型随机变量X所有可能的取值,相应地,用 表示该变量取值为 的概率。因此,将X的所有可能取值和对应的取值概率列在一张表格中,就是该离散型随机变量的概率分布,如表5-1所示。显然,离散型随机变量的概率分布应满足,21xx)(ixpix取值取值概率概率1x2x)(1xp)(2xp表表5-1 离散型随机变量的概率分布离散型随机变量的概率分布,1)(iixp,0)(ixp,2,1i 离散变量的概率分布离散变量的概率分布离散型随机变量X的均值(也称期望值,expected value)等于其所有可能取值与相应的取值概率的乘积之和,通常用 或E(X)表示,即离散型随机变量X的方差等于每一个
5、可能取值与均值的差值平方,再与相应的取值概率的乘积之和,通常用 或D(X)表示,即,2,1i iiixpxXE)()(2iiixpxXD)()()(22,2,1i离散变量的概率分布离散变量的概率分布【例【例5.1】某商场举办周年庆祝活动,所有消费者均可凭购物小票抽取现金礼券。商场负责人称,现金礼券的面额分别为20元、50元和100元,抽中的概率分别是60%、30%和10%。试计算该商场现金礼券抽奖金额的均值和标准差。解:解:根据题意,该商场现金礼券的抽奖金额X是一个离散型随机变量,其概率分布如表5-2所示。取值20元50元100元概率0.60.30.1表表5-2 某商场现金礼券抽奖金额的概率分
6、布某商场现金礼券抽奖金额的概率分布根据公式计算X的均值为=200.6+500.3+1000.1=37(元)iiixpxXE)()(根据公式计算X的方差为=(20-37)20.6+(50-37)20.3+(100-37)20.1=621iiixpxXD)()()(22因此,X的标准差 =24.9(元)离散变量的概率分布离散变量的概率分布二项分布二项分布如果某种试验只有两个可能结果,通常把感兴趣的一个结果定义为“成功”,另一个结果定义为“失败”。当这种试验可以重复n次,并且满足:(1)各次试验相互独立;(2)每次试验“成功”的概率保持不变,均为p,“失败”的概率均为q=1-p,那么就称为n次伯努利
7、(Bernoulli)试验。在n次伯努利试验中,“成功”的次数是一个离散型随机变量X,其概率分布服从二项分布二项分布(binomial distribution),记为XB(n,p)。具体地,n次伯努利试验中“成功”k次(即X=k)的概率可表示为:,)(knkknqpCkpnk,1,0可以进一步推导得到二项分布的均值和方差分别为,)(npXEnpqXD)(2 离散变量的概率分布离散变量的概率分布二项分布二项分布【例【例5.2】某公司声称其生产的一批产品次品率为2%,若从中有放回地随机抽取10个产品,试计算这10个产品中:(1)没有次品的概率是多少?(2)恰好有1个次品的概率是多少?(3)有3个
8、以下次品的概率是多少?解:解:根据题意,每抽检一个产品相当于一次试验,由于感兴趣的是“次品”的个数,因此将“次品”定义为“成功”,次品率即为“成功”的概率p。有放回地随机抽取使得每次试验都是相互独立的,并且次品率在每次试验中保持不变,这就是n次伯努利试验。因此,在按照上述方式抽取的10个产品中的次品数X服从二项分布B(10,0.02)。使用Excel中的【BINOM.DIST】函数可以分别计算得到:(1)P(X=0)=p(0)=0.817073;(2)P(X=1)=p(1)=0.16675;(3)P(X3)=p(0)+p(1)+p(2)=0.999136。离散变量的概率分布离散变量的概率分布超
9、几何分布超几何分布如果某种试验只有“成功”和“失败”两个可能结果,在重复n次试验的过程中,各次试验并不独立,每次试验“成功”的概率也不相等,此时“成功”的次数就不再服从二项分布,而是超几何分布超几何分布(hypergeometric distribution)。一般地,用N代表总体中元素的个数,M代表总体中“成功”的元素的个数,n为试验次数,n次试验中“成功”的次数X服从超几何分布,记作XH(n,N,M)。具体地,n次试验中“成功”k次(即X=k)的概率可表示为:可以进一步推导得到超几何分布的均值和方差分别为 ,)(nNknMNkMCCCkplk,1,0 其中,l=min(M,n)。,)(Nn
10、MXE)1()1()1()(22NNMMnnNnMNnMXD 离散变量的概率分布离散变量的概率分布超几何分布超几何分布【例【例5.3】假设除夕夜你和父母包了20个饺子,并在其中3个饺子里各放进了一枚硬币。饺子都煮熟后,你和父母三人各随机夹了一个,试计算:(1)你们三个人都吃到硬币的概率是多少?(2)你们三个人至少有一个人吃到硬币的概率是多少?解:解:根据题意,每吃一个饺子相当于一次试验,由于感兴趣的是“有硬币的饺子”的个数,因此将吃到“有硬币的饺子”定义为“成功”。饺子一共有20个(即总体的元素个数),其中有3个饺子有硬币(即“成功”的元素个数),显然每吃一个饺子都是无放回的随机试验,因此,你
11、和父母三人所吃的3个饺子中“成功”的次数X服从超几何分布H(3,20,3)。使用Excel中的【HYPGEOM.DIST】函数可以分别计算得到:(1)P(X=3)=p(3)=0.000877;(2)P(X1)=p(1)+p(2)+p(3)=1-p(0)=0.403509。离散变量的概率分布离散变量的概率分布泊松分布泊松分布如果观察的事件在单位时间或单位面积出现的平均次数保持不变,并且不同时段或空间区域内事件的发生是相互独立的,那么单位时间或单位面积该事件出现的实际次数X服从泊松分布泊松分布(Poisson distribution),记作 。具体地,X=k的概率可表示为:可以进一步推导得到泊松
12、分布的均值和方差均为 ,即 其中,。)(PX,!)(ekkpk,1,0k 0,)(XE)(2XD 因此,代表的就是单位时间或单位面积特定事件出现的平均次数。离散变量的概率分布离散变量的概率分布泊松分布泊松分布【例【例5.4】假设位于某购物中心的星巴克咖啡店下午时段平均每小时有48个顾客到店消费,试计算每10分钟内至少有3个顾客到店消费的概率是多少?解:解:根据题意,由于感兴趣的是“每10分钟内”到店消费的顾客人数,因此将“单位时间”定义为10分钟。平均每小时有48个顾客到店消费,那么单位时间到店消费的平均人数为486010=8(个)。理论上可以假设,下午时段单位时间到店消费的平均人数保持不变,
13、并且不同时间段内到店消费的顾客人数相互之间是独立的,因此,每10分钟内到店消费的顾客人数X服从泊松分布P(8)。使用Excel中的【POISSON.DIST】函数可以计算得到:P(X3)=1-p(0)-p(1)-p(2)=0.986246第第 5 5 章章 概率和分布概率和分布5.3 5.3 连续变量的概率分布连续变量的概率分布连续连续变量的概率分布变量的概率分布如果用横坐标表示离散变量的可能取值,纵坐标表示概率,那么任一离散变量的概率分布都可以绘制成相应的条形图(变量的每一个可能取值相当于一个“类别”)。而对于在一个区间内连续取值的连续变量来说,由于横坐标的取值不再是离散的而是连续的,就需要
14、绘制直方图。可以想象,如果不断地细分连续变量取值的区间,直方图的矩形数目就会不断地增加,最终直方图的轮廓就会越来越接近一条光滑的曲线。由于纵坐标原本代表的是概率,所有矩形的高度和为1,通过调整量纲,可以使得这条曲线下面的矩形面积总和为1。连续连续变量的概率分布变量的概率分布图5-1直观展示了上述过程。图图5-1 不断细分的直方图和逼近的曲线不断细分的直方图和逼近的曲线上文描述的曲线即被称为连续变量的概率密度函数概率密度函数(probability density function,缩写为pdf),简称密度函数密度函数(density function)或密度密度(density),通常记为f(
15、x)。连续连续变量的概率分布变量的概率分布从理论上很容易理解,连续变量在某个区间内取值的概率就是其密度曲线在该区间上覆盖的面积,也就是概率密度函数在该区间上的积分。与离散型随机变量类似,连续型随机变量的概率密度函数应满足显然,概率密度函数在某个点的积分为0。因此,连续变量恰好等于某个特定数值的概率都是0,通常只有计算连续变量在某个(或多个)区间内取值的概率才有实际意义。,1)(-dxxf0)(xf 连续连续变量的概率分布变量的概率分布对于概率密度函数为f(x)的连续型随机变量X,其均值为通常将满足 的数值 称为下侧分位数(又称分位数);而将满足 的数值 称为上侧分位数(又称上分位数)。方差为
16、dxxxfXE)()(dxxfxXD)()()(22)(xXPx)(xXPx显然,对于连续型概率分布,上侧分位数等于(1-)下侧分位数。连续连续变量的概率分布变量的概率分布正态分布正态分布正态分布正态分布(normal distribution,又称高斯分布高斯分布,Gaussian distribution)是人们在日常生活中最常用也最熟悉的一类连续型概率分布。如果随机变量X的概率密度函数为:,21)(22)(21xexfx则称X服从参数为 的正态分布,记作 。其中,是正态随机变量X的均值,可以为任意实数;是X的方差,。2,),(2NX20连续连续变量的概率分布变量的概率分布正态分布正态分布
17、连续连续变量的概率分布变量的概率分布正态分布正态分布图5-2和5-3显示了不同参数取值对应的正态分布概率密度曲线,很容易看出,正态分布具有如下一般性质:(1)正态分布的密度曲线是关于 对称的钟形曲线,即 左右两边曲线下的面积相等,且最高点也在 处。(2)正态分布密度曲线的具体形式由参数 唯一确定,均值 决定了曲线的中心位置,方差 决定了曲线的“胖瘦”。越小,密度曲线越陡峭,变量在均值 附近的取值越集中;越大,密度曲线则越扁平,变量在均值 附近的取值越分散。xxx2,222(3)正态随机变量X的取值可以向横坐标左右两个方向无限延伸,对应的概率密度曲线尾部也无限接近横轴,但理论上永远不会与之相交。
18、连续连续变量的概率分布变量的概率分布正态分布正态分布特别地,当参数 时,称X服从标准正态分布标准正态分布(standard normal distribution),记作XN(0,1)。标准正态分布的概率密度函数通常表示为 ,即:很容易证明,任一服从参数为 的正态随机变量X经过标准化后转换得到的新变量 服从标准正态分布。x2,1,02)(x,21)(221xex/)(XZ连续连续变量的概率分布变量的概率分布正态分布正态分布【例【例5.5】假设某高校举行本科生入学英语测试,全体考生的测试成绩X服从参数 的正态分布,试计算:(1)某考生成绩不高于80分的概率是多少?(2)某考生成绩高于70分但不高
19、于90分的概率是多少?解:解:根据题意,XN(75,52),使用Excel中的【NORM.DIST】函数可以计算得到:(1)P(X80)=0.841345;(2)P(702)=1-P(Z2)=1-0.977250=0.022750;使用Excel中的【T.DIST】函数可以计算得到:P(X2)=1-P(X2)=1-0.963306=0.036694;P(Y2)=1-P(Y2)=1-0.972687=0.027313;(2)根据题意,使用Excel中的【NORM.S.INV】函数可以计算得到:=-1.644854;使用Excel中的【T.INV】函数可以计算得到:=-1.812461;=-1.6
20、97261。05.0 x05.0z05.0y连续连续变量的概率分布变量的概率分布F F分布分布1924年,著名统计学家罗纳德艾尔默费歇尔(Ronald Aylmer Fisher)提出了F分布,它由两个 分布的随机变量推导得到。假设随机变量 ,且X与Y相互独立,那么 服从自由度为n1和n2的F分布,记作FF(n1,n2)。对于服从自由度为n1和n2的F分布随机变量X,其均值和方差分别为 2)(12nX)(22nY21/nYnXF,2)(22nnXE)4()2()2(2)(222121222nnnnnnXD)4(2n 连续连续变量的概率分布变量的概率分布F F分布分布F分布的形状由两个自由度n1
21、和n2决定,通常与 分布类似,呈不对称的右偏分布。2 图图5-6 不同自由度的不同自由度的F分布概率密度曲线分布概率密度曲线连续连续变量的概率分布变量的概率分布F F分布分布【例【例5.9】假设随机变量X服从自由度为5和10的F分布,试计算:(1)P(X10);(2)5%上侧分位数。解:解:根据题意,X F(5,10),使用Excel中的【F.DIST】函数可以计算得到:(1)P(X10)=0.998794;使用Excel中的【F.INV.RT】函数可以计算得到:(2)=3.325835。05.0 x第第 5 5 章章 概率和分布概率和分布5.4 5.4 抽样分布抽样分布抽样分布抽样分布对总体
22、分布特征的某些概括性度量,称为总体参数,简称参数参数(parameter)。在实践中,由于受各种因素的限制,无法获得总体的信息,参数往往是未知的,需要利用样本数据对其进行推断。基于样本数据计算得到的用于推断总体参数的量就是我们在第4章学习的统计量,也称样本统计量。抽样分布抽样分布统计量实际上也是一个随机变量,它是样本的函数,并且不包含未知的总体参数。样本统计量的概率分布就称为抽样分布抽样分布(sampling distribution),抽样分布描述了样本统计量的所有可能取值规律。样本统计量的标准差称为标准误差标准误差(standard error,简称标准误标准误,缩写为SE),它反映了根据
23、不同样本数据计算得到的样本统计量取值的离散程度。第第 5 5 章章 概率和分布概率和分布5.5 5.5 小结小结小结小结概率是一个在0到1之间取值的数,用来量化测度特定事件发生的可能性大小。对于人们希望研究的随机变量,如果能够掌握该变量取任一可能值或在任一区间内取值的概率分布,就可以计算任一感兴趣的随机事件发生的概率。常见的离散型概率分布包括二项分布、超几何分布和泊松分布,正态分布则是统计学中最重要的一类连续型概率分布,基于正态分布可以推导得到包括卡方分布、t分布和F分布等在内的其他几类常用连续型概率分布。总体分布特征的概括性度量称为参数,对于未知的总体参数,可以利用样本数据计算相应的统计量进行推断。样本统计量的概率分布称为抽样分布,而样本统计量的标准差则称为标准误。