1、第三章概率分布第三章概率分布第一节事件与概率第一节事件与概率一、事件一、事件(一)必然事件(一)必然事件在一定条件下必然会发生的事件称为必然事件在一定条件下必然会发生的事件称为必然事件(certain event),用),用U表示。例如,在标准大气表示。例如,在标准大气压下,水加热到压下,水加热到100必然沸腾;步行条件下必必然沸腾;步行条件下必然不可能到达月球等。然不可能到达月球等。(二)不可能事件(二)不可能事件在一定条件下不可能发生的事件称为不可能事件在一定条件下不可能发生的事件称为不可能事件(impossible event),用),用V表示。例如,在满足表示。例如,在满足一定孵化条件
2、下,从石头孵化出雏鸡;种子发芽一定孵化条件下,从石头孵化出雏鸡;种子发芽率不可能超过率不可能超过100%,精品资料你怎么称呼老师?如果老师最后没有总结一节课的重点的难点,你是否会认为老师的教学方法需要改进?你所经历的课堂,是讲座式还是讨论式?教师的教鞭“不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,没有学问无颜见爹娘”“太阳当空照,花儿对我笑,小鸟说早早早”(三)随机事件(三)随机事件在一定条件下可能发生,也可能不发生,在一定条件下可能发生,也可能不发生,称为随机事件(称为随机事件(random event),简称事),简称事件(件(event),通常用),通常用A、B、C等来表示。等来表示。二
3、、概率二、概率在相同条件下进行在相同条件下进行n次重复试验,如果随机事件次重复试验,如果随机事件A发生的次数为发生的次数为m,那么,那么m/n称为随机事件称为随机事件A的频率的频率(frequency););当试验重复数当试验重复数n逐渐增大时,随机事件逐渐增大时,随机事件A的频率越的频率越来越稳定地接近某一数值来越稳定地接近某一数值p,那么就把,那么就把p称为随机称为随机事件事件A的概率。的概率。在一般情况下,随机事件的概率在一般情况下,随机事件的概率p是不可能准确是不可能准确得到的。通常以试验次数得到的。通常以试验次数n充分大时随机事件充分大时随机事件A的的频率作为该随机事件概率的近似值。
4、频率作为该随机事件概率的近似值。即即 P(A)=pm/n (n充分大)充分大)概率有如下基本性质:概率有如下基本性质:1、对于任何事件、对于任何事件A,有,有0P(A)1;2、必然事件的概率为、必然事件的概率为1,即,即P(U)=1;3、不可能事件的概率为、不可能事件的概率为0,即,即P(V)=0。三、概率计算三、概率计算(一)事件的相互关系(一)事件的相互关系1、和事件、和事件事件事件A和事件和事件B至少有一件发生而构成的新至少有一件发生而构成的新事件称为事件事件称为事件A和事件和事件B的和事件,以的和事件,以AB表示。表示。2、积事件、积事件事件事件A和事件和事件B同时发生,以同时发生,以
5、AB表示表示3、互斥事件、互斥事件事件事件A和事件和事件B不能同时发生,不能同时发生,AB=V如新生儿男为如新生儿男为A,女为,女为B4、对立事件、对立事件A和和B必有一个发生,但二者不能同时发生,必有一个发生,但二者不能同时发生,即即ABU,AB=V。B为为A对立事件,可表示为对立事件,可表示为A5、独立事件、独立事件A的发生与的发生与B没有关系没有关系如播种玉米时,一穴中播种如播种玉米时,一穴中播种2粒,第一粒发芽与粒,第一粒发芽与否与第否与第2位无关系位无关系6、完全事件系、完全事件系如果多个事件如果多个事件A1、A2An两两排斥,每次必然发两两排斥,每次必然发生其一,生其一,A1、A2
6、An称为完全事件。称为完全事件。如随机抽取一位阿拉伯数字,数字如随机抽取一位阿拉伯数字,数字09构成完全构成完全事件。事件。(二)概率计算法则(二)概率计算法则1、加法定理、加法定理互斥事件互斥事件A和和B的和事件的概率等于事件的和事件的概率等于事件A和和B的概率之和,即的概率之和,即 P(A+B)=P(A)+P(B)例:调查某玉米田,一穗占例:调查某玉米田,一穗占67.2%,双穗,双穗占占30.7%,空穗占,空穗占2.1%,计算一穗株和双,计算一穗株和双穗株的概率穗株的概率P(A+B)=P(A)+P(B)=0.672+0.307=0.979推理推理1:A1、A2An为为n个互斥事件,其和个互
7、斥事件,其和事件的概率为:事件的概率为:P(A1+A2+An)=P(A1)+P(A2)+P(An)推理推理2:对立事件的:对立事件的A的概率为:的概率为:P(A)=1P(A)推理推理3:完全事件系的和事件的概率:完全事件系的和事件的概率12、乘法定理、乘法定理A和和B为独立事件,则为独立事件,则A与与B同时发生的概同时发生的概率为:率为:P(AB)=P(A)P(B)播种玉米时,每穴播种玉米时,每穴2粒,种子的发芽率为粒,种子的发芽率为90%,求两粒种子均发芽和一粒种子发芽,求两粒种子均发芽和一粒种子发芽的概率。的概率。两粒种均发芽:两粒种均发芽:P(AB)=P(A)P(B)=0.90.9=0.
8、81一粒种子发芽的概率:一粒种子发芽的概率:P(AB)+P(AB)=P(A)P(B)+P(A)P(B)=0.90.1+0.10.9=0.18推理:如果推理:如果A1、A2An为彼此独立,则:为彼此独立,则:P(A1A2An)=P(A1)P(A2)P(An)四、概率分布四、概率分布(一)离散型变量的概率分布(一)离散型变量的概率分布某鱼群的年龄组成 年龄(x)1 2 3 4 5 6 7 概率(W)0.4597 0.3335 0.1254 0.0507 0.0215 0.0080 0.0012 离散型变量的概率分布 变量(x)x1 X2 x 3 x 4 x 5 x 6 x 7 概率(P)p1 p2
9、 p3 p4 p5 p6 p7 离散型随机变量离散型随机变量x的一切可能取值的一切可能取值xi(i=1,2,),及,及其对应的概率其对应的概率pi,记作,记作P(x=xi)=pi i=1,2,(二)连续型变量的概率分布(二)连续型变量的概率分布连续型变量,可通过分组整理成频率分布连续型变量,可通过分组整理成频率分布表。如果从总体中抽取样本表。如果从总体中抽取样本n相当大,则频相当大,则频率分布就趋于稳定,我们将它近似地看成率分布就趋于稳定,我们将它近似地看成总体概率分布。总体概率分布。图4-1 表2-7资料的分布曲线若概率分布密度函数为若概率分布密度函数为f(x),则,则x取值于区间取值于区间
10、a,b的概率为图中阴影部分的面积,即:的概率为图中阴影部分的面积,即:P(axb)=badxxf)(连续型随机变量概率分布性质:连续型随机变量概率分布性质:分布密度函数总是大于或等于分布密度函数总是大于或等于0,即,即f(x)0;当随机变量当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即;即 (c为任意实数为任意实数)在一次试验中随机变量在一次试验中随机变量x之取值必在之取值必在-x+范围内,为一必然事件。所以范围内,为一必然事件。所以表示分布密度曲线下、横轴上的全部面积表示分布密度曲线下、横轴上的全部面积为为1。ccdxxfcxP0)()(1)()(dxxfxP第二节几
11、种常见的理论分布第二节几种常见的理论分布一、二项分布一、二项分布在生物学研究中,我们经常碰到的一类离在生物学研究中,我们经常碰到的一类离散型随机变量,如动物雄性还是雌性、种散型随机变量,如动物雄性还是雌性、种子发芽与不发芽、后代的成活与死亡等。子发芽与不发芽、后代的成活与死亡等。这样的结果只能是非此即彼两种情况,构这样的结果只能是非此即彼两种情况,构成对立事件。成对立事件。我们把这种非此即彼事件所构成的总体,我们把这种非此即彼事件所构成的总体,称为二项总体,其分布称为二项分布。称为二项总体,其分布称为二项分布。(一)二项分布的概率函数(一)二项分布的概率函数二项总体,具有的共同特征:二项总体,
12、具有的共同特征:(1)每次试验只有两个对立结果,记作)每次试验只有两个对立结果,记作A与与A,它们出现的概率分别为,它们出现的概率分别为p与与q(q=1-p)(2)试验具有重复性和独立性。重复性是指)试验具有重复性和独立性。重复性是指每次试验条件不变,每次试验条件不变,A出现的概率为出现的概率为p。独。独立性是指任何一次试验中事件立性是指任何一次试验中事件A的出现与其的出现与其余各次试验中出现的何种结果无关。余各次试验中出现的何种结果无关。以以x表示在表示在n次试验中事件次试验中事件A出现的次数。出现的次数。x取的值为零和正整数:取的值为零和正整数:0,1,2,,n,其概,其概率分布函数为:率
13、分布函数为:P(X)为为x的二项分布,记作的二项分布,记作B(n,p)。)!(!)(xnxnCqpCxPxnxnxxn二项分布是因为二项分布是因为Cnxpxqn-x恰好等于二项式恰好等于二项式(p+q)n按牛顿二项式展开含有按牛顿二项式展开含有px的相应各的相应各项:项:Excel二项分布计算方法:二项分布计算方法:=BINOMDIST(x,n,p,false)说明:说明:x为试验成功数;为试验成功数;n为观察数或试验为观察数或试验次数;次数;p为概率;为概率;nxxnxxnnnnnnnnnnnqpCpCqpCqpCqCqp02221110.)(由于由于(p+q)n=1,上式可写为:,上式可写
14、为:nxxP01)(理论次数则以单位总数理论次数则以单位总数N乘以各项概率:乘以各项概率:理论次数理论次数NP(x)二项分布的概率累积函数可用下式表示:二项分布的概率累积函数可用下式表示:nxxPXF0)()(Excel二项分布的概率累积函数计算方法:二项分布的概率累积函数计算方法:=BINOMDIST(x,n,p,true)说明:说明:x为试验成功数;为试验成功数;n为观察数或试验为观察数或试验次数;次数;p为概率;为概率;相当于小于相当于小于x的累积概率的累积概率(二)二项分布概率计算(二)二项分布概率计算例例1豌豆的红花纯合基因型和白花纯合基豌豆的红花纯合基因型和白花纯合基因型杂交后,在
15、因型杂交后,在F2代红花与白花植株的比代红花与白花植株的比率为率为3:1,若每次随机观察,若每次随机观察4株,共观察株,共观察100次,问得红花为次,问得红花为0株、株、1株、株、2株、株、3株和株和4株的概率各为多少?株的概率各为多少?解:解:红花概率红花概率0.75,白花概率,白花概率0.25,观察数,观察数n=4代入公式代入公式红花概率函数 P(x)=Cnxpxqn-xF(x)NP(x)f(0)0.00390.00390.39f(1)0.04690.05084.69f(2)0.21090.261721.09f(3)0.42190.683642.19f(4)0.31641.000031.6
16、4总和1.0000100.00例例2:某批鸡种蛋的孵化率是:某批鸡种蛋的孵化率是0.90,今从该,今从该批种蛋中每次任选批种蛋中每次任选5个进行孵化,试求孵出个进行孵化,试求孵出小鸡的各种可能概率。小鸡的各种可能概率。解:解:n=5,p=0.9,q=0.1,每次孵化,每次孵化5个种个种蛋服从二项分布蛋服从二项分布B(5,0.90)。)。0只小鸡:只小鸡:P(0)=C50p0q5=10.9000.1051只小鸡:只小鸡:P(1)=C51p1q4=50.9010.1042只小鸡:只小鸡:P(2)=C52p2q3=100.9020.1033只小鸡:只小鸡:P(3)=C53p3q2=100.9030.
17、1024只小鸡:只小鸡:P(4)=C54p4q1=50.9040.1015只小鸡:只小鸡:P(5)=C55p5q0=10.9050.100小鸡数概率0只小鸡0.000011只小鸡0.000452只小鸡0.00813只小鸡0.07294只小鸡0.328055只小鸡0.59049总合1例例3某小麦品种在田间出现自然变异植株的概某小麦品种在田间出现自然变异植株的概率为率为0.0045,试计算,试计算:(1)调查调查100株,获得株,获得2株或以株或以上变异的概率是多少?上变异的概率是多少?(2)期望有期望有0.99的概率获得的概率获得1株或株或1株以上的变异植株,至少应调查多少株?株以上的变异植株,
18、至少应调查多少株?解:解:(1)0株:株:P(0)=C1000p0q100=10.004500.99551000.63701株:株:P(1)=C1001p1q99=1000.004510.995599=0.28792株以上变异概率为:株以上变异概率为:P(x2)=1-P(0)-P(1)=0.07512)=1-P(0)-P(1)=0.0751(2)应调查的株数满足应调查的株数满足P(0)=Cn0p0qn=0.01 0.9955n=0.01 nlg0.9955=lg0.01 n=lg0.01/lg0.9955=1021因此,期望有因此,期望有0.99概率得到概率得到1株或株或1株以上变株以上变异植
19、株,应至少调查异植株,应至少调查1021株。株。(二)二项分布的形状和参数(二)二项分布的形状和参数1、二项分布的形状、二项分布的形状由由n和和p两个参数决定两个参数决定(1)当)当p值较小且值较小且n值不大时,图形是偏倚值不大时,图形是偏倚的。随着的。随着n值的增大,分布逐渐趋于对称。值的增大,分布逐渐趋于对称。(2)当)当p值趋于值趋于0.5时,分布趋于对称。时,分布趋于对称。图49 n值不同的二项分布比较 图410 p值不同的二项分布比较2、二项分布的参数、二项分布的参数总体平均数(次数):总体平均数(次数):x=np总体标准差(次数):总体标准差(次数):x=如例如例1,n=4,p=0
20、.75,可求红花出现的株数为,可求红花出现的株数为40.75=3株,株,=(40.750.25)1/2=0.866株株二项百分数的平均数二项百分数的平均数p=p二项百分数的标准差二项百分数的标准差x=(pq/n)1/2npq二、泊松分布二、泊松分布在生物学研究中,有许多事件出现的概率在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却很大,即很小,而样本容量或试验次数却很大,即有很小的有很小的p值和很大的值和很大的n值。这时,二项分值。这时,二项分布变成泊松布变成泊松(poisson)分布。)分布。如显微镜视野内染色体有变异的细胞计数、如显微镜视野内染色体有变异的细胞计数、由突变引
21、起的遗传病患的分布、田间小区由突变引起的遗传病患的分布、田间小区内出现变异植株数、作物种子内杂草计数、内出现变异植株数、作物种子内杂草计数、单位容积中的细菌数目分布、家畜产怪胎单位容积中的细菌数目分布、家畜产怪胎数等都属于泊松分布。数等都属于泊松分布。若随机变量若随机变量x(x=k)只取零和正整数值只取零和正整数值0,1,2,且其概率分布为:,且其概率分布为:,k=0,1,其中其中=np0;e=2.7182是自然对数的底是自然对数的底数,则称数,则称x服从参数为服从参数为的波松分布的波松分布(Poissons distribution),记为,记为P()。泊松分布平均数泊松分布平均数=方差方差
22、2=。利用这一特。利用这一特征,征,可以初步判断一个离散型随机变量是可以初步判断一个离散型随机变量是否服从泊松分布。否服从泊松分布。ekkxPk!)(泊松分布的形状由参数泊松分布的形状由参数确定。确定。值愈小分值愈小分布愈偏倚,随着布愈偏倚,随着的增大,分布趋于对称。的增大,分布趋于对称。当当=20时分布接近于正态分布;当时分布接近于正态分布;当=50时,时,可以认为波松分布呈正态分布。可以认为波松分布呈正态分布。所以在实际工作中,当所以在实际工作中,当20时就可以用正时就可以用正态分布来近似地处理波松分布的问题。态分布来近似地处理波松分布的问题。不同不同的波松分布的波松分布泊松分布应用条件:
23、小概率事件泊松分布应用条件:小概率事件p0.1,np5。例例1:为监测饮用水的污染情况,为监测饮用水的污染情况,现检验某社区现检验某社区每毫升饮用水中细菌数,每毫升饮用水中细菌数,共得共得400个记录如下个记录如下 试分析饮用水中细菌数的分布是否服从波松分布。试分析饮用水中细菌数的分布是否服从波松分布。若服从,按泊松分布计算每毫升水中细菌数的概若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与泊松分布作直观比率及理论次数并将次数分布与泊松分布作直观比较。较。1ml水中细菌数 0 1 2 3 合 计 次数f 243 120 31 6 400 经计算得每毫升水中平均细菌数经计算得
24、每毫升水中平均细菌数x=0.500=,方,方差差S2=0.496。两者很接近,。两者很接近,故可认为每毫升水中故可认为每毫升水中细菌数服从波松分布。细菌数服从波松分布。Excel计算:计算:0次:次:=poisson(0,0.5,false)1次:次:=poisson(1,0.5,false)3次:次:1-poisson(2,0.5,true)False:符合条件的泊松概率密度函数符合条件的泊松概率密度函数True:符合条件的泊松累积分布概率符合条件的泊松累积分布概率ekkxPk!)(理论数理论数N各各p1ml水中细菌数0123合 计实际次数243120316400概 率0.60650.303
25、30.07580.01441理论次数242.61121.3130.335.76400例例2:某小麦品种在田间出现自然变异植株:某小麦品种在田间出现自然变异植株的概率为的概率为0.0045,试计算,试计算:(1)调查调查100株,株,获得获得2株或以上变异的概率是多少?株或以上变异的概率是多少?(2)期望期望有有0.99的概率获得的概率获得1株或株或1株以上的变异植株以上的变异植株,至少应调查多少株?株,至少应调查多少株?解:解:=np=1000.0045=0.45P(22)=1-poisson(1,0.45,true)=0.0755调查株数:调查株数:e-=e-np=0.01n=-ln0.01
26、/p=-LN(0.01)/0.0045=1023株株三、正态分布三、正态分布正态分布是一种很重要的连续型随机变量的概率正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布少随机变量的概率分布在一定条件下以正态分布为其极限分布。为其极
27、限分布。因此在统计学中,正态分布无论在理论研究上还因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。是实际应用中,均占有重要的地位。(一一)正态分布的定义正态分布的定义若连续型随机变量若连续型随机变量x的概率分布密度函数为的概率分布密度函数为其中其中为平均数,为平均数,2为方差,则称随机变量为方差,则称随机变量x服从正态分布服从正态分布(normal distribution),记记为为xN(,2)。相应的概率累积函数为相应的概率累积函数为222)(21)(xexfxxdxexF222)(21)(图42 正态分布密度曲线(二二)正态分布的特征正态分布的特征1、当、当x=
28、时,时,f(x)值最大,所以正态分布曲线是以值最大,所以正态分布曲线是以平均数平均数为中心的分布。为中心的分布。2、当、当x-的绝对值相等时,的绝对值相等时,f(x)值也相等,所以正值也相等,所以正态分布是态分布是为中心向左右两侧对称分布为中心向左右两侧对称分布3、(x-)/的绝对值越大,的绝对值越大,f(x)越小,但不会为越小,但不会为04、正态分布曲线由、正态分布曲线由和和决定的。决定的。确定正态分布在确定正态分布在x轴上的中心位置,轴上的中心位置,确定正态分布的变异度。确定正态分布的变异度。相同而不同的三个正态分布相同而不同的三个正态分布5、曲线在、曲线在x=处各有一个拐点,即曲线处各有
29、一个拐点,即曲线在在(-,-)和和(+,+)区间上是下凸的,在区间上是下凸的,在-,+区间内是上凸的;区间内是上凸的;6、分布密度曲线与横轴所夹的面积为、分布密度曲线与横轴所夹的面积为1(三)标准正态分布(三)标准正态分布由上述正态分布的特征可知,正态分布是由上述正态分布的特征可知,正态分布是依赖于参数依赖于参数和和2,正态曲线之位置及形态正态曲线之位置及形态随随和和2的不同而不同。的不同而不同。这就给研究具体的正态总体带来困难,这就给研究具体的正态总体带来困难,需需将一般的将一般的N(,2)转换为转换为=0,2=1的正态分的正态分布。布。我们称我们称=0,2=1的正态分布为标准正态分的正态分
30、布为标准正态分布布(standard normal distribution),记作,记作N(0,1)。令令u=(x-),正态分布概率分布密度函,正态分布概率分布密度函数可标准化为:数可标准化为:f(u)=相应的概率累积函数为相应的概率累积函数为F(ui)=P(uui)2221)(ueudueuuu22121)(i对于对于u在区间在区间a,b的概率,有的概率,有dueuuu22121)(ab(三)正态分布的概率计算三)正态分布的概率计算正态分布的概率累积函数具有广泛应用,正态分布的概率累积函数具有广泛应用,所以统计学家已计算好实际需要的各个所以统计学家已计算好实际需要的各个F(u)值,列于附表
31、值,列于附表1。在计算一般正态分布的概率时,只需将服在计算一般正态分布的概率时,只需将服从正态分布的随机变量从正态分布的随机变量x取值区间的上、下取值区间的上、下限,按限,按u=(x-)转换,并查附表转换,并查附表1即可。即可。附表附表1,左侧纵列表示,左侧纵列表示a,上侧橫行表示,上侧橫行表示b如果手头没有附表如果手头没有附表1,可在,可在Excel中输入中输入“=NORMSDIST(数据数据)”即可查出。即可查出。注意注意p(u)是指是指-到到u例例1,设,设u服从正态分布服从正态分布N(0,1),试求,试求P(u1),P(-2.02.58)。解:解:P(u1)=1-P(u1)=0.158
32、7P(-2.02.58)=P(u2.58)+P(u-2.58)=1-F(2.58)+F(-2.58)=0.00988例例2,试计算概率值,试计算概率值(1)P(-x+)解:解:u1=(x-)/=-1 u2=(x-)/=1P(-x+)=P(-1x1)(2)P(-2x+2)(3)P(-3x+3)(4)P(-1.96+1.96)(6)P(|x|+2.58)从上述计算可知,从上述计算可知,|u|2.58概率是概率是0.01,|u|1.96是是0.05,也就是说,也就是说1.96和和2.58范围内已分别包含了范围内已分别包含了95%和和99%的变量。的变量。例例3,随机抽取,随机抽取20株小麦,其株高株
33、小麦,其株高(cm)分别分别为为8279858486848382838384818081828182828280计算(计算(1)小麦株高的)小麦株高的95%正常值范围(正常值范围(2)株高株高85cm的概率的概率第三节抽样分布第三节抽样分布 研究总体与从中抽取的样本之间的关系是统计学研究总体与从中抽取的样本之间的关系是统计学的中心内容。的中心内容。对这种关系的研究可从两方面着手,一是从总体对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布到样本,这就是研究抽样分布(sampling distribution)的问题;的问题;二是从样本到总体,这就二是从样本到总体,这就是统计推
34、断是统计推断(statistical inference)问题。问题。统计推断是以总体分布和样本抽样分布的理论关统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。样分布有所了解。一、样本平均数抽样分布一、样本平均数抽样分布由总体随机抽样由总体随机抽样(random sampling)的方法的方法可分为有返置抽样和不返置抽样两种。可分为有返置抽样和不返置抽样两种。前前者指每次抽出一个个体后,这个个体应返者指每次抽出一个
35、个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体;后者指每次抽出的个体不返置回原总体。置回原总体。对于无限总体,返置与否都可保证各个体对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机该采取返置抽样,否则各个体被抽到的机会就不相等。会就不相等。(一)样本平均数的分布(一)样本平均数的分布设有一个总体,总体平均数为设有一个总体,总体平均数为,方差为,方差为2,总体中各变数为总体中各变数为x,将此总体称为原总体。将此总体称为原总体。现从这个总体中随机抽取含量为现从这个总体中随机抽取含量为
36、n的样本,的样本,样本平均数记为样本平均数记为x。可以设想。可以设想,从原总体中从原总体中可抽出很多甚至无穷多个含量为可抽出很多甚至无穷多个含量为n的样本。的样本。由这些样本算得的平均数有大有小,不尽由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相同,与原总体平均数相比往往表现出不相比往往表现出不同程度的差异。这种差异是由随机抽样造同程度的差异。这种差异是由随机抽样造成的,成的,称为抽样误差称为抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由概率分布叫做样本平均数的抽样分布。由样本平
37、均数样本平均数x构成的总体称为样本平均数的构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为抽样总体,其平均数和标准差分别记为x和和x。x是样本平均数抽样总体的标准差,是样本平均数抽样总体的标准差,简称标准误简称标准误(standard error),它表示平均,它表示平均数抽样误差的大小。数抽样误差的大小。由抽样试验及统计学证明,样本平均数有由抽样试验及统计学证明,样本平均数有以下性质:以下性质:(1)样本平均数分布的平均数等于总体平均)样本平均数分布的平均数等于总体平均数,即数,即x=(2)样本平均数分布的方差等于总体方差除以样)样本平均数分布的方差等于总体方差除以样本容量:本容
38、量:样本平均数的标准误差:样本平均数的标准误差:(3)如果从正态总体)如果从正态总体N(,2)进行抽样,其样本平进行抽样,其样本平均数均数x是一具有平均数是一具有平均数、方差、方差2/n的正态分布,的正态分布,记作记作N(,2/n)(4)若被抽样总体不是正态分布,但具有平均数)若被抽样总体不是正态分布,但具有平均数、方差方差2,当样本容量,当样本容量n不断增大,样本平均数不断增大,样本平均数x的的分布也越来越接近正态分布,且具有平均数分布也越来越接近正态分布,且具有平均数、方差方差2/n,这叫做中心极限定理。这个性质对连这叫做中心极限定理。这个性质对连续型变量或非连续型变量都适用。续型变量或非
39、连续型变量都适用。nx/22nx/不论总体为何分布,只要样本容量不论总体为何分布,只要样本容量n30,就可应,就可应用中心极限定理,认为样本平均数用中心极限定理,认为样本平均数x的分布是正态的分布是正态分布。在计算样本平均数出现的概率时,样品平分布。在计算样本平均数出现的概率时,样品平均数均数x可按下式进行标准化:可按下式进行标准化:nxxuxx/(二)样本平均数差数的分布(二)样本平均数差数的分布设两个相互独立的正态总体,设两个相互独立的正态总体,N1和和N2,分别抽样,分别抽样,样本平均数差数分布的基本性质有:样本平均数差数分布的基本性质有:(1)样本平均数的平均数等于总体平均数的差数,即
40、:样本平均数的平均数等于总体平均数的差数,即:x1-x2=1-2(2)样本平均数差数的方差等于两样本平均数方差除样本平均数差数的方差等于两样本平均数方差除以各自样本容量之和,即以各自样本容量之和,即222121221nnxx样本平均数差数的标准误:样本平均数差数的标准误:(3)从两个独立正态总体中抽出的样本平均数差数从两个独立正态总体中抽出的样本平均数差数的分布,也是正态分布,并具有平均数的分布,也是正态分布,并具有平均数1-2,方差,记作(,方差,记作(1-2,),)22212121nnxx221xx 221xx 二、二、t分布分布前面在计算样本平均数分布和样本平均数前面在计算样本平均数分布
41、和样本平均数差数分布的概率时,需要总体方差差数分布的概率时,需要总体方差2为已为已知,或者知,或者2未知但样本容量较大(未知但样本容量较大(n30),),用样本方差用样本方差s2估计估计2。但在实际研究中,经常遇到总体方差但在实际研究中,经常遇到总体方差2未未知且样本容量不大(知且样本容量不大(n1)t分布的方差分布的方差t=df/(df-2)(df2)t分布特征分布特征(1)t分布曲线是左右对称的,围绕平均数分布曲线是左右对称的,围绕平均数t=0向向两侧递降。两侧递降。(2)t分布受自由度分布受自由度df=n-1的制约,每个的制约,每个df都有一都有一条条t分布曲线分布曲线(3)与正态分布相
42、比,)与正态分布相比,t分布的顶部偏低,尾部偏分布的顶部偏低,尾部偏高,高,当当n 30时,时,t分布与标准正态分布的区别很分布与标准正态分布的区别很小;小;n 100时,时,t分布基本与标准正态分布相同;分布基本与标准正态分布相同;n时,时,t 分布与标准正态分布完全一致。分布与标准正态分布完全一致。图4-13 不同自由度的t分布密度曲线对于不同自由度下对于不同自由度下t分布的两尾概率及其对分布的两尾概率及其对应的临界应的临界t值已编制成附表值已编制成附表3,即,即t分布表。分布表。该表第一列为自由度该表第一列为自由度df,表头为两尾概率,表头为两尾概率值,表中数字即为临界值,表中数字即为临
43、界t值。值。例如,当例如,当df=15时,查附表时,查附表3得两尾概率等得两尾概率等于于0.05的临界的临界t值为值为 =2.131,其意义是:,其意义是:P(-t-2.131)=P(2.131t+)=0.025;P(-t-2.131)+P(2.131t1此此F值具有值具有df1=n1-1,df2=n2-1如果对一正态总体在特定的如果对一正态总体在特定的df1和和df2进行一进行一系列随机独立抽样,则所有可能的系列随机独立抽样,则所有可能的F值构成值构成一个一个F分布。分布。F分布下一定区间的概率列于附表分布下一定区间的概率列于附表5,可供,可供查找。如查找。如df1=4,df2=10时,时,
44、F0.05=3.48,F0.01=5.99,表示所得,表示所得F值大于值大于3.48的概率仅的概率仅有有5%,大于,大于5.99的概率仅有的概率仅有1%。在在Excel计算公式为:计算公式为:=finv(probability,degrees_freedom1,degrees_ freedom2)Probability概率概率,degrees_freedom1分子自分子自由度,由度,degrees_ freedom2 分母自由度分母自由度F0.05=FINV(0.05,4,10)=3.478当当F值已知时,求概率可用值已知时,求概率可用=Fdist(F,degrees_freedom1,degrees_ freedom2)如已知如已知F3.71,df1=4,df2=10,求,求P(3.71)?)?=FDIST(3.71,4,10)=0.042160047
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。