1、第四章第四章 理论分布与抽样分布理论分布与抽样分布第一节第一节 事件与概率事件与概率第二节第二节 概率分布概率分布第三节第三节 二项式分布二项式分布第四节第四节 正态分布正态分布第五节第五节 抽样分布抽样分布 一、事一、事 件件(一)必然现象与随机现象(一)必然现象与随机现象 必然现象必然现象(inevitable phenomena)或或确定性现象确定性现象(definite phenomena):):结果可预言,确定的,必然的,可重复结果可预言,确定的,必然的,可重复 例,标准大气压下,水加热到例,标准大气压下,水加热到100C必然沸腾必然沸腾 随机现象随机现象(random phenom
2、ena)或或不确定性现象不确定性现象(indefinite phenomena):):结果事前不可预言,呈偶然性、不确定性结果事前不可预言,呈偶然性、不确定性 例,种子发芽,抛硬币例,种子发芽,抛硬币随机现象或不确定性现象,有如下随机现象或不确定性现象,有如下特点特点:(1)在一定的条件实现时,有多种可能的结果发生,事前人们不在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;其结果呈现偶然性、不确定性;(2)但在相同条件下进行大量重复试验时,其试验结果却呈现
3、出但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性某种固有的特定的规律性频率的稳定性频率的稳定性,通常称之为随机,通常称之为随机现象的统计规律性。现象的统计规律性。(二)随机试验与随机事件(二)随机试验与随机事件 1、随机试验、随机试验 通常我们把根据某一研究目的通常我们把根据某一研究目的,在一定条件下对自然现象在一定条件下对自然现象所进行的观察或试验统称为所进行的观察或试验统称为试验试验(trial)。)。而一个试验如果满足下述三个特性而一个试验如果满足下述三个特性 ,则则 称称 其其 为为 一个一个 随机试随机试验验(random trial),简称),简称试验试
4、验:(1)试验可以在相同条件下多次)试验可以在相同条件下多次重复重复进行;进行;(2)每次试验的可能结果不止一个)每次试验的可能结果不止一个,并且事先知道会有哪,并且事先知道会有哪些可能的结果;些可能的结果;(3)每次)每次 试验总是恰好出现这些可能结果中的一个试验总是恰好出现这些可能结果中的一个,但在,但在一次试验之前却不能肯定这次试验会出现哪一个结果。一次试验之前却不能肯定这次试验会出现哪一个结果。例如小麦发芽试验,抛硬币。例如小麦发芽试验,抛硬币。2、随机事件、随机事件 随机试验的每一种可能结果,在一定条件下可随机试验的每一种可能结果,在一定条件下可 能能 发发 生生,也,也 可可 能能
5、 不不 发生,称为发生,称为随机事件随机事件(random event),简称),简称 事事 件件(event),通常用),通常用A、B、C等来表示。等来表示。(1)基本事件)基本事件 我我 们们 把把 不不 能能 再再 分的事件称为分的事件称为基本事件基本事件(elementary event),也也 称称 为为 样本点样本点(sample point)。)。例如,在编号为例如,在编号为1、2、3、20 的数字中随机抽取的数字中随机抽取1个,有个,有20种不同的可能结果:种不同的可能结果:“取取 得得 一一 个个 编编 号号 是是 1”、“取得一个编号是取得一个编号是2”、“取得一个取得一个
6、编号是编号是10”,这,这10个事件都是不可能再分的事件,它们都是基本事件。个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为由若干个基本事件组合而成的事件称为 复合事件复合事件(compound event)。)。如如 “取得一个编号是取得一个编号是 2的倍数的倍数”是一个复合事件,它由是一个复合事件,它由 “取得一个编取得一个编号是号是2”、“是是4”、“是是6、“是是8”“是是20”10个基本事件组合而成。个基本事件组合而成。(2)必然事件)必然事件 我们把在一定条件下必然会发生的事件称为我们把在一定条件下必然会发生的事件称为必然事件必然事件(certain
7、 event),用),用表示。其概率为表示。其概率为1 例如,标准大气压下,水加热到例如,标准大气压下,水加热到100C必然沸腾,就是一个必然事件。必然沸腾,就是一个必然事件。(3)不可能事件)不可能事件 我们把在一定条件下不可能发生的事件称为我们把在一定条件下不可能发生的事件称为不可能事件不可能事件(impossible event),用),用表示。其概率为表示。其概率为0 例,没有生活能力的种子播种后会出苗,就是一个不可能事件。例,没有生活能力的种子播种后会出苗,就是一个不可能事件。必然事件与不可能事件实际上是确定性现象,即它们不是随机必然事件与不可能事件实际上是确定性现象,即它们不是随机
8、事件,事件,但但 是是 为了方便起见,我们把它们看作为两个特殊的随机为了方便起见,我们把它们看作为两个特殊的随机事件。事件。积事件积事件AB和事件和事件A+BABAB互斥事件互斥事件 对立事件对立事件 ABA+B,“或或A发生,或发生,或B发生发生”。AB,“A和和B同时发生或相继发生同时发生或相继发生”AB=V,事件,事件A和B互斥或互不相容互斥或互不相容A+B=U,AB=V,事件,事件B为事件为事件A的对立事件,并记的对立事件,并记B为为A事件间的关系二二、概概 率率 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事研究随机试验,仅知道可能发生哪些随机事件是不够的,还需
9、了解各种随机事件发生的件发生的可能性可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够这就要求有一个能够刻划事件发生可能性大小的数量指标刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们人们称之为概率称之为概率(probability)。)。事件事件A的概率记为的概率记为P(A)。)。(一)概率的统计定义(一)概率的统计定义思考思考:投掷一枚硬币,出现正面的概投掷一枚硬币,出现正面的概率是多大?(率是多大?(0表示
10、反面,表示反面,1表示正表示正面)反复做它,那么所有出现正面面)反复做它,那么所有出现正面的结果平均值是多少?的结果平均值是多少?英国数学家皮尔逊做英国数学家皮尔逊做24000次抛硬币试验次抛硬币试验 正面向上正面向上12012 次次 频率频率=随着试验次数的增多,正面朝上的频率越来越接近随着试验次数的增多,正面朝上的频率越来越接近0.5.5005.02400012012 二、概率二、概率 例,例,表表 在相同条件下盲蝽象在某棉田危害程度的调查结果在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数调查株数(n)52550100200500100015002000受害株数受害株数(a)2121
11、5 33 72177 351 525 704棉株受害棉株受害频率频率(a/n)0.400.480.300.330.360.354 0.351 0.350 0.352调查株数调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性较多时的稳定频率才能较好地代表棉株受害的可能性统计学上用统计学上用n较大时稳定的较大时稳定的p近似代表概率。通过大量实验而近似代表概率。通过大量实验而估计的概率称为估计的概率称为实验概率或统计概率实验概率或统计概率,以,以 表示。表示。此处此处P代表概率,代表概率,P(A)代表事件代表事件A的概率,的概率,P(A)变化的范围为变化的范围为01,即,即0P(A)1。naP
12、n limA )((二)(二)概率的古典定义概率的古典定义 概率的统计定义是在大量的概率的统计定义是在大量的试验试验中以中以频率的稳定性频率的稳定性为基础上提出来的。为基础上提出来的。不需要做试验,根据随机事件不需要做试验,根据随机事件本身的特性本身的特性就可以确定事件出就可以确定事件出现的概率,称为古典概率现的概率,称为古典概率。古典概型必须满足以下条件:古典概型必须满足以下条件:随机试验的全部可能结果(基本事件数)是随机试验的全部可能结果(基本事件数)是有限有限的;的;各基本事件间是各基本事件间是互不相容互不相容且发生是且发生是等可能等可能的。的。定义:定义:P(A)m/n m为事件为事件
13、A中所包含的基本事件数中所包含的基本事件数 n为基本事件总数。为基本事件总数。例,在例,在1、2、3、20这这20个数字中随机抽取个数字中随机抽取1个,个,求下列事件的概率求下列事件的概率(1)A“抽得抽得1个数字小于个数字小于5”(2)B=“抽得抽得1个数字是个数字是2的倍数的倍数”小概率事件小概率事件-随机事件的概率表示随机事件在试验中出现的可随机事件的概率表示随机事件在试验中出现的可能性大小。随机事件的概率很小如,小于能性大小。随机事件的概率很小如,小于0.05或或0.01或0.001小概率原理小概率原理-统计学上,把小概率事件在一次试验中看成是实统计学上,把小概率事件在一次试验中看成是
14、实际不可能发生的事件,称为小概率事件实际不可能性原理,简际不可能发生的事件,称为小概率事件实际不可能性原理,简称小概率原理。称小概率原理。这里的这里的0.05或或0.01称为小概率标准,农业试验研究中通常使用称为小概率标准,农业试验研究中通常使用这两个小概率标准。这两个小概率标准。小概率事件实际不可能性原理是统计学上进行小概率事件实际不可能性原理是统计学上进行假设检验(显著假设检验(显著性检验)的基本依据性检验)的基本依据。(三)(三)小概率事件实际不可能性原理小概率事件实际不可能性原理 概率是事件在试验结果中出现可能性大小的定量计量概率是事件在试验结果中出现可能性大小的定量计量。它。它是度量
15、随机事件发生的可能性的统计学指标。是度量随机事件发生的可能性的统计学指标。是事件固有的属性,有以下明显的性质:是事件固有的属性,有以下明显的性质:随机事件随机事件A的概率:的概率:0P(A)1 必然事件必然事件W的概率为的概率为1,即,即P(W)=1 不可能事件(不可能事件(V)的概率为)的概率为0,即,即P(V)=0 概率接近于概率接近于0(如(如P0.05)的事件称为小概率事件。)的事件称为小概率事件。(四)(四)概率的性质概率的性质第二节第二节 概率分布概率分布 (probability distribution)一、随机变量一、随机变量二、概率分布二、概率分布一、随机变量一、随机变量(
16、random variable)随机变量随机变量是指随机变数所取的某一个实数值。表示随机现象是指随机变数所取的某一个实数值。表示随机现象结果的变量结果的变量,也就是在随机试验中被测定的量,所取得的值称也就是在随机试验中被测定的量,所取得的值称为观察值。为观察值。例例1:抛硬币试验,两种结果:抛硬币试验,两种结果:用数用数“1”表示表示“币值面向上币值面向上”,“0”表示表示“国徽面国徽面向上向上”把把 0,1作为变量作为变量y的取值的取值 可以简单地把抛硬币试验用取值为可以简单地把抛硬币试验用取值为0,1的变量来表示:的变量来表示:P(y=1)=0.5,P(y=0)=0.5 例例2:用:用“1
17、”表示表示“能发芽种子能发芽种子”,其概率为,其概率为p;用;用“0”表示表示“不能发芽种子不能发芽种子”,其概率为,其概率为q。显然显然 p+q=1,则则 P(y=1)=p,P(y=0)=q=1p。例例3:用变量:用变量y表示水稻产量,若表示水稻产量,若y大于大于500kg的概率为的概率为0.25,大于大于300kg且等于小于且等于小于500kg的概率为的概率为0.65,等于小于,等于小于300kg的概率为的概率为0.1。则用变量则用变量y的取值范围来表示的试验结果为的取值范围来表示的试验结果为 P(y300)=0.10,P(300y500)=0.65,P(y500)=0.25。随机变量随机
18、变量离散型离散型连续型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)(与我们前面所讲的连续型数据和离散型数据的意义一样)(一)(一)离散型随机变量离散型随机变量-当试验只有几个确定的结果,并可当试验只有几个确定的结果,并可一一列出,变量一一列出,变量y的取值可用实数表示,且的取值可用实数表示,且y取某一值时,其概取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:的分布称为离散型随机变量的概率
19、分布:概率概率)(iyyP变量变量yiy1y2y3ynP1P2P3Pn也可用函数也可用函数f(y)表述,称为表述,称为概率函数概率函数。)(iyyP 前面例前面例1、例、例2中的中的y就是离散型随机变量,将其可能取值与对应概就是离散型随机变量,将其可能取值与对应概率一一列出,即为:率一一列出,即为:变量变量y01概率概率0.50.5)(iyyP变量变量y01概率概率qp)(iyyP图图 离散型随机变量概率分布图离散型随机变量概率分布图 X x1 x2 x3 xn Pi p1 p2 p3 pn 离散型变量离散型变量概率的分布函数概率的分布函数:离散型变量概率的向上:离散型变量概率的向上累积。其公
20、式为累积。其公式为 ,即随机,即随机变量小于等于某一可能值(变量小于等于某一可能值(x0)的概率。)的概率。0)()()(00 xxiixXPxpxF离散型概率分布的例子离散型概率分布的例子例:例:从从100件产品(其中合格品件产品(其中合格品95件,废品件,废品5件)中任取件)中任取10件,件,求每次抽到废品数的概率分布。求每次抽到废品数的概率分布。xp(x)0 123450.5837523670.3393909110.0702188090.0063835280.0002510380.000003347概概率率分分布布图图0 00 0.1 10 0.2 20 0.3 30 0.4 40 0.
21、5 50 0.6 60 0.7 70 01 12 23 34 45 5分分布布函函数数图图0 00 0.2 20 0.4 40 0.6 60 0.8 81 10 01 12 23 34 45 5xF(x)0 123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000(二)(二)连续型随机变量连续型随机变量(continuous random variate)-对于随机变量,若存在非负可积函数对于随机变量,若存在非负可积函数f(y)(y),对任意,对任意a和和b(ab)都有都有P(ayb)=,则则 称称y为为连续
22、型随机变量连续型随机变量(continuous random variate),f(y)称为称为y的的概率密度函数概率密度函数(probability density function)或或分布密度分布密度(distribution density)。badyyf)(上述例上述例3中的中的y就是一个连续型随机变量。就是一个连续型随机变量。概率密度的图形概率密度的图形f(x),称为分布曲线。,称为分布曲线。Xab dxxfbXaPba )(00 xodx)x(f)xX(P)x(F概率密度函数图和概率分布函数图概率密度函数图和概率分布函数图概率密度函数图概率密度函数图 概率分布函数图概率分布函数图
23、 或或 或或概率分布曲线概率分布曲线 累积分布函数图累积分布函数图yp(x)yF(x)x1x2x2x1P(x1xx2)=F(x2)F(x1)连续型随机变量概率分布的性质:连续型随机变量概率分布的性质:分布密度函数总是大于或等于分布密度函数总是大于或等于0,即,即f(x)0;当随机变量当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即即 (c为任意实数为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率内取值的概率,而不去讨论取某一个值的概率。ccdxxfcxP0)()(第三节第三节
24、二项式分布二项式分布一、二项总体及二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法二、二项式分布的概率计算方法三、二项式分布的形状和参数三、二项式分布的形状和参数四、多项式分布四、多项式分布一、二项总体及二项式分布一、二项总体及二项式分布二项总体二项总体(binary population),就是非此即彼的两项构成的总,就是非此即彼的两项构成的总体体 例:例:小麦种子发芽和不发芽,小麦种子发芽和不发芽,大豆子叶色为黄色和青色,大豆子叶色为黄色和青色,调查棉田危害分为受害株和不受害株等等。调查棉田危害分为受害株和不受害株等等。通常将二项总体中的通常将二项总体中的“此此”事件以变量事
25、件以变量“1”表示,具概率表示,具概率p;将将“彼彼”事件以变量事件以变量“0”表示,具概率表示,具概率q。因而二项总体又称为因而二项总体又称为0、1总体总体,其概率则显然有:,其概率则显然有:p+q=1如果从二项总体进行如果从二项总体进行n次重复抽样,设出现次重复抽样,设出现“此此”的次数的次数为为y,那么,那么y的取值可能为的取值可能为0、1、2、n,共有,共有n+1种可种可能取值,这能取值,这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量y及其概率及其概率就构成了一个分布,这个分布叫做就构成了一个分布,这个分布叫做二项式概率分布二项式概率分布,简称简称二项分布二项分布(b
26、inomial distribution)。B(n,p)二项总体的抽样试验具有二项总体的抽样试验具有重复性和独立性重复性和独立性 重复性重复性是指每次试验条件不变,即在每次试验中是指每次试验条件不变,即在每次试验中“此此”事件出现的概率皆为事件出现的概率皆为p 独立性独立性是指任何一次试验中是指任何一次试验中“此此”事件的出现与其余事件的出现与其余各次试验中出现何种结果无关各次试验中出现何种结果无关二、二项式分布的概率计算方法二、二项式分布的概率计算方法数学上的组合公式为:数学上的组合公式为:)!(!ynynCyn二项式中包含两项,这两项的概率为二项式中包含两项,这两项的概率为p、q,并且,并
27、且p+q=1,可推知变量可推知变量y的概率函数的概率函数为:为:ynyynqpCyP)(nyyP0)(1累积函数累积函数F(y)F(y):变量小于等于:变量小于等于y的所有可能取值的的所有可能取值的概率之和概率之和yiiyPyF0)()(理论次数理论次数:对于任意:对于任意y,理论次数,理论次数=nP(y)这一分布律也称这一分布律也称贝努里贝努里(Bernoulli)分布分布,并有,并有 nqp)(的泰勒展开式为:的泰勒展开式为:.)(222111ynyynnnnnnqpCqpCqpCqpnyynyynqpC0 可以看到,上式右边的每一项即为二项分布中变量可以看到,上式右边的每一项即为二项分布
28、中变量y 取取0、1、2、n时的概率,又时的概率,又p+q=1,从而,从而(p+q)n=1 1)(00nyynyynnyqpCyP例例4.1 棉田盲危害的统计概率乃从调查棉田盲危害的统计概率乃从调查2000株后获得近似值株后获得近似值p=0.35。现受害株事件为。现受害株事件为A,其概率为,其概率为p=0.35,未受害株事,未受害株事件为对立事件,其概率件为对立事件,其概率q=(10.35)=0.65。如调查如调查5株为一个抽样单位,即株为一个抽样单位,即n=5,则受害株数,则受害株数y=0,1,2,3,4和和5的概率可以计算出来,的概率可以计算出来,iniinqpCiyP)(如果每次抽如果每
29、次抽5个单株,抽个单株,抽n=400次,则理论上我们能够得次,则理论上我们能够得到到y=2的次数应为:的次数应为:理论次数理论次数=400P(2)=4000.3364=134.56(次次)yiiyPyF0)()(和其累计函数和其累计函数表表4.2 调查单位为调查单位为5株的概率分布表株的概率分布表(p=0.35,q=0.65)受害株数概率函数P(y)P(y)F(y)nP(y)P(0)0.11600.116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)
30、0.00531.00002.12ynyynqpC5005650350.C4115650350.C3225650350.C2335650350.C1445650350.C0555650350.C0.00.10.20.30.40123450.00.20.40.60.81.0012345)(yP)(yF 受害株数受害株数(y)受害株数受害株数(y)图图4.1 棉株受危害的概率分布图棉株受危害的概率分布图(p=0.35,n=5)图图4.2 棉株受危害的累积概率函数图棉株受危害的累积概率函数图 (p=0.35,n=5)三、二项式分布的形状和参数三、二项式分布的形状和参数如如p=q,二项式分布呈对称形状,
31、如,二项式分布呈对称形状,如pq,则表现偏斜形状,则表现偏斜形状0.00.10.20.30.4012345)(yf 受害株数受害株数(y)图4.3 棉株受盲椿害的概率函数f(y)图(p=0.5,n=5株)受害株数受害株数(y)(yP图图4.1 棉株受盲蝽象为害的概率分布图棉株受盲蝽象为害的概率分布图(p=0.35,n=5)二项式分布的参数二项式分布的参数平均数、方差和标准差如下式平均数、方差和标准差如下式npnpq2npq上述棉田受害率调查结果,上述棉田受害率调查结果,n=5,p=0.35,可求得总体参数为:,可求得总体参数为:=50.35=1.75株,株,株。株。067.11375.165.
32、035.05四、多项式分布四、多项式分布所谓所谓多项总体多项总体,是指将变数资料分为,是指将变数资料分为3类或多类的总体。类或多类的总体。例如在给某一人群使用一种新药,可能有的疗效好,有的没例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。有疗效,而另有疗效为副作用的,就是三项分布。多项总体的随机变量的概率分布即为多项总体的随机变量的概率分布即为多项式分布多项式分布(multinomial distribution)。五、泊松分布五、泊松分布二项分布的一种极限分布二项分布的一种极限分布 (Poisson distribution)二项分布中往往会遇
33、到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布。这一种分布称泊松概率分布,简称泊松分布。令令np=m,则泊松分布如下式:,则泊松分布如下式:!)(yemyPmyy=0,1,2,泊松分布的平均数泊松分布的平均数 、方差、方差 和标准差和标准差 如下式如下式:mm2mm的大小决定其分布的大小决定其分布形状。当形状。当m值小时分值小时分布呈很偏斜形状,布呈很偏斜形状,m增大后则逐渐对称。增大后则逐渐对称。00.10.20.30.40.50.60.70246810m=0.5m=1.5m=2.5)(yPy图4.4 不同m值的泊松分
34、布2第四节第四节 正态分布正态分布一、二项分布的极限一、二项分布的极限正态分布正态分布二、正态分布曲线的特性二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法研究正态分布的意义意义:1.客观世界的许多现象的数据是服从正态分布规律的。2.在适当条件下,正态分布可以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。3.虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍然趋于正态分布。正态分正态分布布一、二项分布的极限一、二项分布的极限正态分布正态分布 以上述二项分布棉株受害率为例,假定受害
35、概率以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,那么,p=q=1/2。现假定每个抽样单位包括。现假定每个抽样单位包括20株,这样将株,这样将有有21个组,其受害株的概率函数为个组,其受害株的概率函数为 )20(205050)(yyy.CyP于是概率分布计算如下:于是概率分布计算如下:00000.000002.000018.000002.000000.0)21(1)21(20)21(190)21(20)21(1)2121(202020202020 现将这概率分布绘于图现将这概率分布绘于图4.5。从图。从图4.5看出它是对称的,看出它是对称的,分布的平均数分布的平均数 和方差和方差
36、 为:为:2=npq=20(1/2)(1/2)=5(株株)2。=np=20(1/2)=10(株株),2024681012141618200.000.030.060.090.120.150.18图4.5 棉株受害率(0.5+0.5)20分布图如如p=q,不论,不论n值值大或小,二项分布大或小,二项分布的多边形图必形成的多边形图必形成对称;对称;如如pq,而,而n很大很大时,这多边形仍趋时,这多边形仍趋对称对称。可以推导出正态分布的概率密度函数为:可以推导出正态分布的概率密度函数为:eyfyN22121)(49)其中,其中,y是所研究的变数;是所研究的变数;是概率是概率密度函数;密度函数;)(yf
37、N 和和 为总体参数,为总体参数,表示所研究总体平均数,表示所研究总体平均数,表表示所研究总体标准差示所研究总体标准差2参数参数 和和 有如下的数学表述有如下的数学表述 22dyyfydyyyfNN)()()(410)(yu令令 可将可将(49)式标准化为:式标准化为:euu22121)(411)上式称为标准化正态分布方程,它是参数上式称为标准化正态分布方程,它是参数 时的正态分布时的正态分布(图图4.7)。记作。记作N(0,1)。1,020.00.10.20.30.4 68.27%95.45%正态分布的曲线图正态分布的曲线图0.00.10.20.30.4fN(u)u 68.27%95.45%
38、)(yfN22 -3 -2 -1 0 1 2 3图图4.6 正态分布曲线图正态分布曲线图(平均数为平均数为 ,标准差为,标准差为 )图图4.7 标准正态分布曲线图标准正态分布曲线图(平均数平均数 为为0,标准差,标准差 为为1)二、正态分布曲线的特点二、正态分布曲线的特点:1.曲线以平均数为对称轴,左右对称;2.算术平均数、中数、众数三位合一;3.正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;4.正态分布资料的次数分布表现为多数次数集中在算是平均数附近,距之俞远,次数俞少;5.正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以x轴为渐进线;6.正态分布曲线与x轴间的面积为1,任何
39、两个x定值间的面积或概率由平均数和标准差确定。正态分正态分布布-3-2-101234560.00.10.20.30.40.5yfN(y)-6-5-4-3-2-101234560.00.10.20.30.40.5y)(yfN111.5223123图图4.8 标准差相同标准差相同(1)而平均数不而平均数不同同(=0、=1、=2)的三个正态分布的三个正态分布曲线曲线 1 2 3 图图4.9 平均数相同平均数相同(0)而标准差不而标准差不同同(=1、=1.5、=2)的三个正态的三个正态分布曲线分布曲线 1 2 3 例如,上章水稻例如,上章水稻140行产量资料的样本分布表现出接近行产量资料的样本分布表现
40、出接近正态分布正态分布yks数值(g)区间(g)区间内包括的次数次数%1s157.9 36.4121.5194.5 99 70.712s157.9 72.8 85.1230.7134 95.713s157.9109.2 48.7267.1140100.00表表4.5 140行水稻产量在行水稻产量在 1s,2s,3s范围内所包括的次数表范围内所包括的次数表yyyyyy三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法概率可用曲线下区间的概率可用曲线下区间的面积面积来表示,来表示,或者说,用其定积分的值表示或者说,用其定积分的值表示baydybyaPe22121)(4
41、13)同样可以计算曲线下从同样可以计算曲线下从到到y的面积,其公式如下:的面积,其公式如下:0)(0yNNdyyfyF)(414)这里这里FN(y)称为正态分布的称为正态分布的累积函数累积函数,具有平均数,具有平均数 和标和标准差准差 。A=P(ayb)fN(y)图图4.10正态分布密度函数的积分说明图面积正态分布密度函数的积分说明图面积A=P(ayb)现如给予变数任何一定值,例如现如给予变数任何一定值,例如a,那么,可以计算,那么,可以计算ya的的概率为概率为FN(a),即,即)()(aFayPN(415)如果如果a与与b(a30就可就可以应用这一定理。以应用这一定理。yn2平均数的标准化分
42、布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换为u变数。变数。ynyyuy)()(423)例例4.9 在江苏沛县调查在江苏沛县调查336个个m2小地老虎虫危害情况的小地老虎虫危害情况的结果,结果,=4.73头,头,=2.63,试问样本容量,试问样本容量n=30时,由于随机时,由于随机抽样得到样本平均数抽样得到样本平均数 等于或小于等于或小于4.37的概率为多少?的概率为多少?y 查附表查附表2,P(u0.75)=0.2266,即概率为,即概率为22.66%(属一属一尾概率尾概率)。(头)480.03063.2ny75.048.036.0480.0)73.437.4(yyu(二二)
43、两个独立样本平均数差数的分布两个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,和和 ,从第一个总体随机抽取,从第一个总体随机抽取n1个观察值,同时独立个观察值,同时独立地从第二个总体随时机抽取地从第二个总体随时机抽取n2个观察值。这样计算出样本个观察值。这样计算出样本平均数和标准差平均数和标准差 ,s1和和 ,s2。11221y2y 从统计理论可以推导出其样本平均数的差数从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:的抽样分布,具有以下特性:21yy (1)如果两个总体各作正态分布,则其样本平均数差数如果两个
44、总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,准确地遵循正态分布律,无论样本容量大或小,都有都有N(,)。21yy 21yy 221yy (2)两个样本平均数差数分布的平均数必等于两个总体两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即平均数的差数,即2121yy (3)两个独立的样本平均数差数分布的方差等于两个两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即总体的样本平均数的方差总和,即 其差数标准差为:其差数标准差为:2221212222121nnyyyynnyy22212121(424)这个分布也可标准化,获得这个分
45、布也可标准化,获得u值。值。nnyyu2221212121)()(425)小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:样分布不论容量大小亦作正态分布具:l若两个样本抽自于同一总体,但并非正态总体,则其平均若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在数差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才逐渐接近于正态分布。才逐渐接近于正态分布。l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相
46、当大、而 与与 相差不太远时,也可近似地应用正态接近方法估计相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。偏离正态的程度和相差大小而转移。2122nnyyyy211102121,三、二项总体的抽样分布三、二项总体的抽样分布(一一)二项总体的分布参数二项总体的分布参数ppqpp)(12pqpp)(1 其中其中p为二项总体中要研究的属性事件发生的概率,为二项总体中要研究的属性事件发生的概率,q=1p。标准差标准差:方差方差:平均数平均数:(二二)样本平均数样本平均数
47、(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数抽样分从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:布的参数为:平均数平均数:方差方差:标准误标准误:pynpqy2nppnpqy)1(同样同样n是样本容量。是样本容量。(三三)样本总和数样本总和数(次数次数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本总和数的抽样分从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:布参数为:平均数平均数:方差方差:npy)(1pnpnpqy2)(1pnpnpqy标准误标准误:例例4.9 棉田危害棉株分为受害株与未受害株。假棉田危害棉株分为受害株与未受害株。假定调
48、查定调查2000株作为一个总体,受害株为株作为一个总体,受害株为704株。这是一株。这是一个二项总体,于是计算出受害率个二项总体,于是计算出受害率p=35.2%=0.352,=0.4776或或47.76%。现从这一总体抽样,以株为单位,用简单随机抽样现从这一总体抽样,以株为单位,用简单随机抽样方法,调查方法,调查200株棉株,获得株棉株,获得74株受害,那么,观察受株受害,那么,观察受害率害率(就是成数,或者说是样本平均数就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?试问样本平均数与总体真值的差数的概率为多少?64803520.)(pp120074/p
49、 总体真值总体真值p=0.352,差数差数=()=(0.3700.352)=0.018。标准差标准差 =0.034或或3.4%。pp p npp)/(12002280960/.由于二项分布在由于二项分布在np及及nq大于大于5时,趋近于正态分布,时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差本例样本较大可看为正态分布,采用正态离差u查出概查出概率。率。于是于是 =0.53。03400180.ppup 如果以次数资料如果以次数资料(或称为或称为“样本总和数资料样本总和数资料”)表示表示也可得到同样结果。总体调查也可得到同样结果。总体调查2000株中受害株有株中受害株有704株,株,
50、调查调查200株的理论次数应为株的理论次数应为np=2000.352=70.4株。现株。现观察受害株为观察受害株为74株株(总和数总和数),差数差数=(np)=7470.4=3.6株,株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为与上相同,获得这种差数的概率为0.59。pnnpqnppnu)(查附表查附表3,当,当u=0.53,概率值为,概率值为0.59,即获得这种即获得这种|0.018的概率的概率(两尾概率两尾概率)为为0.59,这就说明样本估计的受害率为这就说明样本估计的受害率为37.0有代表性有代表性(可以近似可以近似代表总体的受害率代表总体的受害率)。pp 88 以