1、第六章 概率分布o第一节 概率的基本概念o第二节 正态分布o第三节 二项分布o第四节 抽样分布第一节 概率的基本概念o 一、什么是概率一、什么是概率o 在心理与教育研究中,大部分现象属于随机现在心理与教育研究中,大部分现象属于随机现象,随机现象又称随机事件。象,随机现象又称随机事件。o 随机是指在一定条件下可能出现也可能不出现随机是指在一定条件下可能出现也可能不出现的,表明随机事件出现可能性大小的客观指标的,表明随机事件出现可能性大小的客观指标就是概率(就是概率(probability)。)。o 概率的定义有两种,即后验概率和先验概率。概率的定义有两种,即后验概率和先验概率。o (一)后验概率
2、(一)后验概率(posterior probability)(posterior probability)或或统计概率统计概率o 随机事件随机事件A的频率的频率o 当当n无限增大时,随机事件无限增大时,随机事件A的频率会稳定在一的频率会稳定在一个常数个常数P,这个常数就是随机事件,这个常数就是随机事件A的概率。的概率。()AmWn AnmPlimno (二)先验概率(二)先验概率(prior probability)(prior probability)或古典概或古典概率率o 古典概率模型要求满足两个条件:古典概率模型要求满足两个条件:o 实验的所有可能结果(基本事件)是有限实验的所有可能结果
3、(基本事件)是有限的;的;o 每一种可能结果出现的可能性相等。每一种可能结果出现的可能性相等。nmPA)(o 二、概率的基本性质二、概率的基本性质o (一)概率的公理系统(一)概率的公理系统o 1的概率都是非负的。的概率都是非负的。 0 P(A)1o 2的概率等于零。的概率等于零。o 3的概率等于的概率等于1。o (二)概率的加法定理(二)概率的加法定理o 互不相容事件:在一次实验或调查中,若事件互不相容事件:在一次实验或调查中,若事件发生,则事件就一定不发生,这样的两个发生,则事件就一定不发生,这样的两个事件为互不相容事件。事件为互不相容事件。o 加法定理加法定理(additive rule
4、)(additive rule):两:两和的概率,等于这两个事件概率之和。即和的概率,等于这两个事件概率之和。即 BABAPPP)(1212(+)nnAAAAAAPPPPo (三)概率的乘法定理(三)概率的乘法定理o 独立事件:一个事件的出现对另一个事件的出独立事件:一个事件的出现对另一个事件的出现不发生影响。现不发生影响。o 相关事件或相依事件:事件相关事件或相依事件:事件A的概率随事件的概率随事件B是是否出现而改变,事件否出现而改变,事件B的概率随事件的概率随事件A是否出现是否出现而改变。而改变。o 乘法定理乘法定理(product rule):两个独立事件同:两个独立事件同时出现的概率等
5、于这两事件概率的乘积。时出现的概率等于这两事件概率的乘积。 BABAPPP )(nnAAAAAAPPPP2121)(o 【例例】o 从从52张扑克牌(去掉大小王牌)中有放回地连续抽两张扑克牌(去掉大小王牌)中有放回地连续抽两张牌,即抽完第一张后将所抽的牌再放回去,混合好后张牌,即抽完第一张后将所抽的牌再放回去,混合好后再抽第二张。再抽第二张。o (1)第一次抽取红桃)第一次抽取红桃K第二次抽取方块第二次抽取方块K的概率是多的概率是多少?少?o (2)第一次抽取红桃第二次抽取方块的概率是多少?)第一次抽取红桃第二次抽取方块的概率是多少?o (3)抽牌两次皆为红色的概率是多少?)抽牌两次皆为红色的
6、概率是多少?o 【例例6-1】一枚硬币掷三次,或三枚硬币各一枚硬币掷三次,或三枚硬币各掷一次,问出现两次或两次以上掷一次,问出现两次或两次以上H的概率是的概率是多少?多少? o 解:投掷硬币可能出现八种结果(解:投掷硬币可能出现八种结果(HHH、HHT、HTH、THH、TTH、THT、HTT、TTT)。每种结果可能出现的概率,依概率)。每种结果可能出现的概率,依概率乘法规则计算:乘法规则计算: 各为各为 。1111222818o 设设P(A)代表代表3次次H的概率,的概率,P(B)代表代表“HHT”这种结果的概率,这种结果的概率,P(C)代表代表“HTH”的概率,的概率,P(D)代表代表“TH
7、H”的概的概率。依据概率加法规则计算:率。依据概率加法规则计算: 1111188882P ABCDP AP BP CP Do 三、概率分布类型三、概率分布类型o 概率分布概率分布(probability distribution):对对随机变量取值的概率分布情况用数学方法(函随机变量取值的概率分布情况用数学方法(函数)进行描述,一般用概率分布函数进行描述。数)进行描述,一般用概率分布函数进行描述。o 概率分布依不同的标准可以分为不同的类型。概率分布依不同的标准可以分为不同的类型。o (一)离散分布与连续分布(一)离散分布与连续分布o 离散分布:离散型随机变量的概率分布,即计离散分布:离散型随机
8、变量的概率分布,即计数数据的概率分布。常用的离散分布有二项分数数据的概率分布。常用的离散分布有二项分布布(binomi distribution)、泊松分布、泊松分布(Poisson distribution)和超几何分布和超几何分布(hypergeometric distribution)等。等。o 连续分布:连续随机变量的概率分布,即测连续分布:连续随机变量的概率分布,即测量数据的概率分布。常用的连续分布有正态量数据的概率分布。常用的连续分布有正态分布、负指数分布、威布尔分布等。分布、负指数分布、威布尔分布等。o (二)经验分布与理论分布(二)经验分布与理论分布o 依分布函数的来源,可将概
9、率分布分为经验分布与依分布函数的来源,可将概率分布分为经验分布与理论分布。理论分布。(empirical distribution):根据观察或实验:根据观察或实验所获得的数据而编制的次数分布或相对频率分布。所获得的数据而编制的次数分布或相对频率分布。(theoretical distribution):随机变量概率:随机变量概率分布的函数分布的函数-数学模型;按某种数学模型计算出的数学模型;按某种数学模型计算出的总体的次数分布。总体的次数分布。o 随机变量概率分布的性质,由它的特征数来随机变量概率分布的性质,由它的特征数来表达。这些特征数主要有期望值(理论平均表达。这些特征数主要有期望值(理
10、论平均数)和方差。数)和方差。o (三)基本随机变量分布与抽样分布(三)基本随机变量分布与抽样分布o 依概率分布所描述的数据特征,可将概率分布依概率分布所描述的数据特征,可将概率分布分为基本随机变量分布与抽样分布(分为基本随机变量分布与抽样分布(sampling distribution)。)。:随机变量各种不同取值情:随机变量各种不同取值情况的概率分布,常用的有二项分布、正态分布。况的概率分布,常用的有二项分布、正态分布。从同一总体内抽取的不同样本的统从同一总体内抽取的不同样本的统计量的概率分布。计量的概率分布。o 样本统计量主要有平均数、两平均数之差、样本统计量主要有平均数、两平均数之差、
11、方差、标准差、相关系数、回归系数、百分方差、标准差、相关系数、回归系数、百分比率(或概率)等。比率(或概率)等。o 统计量是基本随机变量的函数,故抽样分布统计量是基本随机变量的函数,故抽样分布也称随机变量函数的分布。也称随机变量函数的分布。o 基本随机变量分布与抽样分布是应用于统计基本随机变量分布与抽样分布是应用于统计学上的理论分布,是统计推论的重要依据,学上的理论分布,是统计推论的重要依据,只有对它们真正了解,才能明确各种统计方只有对它们真正了解,才能明确各种统计方法的应用条件及注意问题,并对各种具体方法的应用条件及注意问题,并对各种具体方法有较为深刻的理解。法有较为深刻的理解。第二节 正态
12、分布o 正态分布正态分布(normal distribution):常态分:常态分布、常态分配,是连续随机变量概率分布的一布、常态分配,是连续随机变量概率分布的一种,在数理统计的理论与实际应用中占有最重种,在数理统计的理论与实际应用中占有最重要地位的一种理论分布。要地位的一种理论分布。o 棣棣莫弗、拉普拉斯、高斯莫弗、拉普拉斯、高斯o 一、正态分布特征一、正态分布特征o (一)正态分布曲线函数(一)正态分布曲线函数o 正态分布曲线函数又称概率密度函数,其一般正态分布曲线函数又称概率密度函数,其一般方程为方程为22212Xyeo 分布函数与概率密度函数分布函数与概率密度函数o 分布函数分布函数F
13、(x)=P(Xx),表示随机变量,表示随机变量X的值小于的值小于x的概率。的概率。 o 概率密度概率密度f(x)是是F(x)在在x处的关于处的关于x的一阶导数,即变的一阶导数,即变化率。如果在某一化率。如果在某一x附近取非常小的一个邻域附近取非常小的一个邻域x,那,那么,随机变量么,随机变量X落在落在(x, x+x)内的概率约为内的概率约为f(x)x,即即P(xX0时,分布为正时,分布为正偏态;当偏态;当g1200时,这个偏态系数的统计量时,这个偏态系数的统计量g1才较可靠。才较可靠。313/22/XXNgXXNo 2.2.峰度系数峰度系数(coefficient of kurtosis)(c
14、oefficient of kurtosis)o 当当g2=0时,正态分布的峰度;时,正态分布的峰度;g20时,分布的时,分布的峰度比正态分布的峰度低阔;峰度比正态分布的峰度低阔;g21000时,时,g2值才比较可靠。值才比较可靠。4222/3/XXNgXXNo (三)累加次数曲线法(三)累加次数曲线法o 因为标准正态分布的形式固定,因此其累加因为标准正态分布的形式固定,因此其累加概率与标准差的关系也固定。根据这一点,概率与标准差的关系也固定。根据这一点,可将一般分布的累加概率与标准正态分布累可将一般分布的累加概率与标准正态分布累加概率相比较。加概率相比较。o 具体方法具体方法o 制作样本的累
15、加次数分布表,列出累加比率制作样本的累加次数分布表,列出累加比率和观测值相应的标准分数。和观测值相应的标准分数。o 制作样本的累加频率曲线图。纵坐标为次数制作样本的累加频率曲线图。纵坐标为次数比率比率01.00,横坐标为,横坐标为Z分数,一般为分数,一般为3+3。o 在同一坐标系中,制作累加正态分布概率曲在同一坐标系中,制作累加正态分布概率曲线图。线图。o 画好图后,从图上直接比较正态分布概率画好图后,从图上直接比较正态分布概率曲线与样本的累加频率曲线,若两曲线完全曲线与样本的累加频率曲线,若两曲线完全重合,说明某样本的分布呈正态;若样本的重合,说明某样本的分布呈正态;若样本的累加频率曲线偏离
16、正态累积曲线较大,则不累加频率曲线偏离正态累积曲线较大,则不符合正态分布。符合正态分布。o 四、正态分布理论在测验中的应用四、正态分布理论在测验中的应用o (一)化等级评定为测量数据(一)化等级评定为测量数据o 将等级评定转化为测量数据,首先要考虑被将等级评定转化为测量数据,首先要考虑被评定的心理量是否为正态分布。评定的心理量是否为正态分布。o 将等级评定转化为测量数据的方法是用各等将等级评定转化为测量数据的方法是用各等级中点的级中点的Z分数代表该等级分数。分数代表该等级分数。o 具体步骤具体步骤o 根据各等级被评者的数目求各等级的人数比率;根据各等级被评者的数目求各等级的人数比率;o 求各等
17、级比率值的中间值,作为该等级的中点;求各等级比率值的中间值,作为该等级的中点;o 求各等级中点以上(或以下)的累加比率;求各等级中点以上(或以下)的累加比率;o 用累加比率查正态表求用累加比率查正态表求Z值,该值,该Z分数就是各等分数就是各等级代表性的测量值;级代表性的测量值;o 求被评者所得评定等级的测量数据的算术平均数,求被评者所得评定等级的测量数据的算术平均数,即为每个被评定者的综合评定分数。即为每个被评定者的综合评定分数。o 【例例6-2】o 表表6-2是是3位教师对位教师对100名学生的学习能力名学生的学习能力所作等级评定的结果。表所作等级评定的结果。表6-3是是3名学生从名学生从3
18、位老师那儿获得的评定等级,试将其转化位老师那儿获得的评定等级,试将其转化为为Z分数。分数。o 表表6-2 3名教师对名教师对100名学生的评定结果名学生的评定结果 等级等级评定结果(人数)评定结果(人数)教师甲教师甲教师乙教师乙教师丙教师丙A51020B252025C404035D252015E5105总数总数100100100o 表表6-3 各学生所获得的评定等级各学生所获得的评定等级学生学生教师甲教师甲教师乙教师乙教师丙教师丙1BAA2ABA3DCCo 表表6-4 化等级评定为化等级评定为Z分数分数 等等级级教师甲教师甲教师乙教师乙教师丙教师丙P比率中比率中点点以下累加以下累加ZP比率中比
19、率中点以下点以下累加累加ZP比率中比率中点以下点以下累加累加ZA0.050.9751.960.100.951.650.200.901.28B0.250.8250.940.200.800.840.250.6750.45C0.400.5000.400.5000.350.375-0.32D0.250.175-0.940.200.20-0.840.150.125-1.15E0.050.025-1.960.100.05-1.650.050.025-1.96o 学生学生1的平均成绩:的平均成绩: (0.94+1.65+1.28)/3=1.29o 学生学生2的平均成绩:的平均成绩: (1.96+0.84+1
20、.28)/3=1.36o 学生学生3的平均成绩:的平均成绩: (0.94+00.32)/3=0.42o (二)确定测验题目的难易度(二)确定测验题目的难易度o 原理:假设一个测验中不同难易题目的分布原理:假设一个测验中不同难易题目的分布是正态的,即一个测验中通过率较大和较小是正态的,即一个测验中通过率较大和较小的题目很少,而通过率居中的题目较多。的题目很少,而通过率居中的题目较多。o 确定题目难度分数的具体步骤确定题目难度分数的具体步骤o 计算各题目的通过率;计算各题目的通过率;o 用用0.5减去通过率,不计正负号,获得正态分布减去通过率,不计正负号,获得正态分布表中的概率值(表中的概率值(p
21、););o 依照依照p值查正态表中相应的值查正态表中相应的Z值,通过率大于值,通过率大于50%的的Z值计为负值,通过率小于值计为负值,通过率小于50%的的Z值计值计为正值;为正值;o 将查表得到的将查表得到的Z分数加上分数加上5便得到从便得到从010的十的十进制的难度分数值。进制的难度分数值。o 表表6-5 6-5 难度分数的计算难度分数的计算测验题编号测验题编号通过率(通过率(%)P值值ZZ+51990.49-2.3312.6693950.45-1.6453.3555850.35-1.0353.9657800.30-0.844.1609700.20-0.5254.4751050005.000
22、11200.300.845.8401350.451.6456.6452510.492.337.330o (三)在能力分组或等级评定时确定人数(三)在能力分组或等级评定时确定人数o 将将6个标准差除以分组的或等级的数目,做个标准差除以分组的或等级的数目,做到到Z分数等距;分数等距;o 查正态分布表,从查正态分布表,从Z求求p,即各等级或各组在,即各等级或各组在等距的情况下应有的比率;等距的情况下应有的比率;o 将比率乘以欲分组的人数,便得到各等级或将比率乘以欲分组的人数,便得到各等级或分组该有的人数。分组该有的人数。o 所计算的各组人数分布,应与总数相等。所计算的各组人数分布,应与总数相等。有时
23、由于从有时由于从Z Z查查p p有误差,使结果不能与有误差,使结果不能与总数相符,这时应将居中的那一组做适总数相符,这时应将居中的那一组做适当的增加或减少,因为这样做,对百分当的增加或减少,因为这样做,对百分比率的影响甚小。比率的影响甚小。o 【例例6-3】 o 要把要把100人在某一能力上分成人在某一能力上分成5个等级,各个等级,各等级应该有多少人,才能使等级评定做到等等级应该有多少人,才能使等级评定做到等距?距?o 表表6-6 能力分为五组时各组人数的分布能力分为五组时各组人数的分布 分组分组各组界限各组界限比率比率p人数分布人数分布(pN)A1.8以上以上0.03594B0.6 1.80
24、.238424C-0.6 0.60.451444D-1.8-0.60.238424E-1.8以下以下0.03594o (四)测验分数的正态化(四)测验分数的正态化o 正态化的步骤正态化的步骤o 当原始分数不服从正态分布时,先将原始分数当原始分数不服从正态分布时,先将原始分数的频数转化为相对累积频数的频数转化为相对累积频数(百分等级百分等级),将它,将它视为正态分布的概率;视为正态分布的概率;o 然后,通过查正态分布表中概率值相对应的然后,通过查正态分布表中概率值相对应的Z值,将其转换成值,将其转换成Z分数,达到正态化的目的。分数,达到正态化的目的。o 正态化是利用改变次数的方法,将原来偏态分正
25、态化是利用改变次数的方法,将原来偏态分布中众数所偏的一边拉长,使之成为正态,这布中众数所偏的一边拉长,使之成为正态,这是一种非线性转换。是一种非线性转换。o 正态化是建立正态标准分数的关键。正态化是建立正态标准分数的关键。o 原始分数正态化的前提条件:研究对象的总体原始分数正态化的前提条件:研究对象的总体事实上应该是正态分布,否则就会歪曲事实,事实上应该是正态分布,否则就会歪曲事实,这是使用各种正态化标准分数所必须注意的。这是使用各种正态化标准分数所必须注意的。o T分数分数(T scores)是从是从Z分数经过转化而来分数经过转化而来的一种正态化的标准分数,它是的一种正态化的标准分数,它是M
26、cCall (1939)创用的方法。创用的方法。o 心理与教育测验常用心理与教育测验常用T分数来建立常模。分数来建立常模。T分数是将标准分数扩大分数是将标准分数扩大10倍,再加上倍,再加上50。o T=10Z+50o T T分数计算步骤分数计算步骤o 第一步:将原始分数正态化;第一步:将原始分数正态化;o 第二步:把正态化的第二步:把正态化的Z值代入值代入T值公式加值公式加以直线转换。以直线转换。o T T分数不仅具备标准分数的所有优点,而且克服了标准分数不仅具备标准分数的所有优点,而且克服了标准分数较难理解的不足。分数较难理解的不足。o 首先,它没有负数。首先,它没有负数。o 其次,若出现小
27、数时可以四舍五入为整数,而误差不会其次,若出现小数时可以四舍五入为整数,而误差不会很大。很大。o 再次,如果可以从理论上假设某一测验的分数应该是正再次,如果可以从理论上假设某一测验的分数应该是正态分布,只是由于抽样误差等偶然因素导致了原始分数态分布,只是由于抽样误差等偶然因素导致了原始分数偏态分布,那么运用偏态分布,那么运用T分数的方法可迫使其成为正态。分数的方法可迫使其成为正态。o 【例例】o 某研究中随机抽取了某研究中随机抽取了180名学生的某一能力名学生的某一能力测验分数,由于这些能力分数不是正态,需测验分数,由于这些能力分数不是正态,需要将其正态化。要将其正态化。o 具体步骤具体步骤o
28、 将原始数据整理成次数分布表;将原始数据整理成次数分布表;o 计算各分组上限以下的累加次数计算各分组上限以下的累加次数cf;o 计算每组中点以下的累加次数,即前一组上限以下累计算每组中点以下的累加次数,即前一组上限以下累加次数加上该组次数的一半;加次数加上该组次数的一半;o 各组中点以下累加次数除以总数求累积比率;各组中点以下累加次数除以总数求累积比率;o 将各组中点以下累加比率视为正态分布的概率,查正将各组中点以下累加比率视为正态分布的概率,查正态分布表,将态分布表,将p转化为转化为Z分数;分数;o 将正态化的将正态化的Z值直线转换为值直线转换为T分数。分数。o 表表6-7 T分数与正态化的
29、计算分数与正态化的计算115.14X 分组分组组中值组中值f上限以上限以下累加下累加各组中点以下各组中点以下累加次数累加次数累计百分累计百分比比Z正态化正态化T分分数数T=10Z+50140142818017697.782.0170135137917216893.331.506513013220163153851.04601251272914312971.670.57561201222811410055.560.145111511716867843.33-0.174811011216706234.44-0.40461051078545027.78-0.59441001029464223.33-
30、0.734395978373318.33-0.904190927292614.44-1.063985876221910.56-1.25388082616137.22-1.4635757751084.44-1.703370725531.67-2.1229N=180s=17.91o T分数虽不等距,但分数虽不等距,但T分数更接近总体的情分数更接近总体的情况。转换后的况。转换后的T分数的平均数为分数的平均数为50,标准差,标准差为为10,平均数上下各五个标准差,正好包,平均数上下各五个标准差,正好包括了括了T分数从分数从0100。o 在使用在使用T T分数时,应注意与前面所讲的分数时,应注意与前面所
31、讲的Z=10Z+50Z=10Z+50的线性变换形式区别开来。虽然二者都有相同的平的线性变换形式区别开来。虽然二者都有相同的平均数和标准差,但均数和标准差,但T T分数是经过正态化的分数,而分数是经过正态化的分数,而前者是否服从正态分布还不清楚,它们将以原始分前者是否服从正态分布还不清楚,它们将以原始分数的分布形态为转移。数的分布形态为转移。T T分数可用于本来应是正态分数可用于本来应是正态分布而实际呈偏态分布的各种测验的比较,而前者分布而实际呈偏态分布的各种测验的比较,而前者只能用于分布形态相同或相近的各种测验的比较。只能用于分布形态相同或相近的各种测验的比较。第三节 二项分布o 二项分布二项
32、分布(bionimal distribution)是一种具是一种具有广泛用途的离散型随机变量的概率分有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为布,它是由贝努里创始的,因此又称为贝努里分布。贝努里分布。o 一、二项试验与二项分布一、二项试验与二项分布o (一)二项试验(一)二项试验o 二项试验:贝努里试验,必须满足以下几个条件:二项试验:贝努里试验,必须满足以下几个条件:o 1.任何一次试验恰好有两个结果,成功与失败,或任何一次试验恰好有两个结果,成功与失败,或A与与 。o 2.共有共有n次试验,且次试验,且n是预先给定的任一正整数。是预先给定的任一正整数。o 3.每次
33、试验各自独立,各次试验之间无相互影响。每次试验各自独立,各次试验之间无相互影响。o 4.某种结果出现的概率在任何一次试验中都是固定的。某种结果出现的概率在任何一次试验中都是固定的。Ao (二)二项分布(二)二项分布o 二项分布:试验仅有两种不同性质结果的概率分布。也二项分布:试验仅有两种不同性质结果的概率分布。也称两个对立事件的概率分布。称两个对立事件的概率分布。o 二项分布同二项定理有着密切的关系:二项分布同二项定理有着密切的关系:o x=0, 1, ,n; n为正整数。为正整数。01111nnnnn( + ) =C+C+C+Cnnnnnnp qppqpqqn=0( + ) =Cnnxxn
34、xxp qp qo 二项展开式的要点:二项展开式的要点:o 项数:二项展开式中共有项数:二项展开式中共有n1项。项。o 方次:方次:p的方次,从的方次,从n0为降幂;为降幂;q的方次从的方次从0n为升幂。每项为升幂。每项p与与q方次之和等于方次之和等于n。o 系数:各项系数是成功事件次数的组合数。系数:各项系数是成功事件次数的组合数。o 二项分布的具体定义二项分布的具体定义o 设有设有n次试验,各次试验是彼此独立的,每次次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是试验某事件出现的概率都是p,某事件不出现,某事件不出现的概率都是的概率都是q (q=1p),则对于某事件出现,则对于某
35、事件出现X次次(0, 1, 2, n)的概率分布为:的概率分布为:n( , , )=Cxxn xb x n pp qnnC =(n)xxxo 【例例6-4】o 10个硬币掷一次,或个硬币掷一次,或1个硬币掷十次。问五个硬币掷十次。问五次正面向上的概率是多少?五次及五次以上次正面向上的概率是多少?五次及五次以上正面向上的概率是多少?正面向上的概率是多少? o 解解:o (1)根据题意,)根据题意,n=10,p=q=1/2,X=5 5510 510551(5, 10, )210!115! 105 !22112522520.2460932321024bC p qo (2)五次及五次以上正面向上的概率
36、)五次及五次以上正面向上的概率55566477388299110100101010101010252210120451011024102410241024102410246380.6231024C p qC p qC p qC p qC p qC p qo 二、二项分布的性质二、二项分布的性质o (一)二项分布是离散型分布,概率直方图(一)二项分布是离散型分布,概率直方图是跃阶式。因为是跃阶式。因为X X为不连续变量,用概率条为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形图表示更合适,用直方图表示只是为了更形象。象。o 1.1.当当p=qp=q时图形是对称的。时图形是对称的。o
37、【例例6-5】已知已知p=q=1/2,求,求(p+q)6的的值。值。o 解:解:6651423324156615201561615201561646464646464641pqpp qp qp qp qp qqo 2.当当pq时,直方图呈偏态,时,直方图呈偏态, pq与与pq的偏的偏斜方向相反。斜方向相反。o 如果如果n很大,即使很大,即使pq,偏态逐渐降低,最终呈正,偏态逐渐降低,最终呈正态分布,二项分布的极限分布为正态分布。态分布,二项分布的极限分布为正态分布。o 当当pq且且np5,或,或pq且且nq5时,二项分布时,二项分布就可以当做一个正态分布的近似形,二项分布的概就可以当做一个正态
38、分布的近似形,二项分布的概率可用正态分布的概率作为近似值。率可用正态分布的概率作为近似值。o (二)二项分布的平均数与标准差(二)二项分布的平均数与标准差o 如果二项分布满足如果二项分布满足pq,np5,(或,(或pq且且nq5)时,二项分布接近正态分布。这时,)时,二项分布接近正态分布。这时,二项分布的二项分布的X变量(即成功的次数)具有如下变量(即成功的次数)具有如下性质:性质:=np, ,即,即X变量为变量为=np, 的正态分布。的正态分布。= npq= npq4.974X X理论理论实验实验次数次数f概率概率次数次数f频率频率fXfX2010.0009810.00098001100.0
39、0977150.0146515152450.04395500.0488310020031200.117191180.11523354106242100.205082040.19922816326452520.246092510.245121255627562100.205082080.203131248748871200.117191240.1210986860768450.04395410.0400432826249100.00977110.01074998911010.0009810.000981010010241024509327995 =5 =1.58 =1.58 s=1.613 o
40、三、二项分布的应用三、二项分布的应用o 二项分布在心理与教育研究中,主要用于解决二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题是指在实含有机遇性质的问题。所谓机遇问题是指在实验或调查中,实验结果可能是由于猜测而造成验或调查中,实验结果可能是由于猜测而造成的。的。o 【例例6-6】o 有有10道正误题,问答题者答对几题才能认为他道正误题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于是真会,或者说答对几题,才能认为不是出于猜测因素?猜测因素?o 解:已知猜对与猜错的概率为解:已知猜对与猜错的概率为p=q=0.5,np=5,此二项分布接近正态分布,故:
41、,此二项分布接近正态分布,故:o 根据正态分布概率,当根据正态分布概率,当Z=1.645时,该点以时,该点以下包含了全体的下包含了全体的95%。如果用原分数表示,。如果用原分数表示,则为则为+1.645=5+1.6451.58=7.6=810 0.55np10 0.5 0.51.58npqo 二项分布函数计算结果二项分布函数计算结果o 答对答对8道题及其以上的总概率道题及其以上的总概率4510156+=0.0547102410241024102445(8, 10, 0.5)=1024b10(9, 10, 0.5)=1024b1(10, 10, 0.5)=1024bo 【例例6-7】有有10道多
42、重选择题,每题有道多重选择题,每题有5个个答案,其中只有一个是正确的。问答对几道答案,其中只有一个是正确的。问答对几道题才能说不是猜测的结果?题才能说不是猜测的结果?o 解:此题解:此题n=10,p=1/5=0.2,q=0.8,np5,故此题不接近正态分布,不能用正态,故此题不接近正态分布,不能用正态分布计算概率,而应直接用二项分布函数计算分布计算概率,而应直接用二项分布函数计算猜对各题数的概率:猜对各题数的概率:0101010,10,0.20.20.000000102bC19191109,10,0.20.20.810 0.20.80.000004096bC28282108,10,0.20.2
43、0.845 0.20.80.000073728bCo 猜对猜对5题及题及5题以上的概率为题以上的概率为0.03279,不,不足足5%。37373107,10,0.20.20.8120 0.20.80.000786432bC46464106,10,0.20.20.8210 0.20.80.00550524bC55555105,10,0.20.20.8252 0.20.80.26424115bC64646104,10,0.20.20.8210 0.20.80.088080384bC第四节 抽样分布o 区分三种不同性质的分布:区分三种不同性质的分布:o 总体分布:总体内个体数值的频数分布。总体分布:
44、总体内个体数值的频数分布。o 样本分布:样本内个体数值的频数分布。样本分布:样本内个体数值的频数分布。o 抽样分布:某一样本统计量的概率分布。抽样分布:某一样本统计量的概率分布。o 抽样分布:样本统计量的分布,是统计推论抽样分布:样本统计量的分布,是统计推论的重要依据。的重要依据。o 一、正态分布及渐近正态分布一、正态分布及渐近正态分布o (一)样本平均数的分布(一)样本平均数的分布o 1.总体分布为正态,方差总体分布为正态,方差(2 2)已知,样本已知,样本平均数的分布为正态分布平均数的分布为正态分布o 平均数的分布:从基本随机变量为正态分布的总体平均数的分布:从基本随机变量为正态分布的总体
45、中,采用有放回随机抽样方法,每次从这个总体中中,采用有放回随机抽样方法,每次从这个总体中抽取大小为抽取大小为n的一个样本,计算出它的平均数的一个样本,计算出它的平均数 ,然后将这些个体放回总体中,再次取然后将这些个体放回总体中,再次取n个个体,又个个体,又可计算出一个可计算出一个 , ,再将,再将n个个体放回去,个个体放回去,再抽取再抽取n个个体,个个体,这样如此反复,可计算出,这样如此反复,可计算出无限多个无限多个 ,这无限多个平均数的分布,即为样本,这无限多个平均数的分布,即为样本平均数的分布。平均数的分布。1X2XXo 当总体分布为正态,方差当总体分布为正态,方差(2 2)已知,已知,样
46、本样本平均数的分布为正态分布。设母总体的参数为平均数的分布为正态分布。设母总体的参数为和和2 2,那么,样本平均数分布的平均数与方,那么,样本平均数分布的平均数与方差(标准差)与母总体的平均数与方差(或标差(标准差)与母总体的平均数与方差(或标准差)的关系:准差)的关系:X22XnXn平均数的标准误平均数的标准误o 标准误标准误o 某种统计量在抽样分布上的标准差,称为标准误。某种统计量在抽样分布上的标准差,称为标准误。用来衡量用来衡量。o 标准误越小,表明样本统计量与总体参数的值越接标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总近,样本对总体越有代表性
47、,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断体参数的可靠度越大。因此,标准误是统计推断的指标。的指标。o 样本平均数的平均数与母总体的平均数相同,样本平均数的平均数与母总体的平均数相同,样本平均数的标准误与母总体的标准差成正比,样本平均数的标准误与母总体的标准差成正比,而与样本容量而与样本容量n成反比。样本容量越大,标准成反比。样本容量越大,标准误就越小。误就越小。o 样本平均数的标准分数:样本平均数的标准分数:=iXXZo 2.总体分布非正态,但总体分布非正态,但2 2已知,这时当样已知,这时当样本足够大时(本足够大时(n30),其样本平均数的分),其样本平均数的分布为渐近
48、正态分布。布为渐近正态分布。XXno (二)方差及标准差的分布(二)方差及标准差的分布o 依随机取样的原则,自正态分布的总体中抽取容量依随机取样的原则,自正态分布的总体中抽取容量为为n的样本,当的样本,当n足够大时(足够大时(n30),样本方差),样本方差及标准差的分布,渐趋于正态分布,这时其分布的及标准差的分布,渐趋于正态分布,这时其分布的平均数与标准差与母总体的平均数与标准差与母总体的2 2和和的关系,可近的关系,可近似地表示如下:似地表示如下:2snsX22sX222sno 二、二、t t分布分布o t分布分布(t-distribution)是统计分析中应用较是统计分析中应用较多的一种随
49、机变量函数的分布,是格赛特多的一种随机变量函数的分布,是格赛特1908年推导出的一种分布,也叫学生分布年推导出的一种分布,也叫学生分布(Students distribution)。o t分布是一种左右对称、峰态比较高狭,分布形分布是一种左右对称、峰态比较高狭,分布形状随样本容量状随样本容量n1的变化而变化的一簇分布。的变化而变化的一簇分布。o t t分布与分布与无关而与其自由度无关而与其自由度(n(n1)1)有关。有关。o 自由度自由度(degrees of freedom):任何变量:任何变量中可以自由变化的数目,是中可以自由变化的数目,是t分布密度函数中的分布密度函数中的参数(参数( )
50、,它代表,它代表t分布中独立随机变量的数分布中独立随机变量的数目,故曰自由度。目,故曰自由度。o(一)(一)t t分布的特点分布的特点o1.平均值为平均值为0。o2.以平均值以平均值0左右对称的分布,左侧左右对称的分布,左侧t为负值,右侧为负值,右侧t为正值。为正值。o3.变量取值在变量取值在之间。之间。o4.当样本容量趋于当样本容量趋于时,时,t分布为正态分布,方差为分布为正态分布,方差为1;当;当n130时,时,t分布接近正态分布,方差大于分布接近正态分布,方差大于1,随,随n1的增大的增大而方差渐趋于而方差渐趋于1;当;当n130时,时,t分布与正态分布相差较大,分布与正态分布相差较大,