1、心理统计学心理统计学 统计学是一种思想方法统计学是一种思想方法 常用统计指标常用统计指标 概率及概率分布概率及概率分布 抽样分布参数估计参数假设检验抽样分布参数估计参数假设检验 平均数差异的显著性检验方差分析平均数差异的显著性检验方差分析 2检验总体比率的推断检验总体比率的推断 相关分析回归分析相关分析回归分析 非参数检验非参数检验 抽样设计抽样设计第一章统计学是一种思想方法第一章统计学是一种思想方法 确定现象与随机现象确定现象与随机现象 回归现象回归现象 数量规律性数量规律性 概率概率随机现象随机现象 学生成绩学生成绩 心理测验得分心理测验得分 候车人数候车人数 作物产量作物产量 产品质量产
2、品质量 收入支出收入支出数量规律性数量规律性 平均数平均数 方差、标准差方差、标准差 比率、百分比比率、百分比 相关系数相关系数 数量分布数量分布正态分布正态分布0 05 51010151520202525303035354040393944444949545459596464707075758080858590909595100100双峰分布双峰分布0 01010202030304040505060606点6点8点8点10点10点 12点12点 14点14点 16点16点 18点18点 20点20点其他分布其他分布0 05050100100150150200200250250300300赞成
3、赞成反对反对不置可否不置可否统计学中的几个基本概念统计学中的几个基本概念 随机变量随机变量 总体总体 有限总体与无限总体有限总体与无限总体 样本样本 大样本与小样本大样本与小样本 参数与统计量参数与统计量返回返回第二章数据的搜集与整理第二章数据的搜集与整理 数据的水平数据的水平 次数分布表次数分布表 次数分布图次数分布图数据的水平数据的水平 间断型随机变量间断型随机变量 连续型随机变量连续型随机变量 称名量表称名量表 顺序量表(等级量表)顺序量表(等级量表)等距量表等距量表 等比量表等比量表间断型随机变量间断型随机变量 取值个数有限的数据取值个数有限的数据 人数人数 个数个数 名次名次 五分制
4、得分五分制得分连续型随机变量连续型随机变量 取值个数无限的数据取值个数无限的数据 身高身高 体重体重 智商智商 时间长短时间长短 百分制得分百分制得分四种数据水平四种数据水平 称名量表称名量表学号、房间号、邮政编码、电话号码学号、房间号、邮政编码、电话号码 顺序量表(等级量表)顺序量表(等级量表)名次、等级、五分制得分名次、等级、五分制得分 等距量表等距量表温度计读数、百分制得分温度计读数、百分制得分 等比(比率)量表等比(比率)量表长度、时间长度、时间次数分布表次数分布表 简单次(频)数分布表简单次(频)数分布表 相对次数分布表相对次数分布表 累积次数分布表累积次数分布表 大于制与小于制大于
5、制与小于制 累积相对次数分布表累积相对次数分布表次数分布表次数分布表 某学校学生人数按性别分类某学校学生人数按性别分类性别性别人数人数百分比百分比男生男生200040女生女生300060总和总和5000100次数分布表次数分布表某学校一年级学生语言能力测验得分次数分布表某学校一年级学生语言能力测验得分次数分布表分数分数人数人数百分比百分比低于低于20分分20-3940-5960-6970-7980-8990-9910010304051705440 5 3.3310.0013.3317.0023.3318.0013.33 1.67总和总和300100某班级语文测验结果某班级语文测验结果99 96
6、 92 90 90 87 86 84 83 8382 82 80 79 78 78 78 78 77 7777 76 76 76 76 75 75 74 74 7372 72 72 71 71 71 70 70 69 6968 67 67 67 65 64 62 62 61 57答案答案组别组别组中值组中值 次数次数(f)相对相对次数次数累积累积次数次数累积相累积相对次数对次数累积百累积百分比分比95-9990-9485-8980-8475-7970-7465-6960-6455-5997928782777267625723261411741.04.06.04.12.28.22.14.08.0
7、250484543372312511.00.96.90.86.74.46.24.10.02100969086744624102总和总和501.00次数分布图次数分布图 简单次(频)数分布图简单次(频)数分布图 相对次数分布图相对次数分布图 累积次数分布图累积次数分布图 累积相对次数分布图累积相对次数分布图简单次数分布图直方图简单次数分布图直方图简单次数分布图次数多边图简单次数分布图次数多边图次数多边图的优点次数多边图的优点累积次数分布图累积次数分布图累积相对次数分布图累积相对次数分布图散点图散点图轮廓图轮廓图雷达图雷达图脸谱图脸谱图第三章常用统计指标第三章常用统计指标 集中量集中量 算术平均数
8、算术平均数 中位数中位数 众数众数 加权平均数加权平均数 几何平均数几何平均数 调和平均数调和平均数 差异量差异量 全距全距 平均差平均差 方差与标准差方差与标准差 相对差异量相对差异量 差异系数差异系数 偏态量偏态量 峰态量峰态量集中集中量量集中量是代表一组数据典型水平或集中量是代表一组数据典型水平或集中趋势的量。它能反映次数分布中大集中趋势的量。它能反映次数分布中大量数据向某一点集中的情况。量数据向某一点集中的情况。集中量包括算术平均数、加权平均集中量包括算术平均数、加权平均数、几何平均数、调和平均数、中位数、数、几何平均数、调和平均数、中位数、众数等。众数等。算术平均数算术平均数算术平均
9、数是所有观察值的总和除以总算术平均数是所有观察值的总和除以总次数所得之商,简称为平均数或均数。次数所得之商,简称为平均数或均数。nXXnii1NXNii1算术平均数的优点算术平均数的优点 反应灵敏;反应灵敏;严密确定,简明易懂,计算方便;严密确定,简明易懂,计算方便;适合代数运算;适合代数运算;受抽样变动的影响较小;受抽样变动的影响较小;样本算术平均数是总体平均数的最好估样本算术平均数是总体平均数的最好估计值计值算术平均数的缺点算术平均数的缺点 易受两极端数值(极大或极小)的影响;易受两极端数值(极大或极小)的影响;某村农户月收入状况某村农户月收入状况120,127,130,131,132,1
10、32,135,136,137,139,140,145,146,149,153,158,160,320,400平均数平均数162.63 一组数据中某个数值的大小不够确切时一组数据中某个数值的大小不够确切时就无法计算其算术平均数。就无法计算其算术平均数。中位数中位数中位数是位于依一定顺序排列的一中位数是位于依一定顺序排列的一组数据中央位置的数值,在这一数值上、组数据中央位置的数值,在这一数值上、下各有一半次数分布着。下各有一半次数分布着。中位数的原始数值计算方法:中位数的原始数值计算方法:12 14 15 15 17 18 20 23 24:1712 14 15 15 17 18 20 23 24
11、 25:17.5中位数的应用及其优缺点中位数的应用及其优缺点中位数虽然也具备一个良好的集中中位数虽然也具备一个良好的集中量所应具备的某些条件,例如比较严格量所应具备的某些条件,例如比较严格确定、简明易懂,计算简便,受抽样变确定、简明易懂,计算简便,受抽样变动影响较小,但是它不适合进一步的代动影响较小,但是它不适合进一步的代数运算。它适用于以下几种情况:数运算。它适用于以下几种情况:(1)一组数据中有特大或特小两极)一组数据中有特大或特小两极端数值时;端数值时;(2)一组数据中有个别数据不确切)一组数据中有个别数据不确切时;时;(3)资料属于等级性质时。)资料属于等级性质时。地位量地位量*百分位
12、数次数百分位数次数分布中相对于某个分布中相对于某个特定百分点的原始特定百分点的原始分数,它表明在分分数,它表明在分布中低于该分数的布中低于该分数的个案占总次数的百个案占总次数的百分比。分比。百分等级次数百分等级次数分布中低于特定原分布中低于特定原始分数的次数百分始分数的次数百分比。比。众数众数 众数是集中量的一种指标。众数是集中量的一种指标。对众数有理论众数及粗略众数两种定义对众数有理论众数及粗略众数两种定义方法方法 理论众数是指与次数分布曲线最高点相对应理论众数是指与次数分布曲线最高点相对应的横坐标上的一点。的横坐标上的一点。粗略众数是指一组数据中次数出现最多的那粗略众数是指一组数据中次数出
13、现最多的那个数。个数。众数的优缺点众数的优缺点众数虽然简明易懂,但是它并不具众数虽然简明易懂,但是它并不具备一个良好的集中量的基本条件。它主备一个良好的集中量的基本条件。它主要在以下情况下使用:要在以下情况下使用:当需要快速而粗略地找出一组数据的代当需要快速而粗略地找出一组数据的代表值时;表值时;当需要利用算术平均数、中位数和众数当需要利用算术平均数、中位数和众数三者关系来粗略判断次数分布的形态时;三者关系来粗略判断次数分布的形态时;利用众数帮助分析解释一组次数分布是利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。否确实具有两个次数最多的集中点时。加权平均数加权平均数加权平
14、均数是不同比重数据(或平加权平均数是不同比重数据(或平均数)的平均数。计算公式为:均数)的平均数。计算公式为:KiiKiiitnXnX11niiniiiwWXWX11几何平均数几何平均数几何平均数是几何平均数是n个数值连乘积的个数值连乘积的n次次方根。计算公式为方根。计算公式为当一个数列的后一个数据是以前一个当一个数列的后一个数据是以前一个数据为基础成比例增长时,要用几何平数据为基础成比例增长时,要用几何平均数求其平均增长率。均数求其平均增长率。nngXXXX 21差异差异量量差异量用于表示数据的变异程度或差异量用于表示数据的变异程度或离散程度。常用的差异量有全距、平均离散程度。常用的差异量有
15、全距、平均差、方差、标准差和差异系数等。差、方差、标准差和差异系数等。全距全距全距指一组数据中最大值与最小值全距指一组数据中最大值与最小值之差。之差。优点:概念清楚,意义明确,计算优点:概念清楚,意义明确,计算简单;简单;缺点:容易受极端数值的影响,反缺点:容易受极端数值的影响,反应不灵敏。应不灵敏。平均平均差差平均差就是每平均差就是每一个数据与该组数一个数据与该组数据的中位数(或算据的中位数(或算术平均数)离差的术平均数)离差的绝对值的算术平均绝对值的算术平均数。数。计算公式:计算公式:NXADNii1nXXADnii1总体的方差和标准总体的方差和标准差差方差:指离差平方的算术平均数方差:指
16、离差平方的算术平均数定义公式和计算公式:定义公式和计算公式:2112122)(NXNXNXNiiNiiNii标准差标准差标准差是指离差平方和平均后的方标准差是指离差平方和平均后的方根。即方差的平方根。根。即方差的平方根。定义公式和计算公式:定义公式和计算公式:211212)(NXNXNXNiiNiiNii样本的方差与标准差样本的方差与标准差 样本的方差样本的方差 样本的标准差样本的标准差)1(11)(2112122nnXnXnXXSniiniinii)1(11)(211212nnXnXnXXSniiniinii相对差异量(差异系数)相对差异量(差异系数)差异系数:标准差与其算术平均数差异系数:
17、标准差与其算术平均数的百分比。的百分比。其计算公式为其计算公式为用途:用途:两种单位不同两种单位不同单位相同而两个平均数相差较大的单位相同而两个平均数相差较大的资料。资料。%100XSCV第四章概率及概率分布第四章概率及概率分布 概率的一般概念概率的一般概念 后验概率先验概率后验概率先验概率 概率的性质概率的性质 概率的加法和乘法概率的加法和乘法 二项分布二项分布 正态分布正态分布概率的统计定义概率的统计定义后验概率后验概率 以随机事件以随机事件A在大量重复试验中出现的稳在大量重复试验中出现的稳定频率值作为随机事件定频率值作为随机事件A概率的估计值,概率的估计值,这样获得的概率称为后验概率。计
18、算公这样获得的概率称为后验概率。计算公式为:式为:nmAPn lim)(硬币朝向试验硬币朝向试验试验者试验者抛掷次数抛掷次数正面朝上次数正面朝上次数 正面朝上比率正面朝上比率德摩根德摩根蒲丰蒲丰皮尔逊皮尔逊皮尔逊皮尔逊20484040120002400010612048601912012.5181.5069.5016.5005概率的古典定义概率的古典定义先验概率先验概率 是通过古典概率模型加以定义的,该模型要是通过古典概率模型加以定义的,该模型要求满足两个条件:(求满足两个条件:(1)试验的所有可能结果)试验的所有可能结果是有限的;(是有限的;(2)每一种可能结果出现的可能)每一种可能结果出现
19、的可能性(概率)相等。若所有可能结果的总数为性(概率)相等。若所有可能结果的总数为n,随机事件随机事件A包括包括m个可能结果,则事件个可能结果,则事件A的概的概率计算公式为:率计算公式为:nmAP)(概率的性质概率的性质 任何随机事件任何随机事件A的概率都是介于的概率都是介于0与与1之间之间的正数;的正数;不可能事件的概率等于不可能事件的概率等于0;必然事件的概率等于必然事件的概率等于1。小概率事件小概率事件 P .05 P .01概率的加法概率的加法 在一次试验中不可能同时出现的事件称为在一次试验中不可能同时出现的事件称为互不互不相容相容的事件。的事件。两个互不相容两个互不相容事件和事件和的
20、概率,等于这两个事件的概率,等于这两个事件概率之和。用公式表示为:概率之和。用公式表示为:P(A+B)=P(A)+P(B)其推广形式是其推广形式是P(A1+A2+An)=P(A1)+P(A2)+P(An)例题例题 某学生从某学生从5个试题中任意抽选一题,如个试题中任意抽选一题,如果抽到每一题的概率为果抽到每一题的概率为1/5,则抽到试,则抽到试题题1或试题或试题2的概率为多少?的概率为多少?概率的乘法概率的乘法 A事件出现的概率不影响事件出现的概率不影响B事件出现的概事件出现的概率,这两个事件为率,这两个事件为独立事件独立事件。两个独立两个独立事件积事件积的概率,等于这两个事的概率,等于这两个
21、事件概率的乘积。用公式表示为:件概率的乘积。用公式表示为:P(A B)=P(A)P(B)其推广形式是其推广形式是P(A1 A2 An)=P(A1)P(A2)P(An)例题例题 上例中,如果第一个学生把抽出的试题上例中,如果第一个学生把抽出的试题还回后,第二个学生再抽,则两个学生还回后,第二个学生再抽,则两个学生都抽第一题的概率为多少?都抽第一题的概率为多少?基础比率基础比率 假设癌症患者占总人口的比例为假设癌症患者占总人口的比例为1%,癌,癌症患者在症患者在X光检查中有光检查中有80%呈阳性,未患呈阳性,未患癌症的人在癌症的人在X光检查中有光检查中有10%呈阳性。现呈阳性。现在有一个人在在有一
22、个人在X光检查中呈阳性,问这个光检查中呈阳性,问这个人患癌症的概率是多大?人患癌症的概率是多大?基础比率基础比率基础比率基础比率 在一个城市中,有两个出租车公司。甲在一个城市中,有两个出租车公司。甲公司都是绿色车,占公司都是绿色车,占85%,乙公司都是,乙公司都是蓝色车,占蓝色车,占15%。一天晚上发生了严重。一天晚上发生了严重车祸。有一个目击证人说是蓝色车。在车祸。有一个目击证人说是蓝色车。在相同的条件下测得该目击证人辨别蓝色相同的条件下测得该目击证人辨别蓝色车和绿色车的正确率为车和绿色车的正确率为80%。问:肇事。问:肇事车是蓝色车的概率是多大?车是蓝色车的概率是多大?基础比率基础比率二项
23、试验与二项分布二项试验与二项分布满足以下条件的试验称为二项试验:满足以下条件的试验称为二项试验:一次试验只有两种可能结果,即成功和一次试验只有两种可能结果,即成功和失败;失败;各次试验相互独立,互不影响各次试验相互独立,互不影响 各次试验中成功的概率相等。各次试验中成功的概率相等。问题问题 一个学生全凭猜测答一个学生全凭猜测答2道是非题,则答对道是非题,则答对0、1、2题的概率是多大?题的概率是多大?如果是如果是3道题、道题、4道题呢?道题呢?2道是非题的情况道是非题的情况TTTF,FTFF答对答对2题题答对答对1题题答对答对0题题1种种2种种1种种3道是非题的情况道是非题的情况TTTTTF,
24、TFT,FTTTFF,FTF,FFTFFF答对答对3题题答对答对2题题答对答对1题题答对答对0题题1种种3种种3种种1种种4道是非题的情况道是非题的情况TTTTTTTF,TTFT,TFTT,FTTTTTFF,TFFT,FFTT,TFTF,FTTF,FTFTTFFF,FTFF,FFTF,FFFTFFFF答对答对4题题 答对答对3题题 答对答对2题题 答对答对1题题 答对答对0题题1种种4种种6种种4种种1种种二项分布函数二项分布函数 用用 n 次方的二项展开式来表达在次方的二项展开式来表达在 n 次二项次二项试 验 中 成 功 事 件 出 现 不 同 次 数试 验 中 成 功 事 件 出 现 不
25、 同 次 数(X=0,1,n)的概率分布叫做二项分布。)的概率分布叫做二项分布。二项展开式的通式就是二项分布函数,运二项展开式的通式就是二项分布函数,运用这一函数式可以直接求出成功事件恰好用这一函数式可以直接求出成功事件恰好出现出现X次的概率:次的概率:xnxxnxxnqpxnxnqpCxXP)!(!)(二项分布图二项分布图0 00.050.050.10.10.150.150.20.20.250.250 02 24 46 68 81010二项分布图二项分布图 从二项分布图可以看出,当从二项分布图可以看出,当p=q,不管,不管 n 多大,二项分布呈对称形。多大,二项分布呈对称形。当当 n 很大时
26、,二项分布接近于正态分布。很大时,二项分布接近于正态分布。当当 n 趋近于无限大时,正态分布是二项趋近于无限大时,正态分布是二项分布的极限。分布的极限。当当p.5时时 设某厂产品合格率为设某厂产品合格率为90%,抽取,抽取3个进行个进行检验,求合格品个数分别为检验,求合格品个数分别为0,1,2,3的概率?的概率?当当p=.9,q=.1时时检验结果检验结果概率概率结果结果AAAAABABABAAABBBABBBABBBpppppqppqppqpqqpqqpqqqqq.729.081.081.081.009.009.009.001合计合计1.00二项分布的平均数和标准差二项分布的平均数和标准差 当
27、二项分布接近于正态分布时,在当二项分布接近于正态分布时,在n次二次二项实验中成功事件出现次数的平均数和项实验中成功事件出现次数的平均数和标准差分别为:标准差分别为:=np 和和 npq二项分布的应用二项分布的应用做对题数做对题数可能结果数可能结果数概率概率累积概率累积概率PXx010.0010.0011100.0100.0112450.0440.05531200.1170.17242100.2050.37752520.2460.62362100.2050.82871200.1170.9458450.0440.9899100.0100.9991010.0011.000总和总和10241.000
28、正态分布正态分布0 00.050.050.10.10.150.150.20.20.250.250.30.30.350.350.40.4-3-3-2.4-2.4-1.8-1.8-1.2-1.2-0.6-0.60 00.60.61.21.21.81.82.52.5正态分布正态分布 正态分布概率密度函数正态分布概率密度函数222)(21XeY标准正态分布标准正态分布 标准正态分布函数标准正态分布函数 其中其中 Z=(X)/2221ZeY正态分布表正态分布表 根据根据Z分数分数查查概率概率 根据根据概率概率查查Z分数分数练习题练习题 设设XN(,2),求以下概率:,求以下概率:(1)P-X=+(2)P
29、-3X=+3(3)P-1.96X=-(4)PX+正态分布的简单应用正态分布的简单应用 标准分数体系标准分数体系T=KZ+C 确定录取分数线确定录取分数线 确定等级评定的人数确定等级评定的人数 品质评定数量化品质评定数量化练习题练习题 某年高考平均分某年高考平均分500,标准差,标准差100,考分,考分呈正态分布,某考生得到呈正态分布,某考生得到650分。设当年分。设当年高考录取率为高考录取率为10,问该生能否被录取?,问该生能否被录取?练习题答案练习题答案 Z=1.5,P=.933 录取分数线:录取分数线:500+1.28*100=628练习题练习题 某地区某地区47000人参加高考,物理学平
30、均分人参加高考,物理学平均分为为57.08,标准差为,标准差为18.04。问:。问:(1)成绩在)成绩在90以上有多少人?以上有多少人?(2)成绩在)成绩在8090之间有多少人?之间有多少人?(3)60分以下有多少人?分以下有多少人?练习题答案练习题答案(1)成绩在)成绩在90以上有多少人?以上有多少人?0.03438,1615.86(2)成绩在)成绩在8090之间有多少人?之间有多少人?0.06766,3180(3)60分以下有多少人?分以下有多少人?0.56356,26487第五章推断统计学基本原理第五章推断统计学基本原理 抽样分布抽样分布 参数估计参数估计 假设检验假设检验 抽样分布是参
31、数估计与假设检验的抽样分布是参数估计与假设检验的理论基础理论基础三种不同性质的分布三种不同性质的分布 总体分布:总体内个体数值的次数分布。总体分布:总体内个体数值的次数分布。样本分布:样本内个体数值的次数分布。样本分布:样本内个体数值的次数分布。抽样分布:根据样本(抽样分布:根据样本(X1,X2,Xn)所有可能的样本观察值计算出来的某一种所有可能的样本观察值计算出来的某一种统计量的观察值统计量的观察值的概率分布。的概率分布。例如:若(例如:若(X1,X2,Xn)是抽自总体)是抽自总体X的一个容量为的一个容量为 n 的简单随机样本,则依据的简单随机样本,则依据所有可能样本的观察值计算出的样本均值
32、所有可能样本的观察值计算出的样本均值的分布,称为样本均值的抽样分布。的分布,称为样本均值的抽样分布。抽样方法抽样方法 单纯随机抽样单纯随机抽样 机械抽样机械抽样 分层抽样分层抽样 整群抽样整群抽样总体分布到抽样分布总体分布到抽样分布 总体总体X的概率分布的概率分布 这是一个均匀分布总体这是一个均匀分布总体住户住户第一户第一户第二户第二户第三户第三户第四户第四户 第五户第五户日支出日支出(X)2025303540户数户数11111概率概率0.200.200.200.200.20样本(样本(n=2)的所有可能结果)的所有可能结果第一户第一户第二户第二户第三户第三户第四户第四户第五户第五户第一户第一
33、户(20,20)M=20(25,20)M=22.5(30,20)M=25(35,20)M=27.5(40,20)M=30第二户第二户(20,25)M=22.5(25,25)M=25(30,25)M=27.5(35,25)M=30(40,25)M=32.5第三户第三户(20,30)M=25(25,30)M=27.5(30,30)M=30(35,30)M=32.5(40,30)M=35第四户第四户(20,35)M=27.5(25,35)M=30(30,35)M=32.5(35,35)M=35(40,35)M=37.5第五户第五户(20,40)M=30(25,40)M=32.5(30,40)M=35
34、(35,40)M=37.5(40,40)M=40样本(样本(n=2)的平均数的抽样分布)的平均数的抽样分布平均数平均数2022.52527.53032.53537.540次数次数123454321概率概率.04.08.12.16.20.16.12.08.04样本样本(n=2)的平均数的抽样分布图的平均数的抽样分布图0 00.050.050.10.10.150.150.20.2202025253030353540400 00.050.050.10.10.150.150.20.220202525303035354040不同总体情况下的抽样分布不同总体情况下的抽样分布抽样分布的定理抽样分布的定理 设
35、总体设总体X服从分布服从分布F(x),(,(X1,X2,Xn)是抽自该总体的一个简单随机样本,)是抽自该总体的一个简单随机样本,总体均值与样本均值、总体方差与样本总体均值与样本均值、总体方差与样本均值的方差有如下关系:均值的方差有如下关系:XXE)(nXDX22)(抽样分布的定理抽样分布的定理 从总体中随机抽出容量为从总体中随机抽出容量为n的一切可能样的一切可能样本的平均数之平均数等于总体的平均数;本的平均数之平均数等于总体的平均数;从总体中随机抽出容量为从总体中随机抽出容量为n的一切可能样的一切可能样本的平均数的方差,等于总体方差除以本的平均数的方差,等于总体方差除以n样本均值的抽样分布(样
36、本均值的抽样分布(2已知已知)若(若(X1,X2,Xn)是抽自总体)是抽自总体X的一个容量为的一个容量为n的简单随机样本,则依据的简单随机样本,则依据样本的所有可能观察值计算出的样本均样本的所有可能观察值计算出的样本均值的分布,称为样本均值的抽样分布。值的分布,称为样本均值的抽样分布。样本均值的抽样分布样本均值的抽样分布 定理定理设(设(X1,X2,Xn)是抽自正态分)是抽自正态分布总体布总体XN(,2)的一个容量为的一个容量为n的简单的简单随机样本,则其样本均值也是一个正态随机样本,则其样本均值也是一个正态分布随机变量,且分布随机变量,且有有样本均值的抽样分布样本均值的抽样分布XXE)(nX
37、DX22)(),(2nNX)1,0(/2NnXZ例题例题 某类产品的强度服从正态分布,总体平某类产品的强度服从正态分布,总体平均数为均数为100,总体标准差为,总体标准差为5。从该总体。从该总体中抽取一个容量为中抽取一个容量为25的简单随机样本,的简单随机样本,求这一样本的样本均值介于求这一样本的样本均值介于99101的概的概率。如果容量为率。如果容量为100呢?呢?样本均值的抽样分布(样本均值的抽样分布(2已知已知)非正态总体、非正态总体、已知时已知时设总体设总体X的均值的均值和和2,当样本容量趋,当样本容量趋向无穷大时,样本均值的抽样分布趋于向无穷大时,样本均值的抽样分布趋于正态分布,且样
38、本均值的数学期望和方正态分布,且样本均值的数学期望和方差分别差分别为为XXE)(nXDX22)(例题例题 某类产品的强度不服从正态分布,某类产品的强度不服从正态分布,总体平均数为总体平均数为100,总体标准差为,总体标准差为5。从该总体中抽取一个容量分别为从该总体中抽取一个容量分别为25的简单随机样本,求这一样本的样的简单随机样本,求这一样本的样本均值介于本均值介于99101的概率。如果容的概率。如果容量为量为100呢?呢?参数估计参数估计 用样本统计量的来估计相应总体参数,称用样本统计量的来估计相应总体参数,称为为参数估计参数估计 判断判断估计量估计量优劣的标准优劣的标准 无偏性无偏性 有效
39、性有效性 一致性一致性 充分性充分性参数估计的基本方式参数估计的基本方式 点估计点估计 用某一样本统计量的值来估计相应总体参数用某一样本统计量的值来估计相应总体参数的值叫总体参数的的值叫总体参数的点估计点估计。区间估计区间估计 以样本统计量的抽样分布(概率分布)为理以样本统计量的抽样分布(概率分布)为理论依据,按一定概率要求,由样本统计量的论依据,按一定概率要求,由样本统计量的值估计总体参数值的所在范围,称为总体参值估计总体参数值的所在范围,称为总体参数的数的区间估计区间估计。区间估计区间估计示意图示意图区间估计的基础抽样分布区间估计的基础抽样分布 根据抽样分布的原理,可得到不同条件根据抽样分
40、布的原理,可得到不同条件下总体参数的区间估计的计算方法下总体参数的区间估计的计算方法 区间估计涉及置信水平和置信区间。区间估计涉及置信水平和置信区间。例题例题 某种零件的长度服从正态分布。已知总某种零件的长度服从正态分布。已知总体标准差体标准差=1.5厘米。从总体中抽取厘米。从总体中抽取100个零件组成样本,测得它们的平均长度个零件组成样本,测得它们的平均长度为为10.00厘米。试估计在厘米。试估计在95%置信水平下,置信水平下,全部零件平均长度的置信区间。全部零件平均长度的置信区间。假设检验假设检验 假设检验回答的问题假设检验回答的问题某总体平均水平有无显著变化?某总体平均水平有无显著变化?
41、两总体平均水平有无显著差异?两总体平均水平有无显著差异?多个总体平均水平有无显著差异?多个总体平均水平有无显著差异?两个或多个总体方差有无显著差异?两个或多个总体方差有无显著差异?以上:参数假设检验以上:参数假设检验某总体是否服从正态分布(或其他分布)?某总体是否服从正态分布(或其他分布)?某串数据是否随机?某串数据是否随机?以上:非参数假设检验以上:非参数假设检验非参数假设检验举例非参数假设检验举例 单样本游程检验单样本游程检验 某食堂窗口前排队性别规律性:某食堂窗口前排队性别规律性:F M F M F F F F F M M M F F M M F M F M F M F M F M F
42、M F M F M F F F F F F F F M M M M M M M M M M M M M M M M F F F F F F F F F M F M F F F F F M M M F F M M F M F M F M F M F M F M F M F M F F F F F F F F M M M M M M M M M M M M M M M M F F F F F F F F假设检验假设检验 利用样本信息利用样本信息 根据一定概率根据一定概率 对总体参数或对总体参数或 分布的分布的 某一假设作出某一假设作出 拒绝拒绝 或保留的或保留的 决断决断 称为称为假设检验假设检验
43、假设假设 有两个相互对立的假设有两个相互对立的假设 即零假设(或称原假设、虚无假设、解消假即零假设(或称原假设、虚无假设、解消假设)设)备择假设(或称研究假设、对立假设)备择假设(或称研究假设、对立假设)假设检验是从零假设出发,视其被拒绝的机假设检验是从零假设出发,视其被拒绝的机会,从而得出决断。会,从而得出决断。假设检验假设检验示意图示意图显著性水平显著性水平 拒绝零假设的概率称为显著性水平拒绝零假设的概率称为显著性水平。显著性水平和可靠性程度(置信水平)显著性水平和可靠性程度(置信水平)之间的关系是:两者之和为之间的关系是:两者之和为1。双侧检验与单侧检验双侧检验与单侧检验 双侧检验:零假
44、设为无显著差异的情况;双侧检验:零假设为无显著差异的情况;左侧检验:零假设为大于等于的情况;左侧检验:零假设为大于等于的情况;右侧检验:零假设为小于等于的情况。右侧检验:零假设为小于等于的情况。例题例题 某小学历届毕业生汉语拼音测验平均分某小学历届毕业生汉语拼音测验平均分数为数为66分,标准差为分,标准差为10分。现以同样的分。现以同样的试题测验应届毕业生(假定应届与历届试题测验应届毕业生(假定应届与历届毕业生条件基本相同),并从中随机抽毕业生条件基本相同),并从中随机抽取取25份试卷,算得平均分为份试卷,算得平均分为69分,问该分,问该校应届与历届毕业生汉语拼音测验成绩校应届与历届毕业生汉语
45、拼音测验成绩是否一样?是否一样?统计决断的两类错误统计决断的两类错误 第一类型的错误第一类型的错误错误错误 拒绝了属于真实的零假设。这种错误的可能拒绝了属于真实的零假设。这种错误的可能性大小正是显著性水平的大小性大小正是显著性水平的大小 水平未变而认为有显著差异水平未变而认为有显著差异 第二类型的错误第二类型的错误 错误错误 保留了属于不真实的零假设保留了属于不真实的零假设 水平显著差异而认为无显著差异水平显著差异而认为无显著差异第六章相关第六章相关 相关的意义相关的意义 积差相关积差相关 等级相关等级相关 质与量的相关质与量的相关相关的意义相关的意义 相关的概念相关的概念 两个变量之间不精确
46、、不稳定的变化关系称两个变量之间不精确、不稳定的变化关系称为相关关系。为相关关系。相关系数相关系数 用来描述两个变量相互之间变化方向及密切用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用程度的数字特征量称为相关系数。一般用 r 表示。表示。正相关正相关负相关负相关零相关零相关相关系数相关系数 相关系数的值,仅仅是一个比值,不等相关系数的值,仅仅是一个比值,不等距),也不是百分比,因此,不能直接距),也不是百分比,因此,不能直接作加、减、乘、除。作加、减、乘、除。相关不等于因果:相关系数只能描述两相关不等于因果:相关系数只能描述两个变量之间的变化方向及密切程度,并个变量
47、之间的变化方向及密切程度,并不能揭示二者之间的内在本质联系。不能揭示二者之间的内在本质联系。积差相关积差相关 积差相关的概念积差相关的概念 当两个变量都是正态连续变量,而且两者之当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关间呈线性关系,表示这两个变量之间的相关称为积差相关称为积差相关。积差相关系数的定义和计算积差相关系数的定义和计算 协方差是积差相关系数的基础,它是两协方差是积差相关系数的基础,它是两个变量离差乘积之和除以个变量离差乘积之和除以n所得之商。其所得之商。其公式为:公式为:nYYXXniii1)(cov积差相关系数的定义和计算积差相关系数的定义和计算
48、 积差相关系数是协方差除以两个变量的积差相关系数是协方差除以两个变量的标准差。其公式为:标准差。其公式为:用原始数据直接计算,则用原始数据直接计算,则YXniiiSnSYYXXr1)(21122112111)()()()(niiniiniiniiniininiiiiYYnXXnYXYXnr例题例题 为研究某测验的预测效度,在被录取的为研究某测验的预测效度,在被录取的高考考生中随机抽取高考考生中随机抽取10人,测得他们的人,测得他们的能力测验得分(能力测验得分(X),对他们进行跟踪研对他们进行跟踪研究,求得他们大学一、二年级有关科目究,求得他们大学一、二年级有关科目平均分数(平均分数(Y),求该
49、测验的效度。求该测验的效度。X7471 8085 76 7777 68 7474 756Y8275 8189 82 8988 84 8087 837等级相关等级相关 等级相关是指以等级次序排列或以等级等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。次序表示的变量之间的相关。斯皮尔曼等级相关斯皮尔曼等级相关 肯德尔和谐系数肯德尔和谐系数斯皮尔曼等级相关斯皮尔曼等级相关 概念及其适用范围概念及其适用范围 当两个变量值以等级次序排列或以等级次序当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于样本容量
50、也不一定大于30,表示这两个变量,表示这两个变量之间的相关,称为斯皮尔曼等级相关。之间的相关,称为斯皮尔曼等级相关。斯皮尔曼等级相关系数的计算斯皮尔曼等级相关系数的计算)1(61212nnDrniiR例题例题 为了研究儿童问题行为与母亲耐心程度为了研究儿童问题行为与母亲耐心程度的关系,抽取的关系,抽取10个家庭,让儿童与其母个家庭,让儿童与其母亲一起完成一件需要相互配合才能完成亲一起完成一件需要相互配合才能完成的工作,观测并纪录他们的表现。下表的工作,观测并纪录他们的表现。下表为儿童问题程度分数(为儿童问题程度分数(X)与母亲的不耐)与母亲的不耐心程度分数(心程度分数(Y),分数值越大表明问题