1、心理统计学 Psychology Statistics深圳大学心理学系深圳大学心理学系 何立国何立国紧扣大纲紧扣大纲侧重应用侧重应用注重思维注重思维通俗好懂通俗好懂教材教材:张厚粲张厚粲,徐建平著徐建平著.现代心理与教育统计学现代心理与教育统计学.北京师范大学出版社北京师范大学出版社,2006(8)n参考教材参考教材:n理查德理查德 鲁尼恩等鲁尼恩等.心理统计心理统计(第九版第九版,英文版英文版).).北京北京:人民邮电出版人民邮电出版社社,2004,2004年年nDavid J.PittengerDavid J.Pittenger著、林丰勋译注著、林丰勋译注.心理统计学习指南心理统计学习指南
2、(双语版双语版).).北京北京:人民邮电出版社人民邮电出版社,2006,2006年年n邵志芳邵志芳.心理与教育统计学心理与教育统计学.上海上海:上海科学普及出版社上海科学普及出版社,2004,2004年年n金志成金志成,何艳茹何艳茹.心理实验设计及其数据处理心理实验设计及其数据处理.广州广州:广东高等教育出广东高等教育出版社版社,2002,2002年年 n温忠麟温忠麟,邢最智邢最智.现代教育与心理统计技术现代教育与心理统计技术.南京南京:江苏教育出版江苏教育出版社社,2001,2001年年n张敏强张敏强.心理与教育统计学心理与教育统计学(修订本修订本).).北京北京:人民教育出版社人民教育出版
3、社,2002,2002年年n中国心理学会编中国心理学会编.心理学论文写作规范心理学论文写作规范.北京北京:科学出版社科学出版社,2002,2002年年 课程主要内容课程主要内容1 心理研究中的数据特点与初步整理2 样本数据分布与总体参数估计3 假设检验推断统计或统计决策4 研究(实验)设计与方差分析5 多元统计分析 第一章心理研究中的数据特点与初步整理主要内容1 心理研究为什么需要数据?2 它的数据有什么类型和特点?3 如何初步呈现和描述这些数据?数据的初步整理 让我们先来看一个问题,小刘和小林(女)是一对80后夫妻,他们恩爱相处,很少闹红脸。但有一天,小刘在公司被老板骂了一顿,一脸不高兴回到
4、家里;不幸的是,小林也被上司责骂了,憋着一肚窝火回到了家。小林一看,小刘鞋也不脱就躺在了沙发上,气不打一处来,就骂了起来,小刘也正是有怒无处撒呢,只有“应战”,顿时 一切又归风平浪静,两人都累了,坐在沙发上,看着“大风”过后充满着抽象派意境的家,又相互埋怨起来,小林说“我比你心情更不好,你应该让让我!”小刘说“我的心情比你更不好,你应该体谅我!”“不!我的心情更坏!”“是我的更坏!”家里的火药味又浓了 该怎么办呢?究竟是谁的心情更糟?问题与思考(1)“不!我的心情更坏!”“是我的更坏!”谁的更坏?能比较吗?不能!文字编码,可以客观但不能精确,因为缺乏共同参照系。(2)世界上最客观、最具有一般性
5、意义的编码是数字!数字(据)编码,客观而精确,因为有共同参照系。所以,心理科学需要数据吗?需要!因为,如果要从比较、推断层面而不是描述或叙述层面了解人的心理过程和特点,就需要数据编码,只有在共同参照系下的比较才有意义!随之而来的另一个问题是:心理研究能不能用数据编码?这是心理测量学和实验心理学讨论的问题。理论和实践证明,这是完全可以的。2 心理学研究中的数据有什么类型和特点2.1 计数数据 某集团公司进行一项员工工作满意度的调查,代表性抽取了1000名员工,结果发现有较高抑郁偏向的25人(能不能说25.6人?人?)像这种以1为倍数的数据,如学校数、班级数、学生数、教师数、桌椅数、男女生人数等,
6、就是计数数据,是指计算个数的数据是指计算个数的数据。特点:非连续的离散数据。它的统计方法有卡方检验等非参数检验方法。2.2 测量数据 在一项以SCL-90为工具的心理健康普查中,小李得37分(得得37.3分有没有意义呢?分有没有意义呢?)测量数据是指借助于一定测量工具或依据一定测量标准所获得的数据,如品德评定、各科考试分数、身高、体重、时间、心理测验所得的分数,在很多时候,它的小数点位数是有意义的。测量数据是一种连续型数据测量数据是一种连续型数据。测量数据具有不同的测量水平测量数据具有不同的测量水平种类种类 基本特征基本特征 运算运算 例子例子等级数据等级数据无相等单位无相等单位 无绝对零点无
7、绝对零点不能不能能力的等级评定能力的等级评定等等等距数据等距数据有相等单位有相等单位 无绝对零点无绝对零点可可温度、成绩分数温度、成绩分数等等等比数据等比数据有相等单位有相等单位 有绝对零点有绝对零点可可身高、体重、时身高、体重、时间等间等 等距和等比数据一般以有效数字的形式表示,它表明一个数据代表一个数轴上的一段距离。如“1”即0.51.499,“2”即1.52.499。等级数据则按实际观测事物的性质,有时大者排前,有时小者排前,如1,2,2,3,4,5几个数值的等级,其所占等级为1,2,3,4,5,6,统计上的写法则为1,2.5,2.5,4,5,6。2.3 心理研究中数据的特点(1)随机性
8、 相同的实验条件下,或同一个人对同一个刺激的反应事先无法确定,有偶然性。即观测到的数据不止一个,是随机波动的。(2)变异性 心理研究中,不同的人同一时间对同一刺激的反应是不同的,同一人在不同时间对同一刺激也是不同,它的数据具有变异性。(3)规律性 尽管心理科学研究数据受随机因素的影响,呈随机变化,具有一定的随机性和变异性,但这些变化只是围绕一定的规律波动,这种规律可以通过大量的观察揭示出来。3 数据的初步整理3.1 直观整理统计图和统计表 统计表统计表 以表格形式表示统计资料数量关系的工具;以表格形式表示统计资料数量关系的工具;制表原则:结构简要明了;层次清楚,具有逻制表原则:结构简要明了;层
9、次清楚,具有逻辑性;辑性;统计图统计图 以几何图形表示统计资料数量关系的工具;以几何图形表示统计资料数量关系的工具;制图原则:计数资料和测量资料的制图有别。制图原则:计数资料和测量资料的制图有别。3.1.1 计数数据的统计表(1)分类标志要明确,内涵、外延界定清楚;(2)按分类层次将数据整理成列联表的形式;(3)分组表可有一维(一种变量,多个类别);二维(两种变量,多个类别);三维(三种变量,多个类别)等,依此类推。城 市 北京 上海 兰州 深圳 是否满意 是 否 是 否 是 否 是 否性 男 68 33 55 46 56 43 70 42 (0.67)(0.33)(0.54)(0.56)(0
10、.57)(0.43)(0.63)(0.37)别 女 74 28 67 38 54 41 80 35 (0.73)(0.27)(0.64)(0.36)(0.57)(0.43)(0.70)(0.30)合计 203 206 194 227 例题:某例题:某研究者想了解我国城市居民的生活满意度,从北京、上海、兰州和深圳四个城市随机抽取了830名居民进行调查,情况见表1。在表中还常有一些相对次数或比例,又叫频率或百分数,即部分所点总数的比例,用各部分的数目被总数除得到。3.1.2 计数数据的统计图(1)条形图:用条形长短表示事物间数量关系 要求:适于离散性数据,尺度从零开始,宽度一致,美观等;优缺点:直
11、观、具体;但若绘图不当,易掩盖真相。(2)圆形图:用圆形内各扇形大小表示总体内各部分的比例关系,又叫饼状图。要求:求出已知部分比例,以周长为图尺,与圆心连接;优缺点:直观表示部分与总体的关系,但不适宜于不同总体的资料。3.1.3 测量数据的统计表 测量数据具有连续性而不是离散性,因此,测量数据的初步整理主要是依数值大小将数据排序,并列成次数分布表,标出相应的次数次数分布表的整理步骤:次数分布表的整理步骤:(1)求)求全距全距:最大值与最小值的距离,即极差;:最大值与最小值的距离,即极差;(2)定)定组数组数(k)分组的个数分组的个数;(3)定)定组距组距(i)每组包含的数据单位;每组包含的数据
12、单位;(4)确定分组的精确上、下限)确定分组的精确上、下限 A、表达界限(指定界限):表达界限(指定界限):6669 66 6365 63 6062 60 整理方便省时,未表现真正的上下限。整理方便省时,未表现真正的上下限。B、精确界限(实际界限)精确界限(实际界限)65.568.499 62.565.499 59.562.499 写法较麻烦,但计算以此为依据。(5)登记次数:根据精确界限之规定,将每一数据归到相 应的组内;(6)标出组中值:100名居民的幸福感分数如下名居民的幸福感分数如下 76.0 77.5 82.0 90.5 81.0 85.5 71.0 80.5 92.5 78.0 7
13、7.0 88.0 81.0 76.5 83.0 84.0 84.0 62.0 79.0 80.5 72.0 89.0 78.0 78.0 80.0 78.5 76.5 75.0 79.5 74.5 86.0 81.5 75.0 84.0 90.0 80.0 86.0 84.5 68.5 77.0 71.0 86.0 81.5 79.5 80.5 73.0 93.0 83.0 72.0 82.5 68.0 71.0 87.0 78.0 66.0 83.0 87.0 82.5 79.5 72.5 80.0 82.0 81.0 86.5 83.5 71.5 83.0 91.0 96.0 73.5 7
14、5.5 89.0 87.5 69.0 74.0 70.0 77.5 75.0 79.0 73.5 76.0 88.5 85.0 89.5 78.5 76.0 74.0 98.0 73.0 94.0 79.0 80.0 75.5 83.5 82.0 65.0 74.5 80.0 70.5 79.0例:例:步步 骤骤(1)求求全距全距:最大值与最小值的距离,即极差:最大值与最小值的距离,即极差 Rg=XmaxXmin=9862=36(2)定定组数组数(k)分组的个数分组的个数;定定组距组距(i)每组包含的数据单位。每组包含的数据单位。A、经验法经验法 B、计算法、计算法A、经验法、经验法 k:一般
15、:一般1020;最佳;最佳1015;i:2、3、4、5、10 原则原则:n大,大,i小些,小些,k多一些;多一些;n小,小,i大些,大些,k少一些;少一些;B、计算法:总体正态时计算法:总体正态时 52187.1NkkRkRigg1或1275.1128.687.19987.14.31236i A、表达界限(指定界限):表达界限(指定界限):6669 66 6365 63 6062 60 整理方便省时,未表现真正的上下限。整理方便省时,未表现真正的上下限。B、精确界限(实际界限)精确界限(实际界限)65.568.499 62.565.499 59.562.499 (3)列)列分组区间分组区间(组
16、限组限)每组的起止点每组的起止点(4)登记与计算)登记与计算频数频数(frequency)A、某事件在某类的数目某事件在某类的数目 B、方法:选举唱票法方法:选举唱票法(5)计算组中组计算组中组分组分组 f m 96-2 9793-3 9490-4 9187-8 8884-11 8581-17 8278-19 7975-14 7672-10 7369-7 7066-3 6763-1 6460-1 61 100 表表2-8 100名学生成绩次数分布表名学生成绩次数分布表1)符号:)符号:cumf(或(或F)(cumulative frequency)2)方法)方法 高分组高分组低分组低分组组;组
17、;fFfcum%(6)累积频数和相对累加频数累积频数和相对累加频数次数分布表的功用(1)可看出数据的散布情况;(2)给人以直观的形象的印象;(3)确定分类线:自下而上累积次数或百分数。4.1.4 测量数据的统计图(1)直方图:根据精确上、下限画图,横坐标等距,纵坐标为次数或相对次数;特点:用矩形的面积表示连续性随机变量的次数分布;功用:直观、生动地表示随机变量;(2)折线图:又称次数多边形图 绘图要点:绘图时以各分组区间组中值为横坐标,以各组的频数为纵坐标;功用:表示数据的连续性更直观,可用于多个次数多边形的比较。3.2 数据的描述统计 集中量数、离中量数、相关量数3.2.1 集中量数 定义定
18、义集中趋势集中趋势 指反映数据集中情况或数据代表性的一组统计量的选择与计算 指标指标 常用常用:算术平均数、中数、算术平均数、中数、众数众数;少用少用:倒数平均数倒数平均数、几何平均数;、几何平均数;(1)算术平均数算术平均数 定义:定义:观测值总和除以观测值个数的商。公式:公式:特点:特点:反应灵敏,计算严密、简单,简明易解;适合于进一步用代数方法演算;较少受抽样变动的影响。条件要求:条件要求:数据必须是同质的,即同一种测量工具所测量的某一特质;数据取值必须明确(没有模糊数据);数据离散不能太大(没有极端数据);数据为连续型数据NXXi1.791076806779X 有一组测验分数为有一组测
19、验分数为79,67,80,91,80,83,76,79,80,76。求它的算术平。求它的算术平均数。均数。例例1:例例2:知小组平均数,求总平均数知小组平均数,求总平均数 已知某年级各班成绩及人数如下表。试问其已知某年级各班成绩及人数如下表。试问其年级分数是多少?年级分数是多少?甲班甲班 乙班乙班 丙班丙班人数(人数(n)32 40 36 平均成绩平均成绩 72.6 80.2 75 nXnXit93.7530.752.806.72tX2.7636503275362.80506.7232tX求求 解解n张家有财一千万,九个邻居究光蛋。张家有财一千万,九个邻居究光蛋。平均起来算一算,家家都是张百万
20、平均起来算一算,家家都是张百万。n国家的人均GDP的计算存在的问题。品味品味(2)中数)中数(median)按顺序排列在一起的一组数中位于中间位置的数;当数据中有含糊不清的数据时,或需快速对集中趋势进行估计时,偶有所用偶有所用。例1:N为奇数时,对数据由小到大排序,求中间位置的数数列:数列:3,5,6 ,7,1021NXMdn215 X3X66例例2:N为偶数时,大小排列数据,中间两数的平均为偶数时,大小排列数据,中间两数的平均数即为该数列的中数数即为该数列的中数 数列:数列:11、12、15、17、18、19、22、2312221NNXXMdn1282821XX)1817(215421XX
21、5.17练习题(1)2、8、11、12、14、16、17、18(2)1、3、6、7、9、15、16、18、19(3)2、8、11、19、17、20、21(4)2、2、2、5、6、7、8、8、8(3)几何平均数几何平均数 在计算经费平均增加率、工资平均上涨率、学生入学增加率、毕业生增加率,学习、记忆的平均进步率等常用。公式:(x0为基数,n为年数,xn为最后年份数)nnTxxX0例:1949年某单位经费为5万元,2009年该单位的经费2000万元,问该单位历年经费增加率是多少?105.1400520006060gX1.105-1=0.105,即每年按10.5%的速率递增。3.2.2 离中量数表4
22、-1 两组学生测验得分表试问:试问:两组分数的分布是否一样?为什么?两组分数的分布是否一样?为什么?哪个均数的代表性更好?为什么?哪个均数的代表性更好?为什么?我们在学完集中量数后,你有什么困惑吗?让我们来看下面的问题:离中量数表示数据分散程度的一组统计量,其中最常用的是标准差或方差。(1)标准差的常用符号为:SD、S(样本统计量),(总体参数);方差的常用符号为:S2、SD2(样本统计量),2(总体参数)。NXXS22NXXS2NoImageNoImage例例1:试求数列:试求数列49、51的均数和标准差。的均数和标准差。NXX5024951NXXS2250495051221211NoIma
23、geNoImage05.1443.19743.1972SS甲组甲组乙组乙组例例2:比较甲、乙两组数据的方差和标准差:比较甲、乙两组数据的方差和标准差66.532322SS(2)标准差的意义 表示数据的分散程度,标准差大表示分散,标准差小表示相对集中。若一个班的分数之标准差大,说明该班学习成绩不齐,好的好,差的差,如果标准差小,说明成绩整齐;若一个老师所出的试卷,学生考完后标准大,说明这张试卷出得好,把不同学生的水平区分开了,如果标准差小,说明试卷没有什么区分力;同一测量的标准差大,说明误差大。(3)标准差的应用)标准差的应用在正态分布的情况下标准差与平均数之间有一定的关系SDxSDxSDx58
24、.296.11包含总数目的包含总数目的68.26%包含总数目的包含总数目的95%包含总数目的包含总数目的99%,几乎包含了全体。,几乎包含了全体。用于个别数据的取舍 变异系数 标准差是表示数据分散程度的一个指标,但平均数不一样,标准差大小的意义也会不一样。公式:%100XSCV应用:A、比较测量单位不同事物的差异程度(同一团体不同测量间变异的比较,例如相同班级不同科目考试成绩之变异比较);B、比较单位相同,均数相差悬殊的事物(不同团体同一测量间变异的比较,例如不同年级同一种试卷成绩变异大小的比较);例1:某幼儿园大班儿童体重平均25公斤,标准差3.7;身高110厘米,标准差6.2厘米。试问该班
25、幼儿身高和体重那方面的差异程度大一些?%8.14%100257.3体重CV%64.5%1001102.6身高CV例2:初三甲乙两班的数学平均成绩分别为92和71,标准差分别为8.95和7.40。试问两班成绩谁的差异程度大一些?%1009295.8甲CV%73.9%1007140.7乙CV%42.10 例例3:有人认为越在发达的国家,贫富就越悬殊。为了证明这一设想,假设他们分别从美国和印度抽取了2000人,发现美国公民的月平均叫入是7000美元,标准差是980美元,印度公民的月平均收入是700美元,标准差是160美元。你说是美国还是印度的贫富悬殊大?例例4:某公司董事会想知道公司员工对甲、乙两位
26、主管的满意度,他们邀请了一家管理咨询公司从领导能力、个人魅力、人性关怀等5个方面设计了一份问卷,以5个方面的总分做为满意度指标,调查了180名员工,结果发现,甲主管的满意度平均分为45,标准差为5,乙主客的满意度平均分为48,标准差为3,问员工对哪一位主管的满意度存在较大的分歧意见?标准分数先看一个案例先看一个案例:某校初一(2)班学生身高平均160CM,标准差8.2;体重平均60KG,标准差3.5。某生身高170公分,体重62公斤,试问该生的身高和体重哪一项在班上的位置更突出呢?22.12.8160170身高指标57.05.36062体重指标 标准分数的定义、公式与性质 定义:定义:以标准差
27、标准差(S)为单位所表示的“原始分原始分”(X)与平均数平均数(M)的偏差偏差。公式:公式:性质:性质:小学生A和B在毕业考试中,语文和数学两科的总分均为184。能否以此说明两人的学习水平相同?为什么?另一个问题:另一个问题:再来看一个问题:某小学四年级某小学四年级1班有班有56位同学,小明是其中的一员,位同学,小明是其中的一员,在这个学期的期中考试中,根据下列已知信息,你能判在这个学期的期中考试中,根据下列已知信息,你能判断小明的数学和语文水平的好坏吗?断小明的数学和语文水平的好坏吗?小明的数学和语文都得了小明的数学和语文都得了85分;分;该班的数学平均分为该班的数学平均分为73分,语文平均
28、分也为分,语文平均分也为73分;分;该班数学的标准差是该班数学的标准差是4分,语文的标准差是分,语文的标准差是2分;分;通过这个例题,可以比较客观地了解平均通过这个例题,可以比较客观地了解平均数、标准差和数、标准差和Z分数的作用。分数的作用。张红上小学五年级,期末考试语文得张红上小学五年级,期末考试语文得94分,数学分,数学86分,父母批评他数学学得不好,分,父母批评他数学学得不好,这种说法对吗?为什么?已知他所在班的语这种说法对吗?为什么?已知他所在班的语文平均分文平均分94,标准差为,标准差为9.24,数学平均分,数学平均分77,标准差为标准差为9.12。(4)其它差异量数NXXAD(1)
29、平均差:每一个数据与平均数差的平均数(2)四分差:百分之七十五点(称Q3)与百分之二十五点(Q1)差值的均数。公式为:213QQQ3.2.3 相关量数常遇到如下问题:(1)儿童品行与家庭教育的关系如何?(2)学生的兴趣与学科成绩的关系如何?(3)经费投入与工作效率的关系?(4)工资收入与工作满意度的关系如何?这些问题均涉及到两种不同测量之间,即两列数据之间是否有关系,如何用数据去描述?表示这种关系的统计指标就是相关量数。(1)相关系数的概念 相关系数用r表示。取值范围在-1.00+1.00之间。r值为-1或1时,表示完全相关,说明两个变量之间为确定关系;r值在(-1.00,1.00)之间时(0
30、除外),为不完全相关;r为0时,表示两变量间毫无关系。表示相关的方向,具体如下:类 别 两列变量的变化特 征X Y正相关大 小 大 小 同向,同增共减负相关大 小小 大异向,此增彼减无相关大 小或大或小无规律讨论:我们如何才能确定两个变量间的关系呢?讨论:我们如何才能确定两个变量间的关系呢?意义:以离意义:以离差差乘乘积积的关系说明事物关系。的关系说明事物关系。如何才能恰当表达两个变量之间的关系如何才能恰当表达两个变量之间的关系?变化趋势的一致性变化趋势的一致性 什么是协方差?它能稳定表达两个变量的关系吗?什么是协方差?它能稳定表达两个变量的关系吗?易受什么因素影响?易受什么因素影响?两列变量
31、两列变量标准积差标准积差(指标准分数的积差,指标准分数的积差,ZxZy)的算术平均数。的算术平均数。两列两列正态连续变量正态连续变量的相关分析方法。的相关分析方法。(2)各种相关系数的适用资料及计算 Pearson(皮尔逊)积差相关(皮尔逊)积差相关适用条件:适用条件:A、两个变量是连续变量(测量数据);B、两列变量各自总体的分布都是正态,至少是接近正态的单峰分布;C、要求成对的数据,即每个个体都有两种不同的观察值,任意两个个体之间的观测值不能求相关;D、每对数据与其它子对没有关系,相互独立;E、两列变量之间的关系是直线型的;F、成对数据的数目不宜少于30对公式:注意式中各符号的意义,当计算出
32、注意式中各符号的意义,当计算出r值后,可查相值后,可查相关系数显著性表(附表关系数显著性表(附表7),确定是否有相关关系。),确定是否有相关关系。相关不显著,05.0rr相关显著,05.0rr 相关极显著,01.0rr 2 ndf编编 号号实测记分实测记分 X Y1 2 3 4 5 72 170 69 165 66 150 70 180 68 185 345 850表表6-1 测量结果测量结果例例 题题 5名学生的身高(CM,Y变量)与体重(KG,X变量)的测量结果如表。试问身高与体重有无关系?,695345X25202NdSXX25.1257502NdSYY1705850Y求均数和标准差求均
33、数和标准差分析步骤分析步骤求离差:求离差:XXdXYYdY69X170Y积差积差 dXdY 0 0 60 10 -15 55求积差求积差 covNddYX编编 号号实测记分实测记分 X Y1 2 3 4 5 72 170 69 165 66 150 70 180 68 185 345 850离差记分离差记分 dx dy 3 0 0 -5-3 -20 1 10 -1 15 时当7292 Ndf,666.005.0XYr666.0449.005.0XYXYrr相关不显著798.001.0XYr检检 验:验:从某单位随机调查了10名男职工,测得他们的健康指数;再从该单位抽查10名女职工,测得她们的婚
34、姻幸福指数。假设它们都符合正态分布,结果如下:序 号 1 2 3 4 5 6 7 8 9 10 男职工健康指数 50 60 45 80 90 85 70 75 60 78 女职工婚姻幸福指数 12 15 13 20 23 21 19 17 16 13 请问男职工的健康水平与女职工的婚姻幸福水平有没有关系?如有,相关强度是多少?1 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10年限年限 5 8 2 10 4 6 12 9 3 7 5 8 2 10 4 6 12 9 3 7 等级等级 7 3 9 5 8 6 2 4 10 17 3 9 5 8 6 2 4 10 1表6
35、-3 工作年限与销售能力等级 再来看一个例子:再来看一个例子:10名销售人员工作年限与销售能力的等级评定如表。试问二者是否有关?遇到新问题遇到新问题问题问题:在实际工作中,当我们收集到的变量资料是等级数据时,该如何求其相关呢?解决办法解决办法:1、能否把等级数据转化成或者看作是连续性的等距数据(主要基于数据实际意义);2、能否找到适合求等级资料相关的方法。A、适用资料及定义 有些数据不具有等距或等比性质,而是等级型的数据资料。以等级资料研究变量之间相互关系的方法就是等级相关。等级评定资料等级评定资料 非等级资料非等级资料等级资料等级资料资料类型资料类型 等级相关等级相关B、适用条件、适用条件、
36、收集到的数据不是等距或等比的测量数据,而是具有等级顺序的测量数据,即非连续型数据;、收集到的数据虽然是等距或者等比的数据,但其总体分布不是正态;、收集到的数据虽然是等距或者等比的数据,成对变量数目可少于30;、对变量的总体分布不作要求,属于非参数统计范畴。、因此,适用于求任何非名称量表数据的相关。NNDr3261Spearman(斯皮尔曼斯皮尔曼)等级相关的公式:等级相关的公式:公式说明:公式说明:N为等级个数;D指二列成对变量的等级差数。相关不显著,05.0rr 相关显著,05.0r相关非常显著,01.0r显著性检验:显著性检验:查等级相关临界值表(附表9)1 2 3 4 5 6 7 8 9
37、 10年限 5 8 2 10 4 6 12 9 3 7 等级 7 3 9 5 8 6 2 4 10 1表6-3 工作年限与销售能力等级 10名销售人员的工作年限与销售能力的评定等级如表。试问二者是否有关?练练 习习 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 年限年限 5 8 2 10 4 6 12 9 3 7 5 8 2 10 4 6 12 9 3 7 等级等级 7 3 9 5 8 6 2 4 10 17 3 9 5 8 6 2 4 10 1 R RX X 7 4 10 2 8 6 1 3 9 5 7 4 10 2 8 6 1 3 9 5 R RY Y
38、 7 3 9 5 8 6 2 4 10 1 7 3 9 5 8 6 2 4 10 1 D D2 2 0 1 1 9 0 0 1 1 1 16 30 0 1 1 9 0 0 1 1 1 16 30101030613r82.09901801时当10df746.0,564.001.005.0rr01.005.072.0rrr.,成绩之间有较强的关系说明两次测验相关显著小小 结结1、积差相关要求两列变量都是等距或等比性质的测量数据;2、等级相关则要求两列变量都是等级性质的测量数据;问题:当遇到两列变量,一列是等距或等比性质的测量数据,另一列则是非连续的计数型数据时,该怎么办?点二列相关点二列相关二列相
39、关二列相关变变 量量变量一变量一 连续变量连续变量变量二变量二 二分名称二分名称二分名称(人为的)二分名称(人为的)公公 式式pqSXXrtqppbypSXXrttpbypqSXXrtqpb点二列相关与二列相关的比较点二列相关与二列相关的比较点二列相关公式:pqSXXrtqppb与与p对应的对应的连续变量连续变量的均数的均数 二分变量二分变量中一项所中一项所占的比例占的比例整 个 连 续整 个 连 续变 量 的 标变 量 的 标准差准差 另一项所另一项所占的比例占的比例ypSXXrttpbypqSXXrtqpb与与P对应对应的正态的正态分布的分布的纵线高纵线高度度二列相关公式:例:成绩与性别是
40、否相关?成绩成绩 性别性别 67 1 10 1 20 1 43 1 61 1 26 1 18 1 35 1 23 1 44 2 60 2 10 2 23 2 30 2性别变量中性别变量中,1,1表示表示“男男”,2,2表示表示“女女”求比例求比例64.0149NNpp36.0145NNqq 求均数求均数pppNXXqqqNXX67.33930340.335167 求标准差求标准差NNXXSX2214141673037065133132141447020378213.18pqSXXrtqppb36.064.013.1840.3367.33007.0 代公式代公式二列相关例题二列相关例题 问在某一
41、测验中,已知总分及格和不及格的同学共10人在简答题上的得分,问简答题的得分是否与总分显著相关?学生学生 1 2 3 4 5 6 7 8 9 10 总分总分 合合 合合 合合 合合 合合 不不 不不 不不 不不 不不简答题得分简答题得分 12 13 14 11 10 10 8 9 13 7 方法方法变量类型变量类型使用条件使用条件积差积差连续性的连续性的两列均为连续变量两列均为连续变量 均为正态分布均为正态分布 n30斯氏等级斯氏等级等级性的等级性的两列均为等级变量两列均为等级变量 分布不定分布不定 n30点二列点二列一列连续性的一列连续性的 一列二分名称的一列二分名称的二列二列一列连续性的一列连续性的 一列人为二分名称一列人为二分名称 相关相关 二分名称的二分名称的小小 结结