1、 两个变量之间不精确、不稳定的变化两个变量之间不精确、不稳定的变化关系,称为相关关系。关系,称为相关关系。两个变量之间的变化关系,既表现在两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。变化方向上,又表现在密切程度上。两个变量之间的变化方向有:正相关:两个变量的变化方向相同。正相关:两个变量的变化方向相同。负相关:两个变量的变化方向相反。负相关:两个变量的变化方向相反。零相关:两个变量的变化方向无一定规律。零相关:两个变量的变化方向无一定规律。从关系密切程度来看,两个变量的变化程度可大致分为完全相关:两个变量的变化程度完全一致。完全相关:两个变量的变化程度完全一致。强相关:两个
2、变量变化的一致性比较强。强相关:两个变量变化的一致性比较强。中等相关:两个变量变化的一致程度中等。中等相关:两个变量变化的一致程度中等。弱相关:两个变量变化的一致性比较差。弱相关:两个变量变化的一致性比较差。完全不相关:两个变量变化程度没有一致性。完全不相关:两个变量变化程度没有一致性。用来描述两个变量相互之间变化方向及密用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数,一般样本的切程度的统计指标称为相关系数,一般样本的相关系数用相关系数用r r表示,总体的相关系数用表示,总体的相关系数用表示。表示。相关系数的取值:相关系数的取值: -1 r +1-1 r +10r10r1相关
3、系数的符号:相关系数的符号:“”表示正相关,表示正相关,“”表示负相关。表示负相关。相关系数不是由相相关系数不是由相等单位度量而来的,因等单位度量而来的,因此只能比较大小,不能此只能比较大小,不能做任何加、减、乘、除做任何加、减、乘、除运算。运算。1、积差相关及其适用条件积差相关是英国统计学家皮尔逊(积差相关是英国统计学家皮尔逊(pearson)于于2020世纪初提出的一种计算相关的方法,因而世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关被称为皮尔逊积差相关, ,也称为积矩相关也称为积矩相关(product moment correlation)。)。积差相关适用于:两个变量都是积差
4、相关适用于:两个变量都是;两变量总体都为;两变量总体都为;两;两变量之间为变量之间为。成对数据,样本容量要大。成对数据,样本容量要大。根据得到数据的方式判断,测量数据。根据得到数据的方式判断,测量数据。一般情况下,正常人群的身高、体重、智力水平、心理一般情况下,正常人群的身高、体重、智力水平、心理与教育测验的结果,都可按总体正态分布对待;如果要求比与教育测验的结果,都可按总体正态分布对待;如果要求比较高,则需要对数据进行正态性检验。较高,则需要对数据进行正态性检验。根据相关散布图可判断两个变量之间是否线性关系。根据相关散布图可判断两个变量之间是否线性关系。图图18-1 18-1 正相关正相关图
5、图18-2 18-2 负相关负相关散点的分布形状为椭圆形,可认为两变散点的分布形状为椭圆形,可认为两变量之间具有线性关系量之间具有线性关系。图图18-4 18-4 完全负相关完全负相关图图18-3 18-3 完全正相关完全正相关当所有的点都分布在一条直线上时,两变量之间的关系为完全相关。两个变量之间是否相关,要有充分的理论依据,并排除共变因素的影响。图图18-5 18-5 零相关零相关散点的分布没有明显集中在某一方向的趋势,形成圆形区域时,两变量之间的关系为零相关。协方差协方差nYYXXCOV积差相关系数为积差相关系数为( 181 )nSYYSXXrYX公式中:公式中: 为变量为变量X的平均数
6、,的平均数, 为变量为变量Y的平均数,的平均数, 为变量为变量X的标准差,的标准差, 为变量为变量Y的标准差,的标准差, n 为数据的对数为数据的对数XYXSYSYXSSnYYXXr或计算得到了相关系数,计算得到了相关系数,还不能确定这两个变量一还不能确定这两个变量一定具有相关关系,需要对定具有相关关系,需要对相关系数进行显著性检验相关系数进行显著性检验之后,才能做出判断。之后,才能做出判断。表18-1 10个学生初一与初二数学成绩积差相关系数计算表序号序号X XY Y1 174747676 3 3 3.7 3.711.111.1 9 9 13.69 13.692 271717575 0 0
7、2.7 2.70 0 0 0 7.29 7.293 372727171 1 1 -1.3 -1.3-1.3-1.3 1 1 1.69 1.694 468687070-3-3 -2.3 -2.3 6.9 6.9 9 9 5.29 5.295 576767676 5 5 3.7 3.718.518.52525 13.69 13.696 673737979 2 2 6.7 6.713.413.4 4 4 44.89 44.897 767676565-4-4 -7.3 -7.329.229.21616 53.29 53.298 870707777-1-1 4.7 4.7-4.7-4.7 1 1 22.
8、09 22.099 954546262-6-6-10.3-10.361.861.83636106.09106.09101074747272 3 3 -0.3 -0.3-0.9-0.9 9 9 0.09 0.09合计合计710710723723134134110110268.10268.10YYXX2YY 2XX XX YY 先计算变量先计算变量 X X 和和 Y Y 的标准差的标准差: :317. 31011022nXXSX178. 51026822nYYSY780. 0178. 5317. 310134YXSSnYYXXr再将数据代入公式计算积差相关系数再将数据代入公式计算积差相关系数: :
9、( 182a )nYYnXXnYXXYr2222/2222YYnXXnYXXYnr( 182b )表18-2 10个学生初一与初二数学成绩积差相关系数计算表序号序号X XY YXYXY1 1747476765476547657765776562456242 2717175758041804156265626532553253 3727271715184518450415041511251124 4686870704624462449004900476047605 5767676765776577657765776577657766 6737379795329532962416241576757
10、677 7676765654489448942254225435543558 8707077774900490059295929539053909 954546262422542253844384440304030101074747272547654765184518453285328合计合计7107107237235052050520525415254151467514672X2Y代入公式计算代入公式计算: :两种公式计算结果相同,两种公式计算结果相同,但以原始数据的计算公式更但以原始数据的计算公式更为简捷和准确。为简捷和准确。1072352541107105052010/723710514
11、6722780. 0nYYnXXnYXXYr2222/等级相关(等级相关(rank correlation)是指以等级)是指以等级次序排列或以等级次序表示的变量之间的相关。次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼(主要包括斯皮尔曼(spearman)二列等级)二列等级相关和肯德尔和谐系数(相关和肯德尔和谐系数(the kandall coefficient of concordance)多列等级相关。)多列等级相关。 、斯皮尔曼等级相关的概念及适用条件斯皮尔曼等级相关是等级相关的一种。它斯皮尔曼等级相关是等级相关的一种。它适用于两个以等级次序表示的变量,并不要求适用于两个以等
12、级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容两个变量总体呈正态分布,也不要求样本的容量必须大于量必须大于3030。当连续数据不能满足计算积差相关的条件当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。级相关系数。2、斯皮尔曼等级相关系数的计算斯皮尔曼等级相关系数表示为斯皮尔曼等级相关系数表示为r rR R,其计算公式为:,其计算公式为:) 1(61161222nnDnnRRrYiXiR( 183 )公式中:公式中:R RX X为变量为变量X X的等级数,的等级数, R RY Y为变量为变量Y Y
13、的等级数,的等级数, D D为两变量的等级数之差,即为两变量的等级数之差,即D=RD=RX X-R-RY Y n n为样本的容量为样本的容量表表18-18- 1010个高三学生学习潜在能力测验个高三学生学习潜在能力测验(X)(X)与自学能力测验与自学能力测验(Y)(Y)成绩成绩斯皮尔曼等级相关系数计算表斯皮尔曼等级相关系数计算表序号序号X XY YX XY Y=R=RX X-R-RY Y1 190902 21 12 2-1-11 12 284841 12 21 11 11 13 376764 43 34 4-1-11 14 475755 54 45 5-1-11 15 573736 65 56
14、 6-1-11 16 671717 76 67 7-1-11 17 769698 87 78 8-1-11 18 868683 38 86 62 24 49 9666610109 91010-1-11 1101064649 910109 91 11 1合计合计13132D9212.01100101361)1(6122nnDrR如果有相同等级时如果有相同等级时, ,可用它们所占可用它们所占等级位置的平均数作为它们的等级。等级位置的平均数作为它们的等级。表表18-4 1018-4 10个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表序号序号X X
15、Y YR RX XR RY YD=RD=RX X-R-RY Y1 1747476762.52.53.53.5-1.0-1.01 12 2717175756 65 51 11 13 3727271715 57 7-2-24 44 4686870708 88 80 00 05 5767676761 13.53.5-2.5-2.56.256.256 6737379794 41 13 39 97 7676765659 99 90 00 08 8707077777 72 25 525259 954546262101010100 00 01010747472722.52.56 6-3.5-3.512.25
16、12.25合计合计71071072372358.558.52D思考思考: :同一组数据的积差相关系数和同一组数据的积差相关系数和等级相关系数为什么会有差别?哪一个等级相关系数为什么会有差别?哪一个更准确?更准确?645. 01100105 .5861) 1(6122nnDrR肯德尔等级相关方法有许多种,肯德肯德尔等级相关方法有许多种,肯德尔和谐系数是其中一种。尔和谐系数是其中一种。肯德尔和谐系数常以肯德尔和谐系数常以r r表示,适用于表示,适用于多列等级变量的资料。多列等级变量的资料。肯德尔和谐系数可以反映多个等级变肯德尔和谐系数可以反映多个等级变量变化的一致性。量变化的一致性。公式中:公式中
17、:表示肯德尔和谐系数表示肯德尔和谐系数 K K表示等级评定者的数目,即变量数表示等级评定者的数目,即变量数 n n为被等级评定的对象的数目为被等级评定的对象的数目 R R为被评定对象获得的为被评定对象获得的K K个等级之和个等级之和 SS SSR R为为R R的离差平方和,即的离差平方和,即nnKSSrRW32121( 184 )nRRSSiiR22n=n=7 7评价者评价者 K=10K=10Ri1 12 23 34 45 56 67 78 89 91010红红3 35 52 23 34 44 43 32 24 43 3333310891089橙橙6 66 67 76 67 75 57 77
18、76 66 6636339693969黄黄5 54 45 57 76 66 64 44 45 54 4505025002500绿绿1 11 11 12 22 22 22 21 11 12 21515225225青青4 43 34 44 43 33 35 56 63 35 5404016001600蓝蓝2 22 23 31 11 11 11 13 32 21 11717289289紫紫7 77 76 65 55 57 76 65 57 77 76262384438442802801351613516例表表18-5 18-5 肯德尔和谐系数计算表肯德尔和谐系数计算表 2iR学生学生n=6n=6评价
19、者评价者 K=4K=41 12 23 34 41 13 34 42 21 12 24 43 31 13 33 32 21 13 34 44 46 65 56 65 55 51 12 24 42 26 65 56 65 56 6例:例:4 4位教师位教师对对6 6位学生作文位学生作文竞赛的名次排列竞赛的名次排列次序如表次序如表18-618-6。问问4 4位教师评定位教师评定的一致性程度如的一致性程度如何?何?表表18-6 418-6 4位教师对位教师对6 6位学生作文竞赛的名次排列位学生作文竞赛的名次排列学生学生n=6n=6评价者评价者 K=4K=4Ri1 12 23 34 41 13 34 4
20、2 21 110101001002 24 43 31 13 311111211213 32 21 13 34 410101001004 46 65 56 65 522224844845 51 12 24 42 2 9 9 81 816 65 56 65 56 62222484484848413701370表表18-7 418-7 4位教师对位教师对6 6位学生作文竞赛名次排列的位学生作文竞赛名次排列的 肯德尔和谐系数计算表肯德尔和谐系数计算表 2iR有相同等级时有相同等级时, ,需要用肯德尔和谐系数的需要用肯德尔和谐系数的修正公式计算修正公式计算r rW W系数。系数。TKnnKSSrRW32
21、121( 185 )公式中:公式中: m为相同等级的数目。为相同等级的数目。123mmT一个变量为性质变量,一个变量为性质变量,另一个变量为数量变量,另一个变量为数量变量,这样的两个变量之间的这样的两个变量之间的相关称为质与量的相关。相关称为质与量的相关。 1、点二列相关适用条件一个变量为正态、连续变量,另一个变量为一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,真正的二分名义变量,这两个变量之间的相关,称为点二列相关(称为点二列相关(point-biserial correlation)。)。有时一个变量并非真正的二分变量,而是双有时一个变量并非真正的二分变量
22、,而是双峰分布的变量,也可以用点二列相关来表示。峰分布的变量,也可以用点二列相关来表示。 点二列相关系数的计算公式为或pqSXXrtqppbqpStXXrtppb( 191 )( 192 )公式中:公式中: 是与二分名义变量的一个值对应的连续变量的平均数是与二分名义变量的一个值对应的连续变量的平均数 是与二分名义变量的另一个值对应的连续变量的平均数是与二分名义变量的另一个值对应的连续变量的平均数 p 和和q分别是二分名义变量的两个值各自所占的比例,分别是二分名义变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差是连续变量的标准差pXqX表19-1 五岁幼儿投掷砂袋成绩例例19-1
23、19-1:1818个五岁幼儿掷砂个五岁幼儿掷砂袋(袋(150150克),克),成绩如表成绩如表19-119-1,问性别与投掷成问性别与投掷成绩的相关情况如绩的相关情况如何?何?序号序号成绩成绩性别性别序号序号成绩成绩性别性别14.01103.4223.62114.9133.52123.7243.22133.3254.41144.7164.81154.8173.82163.1285.21172.9294.71183.42表19-2 五岁幼儿性别与投掷砂袋点二列相关计算表序号序号成绩成绩性性 别别 序号序号成绩成绩性性 别别14.01133.3223.62144.7133.52154.8143.2
24、2163.1254.41172.9264.81183.4273.82分数总和分数总和71.437.533.985.21人数总和人数总和1881094.71人数比率人数比率0.4440.556103.42平均数平均数3.9674.6883.390114.91标准差标准差0.7090.3330.262123.72代入公式计算910. 0556. 0444. 0709. 0390. 3688. 4pqSXXrtqppb909. 0556. 0444. 0709. 0967. 3688. 4qpSXXrttppb或者两个变量都是正态连续变量,其中一个两个变量都是正态连续变量,其中一个变量被变量被成二分
25、变量,表示这两个成二分变量,表示这两个变量之间的相关,称为二列相关(变量之间的相关,称为二列相关(biserail correlation)。)。 将连续变量人为划分为二分变量时,应将连续变量人为划分为二分变量时,应注意尽量使分界点接近平均数。注意尽量使分界点接近平均数。二列相关系数的的计算公式公式中,公式中,Y Y为标准正态分布曲线中与为标准正态分布曲线中与P P值对应的值对应的纵线高度纵线高度其余符号与点二列相关计算公式中含义相同其余符号与点二列相关计算公式中含义相同YpqSXXrtqpbYpSXXrttpb( 193 )( 194 )例例19-219-2:表:表8-38-3是是1010名
26、学生在一次测验中的卷面名学生在一次测验中的卷面总分和一道问答题的得分。该问答题回答是否合格总分和一道问答题的得分。该问答题回答是否合格与卷面总分的关系如何?(该问答题满分为与卷面总分的关系如何?(该问答题满分为1010分,分,规定达到规定达到6 6分为合格)分为合格)表19-3 10名学生某题得分与卷面总分学生学生ABCDEFGHIJ卷面总分卷面总分75577365675663616567问答题分问答题分7674744476计算:计算: SX6.12,p0.6, q0.4,查正态分布表,当查正态分布表,当 p0.60时,Y0.3866733.67pX25.61qX62. 038667. 040
27、. 060. 012. 625.6133.67YpqSXXrtqpb3多系列相关(选学)当两个变量都是当两个变量都是,其中,其中变量按不同质被人为地分成变量按不同质被人为地分成(两类以上)的正态名义变量。表示正态(两类以上)的正态名义变量。表示正态连续变量与多类正态名义变量之间的相关,连续变量与多类正态名义变量之间的相关,称为多系列相关(称为多系列相关( multiserials correlation )。)。两个变量都是按性质划分成几种类别,两个变量都是按性质划分成几种类别,表示这两个变量之间的相关称为品质相关。表示这两个变量之间的相关称为品质相关。品质相关处理的一般是计数数据而不是品质相
28、关处理的一般是计数数据而不是连续数据,主要用于双向表或称为列联表连续数据,主要用于双向表或称为列联表(R RC C表)。表)。品质相关的方法有多种,最常用的是品质相关的方法有多种,最常用的是相关和列联相关。相关和列联相关。1、相关当两个变量都是二分名义变量,这两个变量当两个变量都是二分名义变量,这两个变量之间的关系,可以用之间的关系,可以用相关来讨论(两个变量都相关来讨论(两个变量都是人为二分变量的情况除外)。是人为二分变量的情况除外)。相关系数用相关系数用 表示。表示。r当两个变量都各分为两类时,数据在统当两个变量都各分为两类时,数据在统计表中占有四个单元格,因此这类统计表又计表中占有四个单
29、元格,因此这类统计表又称为四格表。称为四格表。相关就适用于四格表。相关就适用于四格表。四格表的一般形式变量变量12合 计变变量量1aba+b2cdc+d合计a+cb+dn=a+b+c+d相关系数计算公式( 19 )aba+bcdc+da+cb+ddbcadcbabcadr:144 例5-14:关于吸烟与患癌症之间关系数据的四格表癌症(癌症(0 0)其他(其他(1 1)吸烟者(吸烟者(0 0)64非吸烟者(非吸烟者(1 1)37从高中入学考试的英语试卷从高中入学考试的英语试卷中抽取中抽取100100份,并将成绩分为份,并将成绩分为和和。其中。其中中中等以上的有等以上的有1515人,中等以下的有人
30、,中等以下的有3131人;人;中等以上的有中等以上的有3636人,人,中等以下的有中等以下的有1818人。问英语测验人。问英语测验成绩与性别是否存在相关?成绩与性别是否存在相关?列表:中等以上中等以上中等以下中等以下男生男生153146女生女生3618543618100dbcadcbabcadr3396. 05446495136311815怎样解释怎样解释这一结果?这一结果?怎样理解怎样理解负相关?负相关?计算:2、列联相关当两个变量均被分成两个以上类别,或当两个变量均被分成两个以上类别,或其中一个变量被分成两个以上类别,表示这其中一个变量被分成两个以上类别,表示这两个变量之间的相关,称为列联
31、相关。两个变量之间的相关,称为列联相关。列联相关系数是由列联相关系数是由的列联表求得的列联表求得的,因此称为列联相关。最常用的是皮尔逊的,因此称为列联相关。最常用的是皮尔逊定义的列联相关系数。定义的列联相关系数。公式中:为列联相关系数公式中:为列联相关系数值是经检验计算的结果值是经检验计算的结果n是样本的容量是样本的容量22NC( 19 )22仅仅根据计算得到的相关系数还不足以仅仅根据计算得到的相关系数还不足以确定变量之间是否存在相关。只有通过对相确定变量之间是否存在相关。只有通过对相关系数显著性的检验,才能确定相关关系是关系数显著性的检验,才能确定相关关系是否存在。否存在。对相关系数进行显著
32、性检验包括三种情对相关系数进行显著性检验包括三种情况(即三种零假设):一是况(即三种零假设):一是=0=0;二是;二是= =0 0;三是;三是1 1= =2 2。本讲主要介绍前两种。本讲主要介绍前两种情况。情况。1积差相关系数的显著性检验相关系数的显著性检验即样本相关系数与相关系数的显著性检验即样本相关系数与总体相关系数的差异检验。总体相关系数的差异检验。包括两种情况:包括两种情况: =0=0和和= =0 0对对=0=0的检验是确认相关系数是否显著;的检验是确认相关系数是否显著;对对= =0 0的检验是确认样本所代表的总体的检验是确认样本所代表的总体的相关系数是否为的相关系数是否为0 0 。根
33、据样本相关系数根据样本相关系数 r 对总体相关系对总体相关系数数进行推断,是以进行推断,是以 r 的抽样分布正态的抽样分布正态性为前提的,只有当总体相关系数为零,性为前提的,只有当总体相关系数为零,或者接近于零,样本容量或者接近于零,样本容量 n 相当大(相当大(n5050或或n3030)时,)时,r 的抽样分布才接近于的抽样分布才接近于正态分布。正态分布。检验形式:双侧检验检验形式:双侧检验统计量为统计量为t t,检验计算公式为:,检验计算公式为:212rnrt(194) 2 ndf例例: :经计算经计算,10,10个学生初一和初二数学成个学生初一和初二数学成绩的相关系数为绩的相关系数为0.
34、780,0.780,能否说学生初一和初能否说学生初一和初二的数学成绩之间存在显著相关二的数学成绩之间存在显著相关? ?提出假设H H0 0:=0=0,H H1 1: 00选择检验统计量并计算对积差相关系数进行对积差相关系数进行=0=0的显著性检验,检的显著性检验,检验统计量为验统计量为t t统计决断根据根据df=10-2=8df=10-2=8,查,查t t值表值表P P,得,得t t(8)0.01(8)0.01=3.355=3.355,|t|t|t t(8)0.01(8)0.01, ,则则0.010.01,差异极其显著,差异极其显著应在应在0.010.01显著性水平拒绝零假设,接受研究假设显著
35、性水平拒绝零假设,接受研究假设结论:学生初一和初二的数学成绩之间存在极其显学生初一和初二的数学成绩之间存在极其显著的相关。著的相关。2780. 01210780. 0212rnrt524. 3根据根据df=8df=8,查附表,查附表7 7,从,从=0.01=0.01一列中找到一列中找到对应的积差相关系数临界值为对应的积差相关系数临界值为0.7650.765。计算得到的计算得到的r=0.780r=0.780,大于表中查到的临界,大于表中查到的临界值。因此应接受该相关关系极其显著的结论,而值。因此应接受该相关关系极其显著的结论,而拒绝相关关系不显著的零假设。拒绝相关关系不显著的零假设。00时,时,
36、r r的抽样分布呈偏态,不能用上述的抽样分布呈偏态,不能用上述公式计算。因此可先将公式计算。因此可先将r r与与都转换成都转换成ZrZr,因为,因为ZrZr的分布无论的分布无论的大小都近似于正态分布,于是的大小都近似于正态分布,于是不受不受0 0这一条件的限制。检验统计量的计算这一条件的限制。检验统计量的计算公式为:公式为: 331nZZnZZZrr(195) 2其它相关系数的显著性检验斯皮尔曼等级相关系数的显著性检验,斯皮尔曼等级相关系数的显著性检验,可直接查相关系数临界值做出判断。可直接查相关系数临界值做出判断。其它相关系数的显著性检验可根据教材其它相关系数的显著性检验可根据教材P P254254P P255255页的各种方法进行。页的各种方法进行。