1、第五章第五章 相关系数相关系数一、相关概述一、相关概述二、积差相关二、积差相关三、其他相关三、其他相关四、相关系数的解释和应用四、相关系数的解释和应用财富与健康财富与健康宗宗教教与与长长寿寿一、相关概述(一)含义:(一)含义:事物或现象之间的相互关系。想一想:相关关系 VS 函数关系城门失火殃及池鱼失之毫厘谬以千里蝴蝶效应一、相关概述(二)种类(二)种类变化方向变化方向变量个数变量个数相关程度相关程度正相关简单相关高度相关负相关复杂相关低度相关零相关一、相关概述(三)相关散布图(三)相关散布图1.形成2.关注的内容 整体形态(方向、相关强度)、异常值x x1 12 23 34 4y1335一、
2、相关概述(三)相关散布图(三)相关散布图3.用途(1)是否相关一、相关概述(三)相关散布图(三)相关散布图3.用途(2)是否线性相关一、相关概述(三)相关散布图(三)相关散布图3.用途(3)线性相关程度一、相关概述(三)相关散布图(三)相关散布图3.用途(4)相关变化方向正相关正相关负相关负相关一、相关概述(三)相关散布图(三)相关散布图练习:P72 四 178,8574,6960,7642,5353,7063,5970,8290,9554,6082,670102030405060708090100020406080100期末成绩期末成绩期中成绩期中成绩期中期中-期末成绩期末成绩一、相关概述(
3、三)相关散布图(三)相关散布图二、相关系数的测定相关系数相关系数 含义:含义:度量变量之间关系强度的一个统计量。对两个两个变量之间线性线性相关强度的度量称为简单相关系数。简单相关系数。表示符号表示符号 总体:样本:r二、相关系数的测定(一)积差相关(皮尔逊相关(一)积差相关(皮尔逊相关Pearsons correlation coefficient)1.1.公式:公式:yxnYYr)(XXR)(2222 yynxxnyxxynr学习P57,例1二、相关系数的测定2.2.注意事项:注意事项:(1)r值范围(-1,+1)(2)绝对值反映相关程度(3)正、负并非价值判断(4)只能表示线性相关(5)改
4、变计量单位,相关系数不变(6)受异常值影响较大(7)r接近于0,并不一定不相关,有可能是非线性相关。二、相关系数的测定猜一猜:二、相关系数的测定想一想,R or W?二、相关系数的测定3.3.练习练习x x1 12 23 34 410101010y1335111r1=0.99254r2=0.48107二、相关系数的测定R=0.994二、相关系数的测定积差相关系数的合并二、相关系数的测定决定系数决定系数相关系数的平方相关系数的平方二、相关系数的测定(二)等级相关1.斯皮尔曼等级相关(1)公式)1(611612222nnDnnRRrYiXiR公式中:RX为变量X的等级数,RY为变量Y的等级数,D为
5、两变量的等级数之差,即D=RX-RY n为样本的容量例:10个高三学生学习潜能测验(X)与自学能力测验(Y)成绩序号序号XYXY=RX-RY190212-1128412111376434-11475545-11573656-11671767-11769878-1186838352596610910-111064910911合计合计342D二、相关系数的测定例:10个高三学生学习潜能测验(X)与自学能力测验(Y)成绩序号序号XYXY=RX-RY190212-1128412111376434-11475545-11573656-11671767-11769878-11868383525966109
6、10-111064910911合计合计342D二、相关系数的测定2266 34110.7939(1)10 100 1RDrn n 二、相关系数的测定(2)适用条件:等级测量数据:两组变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料;总体不一定呈正态分布;样本数量不受30限制。二、相关系数的测定想一想:如果分数相同,应该如何分等级?当出现相同分数的数据时,用它们所占等级位置的平均数作为它们的等级。例:例:1010个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表序号XYRXRYD=RX-RY174762.53.5-1.
7、012717565113727157-244687088005767613.5-2.56.256737941397676599008707772525954621010001074722.56-3.512.25合计71072358.52D二、相关系数的测定二、相关系数的测定例:某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:r0.676 rR=1斯皮尔曼等级相关系数的精确程度比皮尔逊相关系数要低!等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系!560580二、相关系数的测定Spearman相关系数应用举
8、例:某班级父亲受教育水平和母亲受教育水平的相关性?斯皮尔曼相关系数:0.718解释?r =-0.292.2.肯德尔和谐系数肯德尔和谐系数肯德尔和谐系数常以肯德尔和谐系数常以r r表示,适用于表示,适用于多列多列等级变量的等级变量的资料。可以反映多个等级变量变化的一致性资料。可以反映多个等级变量变化的一致性。二、相关系数的测定肯德尔和谐系数的计算公式公式中:rW表示肯德尔和谐系数 K表示等级评定者的数目,即变量数 n为被等级评定的对象的数目 Ri为被评定对象获得的K个等级之和 R 为所有Ri的算数平均数 SSR为R的离差平方和,即nnKSSrRW32121222RRnRRSSiiiR二、相关系数
9、的测定 4 4位教师对位教师对6 6位学生作文竞赛的名次排列位学生作文竞赛的名次排列学生n=6评价者 K=41234134212431332134465655124265656例:4位教师对6位学生作文竞赛的名次排列次序如表所示。问4位教师评定的一致性程度如何?二、相关系数的测定学生n=6评价者 K=4Ri1234134211010024313111213213410100465652248451242 9 8165656224848413702iR4 4位教师对位教师对6 6位学生作文竞赛名次排列的肯德尔和谐系数计算表位学生作文竞赛名次排列的肯德尔和谐系数计算表 二、相关系数的测定22221
10、37084/6194iRiiRSSRnRR ()23231941940.11111*4*(66)*16*1290121212RWSSrKnn有相同等级时,需要用肯德尔和谐系数的修正公式计算rW系数。CKnnKSSrRW32121公式中:公式中:t为相同等级的数目。123ttC二、相关系数的测定P63 例6n=7评价者评价者 K=10Ri12345678910红红3.55233.543243331089橙橙65766.55776661.53782.25黄黄55576.56445451.52652.25绿绿111222211215225青青3.53443.535635401600蓝蓝2231111
11、32117289紫紫776557657762384428013481.52iR表表 存在相同等级时肯德尔和谐系数计算表存在相同等级时肯德尔和谐系数计算表5.312221222123312221233333ttC二、相关系数的测定Tips二、相关系数的测定肯德尔和谐系数W值介于0与1之间,计算值都为正值,若表示相关方向,可从实际资料中进行分析。一般而言,如果涉及到使用肯德尔和谐系数来评价评分者的信度,即评分者的一致性,则需要W值达到0.80.8以上。3.点二列相关和二列相关(1)点二列相关(point-biserial correlationpoint-biserial correlation)
12、适用条件:一个变量为正态、连续变量,另一个变量为真正的二分一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关。名义变量,这两个变量之间的相关,称为点二列相关。二、相关系数的测定点二列相关系数的计算公式:pqSXXrtqppb公式中:公式中:是与二分称名变量的一个值对应的连续变量的平均数是与二分称名变量的一个值对应的连续变量的平均数 是与二分称名变量的另一个值对应的连续变量的平均数是与二分称名变量的另一个值对应的连续变量的平均数 p 和和q分别是二分称名变量的两个值各自所占的比例,分别是二分称名变量的两个值各自所占的比例,p+q=1 St 是连续变量的
13、标准差是连续变量的标准差 pXqX二、相关系数的测定五岁幼儿投掷砂袋成绩例:18个五岁幼儿掷砂袋,问性别与投掷成绩的相关情况如何?序号序号成绩成绩性别性别序号序号成绩成绩性别性别14.01103.4223.62114.9133.52123.7243.22133.3254.41144.7164.81154.8173.82163.1285.21172.9294.71183.42二、相关系数的测定五岁幼儿性别与投掷砂袋点二列相关计算表序号序号成绩成绩性性 别别 序号序号成绩成绩性性 别别14.01133.3223.62144.7133.52154.8143.22163.1254.41172.9264
14、.81183.4273.82 分数总和分数总和71.437.533.985.21 人数总和人数总和1881094.71 人数比率人数比率0.4440.556103.42 平均数平均数3.9674.6883.390114.91 标准差标准差 0.7090.3330.262123.72代入公式计算:P64 例7910.0556.0444.0709.0390.3688.4pqSXXrtqppb二、相关系数的测定二、相关系数的测定4.二列相关计算公式公式中:公式中:是与二分称名变量的一个值对应的连续变量的平均数是与二分称名变量的一个值对应的连续变量的平均数 是与二分称名变量的另一个值对应的连续变量的平
15、均数是与二分称名变量的另一个值对应的连续变量的平均数 p 和和q分别是二分称名变量的两个值各自所占的比例,分别是二分称名变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差是连续变量的标准差 Y为正态曲线下与为正态曲线下与p相对应的纵高线相对应的纵高线 XpqXpqbxXXpqrY二、相关系数的测定4.二列相关适用条件:两列变量均为正态连续变量,其中一列被人为的划分为二分变量,N应比较大。解:因为语文测验总分与作文分数都为正态连续变量,解:因为语文测验总分与作文分数都为正态连续变量,而作文分数被人为地分为两类,所以,要计算作文与语而作文分数被人为地分为两类,所以,要计算作文与语文总
16、分的相关,应当采用二列相关公式。文总分的相关,应当采用二列相关公式。67.89pX50.85qX4.00 x由由p=0.60查附表查附表1,根据表中数据计算得,根据表中数据计算得,p=0.60,q=0.40解:因为语文测验总分与作文分数都为正态连续变量,解:因为语文测验总分与作文分数都为正态连续变量,而作文分数被人为地分为两类,所以,要计算作文与语而作文分数被人为地分为两类,所以,要计算作文与语文总分的相关,应当采用二列相关公式。文总分的相关,应当采用二列相关公式。67.89pX50.85qX4.00 x由由p=0.60查附表查附表1,根据表中数据计算得,根据表中数据计算得,p=0.60,q=
17、0.40得得Y=0.3863,89.6785.50 0.60 0.40.654.000.3863pqbxXXpqrY5.相关当两个变量都是二分称名变量,这两个变量之间的关系可以用相关来讨论。相关系数用 表示。r当两个变量都各分为两类时,数据在统计表中占有四个单元格,因此这类统计表又称为四格表。相关适用于四格表。二、相关系数的测定四格表的一般形式变量变量12合 计变量变量1aba+b2cdc+d合计a+cb+dn=a+b+c+d相关相关系数计算公式aba+bcdc+da+c b+ddbcadcbabcadr:相关例题:某区为研究性别与学习数学的关系,随机抽取100名学生,以数学成绩85分为线进行
18、分类,求性别与数学成绩间的相关系数。85分以上85分以下男生311849女生2922516040100 100名学生成绩分布表名学生成绩分布表065.0)2229)(2218)(2931(183129182231r即性别与数学成绩间的相关系数为0.065。1.概念及公式的使用条件 当两列变量都是正态连续变量,而且呈直线关系,只是两列变量都被人为地变成二分变量,表示这两列变量之间的相关称为四分相关。(二二)四分相关四分相关2.四分相关的计算方法 计算两列变量之间的四分相关,最常用的方法是皮尔逊提出的余弦法,其公式为:)1180cos(bcadrt解:将上表中的数据代入解:将上表中的数据代入公式里
19、,得公式里,得例如:下表的数据是根据377名学生在数学和物理两门课的考试成绩整理而成的。两门课的成绩为正态连续变量,只是分成了及格和不及格两类,试计算这两门课成绩的相关系数=cos73.013=0.2919线性相关小结X变量Y变量积差相关连续、正态数据,30个以上连续、正态数据,30个以上斯皮尔曼等级数据等级数据肯德尔2列以上等级变量点二列相关连续正态二分名义变量相关二分名义变量二分名义变量案例:我们发现吸烟的青少年犯罪率高于不吸烟的。进一步的研究显示:吸烟量越大,犯罪率越高。如何解释这个现象呢(1)吸烟影响判断力,进而导致行为偏差。(2)行为偏差令人沮丧,进而导致青少年借烟消愁。(3)家庭管
20、教不严的青少年容易学会吸烟;家教不严的青少年容易出现行为偏差。1.的取值介于-1与1之间,r 的取值范围是-1,12.在大多数情况下,|,即与的样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。|的数值愈接近于1,表示X与Y直线相关程度愈高;|的数值愈接近于0,表示X与Y直线相关程度愈低。一、相关系数的解释一、相关系数的解释第三节第三节 相关系数的解释与应用相关系数的解释与应用3.如果|=1,则表明与完全线性相关,当=1时,称为完全正相关,而=-1时,称为完全负相关。4.是对变量之间线性相关线性相关关系的度量 =0只是表明两个变量之间不存在线性关系,它并不意味着与之间不存
21、在其他类型的关系。通常判断的标准是:|0.3 称为微弱相关0.3|0.5 称为低度相关0.5|0.8 称为显著相关0.8|1 称为高度相关或强相关 相关系数取值及其意义 附加说明:(1)两变量间存在相关,仅意味着变量间有关联,并不一定是因果关系。(2)相关系数不是等距的测量单位。r是一个比值,不是由相等单位度量而来,不能进行加、减、乘、除运算。如r1=0.25,r2=0.5,r3=0.75,不能认为r1=r3-r2 或r2=2r1。(3)相关系数受变量取值区间大小及观测值个数的影响较大。变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列
22、变量,计算的结果可能相关,如学生的身高与学习成绩。本课程所举例题,数据较少,仅为说明计算方法时较方便本课程所举例题,数据较少,仅为说明计算方法时较方便。(4)相关系数在特定情况下使用才具有意义。如高中生身高与体重的相关系数用在儿童身上就没有意义。(5)通过实际观测值计算的相关系数,须经过显著性检验确定其是否有意义。三、相关系数的其它解释和应用(一)难度(二)区分度(三)信度(四)效度一、难度试卷或试题的难度,就是指考生在完成试题或试卷是所遇到的困难程度。描述考生作答一个试题或一份试卷所遇到的困难程度的量,叫难度系数。可以用以下两种方法计算:1.用得分率表示:2.用失分率表示:注意:试卷相对难度
23、设计的目的是调控考生成绩的分布,使之尽可能接近于正态分布。经测算,难度为0.5时可满足上述要求,此时标准差应该控制在1/6满分位附近。二、区分度二、区分度例题二、区分度注意:区分度:-1+1之间,越大越好,0.4以上很好,0.3-0.39之间比较好,0.2-0.29之间需要修改,0.2一下要淘汰。三、信度三、信度三、信度三、信度rhh=0.75rxx=2rhh/(1+rhh)=0.86四、效度效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度。测试的效度一般可分为以下几类:(1)逻辑效度(内容效度)(2)效标关联效度(准则效度)(3)结构效度(建构效度)四、效度四、
24、效度量化后的内容效度的值介于0与1之间,值越大表示内容效度越高。一般考试的效度应在0.4到0.7之间,大规模考试要求效度在0.9以上。效度证据名称简要描述内容关联效度评价工具对评价范围的内容取样的代表程度效标关联效度效标关联效度评价成绩对于学生在一外部效标上成绩的预评价成绩对于学生在一外部效标上成绩的预测程度测程度结构效度经验性证据能证实某种结构确实存在的程度以及评价工具能准确测量这一结构的程度三种效度证据效标关联效度效标关联效度预测测验预测测验 (如学习能力(如学习能力测验)测验)效标效标 (如后来的(如后来的成绩)成绩)预预测测信度与效度的关系效度与信度的关系为:信 度是效度的必要条件,但不是充分条件。一个测量的效度要高,其信度必须高,而一个测量的信度高时,效度并不一定高。