1、第五章 心理测量的信度 n第一节 什么是信度 n第二节 估计信度的方法 n第三节 影响信度系数的因素 n一、信度的意义n二、信度系数的作用 n backn一、信度的意义n信度即测验的可靠性,指的是测量的一致性程度。 n信度受随机误差的影响,随机误差越大,信度越低。 n在测量学中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即n (公式51)n式中 代表信度系数, 代表真分数的变异数, 代表实得分数的变异数,即总变异数。XTxxSSr22xxrTS2XS2n根据公式51,信度还可以表示为:n (公式52) XExxSSr221 n这个定义有两点要注意:n(1)信度是一组测
2、量分数的特性,不是某个测量分数的特性。是对一个人测量多次或对一个群体进行测量得到一组测量分数的特性n(2)真分数的变异数不能直接测量,因此信度是一个理论上构想的概念,只能根据一组实得分数进行估计。 n对于信度系数,还应该注意以下几点:n(1)在不同的情况下,对于不同的样本,采用不同的方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。n(2)信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。n(3)获得较高的信度系数并不是心理测量有效的充分条件,只是一个必要条件。 backn1.评价测验n信度系数是衡量测验好坏的一个重要的技术指标。 n一般能力与学绩测验的信度系数为0.9
3、0以上,有的可以达到0.95;标准智力测验的信度系数应达到0.85以上,个性和兴趣测验的信度系数可稍低,一般应达到0.700.80,(也有人认为兴趣、性格、价值观等人格测验的信度系数,通常在0.800.85或更高些)。当信度系数小于0.70时,不能用测验来对个人进行评价,也不能用来进行团体间的比较;当信度系数大于0.70时,可用来进行团体间的比较;大于0.85时,可以用来鉴别个人。 n2.用来估计个人的测验分数(真分数)n由于误差的存在,一个人通过测量得到的分数很难等于真分数。理论上,我们可以对一个人施测无数次,然后求得所得分数的平均数和标准差。在这个假设的分布里,平均数就是这个人的真分数,标
4、准差则为误差大小的指标。 Xn在实际工作中,我们用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(误差分误差分布的标准差布的标准差)我们称之为测量的标准误测量的标准误,是表示测量误差的大小的指标,其计算公式为:n (公式54)n式中SE表示测量的标准误,即误差分布的标准差;Sx表示一次测量分数的标准差;rxx表示信度系数。xxxrSSE1n我们可以用测量的标准误来估计个人测验的真分数的大小。 n如果选用95的可靠性水平(置信水平),即显著性水平(a值)为.05,真分数
5、有95的可能落入X SE ,即X 1.96 SE的范围之内,也可以写成X1.96SE T X1.96 SE,SE则用公式54代入。或有5的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。 2Zn例1,已知WISC-R的标准差为15,信度系数为0.95,对一名12岁的儿童实施该测验后,IQ为110,那么他的真分数在95的可靠度要求下,变动范围应是多大? n注意几点:n(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。n(2)置信水平确定后,估计的精度主要取决于SE,SE越小
6、,范围越小,估计就越精确,反之也然。n(3)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。 n3.用来对两种测验分数进行比较n来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。n如,某班期末考试,小明的数学成绩是80分,语文成绩是70分。另外,已知小明所在班级的数学平均成绩是70分,标准差是10分,语文平均成绩是60分,标准差是7分 。n我们可以用“差异的标准误”来检验差异的显著性。n差异的标准误的公式为:n (公式55)n 为差异的标准误,S为相同尺度的标准分数的标准差,Z分数为1,T分数为10。 、 分别为两个测验的信度系数。n先将原
7、始分数化成标准分数,然后将两个标准分数的差异与1.96SEd(0.05显著性水平)进行比较,如果其绝对值大于此值,则差异显著,否则差异不显著。yyxxdrrSSESESE22221dSEyyrxxrn例2,某校五年级进行了两次数学测验,小张第一次考了85分,此次数学测验年级平均分是77分,标准差是8分,此次测验的信度系数是0.84;第二次考了95分,此次数学测验年级平均分是81分,标准差是10分,此次测验的信度系数是0.91;问小张这两次数学测验的成绩是否有显著差异? n backn一、再测信度n二、复本信度n三、等值稳定性系数n四、内部一致性系数 n五、评分者信度 n总结总结n练习练习n b
8、ackn再测信度(Test-Retest Reliability) ,也叫重测信度,也叫稳定性系数。用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫再测信度。其计算公式(皮尔逊积差相关公式的变式)为:n (公式56)n式中X1、X2为同一被试的两次测验分数, 、 为全体被试两次测验的平均数,S1、S2为两次测验的标准差,N为被试人数。n再测法的模式是:施测 适当时距 再施测212121SSXXNXXrxx1X2Xn例2:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(为了便于理解和计算,本章估计信度的例子都是
9、小样组,实际应用时应采用大样组。)n表51 某幸福感调查表的两次测试结果n 测验被试12345678910X1 16151313111010987X21616141211911867n计算再测信度必须注意几个问题:n(1)所测量的特性必须是稳定的。当然绝对的稳定是不可能的,但应该是比较稳定的。n(2)遗忘和练习的效果基本上相互抵消。n在做第一次测验时,被试可能会获得某种技巧,但只要间隔时间适度,这种练习的效果会基本上被遗忘掉。n再测信度要考虑时间间隔的问题。到底多长合适呢?一般来说,无论对于那种被试,初测与再测的间隔最好不要超过六个月。 n(3)再测法适用于速度测验而不适用于难度测验。 n(4
10、)应注意提高被试者的积极性。 back n复 本 信 度 ( A l t e r n a t e F o r m Reliability),也称等值性系数(Coefficient of Equivalence)n用两个平行(等值)的测验对同一组被试施测,得到两组测验分数,求这两组测验分数的相关系数,这就是复本信度。因为这反应了两个测验的等值程度,因此又称等值性系数。计算方法与再测法是一样的。n复本信度的模式是:复本A 最短时距 复本B n例3:假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果见表52。请同学们自己计算。n表52 某创造力复本测验测试结果 测验被试123456789
11、10X1 20191918171614131210X22020181615171211139n复本信度应用时应注意以下几点:n(1)复本信度的关键在于两个量表必须等值,即必须具有相同的难度、区分度、长度、题型等。 n(2)两次测验的时距应尽可能短促,以便避免知识的积累、练习效应等因素的影响。 n(3)由于量表的两个复份在许多方面近似,所以信度系数有稍稍偏高的倾向。 n(4)被试易出现疲劳、失去积极性等反应,还会出现迁移。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本A再做复本,另一半被试先做复本再做复本A,以平衡顺序效应。n(5)复本法只能减少而不能完全排除练习和记忆的影响。n
12、(6)对于许多测验来说,建立复本是相当困难的。 backn三、等值稳定性系数n等值稳定性系数是用两个平行的(等值的)测验,间隔适当时距施测于同一组被试得到两组测验分数,求这两组测验分数的相关,其相关系数就是等值稳定性系数。n等值稳定性系数的模式是:n测验A 适当时距 测验Bn计算方法同稳定性系数和等值性系数。n等值稳定性系数也是采用复本对被试施测,但等值性系数的测验要求两次测验的时间间隔尽可能短,而计算等值稳定性系数的两次测验却要求有一个适当的时距。 n优点:n(1)因两次测试有适当的时间间隔,减少了复本法中的练习、疲劳效应。n(2)只要时间间隔适当,可用于计算稳定性不高的心理特质的测验的信度
13、。n注意:n等值稳定性信度系数的值一般要比等值性系数和稳定性系数要低。n等值稳定性系数是测验信度的最严格的考察,得到的是信度系数的下限。n backn利用一次测验所获得的资料来计算信度系数。这样计算出来的信度系数反应的是测验内部的一致性,即测验项目的同质性,叫做内部一致性系数或同质性系数。n(一)分半法(分半信度) n(二)其它计算内部一致性系数的方法 n back n分半信度(Split-half reliability):分半信度就是将测验题目分成等值的两半,分半求出量表题目的总分,再计算两部分总分的相关系数。 n分半的方法很多,常见的方法是把一个量表按题目番号分为两半,一半是奇数题,另一
14、半数偶数题。求出每个人的奇数题的总得分和偶数题的总得分,然后求出奇数题总得分和偶数题总得分的相关系数,最后对相关系数进行校正。 n校正公式有:n(1)斯皮尔曼布朗(Spearman-Brown)公式(公式57)n 式中, 是两半测验分数的相关系数,为整个测验的信度估计值。 hhhhxxrrr12hhrxxrn 采用斯皮尔曼布朗(Spearman-Brown)公式进行校正时,假定两半测验等值,亦即两半测验具有相同的平均数和标准差。当假定不能满足时,可以采用下面两个公式来估计信度。n弗朗那根公式:n (公式58)n式中, 、 分别为两半测验分数的变异数, 为测验总分的变异数。r为信度值。 xbaS
15、SSr22212aS2bS2xS2n卢伦公式:n (公式59)n式中, 为两半测验分数之差的变异数, 为测验总分的变异数。r为信度值。 xdSSr221 dS2xS2n例4:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评介测验结果的信度? n(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见表53。n 得分被试12345678910X1 38373841403638394035X237373639393438393936n采用分半信度应注意以下几个问题:n(1)若用分半法时,以按奇数题和偶数题分半为宜。n(2)在使用斯皮尔曼布朗公式时要
16、求全体被试在两半测验上的得分的变异数相等。当一个测验不宜分成对等的两半时分半信度不宜采用。n(2)当试卷中存在任选题时,不宜采用分半法。速度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。n(3)如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。n(4)将一个测验分成两半的方法很多(如,按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等),因此,一个测验可以有多个分半信度值。提供分半信度值时,要说明分半的方法。n backn分半法实际上是对测验内部一致性的一个粗略估计。
17、但对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。 n1.库德理查逊公式(KR20公式)n库德(Kuder)、理查逊(Richardson)针对分半法的不足,提出以项目统计量为转移,利用项目统计量来计算信度。称为K-R20公式。n (公式510)n式中k表示构成测验的题目数,pi为通过第i题的人数比例,qi为未通过第i题的人数比例, 为测验总分的变异数。 xiikRSqpKKr22011xS2n例5:有一种包含6个问题的测验,10个应试者的得分如表54(答对得1分,答错得0分),试估
18、计应试者反应的一致性程度。 n2. 库德理查逊另一公式(KR21公式)n当测验项目难度接近时可以采用库德理查逊提出的简便公式,称为KR21公式。nKR21公式为:n (公式511)n式中k表示构成测验的题目数, 为测验总分的平均数, 为测验总分的变异数。xxkRSKXKXKSr2221) 1()(xS2Xn3.克伦巴赫(Cronbach)的系数n库德理查逊公式只适用于两级记分的测验,而对多级记分的测验,则可以采用克伦巴赫(Cronbach)的系数,克伦巴赫的系数对两级记分的测验也是适用的。其计算公式为:n (公式511)n式中,K为测验的题目数, 为某一测验题目分数的变异数, 为测验总分的变异
19、数。xiSSKK2211iS2xS2n例6:有一种包含6个论文式题目的测验,对5个应试者施行,得分见下表55,试求该测验的信度。 n表 5-5 被试在测验上的得分n 题号被试ABCDE17118111126978936106894811683571181111671181111n五、评分者信度(Scorer Reliability)评分者信度:随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求其间的相关,所得的相关系数即为评分者信度。 n评分者信度的计算:n1.评分者为两个人时n若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算)。n若是等级评定或虽是等距
20、或等比的数据但分布非正态,则计算斯皮尔曼等级相关。n斯皮尔曼等级相关公式:n (公式512)n式中D为各对偶等级之差, 是各D平方之和,N为等级数目。) 1(6122NNDrR2Dn当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:n (公式513)n , ;n , n式中,N为成对数据数目,n为相等等级数目。 222222yxDyxrRCxCNNx123212) 1(2nnCxyCNNy123212) 1(2nnCyn例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数列入下表56,问这两位教师评分的一致性如何?n表 56 两位教师对10份试卷的评分试卷得分名次甲评分乙评分甲评分
21、乙评分A9493B9092C8692D8670E7282F7076G6865H6676I6468J6160n2.2.评分者为多个时评分者为多个时n采 用 肯 德 尔 和 谐 系 数 ( K e n d a l l coefficient of concordance)来估计信度系数n (公式514)n式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和。NNKNRRWii3222121n出现相同等级时采用下面的公式:n (公式515)n式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和,n为相同等级数目。TKNNKNRRWii)(121
22、3222123nnTn例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等级(共五等),并列入下表57。求六位老师所评等级的一致性程度。n表5-7评分者K6ABCDEFRiRi2试卷编号(N=5)13333332554555322112244454445112211n例9:三位教师评阅四份试卷,所评等级列入下表58。他们所评的等级的一致性程度怎样?评卷教师K3作文编号(N4)1234张3142王2141李2232Rin3.肯德尔和谐系数W的检验n(1)当3 N 7时,查心理与教育统计学的附表10,肯德尔W系数显著性临界n值表,用 值查表。n(2)当N 7,将所得W值代入下式n (
23、公式516)n n查卡方分布表。 backNRRSii22WNK) 1(21 Ndfn总结:n再测信度:估计信度中跨时间的一致性n复本信度:估计测验跨形式的一致性n等值稳定性系数:估计测验跨时间和形式的一致性n内部一致性系数:估计测验跨项目或两个分半测验之间的一致性n评分者信度:估计测验跨评分者的一致性n各种方法具有不同的意义,每一种信度系数不能代替其他的信度系数,所以编制或使用测验时,应该尽可能收集各种信度证据。 back n一、分数分布范围的影响n 相关系数受分数分布范围的影响,图51表明了分数范围对相关系数的影响。第一次测验验测次二第n其分数范围越广,信度系数就越大。反之也然。 n上述关
24、系也可从公式n中看出,一个测验的误差变异主要来自主试、施测环境、评分的客观性、被试等因素,当除被试外的另一些因素固定后,受测团体越是异质,所得分数变异越大,信度系数越大。因此,信度系数与团体的异质性有关。 221xExxSSrn由于信度系数与被试团体的异质性有关,因此,如果一本测验手册中,所报告的信度系数是从全体中、小学生的样本中得到的,我们不能认为把该测验用于小学五年级的团体时也能得到同样高的信度。当一个测验用于比常模更同质的团体时,要重新确定测量的信度。 n团体异质性不同,分数的标准差亦不同。当将测验用于标准差不同的团体时,可用下面的公式(克莱公式)推算出新的信度系数:n (公式517)n
25、式中S0为信度系数已知的分布的标准差,Sn为信度系数未知的分布的标准差,r00为原团体的信度,rnn为异质程度不同的团体的信度。20020)1 (1nnnSrSrn例10:一记忆力测验实施于某市全体初中生,其分数的标准差为10,信度系数为0.90,若将该测验施测于初二年级,其分数的标准差为6。求初二年级的信度系数的估计值。n由于信度系数与被试样本的异质程度有关,因此,在编制测验时,应把常模团体按年龄、性别、文化程度、职业、爱好等分为更为同质的亚团体,并分别报告每个亚团体的信度系数,这样测验才能适用于各种团体。 n二、测验长度的影响n测验的长度,即题目的数量,也是影响信度系数的一个因素。一般说来
26、,在一个测验中增加同质的题目,可以使信度提高。因为增加测验的长度可以加大分数的范围。对此问题可以这样理解:n(1)题目数量多,在每个题目上的随机误差互相抵消。n(2)测验题目数量增多,可以改进项目取样的代表性,从而能更好地反应受测者的真实水平。 n增加测验长度的效果可以用斯皮尔曼布朗公式的通式来计算:n (公式518)n式中K为改变后的长度与原来长度之比,为原测验的信度, 为测验长度是原来的K倍时的信度估计。xxxxKKrKKrr) 1(1xxrKKrn例11:有一个包括10个题目的测验,信度为0.50,若把测验增加到50个题目,其信度将增加到多少? n用同样方法可以算出题目数量继续增加时相关
27、系数的值见表59n表59 题目数量对相关系数的影响题 目数量1050100200300400500相 关系数0.500.830.910.950.9680.9760.980n由表5-9可以看出,增加题目数量可以提高信度,但并非多多益善。测验过长是得不偿失的:(1)测验过长,编制测验要浪费较多的时间和精力,施测时浪费受测者的时间和精力,花费大。(2)测验过长会引起被试的疲劳和反感,从而降低可靠性。为了节省时间和精力,有时还需要将过长的测验适当缩短,而不使其对信度有大的损害。 n可以根据公式518求出K值要达到多少才能使信度达到理想的水平。n例12:一个包含50个题目的测验信度是0.75,欲将信度提
28、高到0.90,需要增加多少题目? n注意注意:只有当新题目是与原题目选自同一总体,即与原题目具有同质性时,增加测验长度才能改进信度。 n三、测验的难度n如果测验太难,分数集中在低分段,如果测验太易,分数分布集中在高分段,这样都使分数分布的范围变窄,从而使信度降低。这表明,要使信度达到最高,能产生最广分数分布的难度水平最为合适。n当测验题目形式为选择题时,测验太难,受测者会对许多题目做随机反应,分数的差别将主要取决于随机误差,因而信度将趋于0。因此,如果题目允许猜测,应使整个测验稍微容易一点,以减少猜测机会,增加可靠性。洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度
29、为:n五选题:0.70;四选题:0.74;三选题,0.77;是非题:0.85。 backn1.对5个学生进行某种测验,得分分别为14、11、13、16、15。为了考察这个测验的信度,在20天后用原量表再次测验,得分分别为13、12、14、15、16。试计算稳定性系数,并解释之。2.有16人参加的一项测验,本拟再测一次以估计信度,但因学生毕业离校,无法再测,现把各人奇数题得分和偶数题得分分列后,请估计测验结果的信度。得分被试奇数题1817181514171713偶数题1817161613181714得分被试奇数题1313161415161316偶数题1313141414161517n3.4位教师评阅5份试卷,所评等级如下表,问评分是否一致? 阅卷者(K=4) 作文编号(N5) 12345张25431王15432李14532赵25431n4. 有一种包含7个论文式题目的测验,对6个应试者施行,得分见下表,试求该测验的信度。题号被试12345616117897259678737969684838879591177996911710101071091112810