1、第三章第三章 测量的误差及其检验测量的误差及其检验第一节 测量的误差 第二节 测量的信度 第三节 测量的效度 教学目的与要求教学目的与要求(1)了解测量误差的种类与来源(2)掌握信度的定义、意义及其估计方法(3)掌握效度的定义、意义及其估计方法第一节第一节 测量的误差测量的误差一、误差的定义和种类一、误差的定义和种类二、误差的来源二、误差的来源三、真分数三、真分数一、误差的定义和种类一、误差的定义和种类(一)误差的定义(一)误差的定义 误差是在测量中与目的无关的因素所产生的不不准确准确的或不一致不一致的结果。有二层含义:、误差是由与测量目的无关的因素引起的;、误差是不准确或不一致的测量结果。(
2、二)误差的种类(二)误差的种类1、随机误差:与测量目的无关的偶然因素引起的变化无规律的误差,这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性。2、系统误差:与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中。只影响测量的准确性。二、误差的来源二、误差的来源在心理测量中,常见的误差来源于三个方在心理测量中,常见的误差来源于三个方面:面:测验自身;测验自身;施测过程;施测过程;受测者本身。受测者本身。(一)测验自身引起的误差 主要来源于测验的编制过程,其中项目取样影响最大。(二)施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分小资料:
3、小资料:对于论文题、问答题要多少人评分,平均分对于论文题、问答题要多少人评分,平均分数才能相对稳定和客观呢?国外有人做过专数才能相对稳定和客观呢?国外有人做过专门研究,结果如下:哲学论文人,作门研究,结果如下:哲学论文人,作文人,物理人,数学人。文人,物理人,数学人。(三)被试引起的误差 既使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。1、应试动机被试对测验的动机不同,会影响其作答态度,注意力、持久性、反应速度等,从而影响测验成绩。2、测验焦虑测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉
4、快的情绪体验。3、测验经验任何一种新的项目形式,由于被试比较陌生,就可能使测验成绩受到影响。4、练习效应任何一个测验在重复使用时,都会有练习效应而使成绩提高。5、反应倾向反应倾向是指独立于测验内容的反应倾向。6、生理变因指生病、疲劳、失眠等生理因素影响测验成绩而带来误差。三、真分数(一)含义(一)含义理论定义:是指测量没有误差时所得到的真值。真分数是一个在理论上构想出来的抽象概念。操作定义:是无数次测量结果的平均值。(二)数学模型及其假设(二)数学模型及其假设、经典测量理论的基本思想、经典测量理论的基本思想把任何一个人在一个测验上的成绩都看作是真分数把任何一个人在一个测验上的成绩都看作是真分数
5、和测量误差的和,这是经典测量理论的基本思想。和测量误差的和,这是经典测量理论的基本思想。即:即:X=T+E X=T+E X X:实得分数或观测分数:实得分数或观测分数T T:假设的真分数:假设的真分数E E:测量误差:测量误差注意:注意:测量误差E指的是引起测量不一致的变因所产不一致的变因所产生的效应,生的效应,即指随机误差随机误差,不包括系统误差。系统误差不引起分数的改变,因此包含中真值中。关于测量误差关于测量误差E E有以下假设:有以下假设:()如果对一个人测量无数次或同一测验()如果对一个人测量无数次或同一测验施测于无限大的人群,其平均误差为,施测于无限大的人群,其平均误差为,即即 ;(
6、)真分数和测量误差是相互独立的()真分数和测量误差是相互独立的,即即 ;()误差分数和实得分数的相关为,()误差分数和实得分数的相关为,即即 。0E0TEr0EXr2 2、引申:、引申:(1)对于一个团体来说,实得分数的变异数等于其真分数的变异数与误差变异数之和。S SX X2 2=S=ST T2 2+S+SE E2 2(2)真分数的变异数可以分成两部分:与测量目的有关的变异SV2(有效变异)和与测量目的无关的但却稳定的变异SI2,即:S ST T2 2=S=SV V2 2+S+SI I2 2(3)一次测验中,一个团体的实得分数的变异性是由与测量目的有关的变异数SV2、稳定的但出自无关来源的变
7、异数SI2和随机误差的变异数SE2所决定的。即:S SX X2 2=S=SV V2 2+S+SI I2 2+S+SE E2 2SV2SI2SE2SX2ST2 第二节第二节 信度信度一、什么是信度一、什么是信度二、信度的类型及估计方法二、信度的类型及估计方法三、信度的应用三、信度的应用四、影响信度的因素四、影响信度的因素一、什么是信度一、什么是信度定义:指的是测量结果的稳定性程度(或叫可靠性、一致性)。思考:信度受随机误差的影响还是受系统误思考:信度受随机误差的影响还是受系统误差的影响?差的影响?在测量学中,信度被定义为:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比
8、率,或者是真实分数方差占总方差的百分比。计算公式:计算公式:r rxxxx=S=ST T2 2/S/SX X2 2 r rxxxx也被称为信度系数。也被称为信度系数。该定义有两点要注意:该定义有两点要注意:、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。、信度是一个理论上构想的概念,只能根据一组实得分数作出估计。信度系数r rxxxx实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如:当r rxxxx 0.9时,怎么解释?r rxxxx?r rxxxx 0?对信度系数也要注意三点:对信度系数也要注意三点:1)在不同情况下
9、,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的第一步,是使测验有效的一个必要条件。二、信度的类型及估计方法二、信度的类型及估计方法信度是个理论上构想的概念,在实际应用时,通常信度是个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致以同一样本所得的两组资料的相关,作为测量一致性的指标。由于测验分数的误差来源不同,估计信性的指标。由于测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数
10、只能说明信度度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。的不同方面,因而具有不同的意义。(一)重测信度(再测信度)(一)重测信度(再测信度)(二)复本信度(二)复本信度(三)分半信度(三)分半信度 (四)同质性信度(四)同质性信度 (五)评分者信度(五)评分者信度(一)重测信度(再测信度)1、含义与计算用同一个测验,在同样条件下同样条件下对同一组被试前后两次施测,求两次得分间的相关系数。它反映的是两次测验的结果有无变化,也就是测验分数的稳定程度,所以又称稳定性系数稳定性系数。计算公式为:212121/SSXXNXXrxx例题:假设有一份主观幸福感调查表,先后两次
11、施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(为了便于理解和计算,本(为了便于理解和计算,本章估计信度的例子都是小样组,实际应用时应采用章估计信度的例子都是小样组,实际应用时应采用大样组。)大样组。)表1 某幸福感调查表的两次测试结果 被 试测验 1 2 3 4 5 6 7 8 9 10X1 16 15 13 13 11 10 10 9 8 7X2 16 16 14 12 11 9 11 8 6 7解:用计算器算出:S1=2.82 S23.38 把以上数据代入公式20.111X00.112X 132421XX212121/SSXXNXXrxx97.038.382.200
12、.1120.11101324xxr2 2、使用的前提条件、使用的前提条件(1)所测量的心理特性必须是稳定的。(2)遗忘和练习的效果基本上相互抵消。(3)在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。3 3、使用时的注意要点、使用时的注意要点(1)两次测验的时间间隔要适当。(2)再测法适用于速度测验和人格测验。(3)应注意提高被试的积极性。提问:重测法的误差主要是来源于什么?提问:重测法的误差主要是来源于什么?4 4、优缺点、优缺点缺点:(1)易受练习和记忆的影响。(2)如果两次施测时间间隔较长,由于在此期间受到被试学习、成熟的影响,都会使两次测验结果不相同。(
13、3)同一被试对一个测验先后两次作答,对测验的兴趣不同、身心状况的变化,影响测验结果。(4)两次施测的条件不同,也是产生测量误差的因素。优点:(1)能提供有关测验结果是否随着时间而变异的资料,可作为预测受测者将来行为表现的依据;(2)首测和再测只需要一套测验题目,省时、省力;(3)同一套题目无论施测几次,所测的属性是完全相同的。(二)复本信度(二)复本信度 1 1、含义与计算、含义与计算含义:根据一组被试在两个平行(等值)测验上的得分计算的相关系数即为复本信度。其计算方法与再测法相同。例题:假设用A、B两型创造力复本测验对初中一年级10个学生施测,计算该测验的复本信度。结果见表2。被 试测验 1
14、 2 3 4 5 6 7 8 9 10X1 20 19 19 18 17 16 14 13 12 10X2 20 20 18 16 15 17 12 11 13 9表2 某创造力复本测验测试结果解:先用计算器计算得出以下值:把以上数据代入公式 8.151X1.152X22.31S59.32S 249421XX212121/SSXXNXXrxx94.059.322.31.158.15102494xxr2 2、使用的前提条件:、使用的前提条件:(1)要两份或两份以上真正真正等值的测验,必须是真正的复本,否则所得的信度就成了歪曲的估计。(2)被试要有条件接受两个测验。主要取决于时间、经费等几方面。3
15、 3、连续施测和间隔施测、连续施测和间隔施测(1 1)连续施测)连续施测同时施测的复本信度叫同时施测的复本信度叫等值性系数等值性系数。提问:同时施测的复本信度的误差主要来提问:同时施测的复本信度的误差主要来源于什么?源于什么?(2)间隔施测相距一段时间分两次施测得到的信度叫做稳稳定性与等值性系数定性与等值性系数。提问:间隔施测的复本信度的误差主要来源提问:间隔施测的复本信度的误差主要来源于什么?于什么?4 4、复本信度局限性、复本信度局限性如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;由于第二个测验只改变了题目的内容,已经掌握的解题原则,可以很容易地迁移到同类问题。对
16、于许多测验来说,建立复本是十分困难的。(三)分半信度 1、含义含义:按正常的程序实施测验,然后将全部项目分成相等的两半,根据各人在这两半测验的分数计算其相关系数。由于只需对一个测验进行一次施测,考察的是两半题目之间的一致性,所以这种信度系数有时也被称为内部一致性系数内部一致性系数。2 2、计算、计算提问:怎样对测验进行分半?提问:怎样对测验进行分半?进行奇偶分半时,要注意的问题是:怎样安排互相有牵连的题目。在这种情况下整个一组的题目应放到同一半。(1 1)两半测验分数的变异数相等(方差齐性)两半测验分数的变异数相等(方差齐性)先计算两半测验的积差相关系数,再进行斯皮尔曼先计算两半测验的积差相关
17、系数,再进行斯皮尔曼布朗公式校正:布朗公式校正:r rhhhh为两半分数的相关系数;为两半分数的相关系数;r rxxxx为测验在原长度时的信度估计为测验在原长度时的信度估计提问:为什么求得的分半信度要用斯皮尔曼布朗提问:为什么求得的分半信度要用斯皮尔曼布朗公式校正?公式校正?21hhhhrrr(2 2)两半测验分数的变异数不等(方差不齐)两半测验分数的变异数不等(方差不齐)当两半测验不等值时,可采用下列公式的两种之一,直接求得测验的信度系数:弗朗那根公式:Sa2 和Sb2表示两半测验分数的变异数SX2表示测验总分的变异数2222 1abxssrs卢伦公式:Sd2为两半测验分数之差的变异数;Sx
18、2为测验总分的变异数;r为信度值。提问:怎样理解卢伦公式?提问:怎样理解卢伦公式?221xdSSr 例:有一个由例:有一个由100100题构成的量表施测于题构成的量表施测于1010个个高三学生。测验一次后,应试者即毕业离高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?校。现在怎样评价测验结果的信度?被 试测验 1 2 3 4 5 6 7 8 9 10X1 38 37 38 41 40 36 38 39 40 35X2 37 37 36 39 39 34 38 39 39 36解:因不能再次测验,只能求分半信度。步骤:(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X
19、2),见表:解:用计算器求得(也可以用计算机做):(1)斯皮尔曼布朗公式(平均数和标准差差异显著性检验略)2.381X4.372X78.11S26.3xS98.0dS1431121XX84.062.178.14.372.381014311hhr91.084.0184.02xxr62.12S(2)弗朗那根公式:91.026.362.178.112222r2222 1abxssrs221xdSSr91.026.398.0122r(3)卢伦公式:3 3、使用的前提条件及范围、使用的前提条件及范围(1)分半信度通常是只能施测一次或没有复本的情况下使用。(2)由于将一个测验分成两半的方法很多,所以,同一
20、测验通常会有多个分半信度值。(3)当试卷中有任选题时不宜用分半法,速度测验也不宜用分半法。(四)同质性信度(四)同质性信度 1 1、含义、含义同质性也指内部一致性,指测验内部所有题目间所有题目间的一致性。题目的一致性有两层含义:其一是指所有题目都测的是同一种心理特质;其二是指所有题目之间都具有较高的正相关。总之,同质性信度就是一个测验所测内容或特质的相同质性信度就是一个测验所测内容或特质的相同程度。同程度。2 2、测量同质性的基本公式:、测量同质性的基本公式:K:K:构成测验的题目数 :项目间相关系数的平均数 :同质性性度值提问:这个公式说明什么?提问:这个公式说明什么?ijijkkrKrKr
21、)1(1ijrkkr3 3、库德、库德-理查逊公式:适用于客观性试题(理查逊公式:适用于客观性试题(0 0、1 1记分)记分)K-RK-R2020公式:公式:K K:构成测验的题目数:构成测验的题目数P Pi i:通过第:通过第i i题的人数比例题的人数比例q qi i:未通过第:未通过第i i题的人数比例题的人数比例S Sx x2 2:测验总分的变异数:测验总分的变异数211xiikkSqpKKrK-RK-R2121公式:适用于各项目难度相近的情况公式:适用于各项目难度相近的情况 K:K:构成测验的题目数构成测验的题目数 :测验总分的平均数测验总分的平均数S Sx x2 2:测验总分的变异数
22、测验总分的变异数222)1()(11xxxiikkSKXKXKSSqpKKKrX4 4、克伦巴赫系数:适用于多重记分测验、克伦巴赫系数:适用于多重记分测验K K:构成测验的题目数:构成测验的题目数S Si i2 2:某一题目分数的变异数:某一题目分数的变异数S Sx x2 2:测验总分的变异数:测验总分的变异数2211xiSSKK题号被 试Si2 ABCDE1711811113.042697891.3636106892.5648116836.965711811113.046711811113.04406241545265.182iS例:有一种包含6个论文式题目的测验,对5个应试者施行,得分见下
23、表,试求该测验的信度。解:(1)求每题各被试得分的方差S Si i2 2、方差和(2)求测验总分的变异数即各被试得分的方差(即求40、62、41、54、52的方差),Sx 2 68.96(3)代入公式求信度系数 65.182iS875.072.02.196.6865.1811664 4、注意:、注意:用库德-理查逊公式和克伦巴赫系数所求得的信度通常比分半信度低。上面这些公式不适用于速度性测验。提问:同质性信度的误差主要来源于什么?提问:同质性信度的误差主要来源于什么?(五)评分者信度(五)评分者信度1 1、含义、含义指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间
24、所产生的误差。2 2、方法与计算、方法与计算方法:随机抽取相当份数的试卷,由两个或多个评分者按评分标准打分,然后求其间的相关。(1)(1)两个评分者两个评分者采用皮尔逊积差相关或等级相关。一般要求经过训练的成对评分者之间的一致性程度一般要求经过训练的成对评分者之间的一致性程度达到达到0.900.90以上,才认为评分是标准客观的。以上,才认为评分是标准客观的。(2)多个评分者评多个对象,并用等级法计分时,可以用肯德尔和谐系数肯德尔和谐系数:W:和谐系数K:评分者的人数N:被评对象数Ri:每一对象被评的等级总和。2223112iiRRNWKNN 论文专家123456A241563B341562C3
25、51462Ri 813314187例:假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分者的评分者信度。22223223:,6 3,8 1 1,3,611 26 38 1 1613(66)1 20.9 5iiiiRRknRRNWKNNi解分 别 求 出 各 篇 论 文 等 级 之 各 R则 有提问:提问:评分者信度的误差主要来源于什么?评分者信度的误差主要来源于什么?以上介绍的各种信度估计方法都是对测验的一致性进行估计,但由于误差来源不同,它们的研究侧面各不相同,说明的是信度的不同方面。这些方法具有不同的意义,每一种信度系数不能代替其他信度系数。估计信度的方法与测验复本的数目估计信度
26、的方法与测验复本的数目以及施测次数的关系以及施测次数的关系所需要所需要施测的次数施测的次数所需要复本的数目所需要复本的数目一一二二一一分半信度分半信度同质性信度同质性信度评分者信度评分者信度复本信度复本信度(连续施测)(连续施测)二二再测信度再测信度复本信度复本信度(间隔施测)(间隔施测)各种信度系数相应误差变异的来源各种信度系数相应误差变异的来源信度系数的类型信度系数的类型误差变异的来源误差变异的来源再测信度再测信度复本信度(连续施测)复本信度(连续施测)复本信度(间隔施测)复本信度(间隔施测)分半信度分半信度同质性信度同质性信度评分者信度评分者信度时间取样时间取样内容取样内容取样时间与内容
27、取样时间与内容取样内容取样内容取样内容的异质性内容的异质性评分者间的差异评分者间的差异提问:提问:在理论上,哪种方法得到的信度系数最高?在理论上,哪种方法得到的信度系数最高?哪种最低?哪种最低?实际上,有多少种误差来源,便有多少种估实际上,有多少种误差来源,便有多少种估计信度的方法。一个测验哪种误差大,便应计信度的方法。一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要几种该用哪种误差估计。有时一个测验需要几种信度系数,这样我们就能把总分数的变异数信度系数,这样我们就能把总分数的变异数分成不同的分支。分成不同的分支。假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A、
28、B复本,所得到的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数,将二者平均后用斯皮尔曼-布朗公式校正)。同时,我们让另一个评分者随机抽取50份卷另外评分,得到的评分者信度为0.92。那么,这个测量的总误差变异是多少?真实的变异那么,这个测量的总误差变异是多少?真实的变异是多少?是多少?一个假想测验的误差变异来源分析一个假想测验的误差变异来源分析信度类型信度类型误差变异量误差变异量误差变异来源误差变异来源复本信度(间隔施测复本信度(间隔施测)1-0.70=0.30时间与内容取样时间与内容取样分半信度分半信度1-0.80=0.20
29、内容取样内容取样上述二者差异上述二者差异0.30-0.20=0.10 时间取样时间取样评分者信度评分者信度1-0.92=0.08评分者差异评分者差异误差变异总和误差变异总和0.20+0.10+0.08=0.38真实变异真实变异1-0.38=0.62一个假想测验的误差变异来源分析一个假想测验的误差变异来源分析真实变异真实变异误差变异误差变异时间上的稳定性,复时间上的稳定性,复本之间的一致性,评本之间的一致性,评分者之间的一致性分者之间的一致性 内容取内容取样误差样误差时间取时间取样误差样误差评分者评分者间差异间差异62%20%10%8%注意:信度虽然是测验的特性,但不能笼统地说某个测验的信度有多
30、高。只能说在特定的条件下,用于特定的团体,采用特定的方法所得到的某个测验的信度系数是多少。总之,信总之,信度总是与特定的情境有关的。度总是与特定的情境有关的。三、信度的应用三、信度的应用(一)评价测验(二)解释分数(一)评价测验(一)评价测验一般能力与成就测验的信度系数在一般能力与成就测验的信度系数在0.900.90以上,以上,有的可以达有的可以达0.950.95,性格、兴趣、价值观等人,性格、兴趣、价值观等人格测验的信度系数,通常在格测验的信度系数,通常在0.800.80到到0.850.85或更或更高些。高些。(二)解释分数(二)解释分数、个人测验分数的误差、个人测验分数的误差用一组被试两次
31、施测的结果来估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量个人在两次测验中的分数差异就是测量误差,误差,由此可制成误差分数的分布。这个分布的标准差就是测量的标准误标准误,是表示测量误差大小的指标。提问:测量的标准误与信度间有什么关系?提问:测量的标准误与信度间有什么关系?xxxrSSE1测量的标准误实际上是在一组测量分数中误差分布的标准差,可以像其它标准差一样地解释。我们可以根据标准误从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。人们一般采用95的或然率水准,其置信区间为:(X-1.96SE)T(X+1.96SE)(X-1.96SE)T(
32、X+1.96SE)例题:在一次测验中有些学生得80分,如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84。注意:(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。(2)置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确。(3)真分数不能等同于真正能力或心理特质,当系统误差对施测分数产生影响时,用此方法估计出的真分数并非代表被试的真正能力或特质,因此我们应该选择效度较高的量表,减小系统误差。、两种测验分数的比较、两种测验分数的比较为了说明个人在两种测验上表现的优劣,我们可用“差异的标准误差异的标准误”来检验其差异的显著性,常用的公式
33、如下:如果两种分数的差异达到或超过.05的显著水平,始能认为二者真有差异。yyxxdrrSSESESE22221例题:某被试在韦氏成人智力测验中言语智商为102,操作智商为108。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢?思考题:为什么以上介绍的估计信度的方法不适用于标准参照测验?四、标准参照测验的信度估计四、标准参照测验的信度估计1 1、对相关法信度系数进行校正、对相关法信度系数进行校正利文斯顿公式:2222,.NRCRCRNRr SXCrSXCrrSXC式中 为标准参照测验的信度为
34、任何一种相关法信度系数为分数的标准差为分数的均值 为达标分数或分数线2 2、用决策的一致性作为信度指标、用决策的一致性作为信度指标林德曼与梅伦达的一致性公式:C为一致性,n为在两次施测中均未达标的人数,b为在两次施测中均已达标的人数,f为只在第一次施测中达标的人数,s为只在第二次施测中达标的人数,v为f或s中较小的值。()nbsfCnbv nbv五、影响信度的因素五、影响信度的因素(一)被试的样本(一)被试的样本当一个测验用于比常模团体更为同质的团体当一个测验用于比常模团体更为同质的团体时,要重新确定测量的信度:时,要重新确定测量的信度:22)1(1nooonnSrSr例题:一个测验应用于全体
35、小学生团体的样本(常模团体),其分数的标准差为10,信度系数为0.90,假如将此测验应用于小学五年级,其分数标准差为5。其信度系数应为多少?(二)测验的长度(二)测验的长度测验的长度也是影响信度系数的一个因素。这是因为:1、测验越长,测验的测题取样或内容取样越有代表性,可以更好地反映被试的真实水平。2、测验的项目越多,在每个项目上的随机误差就可以相互抵消。1(1)xxkkxxxxkkKrrkrrr式中k为改变后长度与原长度之比,为原测验的信度,为测验长度是原来的k倍时的信度估计.增加测验长度的效果可以用斯皮尔曼-布朗公式的通式来计算:例题1:假设有一个包括10个题目的测验,信度为0.50,若把
36、测验增加到50个题目,其信度将增加到多少?例题2:一个包含50个题目的测验信度是0.75,欲将信度提高到0.90,需要增加多少题目?注意:注意:只有当新题目与原题目选自同一总体,即与只有当新题目与原题目选自同一总体,即与原题目具有同质性时,增长测验才能改进信原题目具有同质性时,增长测验才能改进信度。度。(三)测验的难度(三)测验的难度难度对信度的影响只存在于某些测验中,如智力测验、成就测验、能力倾向测验等。提问:从理论上讲,测验处于什么难度时,提问:从理论上讲,测验处于什么难度时,所得的信度系数最大?为什么?所得的信度系数最大?为什么?当测验过难而且题目允许猜测时,被试会对许多题目作随机反应瞎
37、猜,这样我们就无法对其分数置信。洛德洛德提出了在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五选题:0.70四选题:0.74三选题:0.77是非题:0.85第三节第三节 测量的效度测量的效度一、什么是效度一、什么是效度二、效度和信度的关系二、效度和信度的关系三、效度的类型及评估方法三、效度的类型及评估方法四、标准参照测验的效度四、标准参照测验的效度五、影响效度的因素五、影响效度的因素六、对各种效度系数的要求六、对各种效度系数的要求一、什么是效度一、什么是效度定义:效度指的是测量的有效性和正确性,即一个测验能够测量出其所要测量的东西的程度。效度和信度一样,也是一个相对的概念。这种相
38、对性表现在两个方面:效度是相对于一定的测量目的而言的。效度只有程度上的差异。在测量学中,效度被定义为:在一组测量中,与测量目的有关的变异(或称有效在一组测量中,与测量目的有关的变异(或称有效变异)与实得变异数(总变异)的比率。即:变异)与实得变异数(总变异)的比率。即:一个测验的效度表明:在一组测验分数中,有多大一个测验的效度表明:在一组测验分数中,有多大比例的变异数是由测验所要测量的变因引起的。比例的变异数是由测验所要测量的变因引起的。22xvSS效度该定义有两点要注意:该定义有两点要注意:、和信度一样,效度也是指的是一组测验分数或一列测量的特性,而不是个人分数的特性。、由于有效变异是一个理
39、论值,无法测量,所以效度和信度一样是一个理论上构想的概念,SV2SI2SE2SX2ST2 二、效度和信度的关系二、效度和信度的关系思考:思考:效度受随机误差的影响还是受系统误差的影响?效度受随机误差的影响还是受系统误差的影响?(一)信度是效度的必要而非充分条件。(一)信度是效度的必要而非充分条件。(二)效度是受信度制约的。(二)效度是受信度制约的。2222222xIxxxITxvSSrSSSSS效度三、效度的类型及评估方法三、效度的类型及评估方法(一)内容效度(一)内容效度(二)构想效度(二)构想效度(三)效标效度(三)效标效度(一)内容效度(一)内容效度1 1、定义:、定义:指项目对欲测的指
40、项目对欲测的内容或行为范围内容或行为范围取样的取样的适当程度。适当程度。一个测验要具备较好的内容效度必须满足的条件:(1)要确定好内容范围,并使测验的全部项目均在此范围内。(2)测验题目应是所界定的内容范围的代表性取样。代表性取样,就是选出的项目能包含所测的内容范围的主要方面,并且使各部分项目所占比例适当。2 2、内容效度的评估方法、内容效度的评估方法(1 1)专家判断法)专家判断法请有关专家对测验题目与原定内容范围的符合性做出判断。这是一种定性分析的方法。步骤:定义好内容总体。划分细纲目,并根据重要性规定好各纲目的比例,对内容范围作尽可能详尽的描述。确定每个题目所测的内容与技能,并与测验编制
41、者所列的双向细目表对照,逐题地将自己的分类与编制者的分类作比较。制定评定量表,对测验作出总的评定。(2 2)复本法)复本法克伦巴赫认为,内容效度可由一组被试在取自同样内容范围的两个测验复本上得分的相关来作数量上的估计。(3 3)再测法)再测法先将测验施测于某个团体,该团体对测验所包括的内容仅具有最少量的知识,因而得分很低。然后,让这个团体参与者有关材料的学习和训练,结束后将测验再测一次。(4 4)经验法)经验法检查不同年级的学生在测验上的得分和在每个题目上的反应情况。测验总分和题目通过率随着年级而增高,就是测验具有内容效度的证据。3 3、内容效度的局限、内容效度的局限思考:内容效度的主要缺点是
42、什么?思考:内容效度的主要缺点是什么?内容效度缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。4 4、内容效度的应用、内容效度的应用(1)是编制任何测验应加以考虑的基本方面。(2)对标准参照测验更为重要。(3)内容效度也适用于某些对员工选拔和分类的职业测验。(4)内容效度对于能力倾向测验和人格测验一般是不适用的。(5)在实际应用中,注意内容效度容易和表面效度混淆。表面效度就是外行人从表面看这个测验是否有效。表面效度不是效度的客观指标,它虽然不能保证测量的正确性,但能对被试的动机产生影响,因而也会影响到效度。(二)构想效度(二)构想效度1 1、定义、定义构想心理学理论所涉及的抽象而属假设性的概
43、念或特质,它们往往用某种操作来定义并用测验来测量。构想效度测验对某一理论或特质测量的程度,也叫结构效度或构思效度。2 2、确定构想效度的基本步骤、确定构想效度的基本步骤(1)从某一理论出发,提出关于某一心理特质的假设。(2)根据假设设计和编制测验并进行施测。(3)对测验的结果采用相关或因素分析等方法进行分析,验证与理论假设的相符程度。注意:构想效度是由累积的证据来评价的,因而不注意:构想效度是由累积的证据来评价的,因而不可能有单一的效度指标。可能有单一的效度指标。3 3、确定构想效度的方法、确定构想效度的方法 有关构想效度的资料可以用很多方法从不有关构想效度的资料可以用很多方法从不同来源去搜集
44、,归纳起来有以下几种:同来源去搜集,归纳起来有以下几种:测验内法测验内法测验间法测验间法效标关联法效标关联法实验操作法实验操作法 (1 1)测验内法)测验内法这类方法主要是研究测验内部构造,如测验内容、对题目作反应的过程、以及测验的同质性等等来分析测验的构想效度。确定测验的内容效度测验的内容效度有时可以作为测验的构想效度的证据。对测验所取样的内容或行为范围确定后,就可利用这些资料来定义测验所要测的构想的性质。分析被试对题目做反应的过程通过观察被试的操作,询问他如何处理题目,以及必要的统计分析,可发现哪些变量影响了反应,因而可确定测验是否测量了所要测的特质。考察测验的同质性这种方法是以测验的内在
45、一致性系数(如KR20,KR21,以及系数等)为指标,判断测验测的是单一特质还是多种特质,从而确定测验构想效度的高低。从测验的一致性可以为构想效度提供证据。(2 2)测验间法)测验间法通过研究几个测验间的相互关系,找出它们的共同特点,进而推断出所测的共同特质是什么,便可确定这些测验是否有构想效度。相容效度计算被试在新测验上的分数与另一个效度已知的同类测验上的分数之间的相关。假如相关高,说明这两个测验测的是相同特质。由于相关系数的平方代表两组测验分数所共由于相关系数的平方代表两组测验分数所共有的变异数比例,所以这种方法所确定的效有的变异数比例,所以这种方法所确定的效度称为度称为相容效度相容效度。
46、区分效度一个有效的测验不仅应与其他测量同一构想的测验有较高的相关,而且还应与测量不同构想的测验具有低相关。用这种方法确定的效度叫做区分效度。因素效度通过对一组测验进行因素分析,可以找到影响测验分数的共同因素。每个测验与各因素的相关,称做是测验的因素效度。而在测验分数的总变异数中来自有关因素的比例,便可作为构想效度的指标。(3 3)效标关联法)效标关联法通过考察一个测验的效标效度来了解该测验的构想效度。第一种方法:我们可以根据效标选取不同的被试,组成对照组,然后比较两组被试的测验成绩,看测验分数能否把他们区分开来,如果能把他们区分开来,就说明这个测验测量的是所要测的构想。第二种方法:我们可以根据
47、测验分数把被试分成高分组和低分组,然后比较两组被试的行为特点。如果这些特征与定义的构想相符,就说明该测验具有构想效度。(4 4)实验操作法)实验操作法通过实验操作控制某些条件,观察其对测验分数的影响,也可以获得构想效度的信息。如:我们假设将“考试焦虑”定义为“当考试当考试结果对个体有重大意义时的一种害怕失败的紧结果对个体有重大意义时的一种害怕失败的紧张情绪张情绪”,这是一个构想。现在有一个焦虑测验,我们想考察一下这个测验对测量考试焦虑是否有构想效度,为此可以设计以下几种实验情境:第一种:在一场决定前途命运的重要考试之前施测焦虑测验,将其分数与平时接受焦虑测验的分数比较。第二种:举行两种考试,使
48、被试相信一场考试关系重大,一场考试无关紧要,然后将考试结果与焦虑测验分数比较。第三种:搜集被试在经历一场重大考试时的生理心理参数(如脉搏、血压等)作为焦虑的指标,将其与焦虑测验分数比较。4 4、对构想效度的评价、对构想效度的评价(1)缺点有些构想概念模糊,没有一致的定义。确定效度时没有明确的操作步骤和程序。没有单一的数量指标来描述有效的程度。(2)优点构想效度促使研究者把着眼点放在提出假设上、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展情景。(三)效标效度(三)效标效度1 1、定义、定义被预测的行为是衡量测验是否有效的参照标准,就是效标。
49、效标效度就是考查测验分数(预测源)与效标的关系,看测验对我们感兴趣的行为预测得如何。因为效标效度需要有实际证据,所以又叫实证效度。实证效度。2 2、分类、分类同时效度,即测验分数与效标资料同时获得。这种效度通常与心理特征的评估及诊断有关。预测效度,效标资料需过一段时间才可以搜集到。这种效度对人员的选拔和安置工作非常重要。“某人成功了吗?某人成功了吗?”“”“某人得精神病了吗?某人得精神病了吗?”“某人会成功吗?某人会成功吗?”“”“某人会得精神病吗?某人会得精神病吗?”3 3、效标和效标测量、效标和效标测量(1)效标衡量测验有效性的参照标准,指的是可以直接而且独立测量的我们感兴趣的行为,就是要
50、预测的行为。(2)常用的效标学业成就等级评定临床诊断特殊训练的成绩实际工作表现对团体的区分(3)效标测量效标可以分为两个层次:其一是理论水平的观念效标;其二是操作定义水平的效标测量。观念效标是一个概念,效标测量是对观念效标的数量化。效标测量必须具备以下几个条件:有效性效标测量必须要能真正反映观念效标,即效标测量本身必须有效。可靠性效标测量还必须稳定可靠,也就是具有较高的信度。客观性当效标测量是主观评定时,可能受到评定者主观印当效标测量是主观评定时,可能受到评定者主观印象和成见的影响而引起偏差。因此,采用判断性的象和成见的影响而引起偏差。因此,采用判断性的效标测量,必须控制偏见,尽量使评定过程客