1、第四章测量信度测量信度1第一节 信度概述 什么是信度?什么是信度?信度(信度(reliabilityreliability)是指测量结果的稳定性程度,也叫测量的可靠)是指测量结果的稳定性程度,也叫测量的可靠性。性。操作定义:操作定义:r rxxxx=S=ST T2 2/S/Sx x2 2 r rXXXX=TXTX2 2 r rXXXX=XXXX 注意:注意:信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;性;真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概真分数的变异数是不能直接测量的,因此信度是一个理论上
2、构想的概念,只能根据一组实得分数作出估计。念,只能根据一组实得分数作出估计。2 信度系数与信度指数信度系数与信度指数 信度指数:相关系数信度指数:相关系数 信度系数:相关系数的平方信度系数:相关系数的平方 注意:注意:信度系数有多种。信度系数有多种。同一种信度系数也会因样本、测查时间不同而有多个。同一种信度系数也会因样本、测查时间不同而有多个。信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。获得较高的信度只是测验有效的必要条件。获得较高的信度只是测验有效的必要条件。3 三、信度的作用三、信度的作用 信度是测量过程中所存
3、在的随机误差大小的反映信度是测量过程中所存在的随机误差大小的反映 信度可以用来解释个人测验分数的意义信度可以用来解释个人测验分数的意义 SE=SSE=SX X1-1-r rXXXX 真分数的置信区间(真分数的置信区间(95%95%)=X=X1.96SE1.96SE 信度可以帮助进行不同测验分数的比较信度可以帮助进行不同测验分数的比较4 假设在一个智力测验中,某个被试的假设在一个智力测验中,某个被试的IQIQ为为100100,这是否反映了他,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该测验的真实水平?如果再测一次他的分数将改变多少?已知该测验的标准差为的标准差为1515,信度
4、系数为,信度系数为0.840.84、某被试在韦氏成人智力测验中言语智商为某被试在韦氏成人智力测验中言语智商为102102,操作智商为,操作智商为110.110.已知两个分数都是以已知两个分数都是以100100为平均数,为平均数,1515为标准差的标准分数。假为标准差的标准分数。假设言语测验和操作测验的分半信度分别是设言语测验和操作测验的分半信度分别是0.870.87和和0.88.0.88.问其操作问其操作智商是否显著高于言语智商呢?智商是否显著高于言语智商呢?5 一个测验可以有多个信度估计值,因而其误差估计值也会有多一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作者要注意选
5、择。个,在实际工作者要注意选择。本理论假定同一个团体中所有人的测量误差都是相同的,但实本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成一个点,而应看成是一个以该点为测量的结果不能僵硬地看成一个点,而应看成是一个以该点为中心,以中心,以SESE的某个倍数为半径上下波动的一个范围(区间估计)的某个倍数为半径上下波动的一个范围(区间估计)6第二节 信度的估计方法 一、重测信度一、重测信度 含义和计算含义和计算 重测信度(重测信度(test-retest rel
6、iabilitytest-retest reliability)是指用同一量表对同一组被)是指用同一量表对同一组被试施测两次所得结果的一致性程度。试施测两次所得结果的一致性程度。皮尔逊积差相关系数皮尔逊积差相关系数 (教材教材p48)p48)使用的前提条件使用的前提条件 所测量的心理特质必须是稳定的;所测量的心理特质必须是稳定的;练习和遗忘的效果基本上相互抵消;练习和遗忘的效果基本上相互抵消;在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。得更多的学习和训练。7 使用重测信度时应注意使用重测信度时应注意 两
7、次测验的时间间隔要适当(研究报告中需要说明)。两次测验的时间间隔要适当(研究报告中需要说明)。再测信度适用于速度测验或人格测验,不适用于难度测验。再测信度适用于速度测验或人格测验,不适用于难度测验。重测时应注意提高被试的积极性。重测时应注意提高被试的积极性。优缺点优缺点 用再测法估计信度的优点是能提供测验结果是否随时间而变化的用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。资料,可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。其缺点是易受练习和记忆的影响。8SPSS计算 求出两次测量的总分求出两次测量的总分 Analyze-Correla
8、te-Analyze-Correlate-BivariateBivariate9 二、复本信度二、复本信度 1 1含义和计算含义和计算复本信度(复本信度(Alternate-form reliabilityAlternate-form reliability)指的是两个)指的是两个平行的测验测量平行的测验测量同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测验上所得分数的积差相关系数。复本信度又称为验上所得分数的积差相关系数。复本信度又称为等值性系数等值性系数 测验实施的时间不同,复本信度所表达的含义略有不同。测验实施的
9、时间不同,复本信度所表达的含义略有不同。如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数数。如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数为稳定性与等值性系数。10 使用的前提条件使用的前提条件 两测验真正平行;两测验真正平行;被试要有条件接受两个测验。被试要有条件接受两个测验。优点优点 避免记忆效果和学习效应避免记忆效果和学习效应11 复本信度的局限性复本信度的局限性 如果所考虑的行为机能受到练习的影响很大,那么使用复如果所考
10、虑的行为机能受到练习的影响很大,那么使用复本只能减少但不能消除这种影响。本只能减少但不能消除这种影响。测验的性质会由于重复而有所改变,比如迁移的影响测验的性质会由于重复而有所改变,比如迁移的影响 编制真正的等值测验实际困难重重,因此许多测验没有复编制真正的等值测验实际困难重重,因此许多测验没有复本。本。12内部一致性信度(1)三、分半信度三、分半信度 含义和计算含义和计算 分半信度(分半信度(split-half reliabilitysplit-half reliability)是指将一个测验分)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性成对等的两半后,所有被试在这两
11、半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性,所以程度。由于分半信度描述的是两半题目间的一致性,所以有时也被称作内部一致性系数有时也被称作内部一致性系数。计算方法:皮尔逊积差相关 校正公式:斯皮尔曼校正公式:斯皮尔曼-布朗公式布朗公式 r rxxxx=2=2 r rhhhh/(1+1+r rhhhh)13 斯布公式只有在两半测验分数的斯布公式只有在两半测验分数的时才能使用,否时才能使用,否则,应选择下面两个等价的公式之一:则,应选择下面两个等价的公式之一:弗郎那根(弗郎那根(FlanaganFlanagan)公式:)公式:r rxxxx=2 1-=2 1-(S Sa a2
12、2 +S +Sb b2 2)/S/Sx x2 2 ,S Sa a2 2 ,S Sb b2 2 ,S Sx x2 2 分别为分半测验的方差和总分的方差分别为分半测验的方差和总分的方差 卢仑(卢仑(RulonRulon)公式)公式r rxxxx=1-S=1-Sd d2 2/S/Sx x2 2 ,S Sd d2 2 是两分半测验之差的方差是两分半测验之差的方差14 应用前提及范围应用前提及范围 分半信度通常是在只能施测一次或没有复本的情况下使用。分半信度通常是在只能施测一次或没有复本的情况下使用。15 常见的分半方法是按测题序号奇偶分半:常见的分半方法是按测题序号奇偶分半:测验题目按某种顺序(如难度
13、)排列;测验题目按某种顺序(如难度)排列;如果是随机排列的题目,则必须是所有题目是平等的(要如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);么难度相等,要么性质一致,是测同一个心理特质的);如果测验有多个分量表,应在分量表内部排好顺序,再把如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。各分量表的两半组合起来求相关。16SPSS计算第一种算法第一种算法 题目排序,分半题目排序,分半 求积差相关求积差相关 进行斯进行斯-布公式校正布公式校正第二章算法第二章算法 直接求分半系数直接求分半系数17内部一致性信度(2)
14、四、同质性信度四、同质性信度 含义含义 同质性信度(同质性信度(homogeneity reliabilityhomogeneity reliability)也叫内部一致)也叫内部一致性系数,它是指测验内部所有题目间的一致性程度。性系数,它是指测验内部所有题目间的一致性程度。同质性信度是指一个测验所测内容或特质的相同程度。同质性信度是指一个测验所测内容或特质的相同程度。18 题目间的一致性含有两层意思:其一是指所有题目题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心理特质都测的是同一种心理特质,其二是指所有题目得分其二是指所有题目得分之间都具有较高的正相关之间都具有较高的正相关。值
15、得注意的是,一些表面上看起来是测量同一种心值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目间不具有较高的正相关,理特质的题目,如果其题目间不具有较高的正相关,则不能认为它们具有同质性。则不能认为它们具有同质性。19 计算及适用范围计算及适用范围r rxxxx=K =K r rijij/1+/1+(K-1K-1)r rijij ,其中其中K K为一个测验的题目个数,为一个测验的题目个数,r rijij 为项目间相关系数的平均数为项目间相关系数的平均数 (1 1)KRKR2020公式:公式:r rxxxx=K/=K/(K-1K-1)1-1-(ppi iq qi i)/S/Sx
16、x2 2 p pi i为答对第为答对第i i题的人数的比例;题的人数的比例;q qi i为答错第为答错第i i题的人数的比例。题的人数的比例。K K为题目数,为题目数,S Sx x2 2为测验总分的变异。仅适用于(为测验总分的变异。仅适用于(0 0,1 1)记分的测验。)记分的测验。(2 2)KRKR2121公式:公式:r rxxxx=K/=K/(K-1K-1)1-1-(K p q K p q)/S/Sx x2 2 只有当所有题目的难度接近时才适用只有当所有题目的难度接近时才适用20(3 3)克龙巴赫)克龙巴赫系数:系数:=K/=K/(K-1K-1)1-1-(SSi i2 2)/S/Sx x2
17、 2 克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。实际上,实际上,K-RK-R 20 20 和和K-RK-R 21 21 只是只是系数的特例。系数的特例。系数是所有可能的分半信度的平均值。系数是所有可能的分半信度的平均值。是测量信度的下界的一个估计值。即是测量信度的下界的一个估计值。即值大,必有测量信度高,但值大,必有测量信度高,但值小时,却不能断定测量信度不高。值小时,却不能断定测量信度不高。21 计算步骤:计算步骤:按一定要求抽取按一定要求抽取n n个被试的试卷,计算几个人测验总分的方差个被试的试卷,计算几个人测验总分的方
18、差 这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题上得分的方差。上得分的方差。代入公式,最后求出代入公式,最后求出。22SPSS计算 Analyze-Scale-Reliability AnalysisAnalyze-Scale-Reliability Analysis 单击单击“Statistics”Statistics”出现出现reliability Analysisreliability Analysis:StatisticsStatistics 在在DescriptivesDescriptives for for
19、 方框中选取方框中选取“item”item”、“scale”scale”、“scale if item deleted”scale if item deleted”在在“inter-item”inter-item”,单击,单击“correlations”correlations”,单击,单击“continue”continue”按钮回到按钮回到“reliability Analysis”reliability Analysis”对话框,单击对话框,单击“ok”ok”按钮。按钮。23 当研究者采用试题的标准分数总和作为量表分数时,此情况应当研究者采用试题的标准分数总和作为量表分数时,此情况应该选
20、用标准化该选用标准化系数;系数;当研究者采用试题的标准分数总和作为量表分数时,则不选用当研究者采用试题的标准分数总和作为量表分数时,则不选用标准化标准化系数系数24(4 4)荷伊特信度)荷伊特信度 测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用作用三部分。荷伊特认为可用MSMS人人作为被试方差估计值,用作为被试方差估计值,用MSMS人人题题作作为误差方差估计值。为误差方差估计值。R Rxxxx=1-MS=1-MS人人题题/MS/MS人人 一般用于预测的测验或学绩测验可不考虑同质性。而验证理论一般
21、用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。效度有关。25 五、评分者信度五、评分者信度 含义含义 评分者信度(评分者信度(scorer reliabilityscorer reliability)是指多个评分者给同一批人的答)是指多个评分者给同一批人的答卷进行评分的一致性程度。卷进行评分的一致性程度。计算计算 2 2人时:相关系数人时:相关系数 多人时:肯德尔和谐系数多人时:肯德尔和谐系数 W=12 R W=12 R i i2-2-(R R i i)2/N/K22/N/
22、K2(N3-NN3-N)(K=3K=32020;N=3N=37 7时,查时,查W W表检验)表检验)K K是评分者人数,是评分者人数,N N是被评的对象数,是被评的对象数,R R I I为第为第i i个被试被评的水平等级个被试被评的水平等级之和之和26 将数据导入到将数据导入到SPSSSPSS中,点击:中,点击:analyse-nonparametricsanalyse-nonparametrics tests-K related samples tests-K related samples 把所有变量选中(所有作品的列)把所有变量选中(所有作品的列)再选中再选中Kendalls W,Ok
23、Kendalls W,Ok 结果出来了,结果出来了,主要看最下面一个表的数据,一个是主要看最下面一个表的数据,一个是Kendalls Kendalls WaWa,这个数字这个数字应该在应该在0.70.7以上,另一个是以上,另一个是AsympAsymp,这个数字应该小于这个数字应该小于0.05,0.05,如果如果结果不是符合这两个规则的话,一致辞性检验不通过,成绩要结果不是符合这两个规则的话,一致辞性检验不通过,成绩要重新打分。重新打分。27重测信度重测信度在两个时间点上对同一在两个时间点上对同一群人实施测验群人实施测验皮尔逊积差相关皮尔逊积差相关复本信度复本信度对同一群人实施一个测对同一群人实
24、施一个测验的两个版本验的两个版本皮尔逊积差相关皮尔逊积差相关内部一致性(分半)内部一致性(分半)一次性施测,然后分为一次性施测,然后分为两半计分两半计分皮尔逊积差相关,用斯皮尔逊积差相关,用斯皮尔曼皮尔曼-布朗公式校正布朗公式校正内部一致性(同质性)内部一致性(同质性)一次施测,然后比较所一次施测,然后比较所有可能的分半法有可能的分半法系数或系数或KR-20KR-20评判间信度评判间信度一次施测,由两个评分一次施测,由两个评分者或两种方法评分者或两种方法评分皮尔逊积差相关皮尔逊积差相关评判间信度评判间信度一次施测,由多个评分一次施测,由多个评分者或两种方法评分者或两种方法评分肯德尔和谐系数肯德
25、尔和谐系数28 评判间一致性系数评判间一致性系数 给出一个评分说明,让两个或更多人来打分,分数是顺序或者称名给出一个评分说明,让两个或更多人来打分,分数是顺序或者称名(等级或者是(等级或者是/否)否)公式公式 Cohens kappaCohens kappa 参考参考心理测量心理测量骆方骆方 孙晓敏译孙晓敏译 中国轻工业出版社中国轻工业出版社 评分者内部一致性系数评分者内部一致性系数 计算一个评分者在给不同测验打分时分数的一致性计算一个评分者在给不同测验打分时分数的一致性 系数或系数或KR-20KR-2029各种信度系数相应误差变异的来源信度信度误差变异来源误差变异来源重测信度时间取样复本信度
26、(连续施测)内容取样复本信度(间隔施测)时间与内容取样分半信度内容取样同质性信度内容取样和内容的异质性评分者信度评分者间的差异30几种心理测验的信度系数测验类型测验类型低信度低信度中信度中信度高信度高信度成套成就测成套成就测验验0.660.660.920.920.980.98学术能力测学术能力测验验0.560.560.900.900.970.97成套倾向性成套倾向性测验测验0.260.260.880.880.960.96客观人格测客观人格测验验0.460.460.850.850.970.97兴趣测验兴趣测验0.420.420.840.840.930.93态度量表态度量表0.470.470.79
27、0.790.980.9831第三节 提高测量信度的方法 影响测量信度的主要因素影响测量信度的主要因素 被试方面被试方面 被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高。主试方面主试方面 指导语、态度、期望等指导语、态度、期望等 施测情境施测情境32 四)测量工具四)测量工具 测验长度:测验越长,信度越高。测验长度:测验越长,信度越高。测验难度:过难或过易都会使个体间得分差异减小,降低信度。显
28、然测验难度:过难或过易都会使个体间得分差异减小,降低信度。显然只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会最高。通常这个难度水平为才会最高。通常这个难度水平为0.500.50。测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。(五)两次施测的间隔时间(五)两次施测的间隔时间 间隔时间越短,信度越高;间隔时间越短,信度越高;间隔时间越长,信度越低。间隔时间越长,信度越低。33斯皮尔曼布郎公式 公式中,公式中,K K为改变后长度与原长度之比为改变后长度与
29、原长度之比 r rxxxx为原测验的信度为原测验的信度 r rkkkk为测验长度是原来为测验长度是原来K K倍时的信度估计倍时的信度估计 xxxxkkrKrKr1134 例:某一测验有例:某一测验有1010个项目,信度是个项目,信度是0.600.60,问测验应增加到多少个项目,才能使信问测验应增加到多少个项目,才能使信度达到度达到0.900.90?35 解解:xxxxkkrKrKr11kkxxxxkkrrrrK11690.0160.060.0190.0 即,应扩大为原来的即,应扩大为原来的6 6倍,才能满足要求。倍,才能满足要求。调整后的测验长度应是调整后的测验长度应是6060个项目。个项目。
30、36 提高测量信度的常用方法提高测量信度的常用方法 适当增加测验的长度适当增加测验的长度 使测验中所有试题的难度接近正态分布,并控制在中等水使测验中所有试题的难度接近正态分布,并控制在中等水平平 努力提高测验试题的区分度努力提高测验试题的区分度 选取恰当的被试团体,提高测验在各同质性较强的亚团体选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度上的信度 主试者严格执行施测规程,评分者严格按照标准给分,施主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰测场地按测验手册的要求进行布置,减少无关因素的干扰37洛德(Lord)提出学绩测验难度
31、题型题型难度难度五选一五选一0.700.70四选一四选一0.740.74三选一三选一0.770.77是非题是非题0.850.85简答题简答题0.50.538几点说明 提高测量信度的方法还有很多。提高测量信度的方法还有很多。本章所讨论的各种信度计算方法仅适用于常模参照性测验。本章所讨论的各种信度计算方法仅适用于常模参照性测验。目标参照性目标参照性测验的信度必须以测量的测验的信度必须以测量的概化理论概化理论为基础才能进行为基础才能进行很好的处理。很好的处理。信度的标准信度的标准 信度高低的标准:标准化能力或学绩测验:信度高低的标准:标准化能力或学绩测验:0.900.90;人格测验:;人格测验:0.
32、800.80;教师自编学绩测验:教师自编学绩测验:0.600.60 测验解释的标准:一般来说,当信度测验解释的标准:一般来说,当信度0.700.70,测验不能用于对个人作,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当出评价与预测,而且不能作团体间比较;当0.700.70信度信度0.850.85时,可时,可用于团体比较;当信度用于团体比较;当信度0.850.85时,才能用来鉴别或预测个人成绩。时,才能用来鉴别或预测个人成绩。39速度测验的信度 对于速度测验,不存在评分者信度,也无法计算同质性信度,对于速度测验,不存在评分者信度,也无法计算同质性信度,而重测信度和复本信度均可按传统的
33、方法求得,只有分半信度而重测信度和复本信度均可按传统的方法求得,只有分半信度不能按传统方法估计不能按传统方法估计 要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,而应按测验时间划分相等的两部分,再求出两部分测验的相关,而应按测验时间划分相等的两部分,再求出两部分测验的相关,才是分半信度。才是分半信度。将测验分成两部分,然后以总测验的一半时间分别进行施测,将测验分成两部分,然后以总测验的一半时间分别进行施测,计算两部分得分的相关系数。计算两部分得分的相关系数。整个时限分为四部分,并求出在每个时限内的得分。计算第一整个时限分为四部分,
34、并求出在每个时限内的得分。计算第一部分和第四部分的总分数;第二部分和第三部分的总分数,然部分和第四部分的总分数;第二部分和第三部分的总分数,然后计算相关。后计算相关。40第五章测量效度测量效度41 效度(效度(validityvalidity)是指一个测验或量表实际能测出其所要)是指一个测验或量表实际能测出其所要测的心理特质的程度。测的心理特质的程度。在测验的众多质量指标中,效度是一个最重要的指标。在测验的众多质量指标中,效度是一个最重要的指标。测验测量的是什么东西?或者说,测验测到了它要测的东测验测量的是什么东西?或者说,测验测到了它要测的东西吗?西吗?测验对它所测量的东西测量到什么程度?测
35、验对它所测量的东西测量到什么程度?42 效度是一个相对的概念:每个测量工具都有自己的目的;内隐效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。特质是通过外显行为间接测得的。效度是测量的随机误差和系统误差的综合反映。效度是测量的随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据判断一个测量是否有效要从多方面收集证据 效度只有程度上的差异效度只有程度上的差异43在测量理论中,效度被定义为:在一列测量中,与测量在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变目的有关的真实变异数(由所要测量的变因引
36、起的有效变异)与总变异数(实得变异数)的比率。即:异)与总变异数(实得变异数)的比率。即:公式中,公式中,r rxyxy表示测量的效度系数;表示测量的效度系数;S SV V2 2表示有效变异数,表示有效变异数,S SX X2 2 表示总变异数表示总变异数222xyxvrSS效度44 效度与信度的关系效度与信度的关系 信度高是效度高的必要而非充分的条件信度高是效度高的必要而非充分的条件 测验的效度受它的信度制约测验的效度受它的信度制约 信度高,效度未必高,信度高,效度未必高,信度低,效度必然低;信度低,效度必然低;效度高,信度必然高,效度高,信度必然高,效度低,信度未必低。效度低,信度未必低。4
37、5第二节 效度的估计 测量效度是就测量结果达到测量目的的程度而言的,测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测所以测量效度的估计在很大程度上取决于人们对测量目的的解释。量目的的解释。常见的解释角度主要有三种:常见的解释角度主要有三种:测验内容测验内容 内容效度内容效度 理论结构理论结构 构想效度构想效度 工作实效工作实效 实证效度实证效度46高中化学标准测验双向细目表识记识记了解了解应用应用分析分析综合综合评价评价合计合计第一第一章章8 82 21010第二第二章章10106 62 210102828第三第三章章3 36 62 24 47 722
38、22第四第四章章2 29 912126 65 56 64040合计合计5 525252828141422226 610010047内容效度 1.1.含义及应用范围含义及应用范围内容效度(内容效度(content validitycontent validity)是指测验题目对有关内容或行为)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。容之间的吻合程度。因此,一个测验要有内容效度必须具备两个条件:因此,一个测验要有内容效度必须具备两个条件:(1 1)要有定义完好的内容范围)要有定义完好的
39、内容范围(2 2)测验题目应是所界定的内容范围的代表性取样。)测验题目应是所界定的内容范围的代表性取样。48 内容效度主要应用于成就测验。内容效度主要应用于成就测验。因为成就测验主要是测量被试掌握某种技能或学习因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。的主要考察方面。编制双向细目表就是为了提高内容效度。49 内容效度也适合于某些用于选拔和分类的职业测验。内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作中所需的知识这种
40、测验所要测的内容就是实际工作中所需的知识和技能,编制这种测验应首先对实际工作做较细的和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。分析,否则,题目取样的代表性就难以令人满意。50 内容效度不适合用于能力倾向测验和人格测验。内容效度不适合用于能力倾向测验和人格测验。此外,在使用内容效度时,要避免与表面效度(此外,在使用内容效度时,要避免与表面效度(surface surface validityvalidity)相混淆。)相混淆。表面效度表面效度是外行人对某个测验从表面上看好像是测某种心理特是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。质的
41、一种现象。512 2内容效度的确定方法内容效度的确定方法(1 1)逻辑分析法:专家判断根据自己的知识经验对量表的有效性)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。(逻辑性)作出判断,也称逻辑效度。为使内容效度的判断过程更客观,一般采用下列步骤:为使内容效度的判断过程更客观,一般采用下列步骤:确定测验内容的总体范围;确定测验内容的总体范围;编制双向细目表;编制双向细目表;编制评定量表,从测验内容所测的技能、题目对所定义的范围编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性的覆盖率、各种题目数量
42、和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。等方面,对测验作出总的评价。52(2 2)统计方法:用两个测验复本来测同一批被试,若相关高,则)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。效度。(3 3)再测法:)再测法:前测前测教学教学后测后测如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。53内容效度的优缺点 内容效度既具有一定的优点,也有一定的局限。其内容效度既具有一定的优点,也有一定的局限。
43、其主要缺点是缺乏可靠的数量指标,因而妨碍了各测主要缺点是缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。验间的相互比较。54结构效度 含义、特点与应用范围含义、特点与应用范围 结构效度(结构效度(structure validitystructure validity)是指一个测验实际测到所要)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。学理论的某种结构或特质的程度。特点:特点:构想效度的大小首先取决于事先假定的心理特质理论。构想效度的大小首先取决于事先假定的心理特质理论。当
44、实际测量的资料无法证实我们的理论假设时,并不一定当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验构想效度不高就表明该测验构想效度不高 。不可能有单一的数量指标来描述构想效度。不可能有单一的数量指标来描述构想效度。构想效度主要用于智力测验、人格测验等构想效度主要用于智力测验、人格测验等 。55 结构效度的确定方法结构效度的确定方法(1 1)提出理论框架;)提出理论框架;(2 2)依据理论框架推演出有关测验成绩的假设;)依据理论框架推演出有关测验成绩的假设;(3 3)用逻辑或实证的方法来证明假设。)用逻辑或实证的方法来证明假设。56 确定构想效度的基本方法确定构想效度的基本方法(1
45、1)测验内部寻找证据法)测验内部寻找证据法 分析测验的内容效度:若内容效度高,说明其结构效度也高;分析测验的内容效度:若内容效度高,说明其结构效度也高;分析被试对题目反应的特点:分析被试对题目反应的特点:有无社会称许性的题目,如有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。当事情不顺我意时,我时常动怒。”对该题对该题的回答,也许反映不了要测的性格。的回答,也许反映不了要测的性格。计算测验的同质性信度:分半信度、计算测验的同质性信度:分半信度、系数、系数、KR20KR20、KR21KR2157(2 2)测验之间寻找证据法)测验之间寻找证据法 相容效度:新老测验之间的相关(两测验测的是同
46、一心理特质)。若相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。相关高,则说明新测验可能有较高的效度。区分效度:新老测验之间的相关(两测验测的不是同一心理特质),区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。若相关低,则说明新测验可能有较高的效度。58(3 3)考察测验的实证效度法)考察测验的实证效度法 根据效标把被试分组,考察其得分差异。根据效标把被试分组,考察其得分差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的
47、差异。成就测验:分为高分组和低分组人格测验:分为不同类型的效标组59(4 4)多种特质)多种特质-多种方法矩阵法多种方法矩阵法 方法:方法:1 1、2 2、3 3 特质:特质:A A、B B、C C60A1A1B1B1C1C1A2A2B2B2C2C2A3A3B3B3C3C3A1A10.900.90B1B10.500.50 0.890.89C1C10.350.35 0.410.410.810.81A2A20.580.58 0.250.250.100.100.950.95B2B20.210.21 0.590.590.090.090.630.630.910.91C2C20.140.14 0.130.
48、130.500.500.570.570.530.530.850.85A3A30.550.55 0.200.200.130.130.690.690.320.320.300.300.930.93B3B30.110.11 0.600.600.190.190.200.200.680.680.290.290.500.500.960.96C3C30.150.15 0.200.200.700.700.210.210.190.190.670.670.530.530.510.510.920.9261(5 5)验证性因素分析)验证性因素分析(confirmatory factor analysisconfirma
49、tory factor analysis)验证性因素分析是目前心理学研究中应用的一种重要统计验证性因素分析是目前心理学研究中应用的一种重要统计分析方法,是在研究的范围内,对已有的理论结构进行验分析方法,是在研究的范围内,对已有的理论结构进行验证性分析的方法。证性分析的方法。在研究中,这一方法可以帮助我们讨论测验研究是否具有在研究中,这一方法可以帮助我们讨论测验研究是否具有构想效度。构想效度。62 对构想效度的评价对构想效度的评价 总的来说,构想效度促使研究者把着眼点放在提出假设、总的来说,构想效度促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具,而不再检验假设上,使得
50、测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展只是实际决策的辅助工具,从而使测验有了更广阔的发展前景。前景。63 三、实证效度三、实证效度 1 1含义、种类及作用含义、种类及作用 实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有是指一个测验对处于特定情境中的个体的行为进行估计的有效性。效性。被估计的行为是检验测验效度的标准,简称被估计的行为是检验测验效度的标准,简称效标。所以,实证效度又称所以,实证效度又称效标关联效度(criterion-related validitycriterion-related validity)。)。同时效度:测验