1、PSYCHOLOGICAL&EDUCATIONAL(第三版第三版)八省师范大学合编心理学主干课程系列教材八省师范大学合编心理学主干课程系列教材李金德李金德 主讲主讲广西大学行建文理学院广西大学行建文理学院MEASUREMENT心理与教育测量心理与教育测量第1页,共39页。第九章第九章 测验等值测验等值第2页,共39页。本章提要本章提要 测验等值的实质测验等值的实质 测验等值的条件测验等值的条件 测验等值的基本计算方法测验等值的基本计算方法 常用等值设计常用等值设计 测验等值误差及估计测验等值误差及估计第3页,共39页。第一节第一节 测验等值概述测验等值概述 一、测验等值来源于测量实践的需要一、
2、测验等值来源于测量实践的需要 二、测验等值的实质二、测验等值的实质 三、测验等值的条件三、测验等值的条件 四、测验等值的一些基本概念四、测验等值的一些基本概念 五、测验等值结果的表示方法五、测验等值结果的表示方法第4页,共39页。一、测验等值来源于测验实践的需要一、测验等值来源于测验实践的需要在我国考试实践中,有许多大规模的考试需要进行测验等值。在我国考试实践中,有许多大规模的考试需要进行测验等值。例如,例如,高等教育自学考试高等教育自学考试各专业的各门课程的考试,通常是在同一各专业的各门课程的考试,通常是在同一课程考试大纲下,每年重复测试所谓的平行试卷,人们有理由提出课程考试大纲下,每年重复
3、测试所谓的平行试卷,人们有理由提出这样的问题这样的问题:某门课程今年考生所得的某门课程今年考生所得的6060分是否与去年同一课程考生分是否与去年同一课程考生所得的所得的6060分等值分等值?因为只有在它们等值的情况下,考试对这两年参加因为只有在它们等值的情况下,考试对这两年参加同一门课程测验的考生才是公平的。同一门课程测验的考生才是公平的。第一节第一节 测验等值概述测验等值概述第5页,共39页。测验等值:测验等值:将不同测验(考察同一特质)上的分数(特质水平值)和项将不同测验(考察同一特质)上的分数(特质水平值)和项目(试题)参数做出单位系统转换,从而使之能相互比较的目(试题)参数做出单位系统
4、转换,从而使之能相互比较的过程,叫做过程,叫做第6页,共39页。二、测验等值的实质二、测验等值的实质从从本质本质上说,测验等值就是通过对考核上说,测验等值就是通过对考核同一种心理品质同一种心理品质的多个测的多个测验形式作出测量分数系统的转换,进而使得这些不同测验形式的测验形式作出测量分数系统的转换,进而使得这些不同测验形式的测验分数之间具有验分数之间具有可比性可比性。A B CA B C 82 85 80 82 85 801.1.测验等值中所说的测量分数系统的转换与测验原始分数及导出测验等值中所说的测量分数系统的转换与测验原始分数及导出分数之间的转换是不相同的。分数之间的转换是不相同的。2.2
5、.寻找测验等值关系与寻找两测验之间预测关系也是不相同的。寻找测验等值关系与寻找两测验之间预测关系也是不相同的。第7页,共39页。三、测验等值的条件三、测验等值的条件1.1.同质性同质性 要求等值的两个测验必须是测量同一心理特质的。要求等值的两个测验必须是测量同一心理特质的。很难想象可以把数学测验的分数等值转换成语文测验的分数,但很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能等值转换成另一次内容难度近似的数学测验数学测验分数却可能等值转换成另一次内容难度近似的数学测验分数。分数。2.2.等信度等信度3.3.公平性公平性4.4.对称性对称性5.5.样本不变性样本不变性
6、等值测验是两个或多个测验之间客观存在的实际关系。等值测验是两个或多个测验之间客观存在的实际关系。6.6.可递推性可递推性 如果如果f(x)=y,g(y)=zf(x)=y,g(y)=z,那么,那么h(x)=gf(x)=zh(x)=gf(x)=z第8页,共39页。四、测验等值的一些基本概念四、测验等值的一些基本概念(一)成对出现的概念(一)成对出现的概念1.1.经典测验理论与项目反应理论等值经典测验理论与项目反应理论等值经典测验理论(经典测验理论(CTTCTT)、项目反应理论()、项目反应理论(IRTIRT)、概化理论()、概化理论(GTGT)。)。区别在于等值时以何种区别在于等值时以何种测验理论
7、测验理论为指导。为指导。经典测验理论(经典测验理论(CTTCTT)的)的缺陷:严重依赖样本;两测验被试分缺陷:严重依赖样本;两测验被试分数分布大体相同。数分布大体相同。2.2.测验分数等值与项目参数等值测验分数等值与项目参数等值根据测验等值的根据测验等值的直接操作对象直接操作对象不同而构成的一对概念。不同而构成的一对概念。第9页,共39页。3.3.水平等值与垂直等值水平等值与垂直等值 根据测验试卷的根据测验试卷的难度难度和和被试能力分布被试能力分布是否有差异而区分的一是否有差异而区分的一对概念。对概念。进行垂直等值化的原因:进行垂直等值化的原因:举例:举例:一套成就测验由不同水平的几个测验构成
8、,每一水平适一套成就测验由不同水平的几个测验构成,每一水平适应于某一年级范围的学生。例如该测验的水平应于某一年级范围的学生。例如该测验的水平1 1正好适合二年正好适合二年级初的学生,水平级初的学生,水平2 2正好适合二年级末的学生。然而,对那些正好适合二年级末的学生。然而,对那些在二年级进步较慢的学生而言,水平在二年级进步较慢的学生而言,水平2 2可能太难而无法得到准可能太难而无法得到准确的测验结果。一种可能的解决办法就是对这些学生施测水平确的测验结果。一种可能的解决办法就是对这些学生施测水平1 1。为了解释这些学生的测验成绩,就有必要知道这两种水平。为了解释这些学生的测验成绩,就有必要知道这
9、两种水平的等值分数。这个过程被称为垂直等值化。的等值分数。这个过程被称为垂直等值化。第10页,共39页。五、测验等值中的一些专用技术名词五、测验等值中的一些专用技术名词1.1.测验等值设计测验等值设计 定义:定义:为了寻找不同测验形式之间的等值关系而预先对为了寻找不同测验形式之间的等值关系而预先对数据的数据的采集方法采集方法、等值实现的途径等值实现的途径、等值的计算方法等值的计算方法进行周密的进行周密的设计,称为测验等值设计。设计,称为测验等值设计。等值设计的最主要原则是要使得所采集的数据能最有效提供不等值设计的最主要原则是要使得所采集的数据能最有效提供不同测验形式的差异信息。同测验形式的差异
10、信息。第11页,共39页。2.2.锚测验锚测验定义:在测验等值设计中,有时会采用一组测验试题来关联两个定义:在测验等值设计中,有时会采用一组测验试题来关联两个待等值的测验形式,以便寻找两形式的等值关系,这些测验试题待等值的测验形式,以便寻找两形式的等值关系,这些测验试题被称作为锚测验。被称作为锚测验。要求:同质性;等信度;长度不小于原测验的要求:同质性;等信度;长度不小于原测验的1/51/5。第12页,共39页。3.3.数据平滑法数据平滑法比较实用的两种数据平滑法:比较实用的两种数据平滑法:一种叫对数线性平滑法一种叫对数线性平滑法 一种叫一种叫二项式平滑模式二项式平滑模式第13页,共39页。等
11、值完成之后必须对等值结果进行评价。评价的目标是所估等等值完成之后必须对等值结果进行评价。评价的目标是所估等值关系的可靠性与准确性,其指标是等值关系中所包含的等值值关系的可靠性与准确性,其指标是等值关系中所包含的等值误差的大小。误差的大小。关于等值标准误差、等值偏差关于等值标准误差、等值偏差:(1 1)理解的时候可以从随机等值误差(等值标准误差)和)理解的时候可以从随机等值误差(等值标准误差)和系统等值误差(等值偏差)的角度来理解。系统等值误差(等值偏差)的角度来理解。(2 2)注意:以上主要是在)注意:以上主要是在CTTCTT的范围内对测验分数等值所作的探讨。的范围内对测验分数等值所作的探讨。
12、第14页,共39页。4.4.等值标准误差等值标准误差 测量学把由测量学把由抽样抽样而引起的等值误差称作等值标准误差。而引起的等值误差称作等值标准误差。像测验误差不可避免一样,等值误差也是像测验误差不可避免一样,等值误差也是不可避免不可避免的。的。第15页,共39页。等值标准误差的操作定义:等值标准误差的操作定义:应用样本数据估计测验形式应用样本数据估计测验形式X X与与Y Y的等值关系时,如果反复抽取等容的等值关系时,如果反复抽取等容量的样本,可以求得许多个量的样本,可以求得许多个X X与与Y Y的等值关系,对于的等值关系,对于X X的一个固定值的一个固定值X X0 0,会有若干个不等的会有若
13、干个不等的Y Y0 0与之对应,这若干个与之对应,这若干个Y Y0 0的标准差就是对应于的标准差就是对应于X=X=X X0 0的等值标准误差。的等值标准误差。从这里可以看出等值标准误差的大小是会随着被等值的具体分数而从这里可以看出等值标准误差的大小是会随着被等值的具体分数而变化的。变化的。从总的趋势来说,随机等值误差的大小是会随着从总的趋势来说,随机等值误差的大小是会随着样本容量样本容量的增大而减的增大而减小的。小的。控制办法:控制办法:数据平滑法数据平滑法 测验等值误差是一个变量,随等值分数的大小而变,其测验等值误差是一个变量,随等值分数的大小而变,其总趋势总趋势是是等值分数越趋于分布的两端
14、,等值的标准误差越大。等值分数越趋于分布的两端,等值的标准误差越大。第16页,共39页。5.5.等值偏差等值偏差 在等值测验中除了抽样引起等值误差之外,等值处理方法在等值测验中除了抽样引起等值误差之外,等值处理方法不当也会引起等值误差,测量学上把这种等值误差称为偏不当也会引起等值误差,测量学上把这种等值误差称为偏差。差。第17页,共39页。系统等值误差系统等值误差在等值设计和等值关系估计过程中,必须作出若干假设,具备若干在等值设计和等值关系估计过程中,必须作出若干假设,具备若干等值条件,如果这些假设被违背或者条件不能被充分满足,都会产等值条件,如果这些假设被违背或者条件不能被充分满足,都会产生
15、系统误差。生系统误差。例如,设计一中的假设不能满足的情况例如,设计一中的假设不能满足的情况等值的系统误差与随机误差不同,系统误差难以量化、难以发现,等值的系统误差与随机误差不同,系统误差难以量化、难以发现,系统误差的大小也不随样本容量的增大而变小。系统误差的大小也不随样本容量的增大而变小。第18页,共39页。形成等值系统误差的可能原因有四种:形成等值系统误差的可能原因有四种:(1)当应用等值方法的统计假设不满足时,所估等值关系中就会出)当应用等值方法的统计假设不满足时,所估等值关系中就会出现系统误差。现系统误差。(2)当为估计等值关系所设计的数据采集规则未被严格遵)当为估计等值关系所设计的数据
16、采集规则未被严格遵循,所估等值关系中也会出现系统误差。循,所估等值关系中也会出现系统误差。(3)估计等值关系时所用的被试组与实际使用这两测验的被)估计等值关系时所用的被试组与实际使用这两测验的被试组有实质性的差异,此时将所估等值关系应用于实测群体,试组有实质性的差异,此时将所估等值关系应用于实测群体,系统误差也就产生了。系统误差也就产生了。(4)某些等值数据处理技术的使用也可能引进系统误差。)某些等值数据处理技术的使用也可能引进系统误差。第19页,共39页。六、测验等值结果的表示方法六、测验等值结果的表示方法1.1.表列法表列法 应用应用最普遍最普遍的等值结果表示方法的等值结果表示方法2.2.
17、公式法公式法 常见的等值结果公式形式常见的等值结果公式形式y=Ax+By=Ax+B式中式中x x与与y y处于平等地位处于平等地位3.3.图示法图示法 形象生动但精确度有限形象生动但精确度有限第20页,共39页。七、测验等值的工作过程大致包括:七、测验等值的工作过程大致包括:(1 1)确定等值目标。)确定等值目标。(2 2)进行等值设计。)进行等值设计。(3 3)施测并采集测验数据。)施测并采集测验数据。(4 4)选择一个等值的操作定义。)选择一个等值的操作定义。(5 5)进行等值计算,获取结果。)进行等值计算,获取结果。(6 6)评价等值结果。对可靠性和准确性进行论证。)评价等值结果。对可靠
18、性和准确性进行论证。第21页,共39页。一、等百分位等值一、等百分位等值 在单组设计或随机等组设计下的两个分数,一个在测验形式在单组设计或随机等组设计下的两个分数,一个在测验形式 x x上,上,另一个在测验形式另一个在测验形式 y y上,如果这两个分数有相同的百分等级,那么这上,如果这两个分数有相同的百分等级,那么这两个分数就被认为是等值的。按照这个原理,寻找与两个分数就被认为是等值的。按照这个原理,寻找与 x x 分数等值的分数等值的 y y 分数,只要找到与分数,只要找到与 x x 分数有相等百分等级的分数有相等百分等级的y y分数就可以。分数就可以。对于测验对于测验x x的每个一分数,可
19、根据公式在的每个一分数,可根据公式在x x测验分布中先求出与其测验分布中先求出与其对应的百分等级,然后在对应的百分等级,然后在y y测验上求取具有该百分等级的分数。测验上求取具有该百分等级的分数。即在两个测验上就有相同百分等级的分数就是等值分数。即在两个测验上就有相同百分等级的分数就是等值分数。第二节第二节 测验等值计算的基本方法测验等值计算的基本方法第22页,共39页。一、等百分位等值一、等百分位等值 百分等级计算公式为:百分等级计算公式为:根据百分等级计算测验分数公式为:根据百分等级计算测验分数公式为:第23页,共39页。一、等百分位等值一、等百分位等值优点:优点:定义直观,也容易理解定义
20、直观,也容易理解缺点:缺点:(1)分数等值转换关系的求得依赖于所选用的样本,当抽取)分数等值转换关系的求得依赖于所选用的样本,当抽取的样本改变之后,具体的等值关系就会发生变化,因此样本不的样本改变之后,具体的等值关系就会发生变化,因此样本不变性要求没有得到满足;变性要求没有得到满足;(2)百分位等值法通常要使用平滑化处理方法,这无疑增大)百分位等值法通常要使用平滑化处理方法,这无疑增大了等值的误差。了等值的误差。第24页,共39页。二、线形等值二、线形等值 在单组设计或随机等组设计下的两个分数,一个在测验形式在单组设计或随机等组设计下的两个分数,一个在测验形式x x上,另一个在测验形式上,另一
21、个在测验形式y y上,如果它们的标准分数相等,这两上,如果它们的标准分数相等,这两个分数就被认为是等值的。个分数就被认为是等值的。用数学公式表示,所谓测验分数用数学公式表示,所谓测验分数x x等值于测验分数等值于测验分数y y,即有下式成立:,即有下式成立:改写为:改写为:改写为:改写为:第25页,共39页。第三节第三节 常用测验等值设计介绍常用测验等值设计介绍测验等值设计测验等值设计定义:为了寻找不同测验形式之间的等值关系而预先对数据的采定义:为了寻找不同测验形式之间的等值关系而预先对数据的采集方法、等值实现的途径、等值的计算方法进行周密的设计,称集方法、等值实现的途径、等值的计算方法进行周
22、密的设计,称为测验等值设计。为测验等值设计。第26页,共39页。第三节第三节 常用测验等值设计介绍常用测验等值设计介绍回顾线形等值与等百分位等值的原理:回顾线形等值与等百分位等值的原理:等百分位等值依据的原理:两个分数,一个在测验形式等百分位等值依据的原理:两个分数,一个在测验形式X X上,另上,另一个在测验形式一个在测验形式Y Y上,如果这两个分数对于任何一个被试群体都上,如果这两个分数对于任何一个被试群体都有相同的百分等级,那么这两个分数就被认为是等值的。有相同的百分等级,那么这两个分数就被认为是等值的。线性等值所依据的原理:两个分数,一个在测验形式线性等值所依据的原理:两个分数,一个在测
23、验形式X X上,而另上,而另一个在测验形式一个在测验形式Y Y上,如果对于任何一个被试群体,它们各自的上,如果对于任何一个被试群体,它们各自的标准分数相等,这两个分数就被认为是等值的。标准分数相等,这两个分数就被认为是等值的。第27页,共39页。设计一设计一 随机分组随机分组每组实施一个测验每组实施一个测验 这种数据采集设计有一个假设,即这种数据采集设计有一个假设,即两被试样本的总体分布是相两被试样本的总体分布是相同的。同的。由于抽样结果来自于同一总体,因此,不考虑其间的由于抽样结果来自于同一总体,因此,不考虑其间的抽样误差,这一假设是很容易得到满足的。抽样误差,这一假设是很容易得到满足的。一
24、、随机等组设计一、随机等组设计 样本样本测验测验 X X Y Y 第28页,共39页。1.1.线形等值法线形等值法 Y=Ax+BY=Ax+B A=S A=Sy y/S/Sx x B=MB=My y-AM-AMx x注意:等值关系直线绝不是线性回归直线,线性回归直线中,直注意:等值关系直线绝不是线性回归直线,线性回归直线中,直线的线的斜率斜率还必须乘上两变量的相关系数。另外,等值关系关于还必须乘上两变量的相关系数。另外,等值关系关于x x和和y y是对称的,而回归关系中是对称的,而回归关系中x x和和y y是不对称的,因此,是不对称的,因此,回归关系回归关系不是等值关系不是等值关系。2.2.等百
25、分位等值法等百分位等值法 XPR YXPR Y PR=PR=F Fb b+(x-L+(x-Lb b)f/i)f/i/N/N100100 y=Ly=Lb b+(PR/100+(PR/100N-FN-Fb b)/f)/fi i设计一设计一 随机分组随机分组每组实施一个测验每组实施一个测验第29页,共39页。二、平衡单组设计二、平衡单组设计 样本样本测验测验 X XY Y 前后前后 前后前后 设计二设计二 随机分组随机分组各测验对每组都实施各测验对每组都实施第30页,共39页。设计二设计二 随机分组随机分组各测验对每组都实施各测验对每组都实施采用这种设计的目的是要防止两个测验形式施测顺序的改变可能引
26、采用这种设计的目的是要防止两个测验形式施测顺序的改变可能引起的等值差异。起的等值差异。采用这种设计的优点是,如果测验顺序对等值结果没有影响,采用这种设计的优点是,如果测验顺序对等值结果没有影响,就可以只用一个样本完成测验等值,使得一些被试难寻的测就可以只用一个样本完成测验等值,使得一些被试难寻的测验有可能在较大样本下完成测验的等值。验有可能在较大样本下完成测验的等值。无法克服练习效应和测验时间太长的缺点。无法克服练习效应和测验时间太长的缺点。(1 1)线形等值法)线形等值法(2 2)等百分位等值法)等百分位等值法第31页,共39页。三、锚测验三、锚测验随机等组设计随机等组设计 样本样本测验测验
27、 X X V V Y Y 设计三设计三 随机分组随机分组每组各实施一个测验,每组各实施一个测验,锚测验向每组实施锚测验向每组实施第32页,共39页。设计三设计三 随机分组随机分组每组各实施一个测验,每组各实施一个测验,锚测验向每组实施锚测验向每组实施 数据采集时,锚测验既用于第一组被试,又用于第二组被试。数据采集时,锚测验既用于第一组被试,又用于第二组被试。虽然两组被试总体分布不同,由于施用了一组共同试题,两被虽然两组被试总体分布不同,由于施用了一组共同试题,两被试组能力的差异就可以被定量描写,进而可以排除被试组的能试组能力的差异就可以被定量描写,进而可以排除被试组的能力差异而将两待等值的测验
28、形式的等值关系估计出来。力差异而将两待等值的测验形式的等值关系估计出来。要求锚测验必须是两待等值测验的缩影,由锚测验作为桥梁,把要求锚测验必须是两待等值测验的缩影,由锚测验作为桥梁,把测验测验X X和和Y Y连接起来,缺点是锚测验作为其缩影实际上是难以做到连接起来,缺点是锚测验作为其缩影实际上是难以做到的。的。锚测验与待等值测验不论难度上的差异还是内容上的差异都会对锚测验与待等值测验不论难度上的差异还是内容上的差异都会对等值结果带来误差,尤其是难度上的影响较大。等值结果带来误差,尤其是难度上的影响较大。第33页,共39页。四、锚测验四、锚测验非等组设计非等组设计 样本样本测验测验 X X V
29、V Y Y 设计四设计四 非随机分组非随机分组每组各实施一个测验,锚每组各实施一个测验,锚测验向每组实施测验向每组实施应用背景:应用背景:在实际工作中还会出现这样的情况:既不可能采集一个样本在实际工作中还会出现这样的情况:既不可能采集一个样本让被试施测两个不同形式的测验,又不可能获得两个总分分让被试施测两个不同形式的测验,又不可能获得两个总分分布相同的样本来分别接受两个测验的施测。布相同的样本来分别接受两个测验的施测。例子:例子:两个年度的高考试卷等值两个年度的高考试卷等值第34页,共39页。关于锚测验关于锚测验实际工作中实际工作中(1 1)锚题与原测题混合编制施测,锚题与原测题混合编制施测,
30、操作比较方便,且锚题测试可能操作比较方便,且锚题测试可能达到相当可靠的程度,但是一旦试卷达到相当可靠的程度,但是一旦试卷“曝光曝光”,锚题就失去作用。,锚题就失去作用。(2 2)锚题独立成卷,锚题独立成卷,可以提高锚题的安全性,但是测试组织比可以提高锚题的安全性,但是测试组织比较复杂,特别是要创设与正式测试相同的测试情境比较困难较复杂,特别是要创设与正式测试相同的测试情境比较困难但是不管锚题是在卷外还是卷中,锚题部分都应是原测验的一个平但是不管锚题是在卷外还是卷中,锚题部分都应是原测验的一个平行简缩本,也要保证有相当的题量。行简缩本,也要保证有相当的题量。设计四设计四 非随机分组非随机分组每组
31、各实施一个测验,锚测验每组各实施一个测验,锚测验向每组实施向每组实施第35页,共39页。1.1.线形等值方法线形等值方法2.2.频数估计法(等百分位等值)频数估计法(等百分位等值)频数估计法的频数估计法的关键关键是要利用锚测验数据分别估出测验是要利用锚测验数据分别估出测验x x和测验和测验y y在在合成被试群体合成被试群体t t上的次数分布。上的次数分布。3.3.链等值法(等百分位等值)链等值法(等百分位等值)X XC CPRPRa a(X(XC C)=PR)=PRa a(V(VC C)V VC C PRPR(V(VC C)=PR)=PR(Y(YC C)Y YC C 链等值法不需要总分与锚测验
32、分的联合分布,也不需合成被试组,链等值法不需要总分与锚测验分的联合分布,也不需合成被试组,因此比起频数估计法来显得更简单。但是,链等值法一个明显的不因此比起频数估计法来显得更简单。但是,链等值法一个明显的不足是往往将一个长测验等值于一个短测验,从而增加了测验误差。足是往往将一个长测验等值于一个短测验,从而增加了测验误差。设计四设计四 非随机分组非随机分组每组各实施一个测验,锚测验每组各实施一个测验,锚测验向每组实施向每组实施第36页,共39页。012345合计合计00100001100110022001210430002428合计合计01255215V X012345合计合计002000021
33、00220042001.531.50630001214合计合计023.563.5116被试组在被试组在x与与v上的联合分布上的联合分布(f)被试组在被试组在x与与v上的联合分布(估计)上的联合分布(估计)(g)xv第37页,共39页。为克服上述几种等值方法的缺点,在综合上述几种等值方法为克服上述几种等值方法的缺点,在综合上述几种等值方法优点、不足基础上,陈希镇设计了一种新的等值设计方法优点、不足基础上,陈希镇设计了一种新的等值设计方法试卷分半组合的单组设计法。试卷分半组合的单组设计法。建议阅读:建议阅读:戴海崎、刘启辉:戴海崎、刘启辉:锚题题型与等值估计方法对等值的影响锚题题型与等值估计方法对等值的影响载载心理学报心理学报20022002,3434(4 4):):367-370367-370第38页,共39页。PSYCHOLOGICAL&EDUCATIONAL(第三版第三版)八省师范大学合编心理学主干课程系列教材八省师范大学合编心理学主干课程系列教材谢谢!广西大学行建文理学院广西大学行建文理学院MEASUREMENT心理与教育测量心理与教育测量第39页,共39页。