1、第第11章章 标准参照测验及其鉴定标准参照测验及其鉴定中国水利水电出版社目录1 概述2 分界分数的确立3 测题分析4 信度的估计5 效度的检定1 概述 1.1 定义1.2 分类1.3 产生与发展1.4 与常模参照测验的区别与联系1.1 标准参照测验的定义 定义:一般认为,标准参照测验是以预定的标准为参照,来衡量个体被试是否达 到这一标准的测验。注:标准:被试应当达到的行为表现水平 结果解释:标准,测验通过 标准,测验未通过1.2 标准参照测验的分类 分为:1.领域参照测验:领域参照测验必须对行为领域进行严格而精确地界定,以便对个体领域分数具有可解释性。2.掌握测验:掌握测验源于掌握学习理论,是
2、建立在一组教学和行为目标之上,按教学目标分为掌握者和未掌握者。1.3标准参照测验的产生与发展常模参照测验盛行(基础:经典测验理论)20世纪五六十年代,产生用绝对标准评定成绩的期望1962年,格&克首提标准参照测验,标志着其产生,但因费解并未引起广泛关注1969年,波&赫发表论文,推动了其发展70年代,提出了一系列数学模型80年代,发表些研究报告,出版了专著,其趋于成熟1.3标准参照测验的产生与发展n1969年以后,理论发展的同时,测验实践也在迅速发展n80年代新兴项目反应理论为其发展提供指导1.4 与常模参照测验的区别 1.4 与常模参照测验的联系 1.人们在为某种被试团体确定标准时,总要考
3、虑这种被试在所测特质上的一般发展水平,也就是说,标准中含有常模的因素。2.标准参照测验虽然强调标准的达成,但它并不抹煞被试间的个别差异。它承认无论在达标者内部,还是在未达标者内部,都存在着掌握百分比的不同。3.可结合使用,如高中考试。2 分界分数2.1 概念2.2 意义2.3 确定方法分类2.4 具体方法2.1 概念概念:划分通过与未通过、掌握与未掌握,或不同掌握程度能力组的临界点注:若分成通过与未通过两类,则只有一个分界分数 如分成不同掌握程度能力组,则有多个分界分数 2.2 意义1.为测验结果的解释提供直接依据2.为决策提供有力的依据2.3 确定方法分类n共38种之多n依潜在特质/能力的假
4、设分:1.状态模型:掌握行为表现是一种全有 全无的状态,故将真正掌握的分界分数设定为100%。2.连续模型:掌握行为是一种连续分布的能力,是连续体的上端区间(23种,占60.53%)n依专家判断/被试的测验分数分:1.判断法:一位或几位评判者,不参考被试测验分数,完全靠判断来确定分界分数(占1/3)2.判断经验法:专家判断为主,被试测验分数为辅 3.经验判断法:被试测验分数为主,专家判断为辅 n依判断经验法分:1.用经验资料确定分界分数 2.用经验资料估计误差等,调节分界分数2.4 具体方法1 判断法2 判断与经验法 3 两种方法的比较2.4.1 判断法 安戈夫方法 安戈夫修正法 纳西夫方法
5、埃贝尔方法 麦克尼恩及哈尔平方法安戈夫方法1.多位评判者给出刚达标的被试能正确回答每题的概率估计值2.取每题估计值平均数3.估计值平均数相应题的满分值4.求和,即为分界分数安戈夫修正法n与安戈夫法唯一不同之处:评判者估计概率是从以下特定的7种5%,20%,40%,60%,75%,90%,95%中选择的纳西夫方法1.评判者对假设刚达标者能否正确回答各题作出估计:能记为+1,否记为-1,不确定记为02.将各位评判者估计结果进行综合:符号出现次数60%,则记为该种符号符号出现次数都60%,则转换成概率,然后求其平均(转换方法:-130%,060%,+180%)3.将综合结果按上述转换方法转换成概率4
6、.各题概率相应满分值5.求和,即为分界分数埃贝尔方法1.评判者按测题难度、测题与内容的相关性两个维度将每个测题归入34列联表中2.给出刚达标者能正确回答各题的概率估计值3概率相应的满分值4.每小格相加求和5.所有格相加求和6.计算出每位评判者的最后评分,取平均数,即为分界分数麦克尼恩及哈尔平方法n与埃贝尔方法基本相同,不同之处为:维度完成测题所需的反应能力、测量目标2.4.2 判断与经验法方法:先由评判者对达标者、未达标者、难以确定者进行区分,再由被试成绩确定分界分数分类:边缘组法 对照组法 依常模及定额法边缘组法1.评判者界定刚达到合格水平的最低行为标准2.从应试者中选出与最低行为标准相接近
7、的被试,组成边缘组3.对边缘组进行测试,取其中位数作为分界分数对照组法1.去除边缘组,达标者与未达标者形成对比组2.将达标者与未达标者此次测验分数的频数分布曲线绘制在同一坐标轴上3.若误判为未达标者与误判为达标者严重性相同,取两条曲线重叠面积的均分点作为分界分数 若严重性不同,则根据实际需要分割两条曲线重叠的面积,选择合适的分界分数依常模及定额法1.A测验与另一已知测验B相关性较强2.B的分界分数有效3.A的通过率与B的通过率相近则 可用B的通过率直接确定A的分界分数2.4.3 两种方法的比较n评价标准:1.技术上的充分性:(1)能否确定一个或几个分界分数 (2)对被试实际测验成绩的反应程度
8、(3)对教学或训练实际效果反应程度 (4)统计上的理论依据 (5)提供决策的效度证据n评价标准:2.实用性:(1)易于实施 (2)易于计算 (3)易于向非专业人员解释 (4)非专业人员对它的可信性n按四个等级排列:1很不好 2不好 3好 4极好 (见表11.11)判断法的优缺点n优点:较强的实用性n缺点:1.技术上的充分性较差 2.主观性较强:个人主观性 群体主观性 判断与经验法的优缺点优点:1.技术上的充分性较强 2.某种程度上减少了主观性 3.具有一定的实用性n缺点:1.对达标者、边缘者、未达标者 行为反应的界定比较难 2.仍存在一定的主观性3 测题分析3.1 测题分析的维度3.2 测题识
9、别度分析3.3 敏感度分析3.1 测题分析的维度测题是否有助于对达标者和未达标者作出正确的判断测题是否测量了相应的内容和目标测题编写的技术性问题3.2 测题识别度分析测题识别度指数:达标者及未达标者对某题答对人数比率之差。其计算公式为:在这里,为测题的识别度指数 为达标者中对某题正确回答人数比率 为未达标者中对某题正确回答人数比率pnDPPDpPnP数值解释识别度指数的数值范围在1至+1之间 负值测题质量很差,起到了反效果 0无识别能力 正值数值越大,识别力越强,测题质量越好 优缺点n优点:只需对一组被试实施一次测验n缺点:识别度指数的计算及解释受分界分数大小的限制(因其受比率影响)3.3 敏感度分析n 测题敏感度分析 指测题对教学效果的反映能力同一测题对被试施测 +做对 -做错n敏感性指数:同一组被试对某个测题在教学前后答对人数比率之差 或 对等的教学组与未教学组对某题答对人数比率之差其计算公式为:ABRRST数值解释n数值范围在-1到+1之间 负值或0不能反映出预期的教学效果,是不良的测题 正值有效的测题,数值越大,测题对教学效果的反应越灵敏缺点缺点:1.需测验两次,浪费人力物力时间 2.若用同组学生测试,需等教学结束后计算,可操作性差 3.无法将测题因素与教学因素区分开 4.无法将练习效应与教学因素区分开缺点很多,但尚无其他方法,仍用此方法进行评价