1、英 语 学 科 教 育 测 量 与 评 价如何评判测试的质量效效 度度 与与 信信 度度英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 定义:n 效度,又称有效性,它是指一套测试所考的是否就是设计人想要考的内容,或者说,在多大程度上考了想要考的。(刘润清,韩宝成:2000)n 效度指证据支持我们根据测试分数作出的推论的程度。(王振亚:2009)n 效度就是考试达到其预期测试意图的程度。(邹申,杨任明:2000)英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 分类n 内容效度n 结构效度n 尺度关联效度o 预测效度o 共时效度n 表面效度n 反
2、应效度n 后效效度内在效度外在效度使用效度超考试效度英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 内容效度(content Validity)n指测试是否考了考试大纲规定要考的,或者说考试的题目在多大程度上能代表它所要测量的目标。n内容效度研究关注测量工具内容上的代表性或所选内容样本的充分性。n如何检验内容效度:o 测试的内容是否和测试目标有关o 测试内容(试题)是否具有代表性o 测试内容是否适合测试对象n如何保证测试内容的高效度:o 命题前要根据考试大纲、教学内容和教学目标,制定考试内容细目表,再按照这个表去编制试题。o 题目编制好后,要请有经验的老师或专家审阅。
3、英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)n 结构效度(construct validity)o 结构效度指测试是否依有效的语言观(包括语言学习观和语言运用观)为依据。o 这里的结构不是指试卷的结构或题目的编排,而是指整个考试的理论基础。o 结构效度是所有其它效度之本。结构效度决定了整个考试的性质,决定了考试属于哪一代体系。o 一项测试的结构效度的高低是指考试的结果能在多大程度上解释人的语言能力及与语言能力有关的心理特征。英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 尺度关联效度(criterion-related validity)n
4、主要指本考试与某一个“独立并且相当可靠的学生能力测量工具”之间的关联程度。o 共时效度(concurrent validity)o 预测效度(predictive validity)n 共同点o 都是借用另一个考试来作为验证标准。即对用一个受试群进行两次考试。第一次考的是需要验证的考试,第二次考的是借作验证标准的考试。然后计算两次考试结果分数的高低排列的相关系数,作为效度数据。英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)n 不同点:o 考试时间不同。验证共时效度,要求两次考试在受试群的目标能力还不可能产生变化的时间之内举行;验证预测效度,要求第二次考试在受试群的目标能
5、力应该已经有所发展或变化之后举行。o 对作为验证的试卷的要求不同。共时效度中使用的尺度也不一定是一份公认的试卷,比如教师对学生的排序也可以作为参照尺度。o 考试目的不同。共时效度说明考试是否能判断受试者目标能力的当前现状;预测效度说明考试是否能预测受试者目标能力将来的发展。英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 表面效度(face validity)n 指由非测试专家(教育机构的主管人员、未经测试理论与实践培训的教师和学生等)对某一测试的内容和形式适合于测试目标的程度的主观判断。英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 反应效度
6、(response validity)n 指的是研究收集有关应试者答题策略和风格的数据来确定测试的合理性程度。n 反应效度研究的是测试的过程,关注的是受试者做题的时候是否按试题设计的要求去作出反应。英 语 学 科 教 育 测 量 与 评 价一、效度(Validity)o 后效效度(backwash validity)n 指的是考试对教学是不是有良好的后效效应,是否有利于改进教学。n 后效效度让考试给教学带来一种良好的导向作用。英 语 学 科 教 育 测 量 与 评 价二、信度(Reliability)o 信度是评价测试质量的另一个重要指标。信度指测试分数的稳定性、一致性和没有测量误差的程度。o
7、 有高信度的分数具有精确性,没有或很少有测量误差。测试在不同的测试环境下实施,其结果应具有可复制性。o 信度通常以两次测试结果的相关系数来表示,这个相关系数称为信度系数(coefficient of reliability)。相关程度越高,信度也越高。英 语 学 科 教 育 测 量 与 评 价二、信度(Reliability)o 检验测试信度的方法:n考后复考法o 用同一套试题,在考后较短时间内对同一组学生再考一次,然后将两次测试考生分数排序,计算其相关性,以验证考试的信度。n平行试题法o 设计一套形式及内容与原题平行的试题,让同一组学生在连续时间内或极短时间内考这两套试题,然后计算两次成绩高
8、低排列的相关。n试题分半法o 只进行一次测试,然后将试题的题号按奇偶数分为两半,计算两半所得分数的高低排列的相关性。英 语 学 科 教 育 测 量 与 评 价二、信度(Reliability)o 评分人信度(scorer or rater reliability)n 指的是评分人影响测试分数稳定性的程度。o 评分人内部信度n 同一评分人给不同测试评分的标准能否始终保持一致o 评分人之间信度n 不同的评分人给相同的或不同的测试评分的标准能否保持一致n 从某种意义上说,主观性测试的质量主要靠评分人来保证。英 语 学 科 教 育 测 量 与 评 价二、信度(Reliability)o 影响测试信度的
9、因素n 试题的量是否足够大。n 题目是否属于同一性质。n 题目的区分度是否高。n 考试之间的差异性是否大。n 题目难易度是否适中。n 评分是否客观。英 语 学 科 教 育 测 量 与 评 价三、效度和信度之间的关系o 相互依存,又相互排斥。o 信度差则效度差,但效度差不一定信度差。o 不能片面求其一,舍其二。应采用一种积极平衡的态度。英 语 学 科 教 育 测 量 与 评 价o Backman的观点:n 效度和信度是一个共同问题的两个互补的方面。o 信度:考生的考试表现中有多少是由测量误差,或者说人们想测的语言能力之外的其它因素引起的;并且怎样最大限度地减少这些因素对考试的影响。o 效度:考生的考试表现中有多大部分是由欲测的语言能力引起,并且怎样最大限度地加大这一因素对考试分数的影响。