1、第一讲教学测量与评价的含义与作用一、什么是教学测量一、什么是教学测量二、什么是教学评价二、什么是教学评价三、教学测量与评价与关系三、教学测量与评价与关系四、教学测量与评价的作用四、教学测量与评价的作用一、教学测量1.含义含义教学测量(教学测量(instructional measurement)是)是考核教学成效的一种方法。这是借助于一定考核教学成效的一种方法。这是借助于一定的手段与方式,对学生的学习成绩(简称学的手段与方式,对学生的学习成绩(简称学绩)进行探察,并以一定的数量来表示的考绩)进行探察,并以一定的数量来表示的考核办法。核办法。2.在教学测量中应注意什么?在教学测量中应注意什么?2
2、.在教学测量中应注意什么在教学测量中应注意什么(1)教学测量的目的在于考核教学成效,也就是考察)教学测量的目的在于考核教学成效,也就是考察教学目标的完成情况。因此,教学测量的目标应以教教学目标的完成情况。因此,教学测量的目标应以教学目标为依据,测量目标应与教学目标一致,而不能学目标为依据,测量目标应与教学目标一致,而不能偏离教学目标偏离教学目标 教学目标,有时也称为行为目标,是指对学生在一段时教学目标,有时也称为行为目标,是指对学生在一段时间教学后应该掌握的技能与概念的陈述。间教学后应该掌握的技能与概念的陈述。教学目标的例子:教学目标的例子:w学生能够有学生能够有3分钟做对分钟做对100道除法
3、题。道除法题。w学生至少能够说出学生至少能够说出5个唐代的皇帝。个唐代的皇帝。w学生能够写一篇文章,对凡高和高更的艺术学生能够写一篇文章,对凡高和高更的艺术风格进行比较。风格进行比较。识记,理解,运用识记,理解,运用情感目标,知识目标、情感目标,知识目标、(2)教学测量的对象是学生内在的能力与品德)教学测量的对象是学生内在的能力与品德等的形成状况,它不可能像物理测量那样直等的形成状况,它不可能像物理测量那样直接进行,只能借助于一定的手段与方式间接接进行,只能借助于一定的手段与方式间接进行。进行。(3)教学成效是通过量化的学绩进行考察的。)教学成效是通过量化的学绩进行考察的。也就是说,教学成效是
4、以学生的学习成绩为也就是说,教学成效是以学生的学习成绩为直接考察依据的,而学绩是以一定的数量来直接考察依据的,而学绩是以一定的数量来表示的,因此命题的合理性与评分的客观性表示的,因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素是有效教学测量的一个重要影响因素 二、教学评价1.含义含义教学评价(教学评价(instructional evaluation)就是依据教学目)就是依据教学目标,对学绩测验所得测量结果进行分析及解释。它主标,对学绩测验所得测量结果进行分析及解释。它主要包含以下两个方面的工作。要包含以下两个方面的工作。(1)教学评价必须对学绩测验数据所表明的教学成效)教学评价
5、必须对学绩测验数据所表明的教学成效作出确切的诊断。作出确切的诊断。(2)教学评价必须对教学的成败原因进行分析,并对)教学评价必须对教学的成败原因进行分析,并对今后教学工作的改进方面作出明确的规定。今后教学工作的改进方面作出明确的规定。评价(估)的功能评价(估)的功能为家长提供信息为家长提供信息为选拔提供信息为选拔提供信息为学生提供信息为学生提供信息为教师提供信息为教师提供信息为学校(间)提供信息为学校(间)提供信息评价必须要注意的:评价必须要注意的:公平,公正,标准一致,标准清晰公平,公正,标准一致,标准清晰如何评价(估)如何评价(估)形成性评估和终极性评估形成性评估和终极性评估常模参照评估与
6、标准参照评估常模参照评估与标准参照评估三、教学测量与评价的关系区别:区别:教学测量是对学绩测验所得结果的客观描述(将结果教学测量是对学绩测验所得结果的客观描述(将结果予以数量化),并不考虑结果的实际意义,而教学评予以数量化),并不考虑结果的实际意义,而教学评价则是对学绩测验所得结果的主观判断(对结果进行价则是对学绩测验所得结果的主观判断(对结果进行分析解释),以了解结果的实际意义。分析解释),以了解结果的实际意义。联系:联系:(1)教学评价是一种主观判断,但是这种主观判断)教学评价是一种主观判断,但是这种主观判断必须以教学测量所得的客观描述为依据必须以教学测量所得的客观描述为依据(2)教学测量
7、也不能脱离教学评价)教学测量也不能脱离教学评价。教学测量只是。教学测量只是对学绩测验结果的客观描述,只有通过教学评价,才对学绩测验结果的客观描述,只有通过教学评价,才能判断这种客观描述的实际意义能判断这种客观描述的实际意义 四、教学测量与评价的功能1.反馈反馈调节功能调节功能对教师对教师对学生对学生2.激励激励动机功能动机功能 对学生对学生对教师对教师第二讲 有效教学测验的基本要求 一、测验的信度一、测验的信度二、测验的效度二、测验的效度三、项目的难度与区分度三、项目的难度与区分度一、测验的信度1.定义定义信度指的是测量结果的稳定性程度信度指的是测量结果的稳定性程度2.信度的作用信度的作用信度
8、是衡量一个量表质量高低的重要指标。信信度是衡量一个量表质量高低的重要指标。信度不高的量表是不能使用的。度不高的量表是不能使用的。3.常见的信度种类常见的信度种类(1)重测信度)重测信度(2)复本信度)复本信度(3)分半信度)分半信度(4)同质信度)同质信度(内部一致性信度)内部一致性信度)(5)评分者信度)评分者信度w 重测信度是指用同一个对同一组被试施测两重测信度是指用同一个对同一组被试施测两次所得的结果的一致程度。公采用皮尔逊积次所得的结果的一致程度。公采用皮尔逊积差相关。差相关。(http:/www.chinadoctor.org/doctor/news/technology/1399.
9、htm)重测信度的使用前提条件:重测信度的使用前提条件:1.所测量的心理特性心理必须是稳定的所测量的心理特性心理必须是稳定的2.遗忘和练习的效果基本是是相互抵消的遗忘和练习的效果基本是是相互抵消的3.在前后两次的施测间隔期内,被试在所要测在前后两次的施测间隔期内,被试在所要测查的心理特质没有获得更多的学习和训练查的心理特质没有获得更多的学习和训练例一w 用一个算术四则的速度测验用一个算术四则的速度测验12个小学生,得分个小学生,得分记为记为X,为了考察测量结果的可靠性,于,为了考察测量结果的可靠性,于3个月个月后再测一次,得分记为后再测一次,得分记为Y,问测验结果是否可,问测验结果是否可靠?靠
10、?w 学生序号学生序号 1 2 3 4 5 6 7 8 9 10 11 12w X 20 20 21 22 23 23 232425262627w Y 20 21 21 20 23 23 252526262729w 复本信度是指两个平行的测验测量同一批被复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度。其值为同一批被试所得结果的一致性程度。其值为同一批被试在两个复本测验上所得分数的积差相关。试在两个复本测验上所得分数的积差相关。w 复本信度的前提是构造出两份或两份以上的复本信度的前提是构造出两份或两份以上的真正平行的测验(即真正平行的测验(即A、B卷)卷)分半信度是指将一个测验分成
11、对等的两半后,分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的的一致性的程所有被试在这两半上所得分数的的一致性的程度。(也称内部一致性程度)度。(也称内部一致性程度)分半信度的前提是只能施测一次或没有复本的分半信度的前提是只能施测一次或没有复本的情况下使用。情况下使用。例三w对初中一年级学生进行地理成绩测验,每答对对初中一年级学生进行地理成绩测验,每答对1题得题得1分,答错分,答错1题得题得0分分,其测验结果如下表,试估计该测验的折半信度?,其测验结果如下表,试估计该测验的折半信度?w学生序号学生序号 题题 序序w 1 2 3 4 5 6w1 1 0 0 0 0 0w2 0
12、 0 0 1 0 0w3 1 0 1 0 0 0w4 1 1 0 0 1 0w5 1 0 0 1 0 0w6 1 1 1 0 1 1w7 1 1 1 1 0 1w8 1 1 0 1 1 0w9 0 1 1 0 0 1w10 1 1 1 1 1 1评分者信度是指多个评分者给同一批人的答卷评分者信度是指多个评分者给同一批人的答卷进行评分的一致性的程度。用肯德尔和谐系数进行评分的一致性的程度。用肯德尔和谐系数进行估计。进行估计。影响信度的因素影响信度的因素w 被试被试w 主试者主试者w 施测情境施测情境w 测量工具测量工具w 提高测量信度的常用方法提高测量信度的常用方法w 适当增加测验的长度适当增加
13、测验的长度新增的项目必须同质,新增的数量必须适度新增的项目必须同质,新增的数量必须适度w 使用测验中所有试题的难度接近正态分布,使用测验中所有试题的难度接近正态分布,并控制在中等水平。并控制在中等水平。w 主试严格执行操作规程,评分者严格按标准主试严格执行操作规程,评分者严格按标准给分。实测场地按测验手册的要求进行布置给分。实测场地按测验手册的要求进行布置,减少无关因素干扰,减少无关因素干扰二、测验的效度1.含义含义测验的效度指的是测量的正确性和有效性,测验的效度指的是测量的正确性和有效性,即它能够测出所要测量的心理特质与行为特即它能够测出所要测量的心理特质与行为特征的程度。换言之,效度指测验
14、能在多大程征的程度。换言之,效度指测验能在多大程度上达到测量目的。度上达到测量目的。2.效度的类型效度的类型2.效度的类型效度的类型 内容效度、构想效度、实证效度内容效度、构想效度、实证效度(1)内容效度)内容效度内容效度指测验题目对有关内容或行为范围取样的内容效度指测验题目对有关内容或行为范围取样的适当性,也就是测验所选的项目是否符合所要测量的适当性,也就是测验所选的项目是否符合所要测量的东西,其代表性是否适当。东西,其代表性是否适当。(2)内容效度的确定方法内容效度的确定方法(3)内容效度的统计方法)内容效度的统计方法(2)内容效度的确定方法)内容效度的确定方法内容效度的确定方法主要是逻辑
15、分析法,内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定其工作思路是请有关专家对测验题目与原定内容的吻合程度。其具体步骤是:内容的吻合程度。其具体步骤是:w 明确欲测的内容的范围,包括知识与能力要明确欲测的内容的范围,包括知识与能力要求两个方面。求两个方面。w 确定每个题目所测内容,并与双向细目表对确定每个题目所测内容,并与双向细目表对照。照。w 制定评定量表,考察题目对所测内容的覆盖制定评定量表,考察题目对所测内容的覆盖率,判断题目难度与能力要求之间的差异,率,判断题目难度与能力要求之间的差异,还要考察各种题目数量与分数的比例以及题还要考察各种题目数量与分数的比例以
16、及题目形式对内容的适当性,对整个测验的有效目形式对内容的适当性,对整个测验的有效性作出总的评价。性作出总的评价。(3)内容效度的统计方法)内容效度的统计方法w 从同一个教学内容总体抽取两套独立的平行从同一个教学内容总体抽取两套独立的平行测验,用这个测验来测同一批被试,求其相测验,用这个测验来测同一批被试,求其相关。例关。例1w 还有一种是再测。这种方法操作过程:在被还有一种是再测。这种方法操作过程:在被试学习某种知识之前作一次测验(如学习电试学习某种知识之前作一次测验(如学习电学之前考电学知识),在学过该知识后再作学之前考电学知识),在学过该知识后再作赋闲的测验。这时,若后测成绩显著优于前赋闲
17、的测验。这时,若后测成绩显著优于前测。例测。例1例一w 在在物理物理某一单元教学之前,对学生进行有某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的测验施测,两次测验分数如下,试检定测验的内容效度?内容效度?(w 学生序号学生序号 1 2 3 4 5 6 7 8 9 10w 教学前教学前X 34 40 32 30 31 35 44 33 42 36w 教学后教学后Y 52 64 50 54 58 63 72 62 62 50结论w 然后根据自由度然后根据自由度df=N-1=9,查查t值表,寻得值
18、表,寻得0.01显著性水平显著性水平t的双侧临界值为的双侧临界值为t(9)0.01=4.781,而实际计算出的,而实际计算出的t=13.974.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出得分的平均数有极显著性差异,从而可以作出判断,判断,物理物理中该单元测验的内容具有有效中该单元测验的内容具有有效性,或内容效度较高。性,或内容效度较高。内容效度应用w 内容效度主要应用于成就测验、学科测验、选内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。拔和分类职业测验。w 内容效度不适合用于能力
19、倾向和人格测验。内容效度不适合用于能力倾向和人格测验。2.构想效度(结构效度)构想效度(结构效度)(1)定义)定义构想效度指测验对某种理论的符合程度,其目的在于用相应的理构想效度指测验对某种理论的符合程度,其目的在于用相应的理论观点对测验的结果加以解释及探讨。论观点对测验的结果加以解释及探讨。(2)结构效度的确定步骤)结构效度的确定步骤w 提出理论假设提出理论假设,并把这一假设分解成一些细小的纲目并把这一假设分解成一些细小的纲目w 依据理论框架,编制出具体题目。依据理论框架,编制出具体题目。w 用逻辑与实证的方法来验证假设。用逻辑与实证的方法来验证假设。(3)结构效度的估计方法)结构效度的估计
20、方法w 测验内部寻找证据:根据某种理论构想所编制的测验测验内部寻找证据:根据某种理论构想所编制的测验如果有内容效度,也就证明了该测验有一定的构想效如果有内容效度,也就证明了该测验有一定的构想效度。度。w 测验之间寻找证据:将测验结果与另一个效度已知的测验之间寻找证据:将测验结果与另一个效度已知的同类测验结果进行相关检验。如果相关高,说明所编同类测验结果进行相关检验。如果相关高,说明所编制的测验具有一定构想效度制的测验具有一定构想效度w 考察测验的预测性:考察测验的预测性:如果用来测量某一理论构想的测如果用来测量某一理论构想的测验可以有效地预测某一行为,那么可以说该测验具有验可以有效地预测某一行
21、为,那么可以说该测验具有一定的构想效度一定的构想效度 3.实证效度实证效度 实证效度又称效标关联效度,指一个测验对处实证效度又称效标关联效度,指一个测验对处于特定情境中的个体行为进行预测的有效程于特定情境中的个体行为进行预测的有效程度。也就是说,一个测验是否有效,应该以度。也就是说,一个测验是否有效,应该以实践的效果来作为检验的标准。其中被预测实践的效果来作为检验的标准。其中被预测的行为是检验效度的标准,简称效标的行为是检验效度的标准,简称效标如高考是否有效,与大学学习成绩如高考是否有效,与大学学习成绩w 效标不仅随测验的种类不同而不同,而且可能随时间效标不仅随测验的种类不同而不同,而且可能随
22、时间而改变,现在是一个好的成功的效标,将来就不一定而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。最重要的事情。w 教育测验的效标,可采用各学科成绩和教师评定的结教育测验的效标,可采用各学科成绩和教师评定的结果;果;w 智力测验的效标,可采用学科成绩、教师评判的结果智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;、学生总成绩、受教育年限、年龄以及其他事物;w 能力倾向测验的效标,可采用特殊课程或特殊训练的能力倾向测验的效标,可采用特殊课程或特殊训练的
23、成绩;成绩;w 职业兴趣测验的效标,可采用从业人员实际服务成绩职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;或记录;w 人格测验的效标,可采用编制者的主观标准,或以被人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。试以后行为或临床资料。效标关联效度的估计方法w(1)相关法)相关法w 由于测验分数和效标分数这两个变量的类型不同,由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。二者相关系数的计算方法也就不同。w A、积差相关法:适用于两个变量为连续变量、积差相关法:适用于两个变量为连续变量w 进行显著性检验:进行显著性检验:w 自由度自由度d
24、f=N-2,检验的是两个变量,都减去,检验的是两个变量,都减去2;w 置信度取置信度取0.05,查相关系数界值表,寻找临界值;,查相关系数界值表,寻找临界值;w 结论:结论:r临界值,说明显著相关,效度高;临界值,说明显著相关,效度高;r0为正区分,为正区分,D0为负区分,为负区分,D=0为零区分为零区分(二)区分度的计算w 1、极端分组法、极端分组法w(1)客观性试题)客观性试题D=PH-PLPh与与pl分别为高分组与低分组在该项目上的通过率分别为高分组与低分组在该项目上的通过率例例6:有道试题,高分组有:有道试题,高分组有70%学生通过,低分组学生通过,低分组有有30%的学生通过;而另一道
25、题,高分组有的学生通过;而另一道题,高分组有40%学生通过,低分组有学生通过,低分组有70%学生通过,求两题的各学生通过,求两题的各自区分度?自区分度?例例7一次生物测试中,在一次生物测试中,在100名学生中,高低分组各名学生中,高低分组各有有27人,其中高分组答对第一题有人,其中高分组答对第一题有20人,低分组人,低分组答对第一题的有答对第一题的有5人,这道题的区分度为多少?人,这道题的区分度为多少?(2)主观题w D=(XH-XL)/N(H-L)w XH为高分组得分的总分为高分组得分的总分w XL为低分组得分的总分为低分组得分的总分w H为该道题的最高分为该道题的最高分w L为该道题的最低
26、分为该道题的最低分w N为应试总人数的为应试总人数的27%。例7w 高分组高分组 低分组低分组w 得分得分X 人次人次f 得分得分X 人次人次fw 5 4 5 0w 4 3 4 1w 3 2 3 1w 2 1 2 3w 1 0 1 4w 0 0 0 42、相关法w 点二列相关法(针对是否题)点二列相关法(针对是否题)w 例例8:15个学生在数学测验中得分记录如下,个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?计算数学测验中第一题的区分度?w 学生学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15测验总测验总 65 70 31 49 80 50 35 1
27、0 81 69 78 55 77 90 42w 第一题第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0二列相关二列相关适用于连续的测量变量。但其中一个变二列相关适用于连续的测量变量。但其中一个变量因为某种原因被人为分成两类。例如,当一个量因为某种原因被人为分成两类。例如,当一个测验的项目分数是连续的,而效标或测验总分数测验的项目分数是连续的,而效标或测验总分数被分为高、低或及格、不及格两个类别时。被分为高、低或及格、不及格两个类别时。w 例例9:已知一测验中某选择题的通过率为:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为答对者的测验总分平均为76分,答错者的测
28、验分,答错者的测验总分平均为总分平均为63分,全体被试分,全体被试20人总分的标准差人总分的标准差为为16,求该题的区分度?,求该题的区分度?(三)提高区分度的方法w 1、使题目的难度适中,使整个考试难度适中、使题目的难度适中,使整个考试难度适中w 题目的难度适中可使区分度达到最大值,因此题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。,使难度适中是提高区分度的重要方法。w 2、着重考察复杂的学习结果、着重考察复杂的学习结果w 使高能学生得高分或低能学生得低分,使分数使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。尽量分布在整个分数量尺上。w 3、
29、掌握区分度的评价标准。、掌握区分度的评价标准。第三章教育测验的编制与实施w 一、教育测验编制的一般程序一、教育测验编制的一般程序w(一)确定测验目标(一)确定测验目标w 1、什么是测验目标、什么是测验目标w 测验目标是测验编制者所编制的测验所要达到测验目标是测验编制者所编制的测验所要达到的某种具体的目的。它明确规定测验所要达到的某种具体的目的。它明确规定测验所要达到的预期结果或标准。的预期结果或标准。w 确定测验目标是编制测验的首要前提。确定测验目标是编制测验的首要前提。2、测验目标与教育目标分类w 测验目标的确定是以教育目标分类理论为基础的。测验目标的确定是以教育目标分类理论为基础的。w(1
30、)布鲁姆的认知目标领域)布鲁姆的认知目标领域w 知识:这是最低等级的认知目标。主要指记忆知识。知识:这是最低等级的认知目标。主要指记忆知识。对学过的知识和有关材料的识别和再现。对学过的知识和有关材料的识别和再现。w 理解:这是最低层次的理解。主要是对知识的掌握,理解:这是最低层次的理解。主要是对知识的掌握,其特点是脱离了其特点是脱离了“死记硬背死记硬背”。w 应用:指的是将学过的材料(知识)应用到新的具体应用:指的是将学过的材料(知识)应用到新的具体情景中去。情景中去。w 分析:指能将知识进行分解,找出组成要素,并分析分析:指能将知识进行分解,找出组成要素,并分析其相互关系及组成原理。其相互关
31、系及组成原理。w 综合:与分析相反,指把各个元素或部分组成新的整综合:与分析相反,指把各个元素或部分组成新的整体。体。w 评价:指根据一定的标准对事物给予价值判断。评价:指根据一定的标准对事物给予价值判断。w 布氏上述六类目标是有层次、有顺序的,知识布氏上述六类目标是有层次、有顺序的,知识是最低层次,是最基本的要求。其余依次是理是最低层次,是最基本的要求。其余依次是理解、应用、分析、综合、评价。评价为认知领解、应用、分析、综合、评价。评价为认知领域的最高层次,是前面五种目标的综合并增加域的最高层次,是前面五种目标的综合并增加了价值标准。这六类目标,由简单到复杂,由了价值标准。这六类目标,由简单
32、到复杂,由低级到高级依次排列,组成层次结构。低级到高级依次排列,组成层次结构。(2)我国认知目标的分类w A、五分法、五分法w 知识知识w 理解理解w 应用应用w 分析综合分析综合w 创造创造w B、四分法、四分法w 识记识记w 理解理解w 简单运用简单运用w 综合运用综合运用(二)确定测验内容w 测验内容的确定,实际上也就是内容抽样的决测验内容的确定,实际上也就是内容抽样的决定和测验目标的确立相结合而成。定和测验目标的确立相结合而成。w 这一结合过程必须通过命题双向细目表来确定这一结合过程必须通过命题双向细目表来确定。w 命题双向细目表由命题双向细目表由3个要素构成:个要素构成:w 测验目标
33、测验目标w 测验内容测验内容w 测验目标和测验内容的比例测验目标和测验内容的比例比例确定标准w 每一内容范围的比例应与该内容项目在整个教每一内容范围的比例应与该内容项目在整个教学领域里的相对重要性相符合,这种相对重要学领域里的相对重要性相符合,这种相对重要性可由该内容项目的教学课时的多少来体现;性可由该内容项目的教学课时的多少来体现;w 每一目标层次所要求的比例应当与测验编制者每一目标层次所要求的比例应当与测验编制者认为这个目标对所受测学生的水平所具有的重认为这个目标对所受测学生的水平所具有的重要性相符。要性相符。w 测验双向细目表,是编制测验的蓝图,它详细测验双向细目表,是编制测验的蓝图,它
34、详细说明了测验的内容、测验目标,对试题数量、说明了测验的内容、测验目标,对试题数量、考试时间安排、测验分数分配等,都起着重要考试时间安排、测验分数分配等,都起着重要作用,因此,它是编制测验必不可少的一环。作用,因此,它是编制测验必不可少的一环。测验材料的收集必须遵循的原则:w 1、测验材料要适合测验目的、测验材料要适合测验目的w 2、测验材料要能够代表该教材的全部内容、测验材料要能够代表该教材的全部内容w 3、测验材料要有普遍性、测验材料要有普遍性w 4、测验材料要适合学生程度并能鉴别学生的、测验材料要适合学生程度并能鉴别学生的学习水平学习水平w 5、测验材料要能激发学生的进取心、测验材料要能
35、激发学生的进取心(三)测验设计w 1、测验形式的确定、测验形式的确定w 2、测验题目形式的确定、测验题目形式的确定w 3、测验具体题型的确定与题目编制、测验具体题型的确定与题目编制w 4、测验题目量的确定、测验题目量的确定w 5、测验时间的确定、测验时间的确定w 6、测验题目的编制、测验题目的编制w 先按试题的形式及内容分类先按试题的形式及内容分类w 从易到难排列从易到难排列二、测验题目编制技术w 1、客观性测验题目的编制(约占、客观性测验题目的编制(约占60%左右)左右)w 试题应反映教学内容的重点或教学过程中要试题应反映教学内容的重点或教学过程中要求学生掌握的有意义的内容和知识点;求学生掌
36、握的有意义的内容和知识点;w 务必使每道试题自成一体,不可互相牵扯;务必使每道试题自成一体,不可互相牵扯;w 试题文字力求浅显易懂,题意明确;试题文字力求浅显易懂,题意明确;w 试题的答案应该是明确且唯一的;试题的答案应该是明确且唯一的;w 试题应按教育目标的要求,内容不能超过受试题应按教育目标的要求,内容不能超过受测者的知识和能力。测者的知识和能力。2、主观性测验题目的编制(大约占40%左右)w 试题应考查教育内容中的重要问题;试题应考查教育内容中的重要问题;w 把问题和实际情景结合起来,强调知识的应把问题和实际情景结合起来,强调知识的应用;用;w 要给被试发挥自己创造力的余地;要给被试发挥
37、自己创造力的余地;w 要使答案的复杂程度与被试的成熟程度相符要使答案的复杂程度与被试的成熟程度相符。三、教育测量分数的整理和分析w 编制频数分布表编制频数分布表w 求组中值求组中值w 求全矩求全矩w 求组数求组数w 求组限求组限w 画频数分布曲线图画频数分布曲线图分析频数曲线图w 1、常(正)态分布、常(正)态分布w 即成绩中等的多,优秀和差的少,俗称即成绩中等的多,优秀和差的少,俗称“中间大,两头小中间大,两头小”。学。学生的学业成绩呈常态分布,表明能正确、客观地反映学生真实的生的学业成绩呈常态分布,表明能正确、客观地反映学生真实的知识程度和能力水平。这是因为学生智力及其差异,一般是呈常知识
38、程度和能力水平。这是因为学生智力及其差异,一般是呈常态分配的;另外,教学大纲的制定、教材的编写、考试命题都是态分配的;另外,教学大纲的制定、教材的编写、考试命题都是从大多数中等程度学生的实际出发,为大多数中等水平的学生经从大多数中等程度学生的实际出发,为大多数中等水平的学生经过努力能接受的。过努力能接受的。w 2、正偏态分布、正偏态分布w 即低分人数很多,高分人数很少。学生的学业成绩呈正偏态分布即低分人数很多,高分人数很少。学生的学业成绩呈正偏态分布,表明测试难度过大,考试要求过高,超越大纲和教材的要求;,表明测试难度过大,考试要求过高,超越大纲和教材的要求;或者学生的基础差,应调整试题的难度
39、或教学进度。或者学生的基础差,应调整试题的难度或教学进度。w 3、负偏态分布、负偏态分布w 即高分人数很多,低分人数很少。学生的学业成绩呈负偏态分布即高分人数很多,低分人数很少。学生的学业成绩呈负偏态分布,表明测试较易,考试要求低于大纲或教材要求;或学生的基础,表明测试较易,考试要求低于大纲或教材要求;或学生的基础好,应加大试题的难度和教学的进度。好,应加大试题的难度和教学的进度。w 4、驼峰型分布、驼峰型分布w 即低分高分人数很多,中分人数很少。学生的学业成即低分高分人数很多,中分人数很少。学生的学业成绩呈驼峰型分布,表明试题难度过大和过小的题较多绩呈驼峰型分布,表明试题难度过大和过小的题较
40、多,中等难度的太少;或表明学生基础相差悬殊,好的,中等难度的太少;或表明学生基础相差悬殊,好的和差的学生多,中等程度的学生较少。和差的学生多,中等程度的学生较少。w 5、平波型分布、平波型分布w 即中低高分人数差不多。学生的学业成绩呈平波型分即中低高分人数差不多。学生的学业成绩呈平波型分布,表明大中小几种难度的试题比较接近,或学生的布,表明大中小几种难度的试题比较接近,或学生的基础相差不大,试题区分度低,需要提高区分度。基础相差不大,试题区分度低,需要提高区分度。w 6、陡峭型分布、陡峭型分布w 即中分人数很多,低高分人数极少。学生的学业成绩即中分人数很多,低高分人数极少。学生的学业成绩呈陡峭
41、型分布,表明难度中等的试题比例过大,缺乏呈陡峭型分布,表明难度中等的试题比例过大,缺乏区分度或学生的基础相差不大,要提高试题的区分度区分度或学生的基础相差不大,要提高试题的区分度。w 学生的成绩分布曲线的形态多种多样,是教学学生的成绩分布曲线的形态多种多样,是教学过程中多种现象的反映,这些现象都是通过原过程中多种现象的反映,这些现象都是通过原因与结果的连续和交织形成的。造成这种现象因与结果的连续和交织形成的。造成这种现象的原因是复杂的,往往与教师的教学态度、教的原因是复杂的,往往与教师的教学态度、教学水平、教学经验有关,与学生的学习态度、学水平、教学经验有关,与学生的学习态度、学习基础、学习方
42、法、学习习惯有关,与学校学习基础、学习方法、学习习惯有关,与学校的思想政治工作和行政管理工作质量有关,与的思想政治工作和行政管理工作质量有关,与社会因素和家庭教育有关。社会因素和家庭教育有关。逐题分析法w 就是对试卷中每一道题的得分和失分情况进行就是对试卷中每一道题的得分和失分情况进行分析,将每题的高分率(指该题高于应得分数分析,将每题的高分率(指该题高于应得分数的的90%的人数的百分比)、及格率、不及格率的人数的百分比)、及格率、不及格率和零分率统计出来,以便分析学生对每道试题和零分率统计出来,以便分析学生对每道试题的掌握情况和存在问题。的掌握情况和存在问题。第四章 教育评价的方法w 教育评
43、价方法是指收集、整理、优化信息资教育评价方法是指收集、整理、优化信息资料的手段和技术。它是为达到评价目标,根料的手段和技术。它是为达到评价目标,根据评价的原则选定的有利于各种评价力量协据评价的原则选定的有利于各种评价力量协同工作的一整套活动方式。同工作的一整套活动方式。补充评价类型补充评价类型教育评价类型一、按评价的主体划分一、按评价的主体划分 1、自我评价、自我评价 2、他人评价、他人评价 二、二、按评价的功能划分按评价的功能划分1、诊断性评价、诊断性评价 2、形成性评价形成性评价是是通过诊断教育方案或计划、教育过程与活动中存在的问题,为正在进行的通过诊断教育方案或计划、教育过程与活动中存在
44、的问题,为正在进行的教育活动提供反馈信息,以提高实践中正在进行的教育活动质量的评价。一般地说,形成性评价不以区分评价教育活动提供反馈信息,以提高实践中正在进行的教育活动质量的评价。一般地说,形成性评价不以区分评价对象的优良程度为目的,不重视对被评对象进行分等鉴定。对象的优良程度为目的,不重视对被评对象进行分等鉴定。3、总结性评价、总结性评价它它是在教育活动发生后关于教育效果的判断是在教育活动发生后关于教育效果的判断三、按评价中是否采用数量化方法划分三、按评价中是否采用数量化方法划分1、数量化评价、数量化评价 2、非数量化评价、非数量化评价 数量结合、客观判断与主观描述并重的分析与数量结合、客观
45、判断与主观描述并重的分析与判断。判断。二、评价方法二、评价方法定定性分析与定量分析性分析与定量分析(一)定性分析方法(一)定性分析方法是用语言描述形式以及哲学思辨、逻辑分是用语言描述形式以及哲学思辨、逻辑分析揭示被评价对象特征的信息收集分析、处理析揭示被评价对象特征的信息收集分析、处理的方法。的方法。如:观察法、如:观察法、逻辑逻辑分析法、访谈法、归纳法等分析法、访谈法、归纳法等定性分析法在教育评价中的作用w 为定量分析活动提供基础为定量分析活动提供基础w 为定量分析结果提供说明为定量分析结果提供说明w 为被评人员改进工作提供指南为被评人员改进工作提供指南1、观察法w 是一种简单易行的方法。它
46、是评价者根据评价是一种简单易行的方法。它是评价者根据评价对象和指标内涵的要求,有目的有计划地直接对象和指标内涵的要求,有目的有计划地直接进行自然状态或控制条件下观察并获取信息资进行自然状态或控制条件下观察并获取信息资料的过程。料的过程。w 观察法适用于各种评价,主要是以观察法适用于各种评价,主要是以“听听”和和“看看”为基本手段。为基本手段。w 运用观察法的要求:运用观察法的要求:w 有针对性有针对性w 有很强的洞察力,能有很强的洞察力,能“眼观六路,耳听八方眼观六路,耳听八方”,透过现象看本质,透过现象看本质w 作好即时现场记录作好即时现场记录以教师课堂教学评价的观察为例w 根据评价目的和质
47、量要求,设计好听课记录表根据评价目的和质量要求,设计好听课记录表格;格;w 根据调查活动的时间安排和参与评价人员的业根据调查活动的时间安排和参与评价人员的业务素质确定听课人员,听课人员一般应由懂得务素质确定听课人员,听课人员一般应由懂得此门学科的人员或专业人员参加;此门学科的人员或专业人员参加;w 听课人员进入课堂听课,并根据授课人的教态听课人员进入课堂听课,并根据授课人的教态、学生的反应等情况,及时作好记录,或填写、学生的反应等情况,及时作好记录,或填写好听课记录表;好听课记录表;w 将听课记录表收集起来进行统计处理,对授课将听课记录表收集起来进行统计处理,对授课人的水平作出综合分析结论。人
48、的水平作出综合分析结论。2、逻辑分析法w 逻辑分析的方法是教育评价中运用最多,也是最重要逻辑分析的方法是教育评价中运用最多,也是最重要的手段之一。这不仅是因为搜集的评价资料中存在着的手段之一。这不仅是因为搜集的评价资料中存在着大量的非数量化的材料,难于进行统计分析,而且即大量的非数量化的材料,难于进行统计分析,而且即使进行统计分析,其结论的解释、说明等也需要借助使进行统计分析,其结论的解释、说明等也需要借助逻辑分析的方法作更深层的分析研究。逻辑分析的方法作更深层的分析研究。w 逻辑分析的方法是运用辩正唯物主义的哲学观,透过逻辑分析的方法是运用辩正唯物主义的哲学观,透过事物的现象认识并揭示其本质
49、,从事物的外部联系深事物的现象认识并揭示其本质,从事物的外部联系深入到内部联系,从偶然事件中发现必然规律,并从整入到内部联系,从偶然事件中发现必然规律,并从整体把握事实真相的方法。体把握事实真相的方法。w 其具体的方法有:分析与综合、抽象与概括、分类与其具体的方法有:分析与综合、抽象与概括、分类与比较、归纳与演绎、具体化与系统化等。比较、归纳与演绎、具体化与系统化等。(二)定量分析(二)定量分析 是指用数值形式以及数学、统计方法反映被评价是指用数值形式以及数学、统计方法反映被评价对象特征的信息分析、处理的方法。如:算术平均对象特征的信息分析、处理的方法。如:算术平均值法、矩阵法、权数分配法、推
50、断统计法。值法、矩阵法、权数分配法、推断统计法。w 定量分析法在教育评价中的作用定量分析法在教育评价中的作用w 数量分析是获得评价结论的重要依据数量分析是获得评价结论的重要依据w 定量分析是表述评价结论最简洁的方法定量分析是表述评价结论最简洁的方法定量分析的具体方法w 1、算术平均值法、算术平均值法w 2、加权平均值法、加权平均值法w 3、矩阵法、矩阵法w 4、权数分配法、权数分配法w 5、推断统计法、推断统计法三、定性分析与定量分析相结合三、定性分析与定量分析相结合例:例:郭福昌:我国幼儿学前教育的定性和定量郭福昌:我国幼儿学前教育的定性和定量分析分析三、设计教育评价指标体系的方法w(一)目