教育测量与评价(期末复习)课件.ppt

上传人(卖家):三亚风情 文档编号:2928996 上传时间:2022-06-12 格式:PPT 页数:152 大小:6.79MB
下载 相关 举报
教育测量与评价(期末复习)课件.ppt_第1页
第1页 / 共152页
教育测量与评价(期末复习)课件.ppt_第2页
第2页 / 共152页
教育测量与评价(期末复习)课件.ppt_第3页
第3页 / 共152页
教育测量与评价(期末复习)课件.ppt_第4页
第4页 / 共152页
教育测量与评价(期末复习)课件.ppt_第5页
第5页 / 共152页
点击查看更多>>
资源描述

1、第二章 教育测量的质量指标 衡量教育测量的质量,可采用四个指标: 信度 主要对整个测量而言。 效度 难度 主要对测量的项目而言。 区分度 第一节 信度 一、信度概念 信度是指测量结果结果的稳定性或可靠性程度。用同一种工具反复测同一种特质对象,结果的一致性程度就叫信度 一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。 或者说,测验的抗干扰能力强,误差因素控制得好,测值的一致性高,就叫信度高,人们感觉可靠。 可以从以下三个方面去理解测量的信度P29: 信度指实测值(X)和真值(T)相差的程

2、度 信度是指统计量与参数之间的接近程度 信度指两次重复测量或等值测量之间的关联程度。三、信度的估计方法(信度类型) 1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用积差相关的公式来计算。(板书、推导该公式) 积差相关的使用条件: 两个变量的总体都呈正态分布,至少是单峰对称的分布。作此判断需要总体分布的卡方检验。 必须是成对数据,每对数据之间相互独立 两个变量之间呈线性关系,可由散布图的形状来决定。例一 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,

3、得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 232425262627 Y 20 21 21 20 23 23 252526262729在使用重测法计算稳定性系数时,应注意以下问题: 1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。太长,身心发展、遗忘、环境改变等使信度降低;太短,练习与记忆等提高了成绩,信度降低。 3、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第一次,而难度测验相反。还适用于运动技能的测验。 4、适用于异质测验,

4、即一个测验包含几个不同的部分,分别测量不同的心理特质。因为这种测试不适于计算内部一致性信度。 4、应注意提高被试者的积极性。2、复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 所谓复本测验是指在格式、内容、题型、题数、难度、指导语说明、施测要求等方面都一致(或相等)的两份或多份测验。例二 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型

5、测验结果记为Y,其测验的复本信度如何? 学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12复本信度的优缺点表现: 优点: 1、两个复本在同时使用同时使用时,可以避免再测信息的一些缺点如首测对再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。反映究竟是不是真正的平行测验;换言之,反映了测验内容造成的误差。 2、测验的两个复本,如果在不同的时间不同的时间使用,其信度既可以反映被试在不同时间

6、的稳定性,又可以反映测验内容的一致性。换言之,既反映了时间影响,又反映了测验内容的抽样误差。 这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数,与其他信度系数相比,该系数最小,也就是说,此种复本信度是对信度最严格的检验。 3、在追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验,分析复本信度。缺点: 1、编制两个完全相等的测验是很困难的,如果两个复本过份相似,则变成再测形式,而过分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;(因内容造成的误差)。 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; 4、虽然

7、两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。3.1、同质信度之分半信度 就是将测验分半,被试在每一半测验上所得分数的相关系数。反映了2半题目间的一致性。 分半的方法很多,如,按题号奇偶,按难度、按题目内容。无论如何分半,都要在分开后做微调,最终目的是分成对等的两半。如果做不到对等,就不适合求分半信度。 在实际运用中,由于题目一般是按难度大小排列,采用奇偶分半可以使两半测验的题目在难度上基本相等,因此常被采纳。 分半后,计算每个被试在两个分半测验分数的积差相关系数,由于只是半个测验之间的信度,故,再用斯皮尔曼布朗公式加以校正。 3.2 同质信度

8、之库德尔-理查森信度 适合于全部二分计分题测验的内部一致性信度分析。 常用的两个公式有:(板书,P33)例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的库德-理查森信度?学生序号 题 序 1 2 3 4 5 6 总分1 1 0 0 0 0 0 12 1 0 0 1 0 0 23 0 0 0 0 1 1 24 1 1 1 0 0 0 35 0 1 0 0 1 1 36 1 1 1 0 0 0 37 1 1 1 1 0 0 48 1 1 1 1 0 0 49 1 1 0 1 1 1 510 1 1 1 1 1 1 6pqpq 请比较两个公式所

9、算出来的值 当测验中所有的试题难度都一样,或平均难度接近0.50时,两个公式所估计出来的信度值将相等。但是,当测验中所有试题难度值极不相同时,差距将较大。一般KR21比KR20信度值小。 4、论文式测验信度 论文没有严格评分标准,同样题目,不同应试者回答与得分不一样,可用克龙巴赫阿尔法系数公式。P34 该公式适用于:测验题型多并非都是2分计分题时。 板书公式 请阅读,并解释公式含义。 例4用一个包含6个论文式试题的测验,测5个被试,结果如下,试求该测验的信度?题序 学生序号 1 2 3 4 5 某题得分方差1 3 6 1 6 5 2 4 3 3 2 3 3 3 4 1 2 1 4 2 5 2

10、1 2 5 1 4 4 5 4 6 4 6 5 3 2 总分 17 28 16 19 17 四、提高信度的方法 (一)信度系数多大为宜? 学科测验0.9以上; 智力测验0.8以上; 品德测验,达到0.6就不错了。作业 1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测

11、验Y,试求测验的复本信度? 应试者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度? 学生序号 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36四、提高信度的方法 1、影响测量信度的主要因素自行阅读P34-35,请同学们讨论、解释。 (1)测量工具方面(对照教材重点解

12、释) (2)主试、施测情境方面(对照教材举例) (3)被试方面(同上) (4)两次施测的间隔时间方面2、提高测量信度的常用方法 阅读p36-37,请学生解释: (1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质(不同质是如何影响信度的?) (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少评分误差第二节 效度 一 、什么是效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 测量的效度是相对一定的测量目的而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只

13、是效度高低不同罢了。 3、教育领域的效度问题比其他领域的测量更重要。 二、效度的理论公式 板书P39及参考书P58 重申变量和的方差运算公式 目标真分数、非目标真分数 根据理论公式,怎样才算测量效度高?请同学们回答。 三、效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。 (一)内容效度 就是指测验题目样本对于应测内容与行为领域的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应。 为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的

14、问题。2、内容效度的估计 逻辑分析法 其工作思路是请有关专家对测验题目与应测内容范围的吻合程度作出判断。 把所有题目按考试内容和考查目标分布进行双向分类,形成实际的“题目双向分类表”。与事先预定的“命题双向分类表”作比较,看是否偏离了原命题计划。 内容效度主要应用于成就测验、学科测验。 内容效度不适合用于能力倾向和人格测验。(二)结构效度 结构:心理学或社会学上的一种理论构想或特质。本身观察不到,也无法直接测量,但学术理论假设它是存在的。 举例: 结构效度:测量能测出这种结构的程度(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设

15、,则会使得关于特质测验的结构效度的研究结果无法比较。比如智力(2)建立结构效度的步骤 A、提出理论假设; B、根据假定结构,导出各项关于心理功能或行为的基本假设。拟定测题,编制测验; C、以测验结果为根据来验证假设结构中的各种因素是否成立。 例如智力P42 测量甲与其他理论上认为应该与之有关的其他测量有显著相关。与其他理论上认为不应该与之有关的其他测量没有显著相关。 与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。(三)效标关联效度 是以测验分数和效标之间的相关系数来表示测验效度高低的方法。 什么是效标? 例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验

16、分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。 效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。 教育测验的效标,可采用各学科成绩和教师评定的结果; 智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物; 能力倾向测验的效标,可采用特殊课程或特殊训练的成绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或记录; 人格测验的效标,可采用被试以后行为或临床资料。 效标关联效度的种类同时效度

17、 预测效度 效标关联的计算方法:计算相关系数 (多采用积差相关法,略) P41,其他方法参阅教育统计学教材2、提高测量效度的方法P44 对效度系数的要求:P42,阅读1分钟 控制系统误差 精心编制测验量表 扩充样本的容量(增加样本对总体的代表性) 合理处理效度和信度的关系(信度是效度的前提,效度不大于信度的平方根) 妥善组织测验 适当增加测验长度三、难度 难度是指试题的难易程度。 一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。 难度由被试群体整体水平所确定。是相对概念。难度的计算 (一)基本公式 1、客观题难度的计算 P=R/N R为答对该试题

18、人数,N为参加测验总人数 例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?2、主观题难度的计算 例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度? 例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度? 例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?(2)极端分组法 客观题步骤: 将测验总分进行高低排序(由高到低) 进行高低分组(各取27%),并计算某题的得分率 求两组的平均值 公式: P=(PH+PL)/2 PH为高分组答对该题的百分比; PL

19、为低分组答对该题的百分比。例5 某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度? 如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度? 论文题的步骤: 将测验总分进行高低排序(由高到低) 进行高低分组(各取25%) 分别为高分组、低分组编制每道试题的分析表 按下列公式计算难度: P=板书P48 例 某道论文题,高分组得分总和40分,低分组得分总和15分,40人参加考试,此题最高得分为5分,最低得分为2分,则此题的难度为P48:2、难度的分析与控制 (1)难度分析 进行难度分析的主要目的是为了筛选题目。 A、测验题目难度水

20、平的确定 测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试作最大的程度的区分。(离散程度最大) 对于常模参照性测验,大多数难度在0.3-0.7之间,平均0.5。但对于奥林匹克竞赛或补习功课的学生,例外。B、测验难度对分数分布的影响 测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。 由于人的心理特性值多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。 测验分数

21、背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。(2)难度的控制 一般说来,影响题目难度的主要因素有: 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 命题的技巧。 难度控制: 正确估计考生水平与否; 弄清弄懂各知识点与否; 掌握命题技巧与否。四、区分度 (一)区分度的含义 指测验题目对考生实际水平的区分程度或鉴别能力。 如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。 区

22、分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。 区分度(D)的取值范围介于- 1.00+1.00之间,值越大,区分度的效果越佳。 区分度D0为正区分,D0为负区分,D=0为零区分 区分度与测验信度、难度的关系,请自行阅读P51。(二)区分度的计算 1、极端分组法 (1)客观性试题 D=PH-PL 例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?P51(2)主观题 D=(XH-XL)/N(H-L) XH为高分组得分总数 XL为低分组得分总数 H为该道题的最高分

23、L为该道题的最低分 N为应试总人数的25%。例7 高分组 低分组 得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 1 0 0 0 4 此题最高得分5分,最低得分0分2、相关法 点二列相关法 例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度? 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0二列相关 例9:已知一测验中某选择题

24、的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?(三)提高区分度的方法 1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。 3、掌握区分度的评价标准。P53,评价标准表 第三章 测验目标定义1、深入分析课程教学目标; 阅读5分钟后,请合上课本描绘教育目的、教学目标、课程目标、单元教学目标、课时教学目标、知识点教学目标、行为目标、学习目标及程序教学诸概念之

25、间的关系。 双向细目表的概念 内容类的概念 P76,认真阅读3分钟。 目标层次的概念 第四章 教育评价方案的编制与实施 第二节 教育评价方案的制定 一、教育评价指标体系的的构建 (一)教育评价指标体系的结构 1、框架 指标体系的构成:指标集、评价标准、量化符号。 板书解释“评价对象”与“指标”的相对性 2、模型 一般模型:评价普遍现象 分类模型:评价特殊现象 举例:“一间中学,教师的教学工作” 一般模型与分类模型的相对性,例如:“一间中学,教师的教学工作” “一间中学,中学的全面工作” 指标体系由指标、评价标准和量化符号组成 3、指标(与“评价对象”相对) 必达指标与期望指标对教师学历、设备等

26、设置;违纪犯罪率最低限度;表彰、奖项 稳定性指标与变动性指标“教学方法”/“德育”,“计算机辅助教学” 软指标与硬指标设备、场地/办学特色,决策水平 初拟评价指标 头脑风暴/因素分解/理论推演/ 筛选评价指标 (1)经验法:理由充分否?/主次/指标关系(近似、交叉、因果、矛盾等)/去难存易,删繁就简 (2)统计调查:按5档给专家问卷,统计“很重要”“重要”人数比例,按人数比例高低排列,删除三分之二或四分之三。 4、标准概念:达标程度/末级指标必须明确规定评价标准 从内容上分: 效能标准:效果标准和效率标准 职责标准 素质标准 从参照点分: 社会标准;规范性法则,参照点在外部 科学标准:社会学或

27、自然法则,参照点在内部 5、量化符号 权数:一般把同一级指标群集视为整体,权值 1 分数:指标赋分;等级赋分 标度:达到标准的程度,说明什么样的程度属于什么 等级。表示方法有:描述性语言,如,好、中、差; 量化形式,如,用分数阈划分,100-90属于优秀, 89-75属于良好。 (二)教育评价指标体系的建造 1、信度和效度 信度:a、同一评价者用同一指标体系去重复评价某一对象,所得结果的一致程度;(再测信度)b、不同评价者用同一指标体系在相隔较短的时间去评价同一对象,看一致性程度。(评分者信度)c、同一评价者、使用多种指标体系,几乎同时评价同一对象,考察结果的真实程度(一致程度)(复份信度)

28、一般来说,指标内涵客观;指标与指标之间相互独立;硬指标比例大;评价标准的规定明确,等级间的界限分明,信度就高。如果软指标多;指标、等级间界限模糊,评价者较难区分指标之间的差异,难以掌握评判准则,则会降低信度。 效度:考察的是,我们所要评的,与指标体系能评的之间的关系。越接近,说明指标体系各要素(指标、标准、量化 符号)的设置越准确,越有代表性。哪些做法影响效度?P102 2、方法 前人的启示:量表与问卷/泰勒的“教育目标”以及目标达到的评价模式/“行为目标”的研究/教育目标分类学及教育评价的研究成果/我国的有关探索等。P103 (1)掌握构建教育评价指标体系的依据:理念问题/实证问题。P103

29、 (2)掌握评价对象逐级分解的方法。对内涵的理解正确、深刻。如“师德”指标 。/理解、分解的多路向性/抓大放小原则/实施评价指标的可行性/ (3)掌握评价等级和标准确定的方法。 等级数应根据指标的类型和性质来确定。/四级分等,两级定标的简便方法。 标准:根据不同类型指标的不同特点,综合运用,如“教改实验”、“教师队伍结构”/各等级规定的评价标准,界限要清楚。 (4)掌握指标与等级数值分配的方法。集体讨论、咨询、同行专家意见、调查研究,注重程序。参与人员必须:a、知识经验、判断鉴别力;b、明确赋值依据和原则;c、认真严谨 二、教育评价方案的编制 以评价指标体系的撰写为核心 1、期望评语式编写法

30、2、积分评语式编写法 (1)等分积分评语式 (2)累计积分评语式复习:设计教育评价指标体系实操 (一)确立目标与指标 1、目标 目标即目的,泛指人们从事活动所达到的目的。 2、指标 简单地说,指标是用来反映、测量和说明上一级项目的下一级项目。是目标一个方面的规定,它是具体的、可测量的、行为化和操作化的目标。(二)选择指标体系的结构 1、直线式结构 二级指标11 一级指标1 二级指标12 二级指标21 一级指标2 二级指标22 二级指标31 一级指标3 二级指标32例1:小学生最优发展的整体评价指标体系 思想品德 思想素质 科学素质 性格 情趣爱好 小 审美素质 美的感受和鉴赏 学 美的表达和创

31、造 生 学业成绩 最 知识素质 知识结构 优 百科知识面 发 自学能力 展 能力素质 自理生活能力 人际交往和组织能力 体态和机能 身体素质 运动能力 卫生保健2、树状式结构一级指标一级指标一级指标总目标二级指标例2:学生主体性的基本结构主体性自主性主动性创造性自尊自信自我调控独立判断决断自觉自理成就动机竞争意识兴趣和求知欲主动参与社会适应性创新意识创造性思维能力动手实践能力(三)教育评价指标体系建立的步骤和方法 1、步骤: (1)分解目标,提出初拟指标 (2)归类合并,进行筛选 (3)专家评判 (4)预试修订(1)分解目标,提出初拟指标 一般较为注意指标的科学性、完备性,唯恐挂一漏了或包罗不

32、尽。 这些指标不仅是较为粗疏的,数量也可能是比较多的。方法 (1)头脑风暴法 是利用头脑积极思维,进行智力碰撞,激发智慧的灵感,从而提出评价指标的一种常用方法。 (2)因素分解法 是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。 应当注意:分解出来的因素,从高到低逐层缩小内涵,越往下层次指标越明确、越具体、范围越小,越可以观测。 (3)理论推演法 是根据有关学科的理论推演出评价指标的方法。 (4)典型研究法 是通过少数典型事例进行研究而设计评价指标的方法。(2)归类合并,进行筛选 在初拟指标中,有的能反映评价对象的本质,有的则未必;有的算得上主要

33、因素,有的可能只是次要因素。各因素之间出现交叉、重复、包含、矛盾、因果等关系,也难以避免,必须对初拟指标进行归类合并和筛选,以达到“少而精”的要求。筛选指标的方法 (1)经验法 一般遵循以下几个要点: A、理由是否充分或必要 判断每项指标是否是必要的,缺了它有什么不好,保留它有什么理由,被保留的要有充分的依据,在指标体系中,属于非要不可的因素。 B、取主舍次 区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。 C、从各指标之间的关系上进行比较 内涵相同或近似的合并,内涵交叉的保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的保留既符合方针、政

34、策规定又切合当地实际的指标。 D、去难存易,删繁就简 确实难测的指标可以舍弃;指标内涵复杂的,尽量求其单一。(3)专家评判 这是指标设计从设计者手中走向管理实践的重要步骤。专家通常包括评价理论研究者、上级领导、富有经验的教育行政干部、教师等。专家评判可采用个别访问、座谈、问卷征询、现场调查等方式,应根据不同情况选择。调查统计法 是在调查获取资料的基础上进行统计的方法。其具体的做法是:把初拟指标制成问卷,发给有关专家和有经验的教育工作者,请他们对初拟指标每一项作出判断。 一般分为五档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判断该项指标相比之下的重要程度(只能定一个档次

35、),然后,收回问卷,统计“很重要”、“重要”两档的人数比例,按评为“很重要”、“重要”人数比例由高到低顺序排列,把低于某数值(一般低于三分之二或四分之三处作为划界)的指标删除,就得到筛选的指标。(4)预试修订 指标体系经过筛选、修订,初步确定以后,可以同评定标准相匹配,选点在小范围试验,看是否可行,试验后对指标体系再作修改,然后投入使用。例3:学校领导班子评价指标体系的建立 1、首先分4个层次提出了16项指标 (1)政治素质(政治理论和政策水平、思想品德修养、事业心和责任感) (2)业务素质(文化专业达标、教育理论修养、管理实践经验) (3)工作效能(职务与能力相称、分工明确和各尽其责、团结协

36、作、指挥灵便、工作效率高) (4)工作作风(深入实际、发扬民主、决策果断、以身作则、开拓精神) 2、把以上16项指标,分为五档(很重要、重要、一般、可要可不要、不要),分别征询意见,获得以下结果: 政治素质(事业心和责任感1、政治理论和政策水平3、思想品德修养11) 业务素质(教育理论修养2、管理实践经验10) 工作效能(团结协作5、分工明确和各尽其责8、工作效率高9) 工作作风(决策果断4、以身作则6、开拓精神7、发扬民主12)第五章 教育评价的方法 第一节 教育评价方法概观 绝对评价法 相对评价法 个体内差异评价法 定性分析评价法 定性综合判断法 行为目标评价法 临床督导评价法 指标评分法

37、 确定评价指标权重的方法 (1)关键特征调查法 (2)两两比较法 (3)专家评判平均法 (4)倍数比较法 等级换分法 把具体项目的等级评定换算成分数,然后将各项分数相加,满分100.具体做法: 1、大项目,分数和(X+Y+Z):100; 2、某个大项目(X)再细分若干具体项目(x1,x2,x3), 为x1,x2,x3分配分数; 3、将x1(或x2、x3)分等级(评语论域v),每一等级需确定具体的评价标准:合格/不合格;优/中/劣;. 4、将各等地折算成分数。如x1满分11分,则可将优算成11分,良-9分,中-7分,差-5分。 5、将各项目得分相加。 加权平均法 权重分配方法已经介绍; 自行阅读

38、3分钟即可。 模糊综合评判法 P137再介绍 集体综合评价法 主要用于思想品德评价 1、确定德育评价的具体项目(X+Y+Z) 2、对每一个具体如X项目评分(100分):自评、他评。 3、板书公式 S=(r1+r2+r3+.rn)/N r为每一德育项目自评分数,N为项目数 Fi=(Li-Si)/(R-1) Fi表示对思想品德的集体综合评价,表示对思想品德的集体综合评价,Li表示集体中每个成员表示集体中每个成员对评价对象作出的评价(各个项目得分的平均数)对评价对象作出的评价(各个项目得分的平均数);Si表示自我表示自我总评价分,总评价分,R表示被试人数。表示被试人数。 案例:先打分,再计算 同学甲

39、分数 同学乙分数 . 尊敬师长 学习态度 遵纪守法 团结互助 集体观念 社会活动 劳动态度 平均分 第三节 处理教育评价信息的方法 一、定性分析描述法 (一)等级评定法 : 制定评分等级及评定标准。应用到如操行、能力、职称、学校等级等方面。 (二)评语鉴定法:单方面、多方面评语法/简易、结论明晰,能对一些模糊现象进行描述鉴定,解决了一些定量研究不能解决的问题,但难以客观,信度和效度较低。 (三)写实分析法:集事实资料/整理、描述资料,一般先概括描述一般情况,再描述典型事例/分析评价:简要、中肯、抓住本质。 写实法的优点是有依据,新都高。缺点是全面地收集资料很难,耗时多。 二、定量分析评判法 (

40、一)统计分析评判法 自行阅读P135-137的平均数、加权平均数、标准差、标准分数、T分数内容,8分钟。 (二)模糊综合评判简介 补充概念:隶属度 若对论域(研究的范围)U中的任一元素x,都有一个数A(x)0,1与之对应,则称A为U上的模糊集,A(x )称为x对A的隶属度。当x在U中变动时,A( x)就是一个函数,称为A的隶属函数。 隶属度A(x)越接近于1,表示x属于A的程度越高,A(x)越接近于0表示x属于A的程度越低。用取值于区间0,1的隶属函数A(x)表征x 属于A的程度高低,这样描述模糊性问题比起经典集合论更为合理。 举例 例如,对于模糊集A = 高个子,如果论域是“成年男性”,则可

41、构造隶属函数如图所示:板书 确定因素论域X=x1,x2,xn(如全班学生)和评语论域Y=y1(如侏儒),y2(矮子),ym(巨人),其中xi表示问题中所考虑的因素(i=1,2,n),yj表示要判断的等级(j=1,2,m)。则称X与Y之间的模糊关系矩阵 为单因素评判(单单只是一个个因素,未涉及“综合”之意,即,只有各行向量有意义,整个矩阵没意义),其中行向量(ri1,ri2,rim)是考虑单因素xi在Y上的评判,rij称为因素xi对评价等级yi的隶属度,R为Y上模糊子集。设X上的模糊子集A表示因素xi在本问题的加权数(也称权重),则合成 称为对各因素的综合评判,且 bj= 板书(四种之一) (j

42、=1,2,.m) 其中算符“”为取大,“”为取小,称为扎德算子。 与矩阵乘法运算顺序相同。举例P57及A为1行m列矩阵的例子,请同学来算。 当b1=b2=bm时,称综合评判全同失效;当b1,b2,bm中至少有两个相等的最大分量时,称综合评判义性失效。 书上例题讲解,P139 例:根据某生测评表用1、4模型进行模糊综合评判 优秀 良好一般 较差差 道德观念 0.250.540.180.030 尊敬师长 0.390.500.080.030 学习态度 0.640.250.080.030 尊纪守法 0.580.390.0300 团结互助 0.080.500.310.080.03 集体观念 0.100.

43、640.180.050.03 社会活动 0.200.520.230.050 劳动态度 0.410.370.140.080 权重分配: A=(0.18,0.14,0.14,0.13,0.09, 0.12, 0.12, 0.08) 教育评价结果的合成方法 (1)单纯普通数据的合成 加权平均,逐级向上,直到在一级指标上归并为一个合成的分值。举例 (2)单纯模糊数据的合成方法 A、多级模糊综合评判法 1、对末级(二级)指标进行第一次综合评判:W、R合成。如上例“某课堂教学质量” 2、将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新的模糊矩阵。如“某课堂教学质量”再加上.

44、3、将新矩阵与一级指标权重向量合成 计算综合评判结果。 B、二维加权 综合合成法P143 纵向加权/横向加权 板书画图: (3)混合数据的合成方法 1、普通数据转模糊数据 2、模糊数据转换成普通数据 第六章 教育测量结果的整理、转换与组合 第一节 教育测量数据的特点与种类 数据的特点:波动性、规律性 数据种类:点计数据、度量数据/间断性数据、连续型数据/类别变量、等级变量、等距变量、比率变量 教育测量数据的特点:1、多属等级变量;2、多属主观的;3、多属随机的(概率为1则为确定性);4、模糊性 第二节 教育测量分数的初步整理 一、统计表的结构 (自学2分钟) 二、频数分布表的编制 由同学自习5

45、分钟后,上台讲解书本例题。 第三节 教育测量分数的转换 原始分(卷面分)的缺点:意义模糊,不能直接比较 导出分数:由原始分转换而成,如标准分、T分数、百分等级分数等。 一、标准分 方差概念:随机变量离差平方的数学期望 样本方差?计算P153的方差 公式 例题P155,自学5分钟 例题:甲、乙、丙、丁四人在某次语文考试中分别得72、60、48、90,而全体学生的语文平均分60,标准差12分,求四人相应的标准分数。 例题:对某校高二学生进行期中学习质量测验,语文、数学和英语成绩的平均分数分别是80、70、85,标准差分别为10分、15分、12分。若某学生三科成绩分别为85、82、90分,问该生成绩

46、哪一科最好? 标准分数Z的性质与特点 1、均值0,标准差1。(补充证明,概率论P97)Z=0表示成绩与平均数相等; 2、有相对0点作参照点,有相等单位的导出分数,可加减; 3、由于是对原始分数的线性变换,所以不改变原始分数的分布形态(其证明同1); 4、若原始分数接近正态分布,则标准分范围大致在-4+4之间。 课后思考:常模团体不服从正态分布则不能直接用标准分数,怎么办?自行查找资料。 标准分的进一步转换 1、T分数:10Z+50 2、标准九:2Z+5 标准9分与其他评分制的相互关系(P139) 3、CEEB分数(美国大学入学考试报告分数):500+100Z 4、TOEFL:500+70Z 5

47、、IQ=100+15Z 三、百分等级分数 概念 计算:100-(100R-50)/N 例1、52名同学考试,甲第4名,求其百分等级分数。 例2、52名同学考试,甲、乙、丙、丁戊己庚辛壬癸共10人并列第4名,求其百分等级分数。 百分等级常模建立方法 基本思想:把某个测验分数分布的全距划分为100个等级,建立原始分与百分等级间的一一对应关系。 步骤: 1、从高到低排列 2、逐个统计次数 3、计算“以下累计次数” 4、计算“以下累计相对次数” 5、将第四步换成百分制 以P154的36个分数为例,示范1例,其余同学们自己算。 基于分组归类数据建立百分等级常模 方法:编制“成绩次数分布统计表”只不过是在

48、P154页的表的基础上增加“相对次数”、“累计次数”、“累积相对次数”等条目。 计算公式:(100/N)*Fb+f(X-Lb)/i N为常模团体总人数,X为原分数,Lb为X所在组别的组下限,Fb为小于Lb的各组次数之和,f为X所在组的次数,i为组距。 请计算P154页例子中,67分、89分的百分等级。 几种标准分数关系图 手绘,参考书P140 P219第十六章 课程评价 第二节 课程评价模式的演变 课程评价模式:评价人员或研究人员依据某种教育思想、课程理念或特定的评价目的选取一种或几种评价途径所建立起的相对完整的评价体系。它介于评价理论与具体的评价方法之间,既涉及标准又涉及方法,既包含了评价者

49、的评价取向,也规定了评价的具体操作方式。 回顾P22 -23,“八年研究”。3分钟 目标模式的观点: 在课程与教学的基本原理一书中,泰勒认为,一个有效的课程必须回答四个问题: 1、学校应力求达到何种教育目标。 2、要为学生提供怎样的教育经验(学习经验),才能达到这些目标。 3、如何有效地组织好这些教育经验; 4、我们如何确定这些教育目标正在实现。 泰勒的主要观点: 评估的过程从本质上说就是判断课程和教学计划在多大程度上实现了教育目标的过程。 评价应针对学生的行为而进行,因为教育寻求的正是学生行为的改变。 评价应是任意一段时间内做的一次以上的评价,因为评价要反映的是行为的变化,而这种变化必须通过

50、更多的评价对比才能反映出来。 评价步骤: 1、建立课程计划的目的和目标; 2、以具体行为和具体内容的方式阐述每个目标; 3、确定使用目标的情景; 4、确定情景呈现的方式; 5、确定获取信息的记录方式; 6、收集反映学生行为变化的信息; 7、将收集到的信息与行为目标作比较。 有学者将其简化为四步:确定教育目标、设计评价情景、选择和编制评价工具、分析评价结果。 实例:目标评价模式在体育专业背越式跳高教学中的应用 首先,确定教学目标:背越式跳高学习结束时,学生获得一定的技能和能力; 其次,进行任务分析: 再次,设计和实施教学过程。进行任务分析后,对不同的教学单元实施教学,确认学生在各个环节应当实现的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(教育测量与评价(期末复习)课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|