1、是对测试结果做出正确评价的。只有试题质量符合要求的测试结果,才能作为评价的依据。通过试题质量分析,能为进一步修改试题提供依据,有助于提高命题的技能、技巧。教育测量的质量指标教育测量的质量指标2试题质量的初步评价试题质量的初步评价11 1、分数分布表、分数分布表对于一组大小不同的分数,先划分对于一组大小不同的分数,先划分出区间,即等距离的出区间,即等距离的组距组距,然后将,然后将数据填入相当的组内,所获得的表。数据填入相当的组内,所获得的表。全距R=Xmax-Xmin=100-40=60组数K=1.87(N-1)2/5=12.94-13组距=R/K=4.6-5学生成绩分布表学生成绩分布表分数区间
2、中值Xc人数f占总人数的百分比40444221.6%45494743.1%50545264.7%555957107.9%6064621310.2%6569671915.0%7074722116.5%7579771713.4%8084821411.0%858987129.5%90949275.5%9510097.521.6%40,45)45,50)95,100精确组限表述组限不重不漏学生成绩次数分布组距1 2 3 4 5 6 7 8 9 10 11 12学生成绩次数分布正态分布正态分布 正偏态分布正偏态分布 负偏态分布负偏态分布双峰型分布双峰型分布 平坡型分布平坡型分布 陡峭型分布陡峭型分布平均
3、分1NiiXXN平均数是表示一组数据集中趋势的量数。集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。平均分的作用:可以作为一组分数平均分的作用:可以作为一组分数的典型代表。的典型代表。 根据平均分的值,可根据平均分的值,可以判断试题的平均难度。以判断试题的平均难度。中数中数:在一组按照大小顺序排列的:在一组按照大小顺序排列的分数中位于正中间的数分数中位于正中间的数( (数字个数为数字个数为奇数奇数) );或者中间两个数的平均数;或者中间两个数的平均数( (数字个数为偶数数字个数为偶数) )。众数众数:一组数据中出现次数
4、最多的:一组数据中出现次数最多的数值。简单的说,就是一组数据中数值。简单的说,就是一组数据中占比例最多的那个数。占比例最多的那个数。标准差标准差:描述一组数据离散情况的:描述一组数据离散情况的最常用、最可靠的统计量数。最常用、最可靠的统计量数。S, 21()NiiXXN一组测验分数,只有平均分是不足一组测验分数,只有平均分是不足以表明其分布状况的。以表明其分布状况的。标准差反映组内各值间的分散程度。标准差反映组内各值间的分散程度。一个较大的标准差,代表大部分数一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接较小的标准差,代
5、表这些数值较接近平均值。近平均值。例如,两组数的集合例如,两组数的集合 0,6,10,16 0,6,10,16 和和 6,7,9,106,7,9,10。其平均值为:其平均值为:标准差分别为:标准差分别为:8 8,8 8342.5,四、相关四、相关1 1、相关:、相关:两列变量间的两列变量间的相互关系相互关系叫叫做相关。做相关。化学成绩化学成绩数学成绩数学成绩二二2 2、相关系数、相关系数r的计算的计算皮尔逊积差相关公式:皮尔逊积差相关公式:Xi, ,Yi分别为连续变量分别为连续变量X, ,Y中的成对数据;中的成对数据;X,Y分别为分别为X,Y的标准差,的标准差,N为被统计的成对为被统计的成对变
6、量的数目。变量的数目。 计算相关系数时,计算相关系数时,N的数值一般应在的数值一般应在3030以上以上才有意义。才有意义。r介于介于1 1之间。之间。1NiiiXYXX YYrN 科目科目学生学生数学成绩数学成绩(X) 化学成绩化学成绩(Y)19080260403503041008557050 科科目目学生学生数学成绩数学成绩(X)化学成绩化学成绩(Y)190802604035030410085570501NiiiXYXX YYrN XY5370/5 74285/5 57= 344=18.5476=21.8NXY, 90 74 80 57 + 60 74 40 57 + 50 74 30 57
7、 + 100 74 85 57 + 70 74 50 575 18.5 21.8554 =0.2752016.5r21()NiiXXN二二二二二二科学地评价试题质量,主要反映在科学地评价试题质量,主要反映在四项指标:四项指标:、。效度效度(Validity)测验的测验的有效性有效性指标。指标。1 1、估计内容效度、估计内容效度的方法的方法2 2、提高效度的方法、提高效度的方法精心编制量表。精心编制量表。u测验内容要确实能反映测验的目的;测验内容要确实能反映测验的目的;u题目表述必须清楚、简明,所用字、词、句能被题目表述必须清楚、简明,所用字、词、句能被学生理解,排列由易到难,但前面的题目不应暗
8、示学生理解,排列由易到难,但前面的题目不应暗示后面的答案;后面的答案;u题目难度合适,有足够的区分度;题目难度合适,有足够的区分度;u试卷印刷清楚,无错误和遗漏,力求精美。试卷印刷清楚,无错误和遗漏,力求精美。控制系统误差。控制系统误差。如指导语有暗示性、答案明显有组型等。如指导语有暗示性、答案明显有组型等。适当增加测验的长度。适当增加测验的长度。增加测验的长度可以提高信度,也可以增加测验的长度可以提高信度,也可以提高效度。提高效度。妥善组织测验。妥善组织测验。掌握好测验的时间;评分要客观、准确;掌握好测验的时间;评分要客观、准确;测验时间间隔的合理安排等。测验时间间隔的合理安排等。计算相关系
9、数计算相关系数 r ;21xxrrr 题题目目被试被试123456总分总分A1111004B1111116C1110003D1100103E1000001测验的题目分数及总分测验的1、2、3题为前一半,4、5、6题为后一半,进行分半信度计算。 题题目目被试被试前三项前三项X(1+2+3)后三项后三项Y(4+5+6)总分总分A314B336C303D213E101半分信度计算步骤1NiiiXYXX YYrN XY512/5 2.45/5 1.0=0.81.2=1.1NXY, 3 2.4 1 1 + 3 2.4 3 1 + 3 2.4 0 1 + 2 2.4 1 1 + 1 2.4 0 15 0.
10、8 1.12 =0.4554.4r220.455= 0.625110.455xxrrr21()NiiXXN信度系数多大为宜?信度系数多大为宜?2 2、提高信度的方法、提高信度的方法(1)(1)kkxxxxkkrrKrr适当增加测验题目的数量。适当增加测验题目的数量。测验题目的数量越多,题目的代表性就测验题目的数量越多,题目的代表性就越大。设增加后的总题量与原题量的比越大。设增加后的总题量与原题量的比值为值为K K,则有;,则有;测验的难度要适中。测验的难度要适中。能使信度、区分度达到最大能使信度、区分度达到最大题数题数信度系数信度系数102030601201404800.3000.4620.5
11、620.7200.8370.9110.954表. 测验长度与信度和效度的关系王汉澜,王汉澜, 教育测量学教育测量学,河南,河南大学出版社,大学出版社,19871987,P93P930.8010.64= 2.25 12270.6410.80K,2 2、提高信度的方法、提高信度的方法评分要尽量做到客观化、减少评分误评分要尽量做到客观化、减少评分误差。差。测验的内容应尽量同质。测验的内容应尽量同质。测验内容过于庞杂,必然要求学生具有测验内容过于庞杂,必然要求学生具有不同的能力、知识或技能,致使测验的不同的能力、知识或技能,致使测验的信度降低。信度降低。三、三、难度难度(difficulty):每个试
12、题的难易程度。每个试题的难易程度。1 1、客观题客观题:某题答对人数的比例,设:某题答对人数的比例,设N N为被为被测的总人数,测的总人数,R R为答对的人数,则为答对的人数,则 难度难度 H=1-=1-PRPNXPX满适宜难度适宜难度4 4、控制难度的基本方法、控制难度的基本方法一般来说影响题目难度的主要因素有:一般来说影响题目难度的主要因素有:考查知识点的多少;考查知识点的多少;考查能力的复杂程度或层次的高低;考查能力的复杂程度或层次的高低;考生对题目的熟悉程度;考生对题目的熟悉程度;命题的技巧性。命题的技巧性。四、四、区分度区分度(discrimination)每个试题将考生水平每个试题将考生水平( (能力能力) )区分开来的区分开来的程度。程度。HLRRDn-HLXXDHL排序排序得分得分1323344555.1681791891992010-945=0.7141037HLXXDHL2 2、区分度等级、区分度等级4 4、提高区分度的方法、提高区分度的方法使题目的难度适中,使整个考试难度使题目的难度适中,使整个考试难度适中;适中;着重考察复杂的学习结果。着重考察复杂的学习结果。这使高能学生能得高分或最高分,低能这使高能学生能得高分或最高分,低能学生得低分甚至最低分,可以提高区分学生得低分甚至最低分,可以提高区分度。度。5 5、难度与区分度的关系、难度与区分度的关系