1、1第第2讲讲 教育测量与评价教育测量与评价v一、教育测量一、教育测量v(一)测量的定义(一)测量的定义v由于事物属性不同,以及所制定的规则不同,由于事物属性不同,以及所制定的规则不同,致使用数的特性来描述事物属性所达到的程致使用数的特性来描述事物属性所达到的程度也不同。这就产生了不同的测量水平。史度也不同。这就产生了不同的测量水平。史蒂文斯将测量的水平分成四种,每一种测量蒂文斯将测量的水平分成四种,每一种测量水平都产生与其相应的测量量表。水平都产生与其相应的测量量表。2v史蒂文斯史蒂文斯(S.S.Stevens)于于1951年曾给测量下年曾给测量下了这样的定义:从广义而言,测量是根据法了这样的
2、定义:从广义而言,测量是根据法则给事物分派数字。则给事物分派数字。这一定义概括了物理(实物)测量、社会这一定义概括了物理(实物)测量、社会测量和心理测量的共性。测量和心理测量的共性。v测量这一定义包含了三个要素:测量这一定义包含了三个要素:v1、事物属性、事物属性测量的对象或目标测量的对象或目标v2、数字、数字描述事物属性的符号描述事物属性的符号v3、法则、法则给事物的属性分派数字的依据给事物的属性分派数字的依据31、事物的属性是测量的对象、事物的属性是测量的对象 v我们对事物进行测量,确切地说,测量的对象我们对事物进行测量,确切地说,测量的对象是事物的某种属性。例如,物体的长度、重量、是事物
3、的某种属性。例如,物体的长度、重量、体积、温度以及一个事件发生的时间长短等,都体积、温度以及一个事件发生的时间长短等,都是事物的物理属性。它们的存在形式比较具体,是事物的物理属性。它们的存在形式比较具体,大多可以被人的感觉器官所直接感觉到,如看得大多可以被人的感觉器官所直接感觉到,如看得见、听得到、摸得着、尝得出、嗅得到。但是,见、听得到、摸得着、尝得出、嗅得到。但是,我们还往往需要测量人的心理属性,如学生的智我们还往往需要测量人的心理属性,如学生的智力、个性、品德、知识、技能、习惯、能力、态力、个性、品德、知识、技能、习惯、能力、态度、兴趣、爱好等。它们的存在形式比较抽象,度、兴趣、爱好等。
4、它们的存在形式比较抽象,大多不能被人的感官直接感觉到。大多不能被人的感官直接感觉到。4v2、数字是描述事物属性的符号、数字是描述事物属性的符号 数字在未被用来表示事物的属性之前,它数字在未被用来表示事物的属性之前,它仅仅是一个符号,它本身没有量的意义。当仅仅是一个符号,它本身没有量的意义。当数字被合理地用来描述事物的属性时,我们数字被合理地用来描述事物的属性时,我们才赋予它以量的意义,即从数字变成了数。才赋予它以量的意义,即从数字变成了数。数的特性为逻辑运算提供了许多可能性。数的特性为逻辑运算提供了许多可能性。数的系统是非常合乎逻辑的。数的系统数的系统是非常合乎逻辑的。数的系统(指自指自然数然
5、数)有以下几个特性:有以下几个特性:5v(1)同一性和区分性同一性和区分性 所谓同一性就是指每一个数的独特性。例所谓同一性就是指每一个数的独特性。例如,用同一个数字表示的事物必定是相同的。如,用同一个数字表示的事物必定是相同的。既然每一个数都是独特的,那么就没有任何既然每一个数都是独特的,那么就没有任何一个别的数与它完全相同。这就是数与数之一个别的数与它完全相同。这就是数与数之间的区分性。是间的区分性。是1就不是就不是2,是,是2就不是就不是1,用,用1和和2分别表示的事物是不相同的两个事物。分别表示的事物是不相同的两个事物。数的同一性和区分性是一个问题的两个方面。数的同一性和区分性是一个问题
6、的两个方面。6v(2)等级性或位次性等级性或位次性v这是指若干个数之间按其大小所形成的次序这是指若干个数之间按其大小所形成的次序关系。如关系。如321。若用数的等级性描述事物,。若用数的等级性描述事物,那么,事物之间必有位次可循。那么,事物之间必有位次可循。v(3)等距性等距性 若第一个数与第二个数之差,等于第二个数若第一个数与第二个数之差,等于第二个数与第三个数之差(例如,与第三个数之差(例如,1、2、3三个数,三个数,3-2=1,2-1=1),那么,这三个数具有等距性。),那么,这三个数具有等距性。7v(4)等比性等比性 若一个数可以表示为是另一个数的倍数,若一个数可以表示为是另一个数的倍
7、数,如桌子的长是宽的如桌子的长是宽的2倍,这类数具有等比性。倍,这类数具有等比性。上述数的特性从低到高排列。一个数若具上述数的特性从低到高排列。一个数若具有较高的特性,则必具有较低的特性。有较高的特性,则必具有较低的特性。在实际测量中,由于测量的需要以及所欲在实际测量中,由于测量的需要以及所欲测量的事物属性的不同,有时并不需要让数测量的事物属性的不同,有时并不需要让数的各种特性同时具备。当然,能多具备一些的各种特性同时具备。当然,能多具备一些更好,因为测量中运用数的效果,确实也与更好,因为测量中运用数的效果,确实也与这些数所包括的特性多少相关联。这些数所包括的特性多少相关联。8v假如我们能用数
8、合理地描述事物的属性,并假如我们能用数合理地描述事物的属性,并且在允许的条件下,对数进行运算,我们就且在允许的条件下,对数进行运算,我们就可以通过运算的结果,对所要测量的属性进可以通过运算的结果,对所要测量的属性进行推测。如果事物的属性和数的系统之间,行推测。如果事物的属性和数的系统之间,在性质上或形式上存在着高度的类似性,我在性质上或形式上存在着高度的类似性,我们就可以用数来描述事物的真实情况。们就可以用数来描述事物的真实情况。9v3、规则、规则给事物属性分派数字的依据给事物属性分派数字的依据v测量中最关键且最困难的事情就是制定规则。测量中最关键且最困难的事情就是制定规则。所谓规则就是指导我
9、们如何测量的一种准则所谓规则就是指导我们如何测量的一种准则或方法,即在测量时给事物的属性分派数字或方法,即在测量时给事物的属性分派数字的依据。的依据。v例如,有一种规则可描述为:解某一道物理例如,有一种规则可描述为:解某一道物理习题完全做对分派数字习题完全做对分派数字6,做对其中一个过程,做对其中一个过程,则分派数字则分派数字2,做对其中二个过程,则分派数,做对其中二个过程,则分派数字字4。10v在数学上,在数学上,函数函数就是把某一集合中的事物分就是把某一集合中的事物分派到另一集合事物之上的规则。可以说,任派到另一集合事物之上的规则。可以说,任何测量都呈现函数关系,而任何函数关系都何测量都呈
10、现函数关系,而任何函数关系都是建立一种顺序配对的集合。是建立一种顺序配对的集合。v一般来说,具体且稳定的事物属性,如性别、一般来说,具体且稳定的事物属性,如性别、身高、体重等,其测量的规则就易于建立和身高、体重等,其测量的规则就易于建立和使用使用;抽象且易变的事物属性,如人的抽象且易变的事物属性,如人的智力、智力、知识、技能、人格、态度知识、技能、人格、态度等心理属性,其测等心理属性,其测量规则就难以制定和使用。量规则就难以制定和使用。11(二)四种测量量表(二)四种测量量表v量表一般称为测量工具。量表一般称为测量工具。v1、名称量表名称量表(类别量表)最低水平的一(类别量表)最低水平的一种量
11、表种量表v它只是用数字表明事物的类别或性质不同而它只是用数字表明事物的类别或性质不同而已,没有任何数量大小的意义,不能作数量已,没有任何数量大小的意义,不能作数量化分析,也不能将之进行加减乘除运算。化分析,也不能将之进行加减乘除运算。v即属于同一类的事物用同一个数字表示,属即属于同一类的事物用同一个数字表示,属于另一类的事物用另一个数字表示。用来描于另一类的事物用另一个数字表示。用来描述各类事物的数字仅仅是事物的名称:它只述各类事物的数字仅仅是事物的名称:它只具有相同与不同的特性,没有数量大小的含具有相同与不同的特性,没有数量大小的含义。用这类数字表示的量表叫名称量表。义。用这类数字表示的量表
12、叫名称量表。12v例如,学生按性别进行分类,凡男生用例如,学生按性别进行分类,凡男生用1表示,表示,女生用女生用2表示。如果既按性别分类,又按对物表示。如果既按性别分类,又按对物理学科喜欢和不喜欢两个标准进行分类,喜理学科喜欢和不喜欢两个标准进行分类,喜欢用欢用1表示,不喜欢用表示,不喜欢用0表示。于是男生喜欢表示。于是男生喜欢者可表示为者可表示为11;男生不喜欢者可表示为;男生不喜欢者可表示为10;女生喜欢者可表示为女生喜欢者可表示为21;女生不喜欢者可表;女生不喜欢者可表示为示为20等。等。13v在这里,用来描述事物的数字仅仅是代表事在这里,用来描述事物的数字仅仅是代表事物的符号。它只能区
13、分事物的类别,没有数量物的符号。它只能区分事物的类别,没有数量的大小、多少、位次和倍数关系。也就是说,的大小、多少、位次和倍数关系。也就是说,它只具有数的同一性和区分性,而不具有等级它只具有数的同一性和区分性,而不具有等级性、等距性和等比性。因此,不能将之进行加性、等距性和等比性。因此,不能将之进行加减乘除四则运算。对于名称测量结果的数据所减乘除四则运算。对于名称测量结果的数据所进行的统计处理,不是用来描述事物的数字本进行的统计处理,不是用来描述事物的数字本身,而是归人每一类中个体的数目(频数)。身,而是归人每一类中个体的数目(频数)。v对这类点计数据所允许和适用的统计方法,对这类点计数据所允
14、许和适用的统计方法,有比率(相对频数,即某一类的频数与总频数有比率(相对频数,即某一类的频数与总频数之比)、百分比、相关系数、检验。之比)、百分比、相关系数、检验。14v2、等级量表等级量表(顺序量表(顺序量表或或位次量表)位次量表)v用来描述各个类别的数字,不仅具有区分性,用来描述各个类别的数字,不仅具有区分性,而且还具有等级性(或顺序性),因此,量而且还具有等级性(或顺序性),因此,量表上的数字之间能表示事物大小的位次关系,表上的数字之间能表示事物大小的位次关系,但不具有等距性和可加性,也不能进行加减但不具有等距性和可加性,也不能进行加减乘除运算。乘除运算。v用这样的数字表示的量表叫等级量
15、表或位次用这样的数字表示的量表叫等级量表或位次量表。量表。15v例如例如,将学生的动能定理的应用能力分成甲、将学生的动能定理的应用能力分成甲、乙、丙三个等级。甲等用乙、丙三个等级。甲等用3表示表示,乙等用乙等用2表示,表示,丙等用丙等用1表示。于是对于学生动能定理的应用表示。于是对于学生动能定理的应用能力的评定构成了能力的评定构成了321的位次关系。但是这的位次关系。但是这些数字只能确定事物相等或不等的关系。在不些数字只能确定事物相等或不等的关系。在不等的情况下等的情况下,只能确定大于或小于的关系只能确定大于或小于的关系,如如32、21,则,则31的关系,却不能确定甲等的的关系,却不能确定甲等
16、的3比丙比丙等的等的1大多少个相等的单位。因为大多少个相等的单位。因为3与与2和和2与与1之间的差距是不相等的。因此对于量表上的这之间的差距是不相等的。因此对于量表上的这些数字不能进行加减乘除的运算。些数字不能进行加减乘除的运算。16v等级量表所能适用的统计方法有:中位数、等级量表所能适用的统计方法有:中位数、百分位数、等级相关系数、肯德尔和谐系数百分位数、等级相关系数、肯德尔和谐系数(多列等级相关多列等级相关),以及符号检验、秩次检验、,以及符号检验、秩次检验、秩次方差分析。秩次方差分析。17v3、等距量表等距量表有相等单位和人定参照点的量有相等单位和人定参照点的量表叫等距量表。这种量表上的
17、数值不仅具有表叫等距量表。这种量表上的数值不仅具有区分性、等级性,还具有等距性,这类量表区分性、等级性,还具有等距性,这类量表上的数值只能作加减运算,不能作乘除运算。上的数值只能作加减运算,不能作乘除运算。但是量表上的参照点(读数的起点)不是绝但是量表上的参照点(读数的起点)不是绝对零点,而是人定的参照点。对零点,而是人定的参照点。18v例如,用摄氏温度计测量的温度,例如,用摄氏温度计测量的温度,9与与6之差等于之差等于6与与3之差,即之差,即3。但是,这并。但是,这并不意味着不意味着9是是3的的3倍,倍,6是是3 的两倍。的两倍。这是因为,摄氏温度表是以冰点作为人定参照这是因为,摄氏温度表是
18、以冰点作为人定参照点。摄氏零度并不意味着没有温度,而摄氏温点。摄氏零度并不意味着没有温度,而摄氏温度表上的度表上的绝对零点绝对零点在零下在零下273,即,即-273。时间量表上的参照点也是人定的。钟表上的零时间量表上的参照点也是人定的。钟表上的零点,并不意味着没有时间。这类量表上的数值点,并不意味着没有时间。这类量表上的数值只能作加减运算,不能作乘除运算。只能作加减运算,不能作乘除运算。它们所能适用的究计方法有算术平均数、标它们所能适用的究计方法有算术平均数、标准差、积差相关系数以及准差、积差相关系数以及Z、t、F检验等。检验等。19v4、比率量表比率量表最高水平的量表最高水平的量表v有相等单
19、位和绝对零点的量表叫比率量表。有相等单位和绝对零点的量表叫比率量表。这种量表上的数值不仅具有区分性、等级性、这种量表上的数值不仅具有区分性、等级性、等距性,还具有等比性。量表数值可以进行等距性,还具有等比性。量表数值可以进行加减乘除的四则运算。加减乘除的四则运算。20v因为量表上有绝对零点。所谓绝对零点,就因为量表上有绝对零点。所谓绝对零点,就是量表上标着是量表上标着0的地方,表示所要测量的属性的地方,表示所要测量的属性是无。这类量表上的数值既可以确定一个事物是无。这类量表上的数值既可以确定一个事物比另一事物大多少,又可以确定大多少倍。因比另一事物大多少,又可以确定大多少倍。因此,量表值可以进
20、行加减乘除四则运算。在物此,量表值可以进行加减乘除四则运算。在物理测量中,长度、重量、开氏温度量表理测量中,长度、重量、开氏温度量表(绝对温绝对温度量表度量表)都属于比率量表。例如,甲生身高都属于比率量表。例如,甲生身高143 cm,乙生身高,乙生身高130 cm,可以说甲生比乙生高,可以说甲生比乙生高13 cm,也可以说甲生身高是乙生的,也可以说甲生身高是乙生的1.1倍。倍。v它所适用的统计方法,除了等距量表所适用它所适用的统计方法,除了等距量表所适用的统计方法之外,还可以计算几何平均数和差的统计方法之外,还可以计算几何平均数和差异系数。异系数。比率的测量,是测量的最高水平。比率的测量,是测
21、量的最高水平。21v以上四种量表是依从低到高的次序排列的。以上四种量表是依从低到高的次序排列的。量表的次序越高,对于描述事物的数所能允量表的次序越高,对于描述事物的数所能允许的算术运算也就越多。后面每一种量表的许的算术运算也就越多。后面每一种量表的性质,除包括前面各种量表的性质之外,还性质,除包括前面各种量表的性质之外,还具有其特殊的性质。具有其特殊的性质。人们往往将运用名称、等级量表进行的测人们往往将运用名称、等级量表进行的测量认为是量认为是定性测量定性测量;而将运用等距、比率量;而将运用等距、比率量表进行的测量认为是表进行的测量认为是定量测量定量测量。22(三)什么是教育测量(三)什么是教
22、育测量v教育测量就是依据一定的法则,对教育活动教育测量就是依据一定的法则,对教育活动中的某一现象给予数量化的描述。中的某一现象给予数量化的描述。v从广义来说,教育测量就是对于教育领域内从广义来说,教育测量就是对于教育领域内的事物或现象,根据一定客观标准,作缜密的事物或现象,根据一定客观标准,作缜密的考核,并依一定的规则将考核的结果予以的考核,并依一定的规则将考核的结果予以数量的描述。数量的描述。v从狭义来说,教育测量是指对学生某些学科从狭义来说,教育测量是指对学生某些学科经过学习和训练之后,所获得的知识、技能经过学习和训练之后,所获得的知识、技能的测量,又称成就测量、学业成绩测量或学的测量,又
23、称成就测量、学业成绩测量或学科测量。科测量。23v从教育测量的广义概念来说,它所测量的属从教育测量的广义概念来说,它所测量的属性,虽然也包括了物理属性,如学生的身高、性,虽然也包括了物理属性,如学生的身高、体重等,但它测量的主要对象是心理属性,如体重等,但它测量的主要对象是心理属性,如学生的知识、技能等。学生的知识、技能等。v心理属性心理属性是否也可以客观地进行测量呢是否也可以客观地进行测量呢?尽管教育测验(例如物理学科测量)在教学尽管教育测验(例如物理学科测量)在教学过程中已成为教师考核学生学习成绩不可缺少过程中已成为教师考核学生学习成绩不可缺少的工具,但是由于人的心理属性是抽象的,不的工具
24、,但是由于人的心理属性是抽象的,不易捉摸,实现客观的测量比较困难,因此有人易捉摸,实现客观的测量比较困难,因此有人对心理属性测量的可能性就产生了怀疑。对心理属性测量的可能性就产生了怀疑。其实,心理属性与物理属性一样,都是可以其实,心理属性与物理属性一样,都是可以测量的。测量的。24v1904年,美国的桑代克发表了年,美国的桑代克发表了心理与社会心理与社会测量导论测量导论一书,系统地介绍了统计方法和一书,系统地介绍了统计方法和编制测验的基本原理,为心理属性测量的可编制测验的基本原理,为心理属性测量的可能性提供了理论基础。能性提供了理论基础。v1、任何现象只要是存在的总有数量、任何现象只要是存在的
25、总有数量(桑代克桑代克)v2、凡有数量的现象都可以测量(、凡有数量的现象都可以测量(麦柯尔麦柯尔)v以上两个论断为教育测量奠定了理论基础,以上两个论断为教育测量奠定了理论基础,对教育测量学的建设与发展做出了巨大贡献。对教育测量学的建设与发展做出了巨大贡献。25v(1)任何现象只要是存在的总有数量任何现象只要是存在的总有数量v这个原则是由美国心理学家桑代克这个原则是由美国心理学家桑代克(E.L.Thorndike)提出的。他说:提出的。他说:“凡物的存在必凡物的存在必有其数量有其数量。”人的心理现象虽然看不见,摸人的心理现象虽然看不见,摸不着,但它是客观存在的现实,是脑这块高不着,但它是客观存在
26、的现实,是脑这块高级物质的属性,它也有数量的差异。级物质的属性,它也有数量的差异。v例如例如,人的智力有高低之分,学生的学习成,人的智力有高低之分,学生的学习成绩有优劣之别。这高低之间、优劣之间,存绩有优劣之别。这高低之间、优劣之间,存在着程度的不同。所谓程度不同,就是数量在着程度的不同。所谓程度不同,就是数量的不同。的不同。26v(2)凡有数量的现象,都可以测量凡有数量的现象,都可以测量v这个原则是由美国测验学者这个原则是由美国测验学者麦柯尔麦柯尔(W.A.Mc Cal)于于1923年提出的。人的心理属性也是可年提出的。人的心理属性也是可以测量的,虽然我们不能用尺来量它,用秤以测量的,虽然我
27、们不能用尺来量它,用秤来称它,但是它必定会反映在某种活动之中,来称它,但是它必定会反映在某种活动之中,或表现在某种行为之中,于是我们就可以通或表现在某种行为之中,于是我们就可以通过对人的行为的测量来推测他的某种心理属过对人的行为的测量来推测他的某种心理属性。当然实现这种测量是很困难的。性。当然实现这种测量是很困难的。27v到目前为止,对于某些心理属性,如智力、到目前为止,对于某些心理属性,如智力、创造力、知识、技能、习惯、品德、理想、创造力、知识、技能、习惯、品德、理想、兴趣、态度等,我们尚不能一一加以测量或兴趣、态度等,我们尚不能一一加以测量或测量得还不十分准确可靠。这是因为测验学测量得还不
28、十分准确可靠。这是因为测验学的发展历史还很短,许多测量工具还没有发的发展历史还很短,许多测量工具还没有发明,已发明的测量工具还不十分完善。但是,明,已发明的测量工具还不十分完善。但是,我们不能因为某种心理现象的测量工具还没我们不能因为某种心理现象的测量工具还没有发明,就说这种现象是无法测量的。有发明,就说这种现象是无法测量的。28教育测量的特点教育测量的特点v人的心理属性,往往是难以明确规定的,有人的心理属性,往往是难以明确规定的,有些甚至缺乏公认的定义。另外,它们易受条件些甚至缺乏公认的定义。另外,它们易受条件的影响而发生变化,制约它们变化的因素也甚的影响而发生变化,制约它们变化的因素也甚多
29、。因此,测量的实现较为困难。多。因此,测量的实现较为困难。1.测量结果的间接性和推断性测量结果的间接性和推断性2.测量对象的复杂性和模糊性测量对象的复杂性和模糊性3.测量目的的针对性测量目的的针对性4.度量单位的相对性度量单位的相对性29二、什么是教育评价二、什么是教育评价(一)教育评价的界定(一)教育评价的界定v1、教育评价就是教育测验;、教育评价就是教育测验;v2、教育评价是一种专业判断;、教育评价是一种专业判断;v3、教育评价是把实际表现与理想目标相比较、教育评价是把实际表现与理想目标相比较的活动;的活动;v4、教育评价是系统收集资料,为决策提供依、教育评价是系统收集资料,为决策提供依据
30、的活动。据的活动。30v教育评价教育评价:教育评价是根据一定的教育目标,:教育评价是根据一定的教育目标,运用可行的科学手段,通过系统地收集信息运用可行的科学手段,通过系统地收集信息资料和分析整理,对教育活动、教育过程和资料和分析整理,对教育活动、教育过程和教育结果进行价值判断,从而为教育决策提教育结果进行价值判断,从而为教育决策提供依据的过程。供依据的过程。31(二)教育评价的特征(二)教育评价的特征v1、教育评价、教育评价=事实判断事实判断+价值判断价值判断v2、教育评价是对教育过程及其结果的评价、教育评价是对教育过程及其结果的评价v3、教育评价必须以教育目标为基准、教育评价必须以教育目标为
31、基准v4、教育评价是评价者与被评价者的双边合作、教育评价是评价者与被评价者的双边合作活动活动32(三)在区别上理解教育评价(三)在区别上理解教育评价v1 1、教育评价与教育测量、教育评价与教育测量v联系:联系:v教育测量是教育评价的基础,教育测量是对教育测量是教育评价的基础,教育测量是对教育进行量的测定,所或得的结果是教育评教育进行量的测定,所或得的结果是教育评价所需信息的主要的、可靠的来源,是对教价所需信息的主要的、可靠的来源,是对教育的状态和价值进行客观判断的前提;育的状态和价值进行客观判断的前提;v教育测量的结果只有通过教育评价这个环节教育测量的结果只有通过教育评价这个环节才能获得实际意
32、义,否则便成了一堆抽象而才能获得实际意义,否则便成了一堆抽象而枯燥的数字。枯燥的数字。33v区别:区别:v两者着眼点不同:教育测量是为了取得数据;两者着眼点不同:教育测量是为了取得数据;教育评价是要分析解释,对教育价值作出判教育评价是要分析解释,对教育价值作出判断。断。v两者特点不同:教育测量是一种纯客观的过两者特点不同:教育测量是一种纯客观的过程,具有客观性特点;教育评价具有客观性程,具有客观性特点;教育评价具有客观性与主体性相结合特点。与主体性相结合特点。v两者复杂程度不同:教育测量是对教育数量两者复杂程度不同:教育测量是对教育数量化的描述,关心量的获得,活动较为单一;化的描述,关心量的获
33、得,活动较为单一;教育评价着眼于事物质的判定,含定性与定教育评价着眼于事物质的判定,含定性与定量分析,活动是多重的。量分析,活动是多重的。342、教育评价与教学评价、教育评价与教学评价v联系:v教学评价是以教学为对象的教育评价,只是教学评价是以教学为对象的教育评价,只是教育评价的一个方面,用逻辑学术语讲,教教育评价的一个方面,用逻辑学术语讲,教育评价是一个上位概念,而教学评价仅是一育评价是一个上位概念,而教学评价仅是一个下位概念。个下位概念。v区别:v教育评价的范围比教学评价要广得多,它不教育评价的范围比教学评价要广得多,它不仅关注教学评价,还有学校管理评价、教师仅关注教学评价,还有学校管理评
34、价、教师评价、学生评价、课程评价、总务评价等等。评价、学生评价、课程评价、总务评价等等。353、教育评价与教育督导、教育评价与教育督导v联系:v两者皆以党和国家的教育方针、政策、法规两者皆以党和国家的教育方针、政策、法规为依据;为依据;v目的都是为了加强对教育工作的科学管理,目的都是为了加强对教育工作的科学管理,全面提高教育质量;全面提高教育质量;v督导工作过程主要有监督、检查、评价、指督导工作过程主要有监督、检查、评价、指导、反馈若干环节,评价是诸环节的核心,导、反馈若干环节,评价是诸环节的核心,无论是监督和检查,还是指导和反馈,都离无论是监督和检查,还是指导和反馈,都离不开评价这个手段。不
35、开评价这个手段。36v区别:区别:v评价只是督导工作内容的一部分,只构成督评价只是督导工作内容的一部分,只构成督导工作的前提和基础,而不是其全部;导工作的前提和基础,而不是其全部;v督导工作中所使用的评价即督导评价是一种督导工作中所使用的评价即督导评价是一种自上而下的他人评价,只是教育评价的一种自上而下的他人评价,只是教育评价的一种形式,而不是教育评价的全部。形式,而不是教育评价的全部。37(四)教育评价的类别(四)教育评价的类别v1 1、从评价主体上分、从评价主体上分他人评价他人评价自我评价自我评价v2 2、从评价标准上分、从评价标准上分相对评价相对评价绝对评价绝对评价内差异评价内差异评价3
36、8v3、从评价功能上分、从评价功能上分诊断性评价诊断性评价形成性评价形成性评价总结性评价总结性评价v4、从评价方法上分、从评价方法上分定性评价定性评价定量评价定量评价39三、教育测评的发展阶段三、教育测评的发展阶段v(一)教育测评的发展阶段(一)教育测评的发展阶段v1、教育测评的萌芽阶段(、教育测评的萌芽阶段(1864年以前)年以前)v(1)中国古代教育测评)中国古代教育测评vA、中国是考试制度的发源地、中国是考试制度的发源地v根据根据学记学记记载,早在我国的西周时期,记载,早在我国的西周时期,就实行了教育考评。所以,教育测评发生的就实行了教育考评。所以,教育测评发生的最早源头在中国。最早源头
37、在中国。40vB、中国科举制度的世界地位、中国科举制度的世界地位v科举考试始于隋,兴盛完备于唐,废于清末,科举考试始于隋,兴盛完备于唐,废于清末,是我国实行时间最长的一种选士制度,对我国是我国实行时间最长的一种选士制度,对我国乃至于对世界的考试制度有重要的影响。乃至于对世界的考试制度有重要的影响。v科举制是通过分科考试来选取人才,科举制科举制是通过分科考试来选取人才,科举制自产生后,就不断探索考试的方法,经过唐代自产生后,就不断探索考试的方法,经过唐代200多年的发展,终于形成了多年的发展,终于形成了贴经、口试、墨贴经、口试、墨义、策问和诗赋义、策问和诗赋五种方法测试考生。五种方法测试考生。4
38、1a、贴经、贴经v把所试的经书任揭一页,将其左右两边挡住,把所试的经书任揭一页,将其左右两边挡住,中间只开一行,再用纸帖盖住三字,令应试者中间只开一行,再用纸帖盖住三字,令应试者填出来。贴经是各科考试中普遍应用的方法。填出来。贴经是各科考试中普遍应用的方法。起初简单,只要把经书及注释熟读熟记就可以起初简单,只要把经书及注释熟读熟记就可以应付。后来时间久了,许多经文及注释都考过应付。后来时间久了,许多经文及注释都考过了,考生过多,需要淘汰,所以帖经的条目也了,考生过多,需要淘汰,所以帖经的条目也愈来愈难。有的贴经条目甚至是让帖年头月尾,愈来愈难。有的贴经条目甚至是让帖年头月尾,孤章绝句,完全是有
39、意刁难考生。这种类似于孤章绝句,完全是有意刁难考生。这种类似于现代填空的贴经,主要考察考生的记诵能力,现代填空的贴经,主要考察考生的记诵能力,对考生的其他能力是无法检查的。对考生的其他能力是无法检查的。42b、口试、口试v让考生当场口头回答问题。开始是由考官负让考生当场口头回答问题。开始是由考官负责,问答时并不作记录,后来出现了舞弊现责,问答时并不作记录,后来出现了舞弊现象。建中二年(象。建中二年(781年),中书舍知礼部贡年),中书舍知礼部贡举赵赞曾奏请,以所问录于纸上,各令直书举赵赞曾奏请,以所问录于纸上,各令直书其文。元和二年(其文。元和二年(807年),礼部贡院又清年),礼部贡院又清皇
40、帝废除口试。元和七年,权知礼部侍郎韦皇帝废除口试。元和七年,权知礼部侍郎韦贯之奏请恢复口试。口试的方法比较灵活,贯之奏请恢复口试。口试的方法比较灵活,但随意性较大,确实有复查无凭的缺点,容但随意性较大,确实有复查无凭的缺点,容易给一些考官和考生提供联合舞弊的机会。易给一些考官和考生提供联合舞弊的机会。43c、墨义、墨义 v一种简单的笔试问答。不需要考生发挥自己一种简单的笔试问答。不需要考生发挥自己的思想,只需熟读熟记经文和注释就能答出。的思想,只需熟读熟记经文和注释就能答出。这种方法主要考察考生的记忆能力,也较简这种方法主要考察考生的记忆能力,也较简单,所以一问便是几十条,甚至几百条。单,所以
41、一问便是几十条,甚至几百条。v如原问:如原问:“子谓子产有君子之道四焉。所谓子谓子产有君子之道四焉。所谓四者何也?四者何也?”对曰:对曰:“其行己也恭,其事上其行己也恭,其事上也敬,其养民也惠,其使命也义。谨对。也敬,其养民也惠,其使命也义。谨对。”44d、策问、策问v要求考生针对当时社会政治、经济、文化等要求考生针对当时社会政治、经济、文化等方面出现的问题,发表自己的看法,类似于政方面出现的问题,发表自己的看法,类似于政治性的论文。策问的方法是从西汉时期发展而治性的论文。策问的方法是从西汉时期发展而来的,到了唐代更为人们做重视。来的,到了唐代更为人们做重视。45v策问策问让考生自由的发表自己
42、的意见,相比口让考生自由的发表自己的意见,相比口试、贴经和墨义来说,能够考察出一个人治试、贴经和墨义来说,能够考察出一个人治国安邦的才能,能够促使考生开动脑筋去思国安邦的才能,能够促使考生开动脑筋去思考一些现实问题,有利于人们思维水平的提考一些现实问题,有利于人们思维水平的提高。正因为如此,唐代各科考试的最后取舍,高。正因为如此,唐代各科考试的最后取舍,大多取决于策问。但长期采用这种方法,造大多取决于策问。但长期采用这种方法,造成了一般考生束书不观,只拿缀辑的旧策习成了一般考生束书不观,只拿缀辑的旧策习读,以应付考试。就连李白这样的名流,也读,以应付考试。就连李白这样的名流,也未能脱俗。未能脱
43、俗。46e、诗赋、诗赋v要求考生当场写作诗赋一篇,主要考察考生要求考生当场写作诗赋一篇,主要考察考生的文学修养和文学创作能力。诗赋考试驶于唐的文学修养和文学创作能力。诗赋考试驶于唐高宗永隆二年高宗永隆二年(681年年),吏部考功员外郎,吏部考功员外郎刘思立刘思立以进士科考试只考时务策,知识太狭窄为由,以进士科考试只考时务策,知识太狭窄为由,要求加试杂文,于是下令加试杂文两首。但此要求加试杂文,于是下令加试杂文两首。但此时考试仍以策问为主。至神龙元年时考试仍以策问为主。至神龙元年(705年年),才,才于策问之外增添了诗赋考试。后来唐朝的统治于策问之外增添了诗赋考试。后来唐朝的统治者也喜好诗赋,诗
44、赋在考试中起的作用便日渐者也喜好诗赋,诗赋在考试中起的作用便日渐增大了。增大了。47v诗赋考试在一定程度上推动了唐诗的繁荣发诗赋考试在一定程度上推动了唐诗的繁荣发展,唐诗的发展盛行也促使诗赋考试越来越展,唐诗的发展盛行也促使诗赋考试越来越为人们所重视为人们所重视.诗赋最终成为人们获取功名利诗赋最终成为人们获取功名利禄的便捷途径,以至于发展成为专门注重词禄的便捷途径,以至于发展成为专门注重词藻、注重形式而不重思想内容的创作风格,藻、注重形式而不重思想内容的创作风格,造成了相互抄袭模仿的不良学风。造成了相互抄袭模仿的不良学风。48(2)西方教育测量的发展)西方教育测量的发展vA、教育测量的诞生、教
45、育测量的诞生v18世纪以前的西方各国,由于学校尚未普及世纪以前的西方各国,由于学校尚未普及,学校考试主要是口试。学校考试主要是口试。v1720年,英国剑桥大学首先以笔试替代口试年,英国剑桥大学首先以笔试替代口试,开西方学校考试笔试之先河。开西方学校考试笔试之先河。v1845年,美国初等学校普及,学生人数激增年,美国初等学校普及,学生人数激增,对毕业生一一口试已不可能,于是,美贺拉斯对毕业生一一口试已不可能,于是,美贺拉斯曼于曼于1847年引进笔试,取代口试。年引进笔试,取代口试。49B、教育测量的蓬勃兴起、教育测量的蓬勃兴起v1864年,英国格林威治医院附属学校的教师年,英国格林威治医院附属学
46、校的教师费舍,收集了许多学生成绩样本,汇集了一费舍,收集了许多学生成绩样本,汇集了一本本量表集量表集,作为度量学生各科成绩的标,作为度量学生各科成绩的标准,这可以说是客观标准化测量的萌芽。准,这可以说是客观标准化测量的萌芽。v引起人们对测验问题极大关注的是引起人们对测验问题极大关注的是美莱斯美莱斯博博士的拼字测验。士的拼字测验。v20世纪初,世纪初,比纳比纳智力量表推出,智力量表推出,比纳比纳被称为被称为智力测量鼻祖。智力测量鼻祖。v1904年,美国心理学家年,美国心理学家桑代克桑代克出版出版心理与心理与社会测量学导论社会测量学导论,桑代克被称为教育测量,桑代克被称为教育测量鼻祖。鼻祖。50v
47、1905年,法国心理学家比纳和西蒙编制了第年,法国心理学家比纳和西蒙编制了第一个诊断异常儿童智力的测验一个诊断异常儿童智力的测验,即著名的即著名的“比纳比纳-西蒙量表西蒙量表”(Binet-Simon Scale)。该量表。该量表包括包括30个项目,从易到难排列,以通过题数的个项目,从易到难排列,以通过题数的多少作为鉴别智力高低的标准。多少作为鉴别智力高低的标准。1908年和年和1911年作者对量表先后修订了两次,测验项目增加年作者对量表先后修订了两次,测验项目增加到到59个,并按年龄分组,从个,并按年龄分组,从3岁到岁到15岁。该量岁。该量表首次采用心理年龄表首次采用心理年龄(mental
48、age,MA)即智龄即智龄来计算成绩,儿童通过哪个年龄组的项目,便来计算成绩,儿童通过哪个年龄组的项目,便表明他的智力与几岁儿童的平均智力水平相当。表明他的智力与几岁儿童的平均智力水平相当。51v比纳认为,智力是一种判断的能力,创造的比纳认为,智力是一种判断的能力,创造的能力,适应环境的能力。因而他从复杂任务能力,适应环境的能力。因而他从复杂任务入手,着重测量判断、理解、推理等高级心入手,着重测量判断、理解、推理等高级心理过程,即智力中的普通因素。理过程,即智力中的普通因素。v美国斯坦福大学教授推孟美国斯坦福大学教授推孟(L.M.Terman)在在1916年修订了比纳年修订了比纳西蒙量表,即斯
49、坦福西蒙量表,即斯坦福比纳智力量表比纳智力量表(Stanford-Binet Scale)。该测。该测验有验有90个项目,其最大特点是引入智力商数个项目,其最大特点是引入智力商数(intelligence quotient,IQ,简称智商,简称智商)的概的概念。所谓智商,就是心理年龄念。所谓智商,就是心理年龄(MA)与实足年与实足年龄龄(chronological age,CA)之比,也称比率之比,也称比率智商,作为比较人的聪明程度的相对指标。智商,作为比较人的聪明程度的相对指标。52v1937年、年、1960年推孟对斯坦福年推孟对斯坦福比纳量表曾比纳量表曾做过两次修订,做过两次修订,1972
50、年在测验内容不变的情况年在测验内容不变的情况下,对下,对1960年修订本重新做了标准化,常模是年修订本重新做了标准化,常模是从更具代表性的新样本中得到的。从更具代表性的新样本中得到的。1960年修订年修订后的斯坦福后的斯坦福比纳量表共有比纳量表共有100多个项目,这多个项目,这些项目被分为些项目被分为20个年龄组。个年龄组。25岁儿童每半岁岁儿童每半岁为一组,每组有为一组,每组有6个正式项目,一个备用项目;个正式项目,一个备用项目;614岁每岁为一组,每组也有岁每岁为一组,每组也有6个正式项目和个正式项目和一个备用项目。此外还有一个普通成人组和三一个备用项目。此外还有一个普通成人组和三个不同水