1、计算机辅助教育测量与评价第一章 计算机辅助教育测量与评价概述 目录 1.1 教育测量与评价的产生 1.2 计算机辅助评价的定义与分类 1.3 计算机辅助评价的发展 1.4 第四代教育评价的兴起1.1 教育测量与评价的产生 1.1.1 教育测验的兴起 1.1.2 美国的教育测验运动 1.1.3 “八年研究”与教育评价的诞生教育测验的兴起 中国古代科举考试制度对世界教育、政治、文化,尤其是考试制度产生过重大的影响。在教育界引起人们对测验问题以极大关注的是著名的莱斯(JMRice)拼字测验。美国的教育测验运动 教育测验之所以在本世纪二十年代形成一种运动,表面是针对论文或考试不客观,实际上,有更为深刻
2、的原因:自然科学的发展 个别差异的研究与统计学在教育上的运用 对特殊儿童的研究 美国的教育测验运动 美国的教育测验运动的发展可分为以下三个时期:19041915年的开拓期 19151930年的兴盛期 19301940年教育测验运动的批判期“八年研究”与教育评价的诞生 为了解决高中课程及教学问题,美国进步主义教育协会负责人艾钦于19331940年期间领导了一项长达八年之久的中学课程改革运动,这就是美国教育史上著名的“八年研究”“八年研究”与教育评价的诞生 为了评价其研究成果,组成了以泰勒为领导的评价委员会。通过这场研究,泰勒和他的同事正式提出了教育评价的概念,即教育评价就是衡量实际活动达到教即教
3、育评价就是衡量实际活动达到教育目标的程度,测验是它的手段。育目标的程度,测验是它的手段。“八年研究”与教育评价的诞生 同时,还提出了评价的原则和方法,其基本思想是:教育是改变人的行动方式的过程;教育目标是各种行动方式的变化;教育能够根据对该目标实际完成情况的分析进行评价;“八年研究”与教育评价的诞生 人的行动是复杂的,所以要从各方面进行评价,它不仅是分析的,而且也是综合的;作为评价方法仅仅靠用纸和笔的测验是不充分的,应该采用包括观察行为在内的更为广泛的方法。“八年研究”与教育评价的诞生 表1.1 新旧课程优劣之评价比较 1.2 计算机辅助评价的定义与分类1.2.1 计算机辅助评价(CAA)的定
4、义1.2.2 计算机辅助评价(CAA)的分类计算机辅助评价(CAA)的定义 计算机技术和教育测量与评价思想的融合促进了计算机辅助评价(Computer-AssistedAssessment,简写为CAA)的发展,引发了评价内容、方法和形式的深刻变革。简单地说,凡是借助于计算机程序、软件和设备进行的测试和评价都属于计算机辅助评价的研究领域。计算机辅助评价(CAA)的定义 计算机辅助评价是指在评价学习者的知识、技能和能力的过程中引入计算机作为工具或手段,主要表现在以下几方面:在测试的过程中,传递材料、评分以及对测试结果进行分析;比较并分析通过试卷搜集到的数据;记录并分析学习者的成就水平,生成测评报
5、告;通过网络比较、分析和传送测评信息。计算机辅助评价(CAA)的定义 就目前应用现状来看,CAA支持的评价类型主要包括下面几种:诊断性,目的是判断学习者对某个主题的预备知识的掌握程度。自测,学习者检查自己对某个概念或术语的理解程度。计算机辅助评价(CAA)的定义 形成性,目的是提供反馈来指导学习者的学习,这些反馈表明了学习者对某个主题的知识、技能理解和掌握的程度。在CAA中,形成性评价通常采取客观题的形式,在测评的过程中或者结束立即给出提示和反馈。总结性,总结性评价能够给出量化分数,并对学习者在某个领域的成绩做出判断。总结性评价通常是正式的、有组织且有监考的评价形式。计算机辅助评价(CAA)的
6、分类 按传递测评内容的手段进行分类,可以分为以下三类:基于试卷的测评 基于计算机的测评 基于网络的在线测评计算机辅助评价(CAA)的分类 按测评依据的理论模型进行分类,可以分为以下两类:经典测验理论 项目反应理论 计算机辅助评价(CAA)的分类 与经典测验理论相比,项目反应理论具有以下两个优点:题目参数估计更准确;根据信息函数可从题库中抽取符合被试能力的题目进行测试。计算机辅助评价(CAA)的分类 按照测评的题型进行分类,可以分为以下三类:客观题测评 操作题测评 主观题测评计算机辅助评价(CAA)的分类 客观性测验具有以下一些优点:测评是客观的,评价结果具有比较高的可信度;可以快速地给出评价结
7、果;综合应用多种媒体(图像、视频、音频等),试题的表现形式丰富多样;在测试的过程中或者测试结束后,可以自动地提供相关的反馈;计算机辅助评价(CAA)的分类 可以从题库中随机地选择题目;给学习者提供灵活的自测机会;可自动阅卷,节省时间,尤其是对大批量学生能快速测评;从试题的呈现、学生答题到阅卷都可以完全由计算机软件完成,实现无纸化考试。1.3 计算机辅助评价的发展 1.3.1 从经典测验(CTT)到项目反应 理论(IRT)1.3.2 从常模参照测验到标准参照测验1.3.3 从学业成就到能力素质测验1.3.4 从终结性评价到形成性评价从经典测验(CTT)到项目反应理论(IRT)经典测量理论、概化理
8、论、项目反应理论是当今主流。一般说来,现在自编量表的测量理论基础都是这三大理论。经典测验理论对测验的分析直观、具体、适用性广;概化理论对测验的宏观分析能力强,适用于测验分析研究;项目反应理论在控制测验编制质量上,原理科学、计量精确,有广泛的发展前途。从经典测验(CTT)到项目反应理论(IRT)经典测量理论(Classical Test Theory,简称CTT)形成于19世纪末,主要是以真实分数模型为基础,借用普通物理测量的基本假设,采用的计算公式简单明了、浅显易懂,能够对测试结果做出合理的解释,并且可操作性强,便于在实际测验情境(尤其是小规模资料)中实施,能满足人们对将测验作为一种选拔工具的
9、需要。从经典测验(CTT)到项目反应理论(IRT)概化理论(Generalizability Theory,简称GT)较之经典测量理论具有独特的优势。它利用方差分析将各类误差进行分解,可辨明多种误差来源,从而揭示了测验变异的影响因素和大小。从经典测验(CTT)到项目反应理论(IRT)项目反应理论(Item ResponseTheory,简称IRT)的发展是建立在潜在特质理论的基础之上的,其主要内容就是揭示被试测验上的反应行为与测验所测的被试潜在特质之间的关系,这种关系的形象描写就是项目特征曲线。从常模参照测验到标准参照测验 尽管在1913年,桑代克就已经提出了标准参照测验,但由于受重视个体差异
10、文化的影响,当时大多数的教育成就测验都是用来比较某个学生与其他学生的成绩,直到20世纪后半叶,标准参照测验得以快速发展。布卢姆的掌握学习理论为标准参照测验的发展提供了原动力。从学业成就到能力素质测验 1993年 “少年儿童测验的应用国际进步之路”宗旨是促进全世界少年儿童的教育发展和教育机会的改善,促进有效的、真正为教育实践服务的评价政策的制定和推行,号召不发达国家开发测验,开展评价,同时倡导发达国家改进传统的评价做法,扩大评价的应用。从终结性评价到形成性评价 终结性评价的目的并不是为了帮助参与方案的个体学生,而是为了决定方案是成功还是失败,是继续使用、修改还是放弃。形成性评价与测验反馈和诊断性
11、功能密不可分。当学生完成了教学的每一个单元或阶段,测验成绩就能够反映他们掌握知识的情况,并告知他们是否达到了课程目标,以及他们在哪些方面需要加强。在教师的帮助下,可以使用新的补习材料或方法来促进学习。1.4 第四代教育评价的兴起 1.4.1 第四代教育评价的内涵 1.4.2 第四代教育评价的主要方法 1.4.3 将评价融入学习环境设计第四代教育评价的内涵 “第四代教育评价”的教育评价理论,它是由印地安纳大学教育学院教授枯巴(Egong Cuba)和维德比尔特大学副教授林肯(Yvonna Session Lincoln)创立的。他们于1989年合作出版了第四代教育评价一书,较为系统地论述了他们关
12、于教育评价的观点,依据各种评价出现的先后时间顺序,将教育评价分为四代,并着重阐述了他们所定义的第四代教育评价。他们把教育评价划分为四个发展阶段,认为每一个阶段各有一种理论构建。第四代教育评价的内涵 第一代教育评价被称为教育评价的“测量时代”,这一时代从1900到1930年。主要标志是测量理论的形成和测量技术手段的大量应用,以追求评价结果的数量化、客观化为主要目的。第二代教育评价被称为教育评价的“描述时代”。这一时代从1930年到1940年。第二代教育评价的主要特征是对评价结果进行描述。第三代教育评价被称为教育评价的“判断时代”,大约从1950年前后开始,到60年代初期。这一代教育评价的特点,是
13、把前两代没有涉及到的“价值判断”引进了教育评价,并视之为教育评价的关键,评价者的任务不仅是要运用一定的测量手段搜集评价信息,而且还要制定判断价值的目标与评价标准,运用一定手段进行价值判断。第四代教育评价的内涵第四代教育评价的内容可以概括为以下几个方面:心理构建论。价值协调论。评价结果认同论。应答性模式。对学习资源与学习过程关注程度增大。第四代教育评价的主要方法 档案袋评价 档案袋评价(portfolio assessment)是一种综合性的过程评价形式。随着当代信息技术的广泛应用,出现了各种丰富多彩的电子档案袋新形式,推动了档案袋评价的迅速发展。第四代教育评价的主要方法 学习契约 学习契约(l
14、earning contract)是学生与教师共同设计的一种契约,契约中界定了学生的学习目标、达成学习目标的方法、学习活动进行的时间以及评定学习活动的标准等。第四代教育评价的主要方法 反思表评价 反思表(reflective form)是以问题或评价条目组成的表单,可以通过预先设计好的问题,使学习者了解到自己学习的完成情况,有效地启发学习者的反思,从而增强反思力和自主学习能力。第四代教育评价的主要方法 表现评定 表现评定(performance assessment)就是通过学生所完成的综合性的、真实的任务来对学生进行评定,要求学生运用他们的知识和技能去完成综合的、有意义的任务。第四代教育评价
15、的主要方法 动态评定 动态评定(dynamic assessment)有两层含义,“一是跨越多个时间点观察评定学生的进步与改变情形,了解学生动态认知历程与认知能力变化的特点和潜能。二是评价者与被评价者之间产生大量的互动,强调评价与教学结合,实施个体化的诊断评价与教学补救。”一般我们运用更多的是第二种含义的动态评定。将评价融入学习环境的设计 第第2章章 教育测量与评价的基本原理教育测量与评价的基本原理2.1 教育测量与评价的基本问题 2.1.1 教育测量及其数据类型 2.1.2 教育评价及其标准 2.1.3 教育评价的类型 2.1.4 我国两种基本的教育评价制度教育测量及其数据类型 测量:就是根
16、据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。教育测量:是为了了解学生的发展,尤其是为了评定学习成绩而进行的测量活动,其结果提供了课堂教与学两方面的信息,是学校教育实践活动的客观需要。教育测量及其数据类型 测量中根据四个不同的性质来定义测量量表:区分性:量表将不同的数值赋予能力水平不同的测量对象 顺序性:量表将大的数值赋予能力水平高的对象,将小数值赋予能力水平相对较低的测量对象 等间距:对象的能力水平差异相等时,赋予的数值的差异也相等 绝对零点:测量对象完全没有所测量的能力时,赋予其数值为零 教育测量及其数据类型 心理学家史蒂文斯(S.Stevens)根据测量的精确程度,将
17、测量量表从低到高划分为称名量表称名量表、顺序量表顺序量表、等距等距量表量表和比率量表比率量表。相应地,由这四种量表获得的数据又分别称为称名量表称名量表数据数据、序量表数据序量表数据、等距量表数据和等距量表数据和比率量表数据比率量表数据。教育测量及其数据类型 称名量表和称名量表数据 称名量表(nominal scale)又叫分类量表,它是最低水平的测量量表。称名量表数据通常是用来对某一测量的特征进行分类,即用数字作为确认的不同类型特征的代码。称名量表中数据没有任何量化的性质,只是代表不同的类型。用称名量表只能确定要测量的条件的特征。教育测量及其数据类型 顺序量表和顺序量表数据 顺序量表(ordi
18、nal scale)是对具有顺序规律的测量特征的不同水平进行赋值的工具,获得的数据称为顺序量表顺序量表数据。数据。对顺序量表数据进行统计处理获得的是中数、百分位数、等级相关系数等。相应的假设检验包括秩次检验、秩次方差检验等。教育测量及其数据类型 等距量表和等距量表数据 等距量表(interval scale)也是对测量特征的不同水平进行赋值,但与顺序量表不同的是,该测量特征的不同水平间的距离或间隔是相等的。由等距量表获得的数据称为等距量表数据。等距量表数据除了具有顺序量表的特性,即具有区分性和顺序性外,还具有等距性。教育测量及其数据类型 比率量表和比率量表数据 比率量表(ratio scale
19、)是最高水平的测量量表。比率量表除了具有区分性、顺序性和等距性外,其最显著特征是具有绝对零点,即测量对象完全不具备测量的特征或能力时,量表赋予其数值为零。由比率量表获得的数据称为比率量表数据。教育评价及其标准 不同学者对教育评价的定义:泰勒认为,“评价过程在本质上是确定课程和教学大纲在实现教育目标的程度的过程。”“是一种确定行为发生实际变化的程度的过程。”我国学者认为,“教育评价是按照一定社会和教育性质、教育方针和政策,所确立的教育目标、对所实施的各种教育活动的效果、完成教育任务的情况以及学生成绩和发展水平进行科学判定的过程。”教育评价及其标准 一般来说,教育评价应该包含一些基本内容:运用多种
20、方法系统收集资料与信息;是一个依据教育目标进行价值判断的过程;评价的内容是多方面的,强调为学生发展和教育决策服务。教育评价及其标准 教育评价的标准,就是对教育质量与效益的具体规定。教育评价标准要体现评价的原则,并能用来衡量各项教育工作。它是一定的教育价值观、质量观、效益观的具体化或具体体现。教育评价及其标准 教育评价标准体系由标准内容、标号和标度三个因素构成。标准内容是指标准的强度和频率。强度是指达到指标体系项目要求的程度或各种规范化行为的优劣程度,又称定性标准。频率又称次数,是指达到指标体系项目要求的数量或各种规范化行为的相对次数,又称定量标准。教育评价及其标准 标号是不同强度和频率的标记符
21、号,通常用字母(如A、B、C)、文字(如甲、乙、丙)或数字(如1、2、3)来表示。它没有独立的意义,只表示一种分类。标度是评价时测定的单位标准。它可以是定性的(如优、良、中、差),也可以是定量的(用数字表示各处档次)。教育评价的类型 针对不同的评价目的,不同的评价内容或从不同的角度,采取不同的划分方法,教育评价可以划分为许多不同的类型:按评价基准来划分 按评价的功能来划分 按评价对象的度量方式来划分 其它教育评价类型教育评价的类型 按评价基准来划分:相对评价 绝对评价 个体内差异评价 教育评价的类型 按评价的功能来划分:诊断性评价 形成性评价 总结性评价 教育评价的类型 按评价对象的度量方式来
22、划分:定量评价:将评价对象进行数量化的分析和计算,从而判断出它的价值。定性评价:将评价对象作概念、程度上的质的规定,然后进行分析评定,以说明评价对象的性质或程度。教育评价的类型 其它教育评价类型:静态评价与动态评价 分析评价与综合评价 软评价与硬评价 最佳行为评价和典型行为评价 我国两种基本的教育评价制度 原国家教委于1990年11月和1991年4月分别发布了普通高等学校教育评估暂行规定和教育督导暂行规定,确定了我国两种基本的教育评价制度,提高了教育管理水平。教育督导制度 教育评估制度 2.2 教育评价对象的抽样技术 2.2.1 抽样的方法 2.2.2 样本数量的确定 所谓抽样技术,就是用总体
23、中一部分样本的特性作为代表去推断总体特性的方法。当评价信息源数量较大时,运用抽样技术不仅能省时、省物和省力,而且还能减少评价信息的误差,从而提高评价信息的质量。抽样的方法 简单随机抽样 两种方法:随机数表法、抽签法 分层抽样 两种方法:等比例分层抽样、分层最佳抽样 等距抽样 具体操作步聚是:(1)运用抽样间隔计算公式,确定抽样间隔;(2)确定起抽号数;(3)确定被抽取单位。样本数量的确定 样本平均数的抽样分布 确定样本数量的基本方法:简单随机抽样 等距抽样 分层抽样数量的确定 2.3 教育评价指标体系的设计 2.3.1 指标体系的设计 2.3.2 指标体系权集的确定 2.3.3 聚类分析及其S
24、PSS操作 2.3 教育评价指标体系的设计 指标是目标的具体化。从管理角度而言,它是具体的、可测的、行为化或操作化的目标;从评价角度而言,它是基本标准某一方面的具体规定,是评价的直接依据。指标体系的设计 提出初拟指标体系:(1)因素分解法 (2)头脑风暴法 (3)理论推演法 (4)典型研究法 指标体系的设计 筛选或修订指标(1)经验法(2)调查法(3)模糊聚类法 指标体系权集的确定 权集就是权重集合的简称。所谓指标的权重,就是指反映指标在指标体系中重要性程度的数量。对每项评价指标分配权重,确定其相对重要程度,是教育评价指标设计中不可少的一项工作。指标体系权集的确定 专家评定法(1)编制权重征询
25、表 将此表发给m个专家填写权重栏。指标体系权集的确定(2)算出每条指标m个专家所给权重的平均值计算公式:式中:i=1,2,n。表示第j位专家赋予第i个指标的权重值,m表示专家人数。11mijijqqm指标体系权集的确定(3)作归一化处理 设:=D,则指标zi的权重为:,(i=1,2,n)。1mijqiqD指标体系权集的确定 对偶比较法 为了确定各指标的权重,可对指标进行逐对比较,并加以评分,重要者记为1分,次重要者记为0分;然后分别计算各指标得分之和,再除以所有指标得分之总和。指标体系权集的确定 层次分析法 这种方法是由美国学者萨蒂(TLSaaty)首先引入到教育评价领域以解决权重的确定问题的
26、。它通过两两比较,区分出各级指标反映评价对象数量要求的相对重要程度,给出以数值表示的判断,构成判断矩阵,然后经过运算确定同级指标相对重要程度次序的权重。聚类分析及其SPSS操作 聚类分析又称分类分析、群聚分析、集群分析,是将所观测的事物或观测事物的指标进行分类的一种统计分析方法。聚类分析的目的是辨认在某些特征上相似的事物,并将这些事物按照这些特征划分为几个类,是现代三大统计方法之一。使得同一类中的事物具有较高的同质性,不同类中的事物具有较大的异质性。聚类分析法与传统分类方法的主要区别在于,它是一种数值分类的方法,分类准则不是事先决定的,而是按照自然类别将空间中的点进行分类。聚类分析及其SPSS
27、操作 聚类分析的对象有两个方面,一个方面是对样品聚类(称Q型聚类),另一个方面是对指标进行聚类(称R型聚类)。Q型聚类分析:用于对所有的被评价对象划分等级 R型聚类分析:将众多的指标按其间的相似性分类,以有助于我们确定评价指标。2.4 教育评价资料的搜集与分析 2.4.1 教育评价资料搜集的方法 2.4.2 教育评价资料分析的方法教育评价资料搜集的方法 测验法:通过编制一定的试题或设置某种情景,向测验对象获取资料的方法。测验法按试题的形式来分,一般又分为论文式测验、客观性测验、投射测验和情景测验。问卷法:评价者根据评价指标的要求,提出一些问题,拟好题目和表格,以问卷的形式进行调查,通过调查对象
28、做题来收集评价信息,它适用于对某些问题进行大面积调查。教育评价资料搜集的方法 根据回答问卷的方式,问卷可分为结构式和非结构式两种:结构式主要分为三种:(1)选择式(2)量表式(3)排列式 非结构式主要两种:(1)填空式(2)自由回答式教育评价资料搜集的方法 观察法:指评价者在一定时间内,对评价对象在自然状态下的特定行为表现进行观察、记录、分析,而获得第一手事实材料。观察法一般分为自然观察和实验观察法。访谈法:评价者通过与评价对象的知情者面对面谈话,直接收集资料的一种方法。根据被访谈的人数不同,访谈法一般可分为个别访谈和集体访谈(座谈会)两种。教育评价资料搜集的方法 文献研究法:评价者通过查阅有
29、关评价对象的文献,以获取评价资料的方法。这种方法在教育评价实践中使用得最普遍,也最为有效。与其他搜集信息方法不同的是,文献研究法使调查者与被调查者在时空上完全隔离开来,不会产生相互作用,因而是一种相对隐蔽的搜集信息的方法。教育评价资料搜集的方法 文献研究的具体步骤有:(1)分类:文献研究的基本作法是编录,即根据文献呈现出来的内容按特定的概念框架对文献作分类记录。(2)抽样:评价者从各个历史时期、各种类型文献中,选取具有代表性、典型性的文献进行分析研究。(3)进行分析研究:根据文献资料的性质和评价的要求进行内容分析或统计数据分析 教育评价资料分析的方法 统计分析法:通过数学的方法去分析和比较教育
30、评价资料。它通常用于对测量资料的分析。模糊综合评价法:模糊综合评价法是把模糊数学应用于教育评价而形成的一种方法。第第3章章 教育测量与评价的质量分析教育测量与评价的质量分析3.1 信度 3.1.1 同质性信度 3.1.2 分半信度 3.1.3 再测信度 3.1.4 评分者的信度3.1 信度 测验的信度是指测验结果的可靠性或可靠程度。所谓可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。常用的信度估计方法有:计算测验内部各项目的得分的一致性,得到同质性信度;用同一测验对同一组被试,前后测验两次,据两次测验分数计算其相关系数,得到再测信度;当一种测验只能施行一次且没有复本时,可按
31、测验题目的奇偶数分两半计分,求相关系数,经校正得到分半信度。同质性信度 同质性信度也称为内部一致性信度,是指测验内部所有项目的一致性。常用的估计方法有克伦巴赫系数等。同质性信度 对于信度系数,应该注意以下要点:(1)Cronbach的信度系数衡量的是测量某一心理结构的一组试题测量结果的可靠程度。(2)理论上说,Cronbach的信度系数取值范围在0到1之间,但实际上95%的测量的系数在0.50到0.90之间。根据Nunnally(1967),信度系数的不同范围,反映出测量量表的不同问题。同质性信度 信度系数的解释(信度系数的解释(Nunnally,1967)同质性信度(3)Cronbach的信
32、度系数可以表示成试卷的试题数与试题间平均相关系数的函数,即信度系数的标准化形式:由公式可见,试题数增加,信度系数增加。若试题间相关系数的平均值低,信度系数就比较低;反之,信度系数就比较高。1(1)n rnr同质性信度(4)如果信度系数高,说明试题间的相关系数平均值比较高,考生在某道试题上得高分,在另一道试题上得高分的概率就比较高,这可能说明这些试题测量的是单一的心理结构。(5)如果信度系数较低,说明试题间相关系数平均值较低,这暗示数据可能存在多维结构。在这种情况下,需要进行因子分析,确定数据维度。然后,对同一维度的试题计算信度系数。同质性信度(6)Cronbach在2004年已经提出,不应再将
33、信度系数看作是考试结果信度的主要衡量指标,应该用标准测量误差来衡量考试结果的信度。标准测量误差与信度系数以及考试的标准偏差相关:s1ess分半信度 分半信度是在测试以后对测试项目按奇项、偶项或其他标准分成两半,分别记分,由两半分数之间的相关系数得到信度系数。分半信度 由于分半,所求得的相关系数只是半个测验的信度,可能会高估原测验的信度,因此需要根据斯皮尔曼布朗公式校正:其中:为两半测验分数的相关系数。21hhhhrrr再测信度 同一个测验项目,对同一组人员进行前后两次测试,两次测试所得分数的相关系数即为再测信度。它反映两次测验结果有无变动,也就是测验分数的稳定程度,故又称为稳定性系数。再测信度
34、 再测信度的计算必须满足以下几个假设:(1)所测量的特质必须是稳定的;(2)遗忘和练习的效果相同;(3)两次测试期间被试对问题的熟悉情况没有差别。评分者的信度 当测验是论文式试题时,不同评分者对同一试卷的评分结果不相同,有时差异很大。这时不宜用系数计算其信度,必须对评分者评分的一致性进行估计,因为此时误差主要来自评分者的差异。评分者的信度 若只有两人参加评N份试卷,可用斯尔曼等级相关方法计算;若三个以上评分者评N分试卷,则需采用肯德尔(Kendall)和谐系数来表示信度:2223()1()12iiRRNWKNN式中K为评分者人数,N为评分的试卷数,为第i个被评价对象的K个等级之和。3.2 效度
35、 3.2.1 内容效度 3.2.2 结构效度 3.2.3 因素分析的SPSS操作 3.2.4 验证性因素分析的应用例举 3.2.5 效标关联效度 3.2.6 效度与信度的关系3.2 效度 效度是指一个测验或量表实际能测出其所要测量的特性的程度。测验或量表就是测量使用的工具。如果一次测量能测出其所要测的特性,那么我们就认为这个测验或量表是有效的。显然,效度是测量质量的一个极其重要的方面,测量工具如果无效或效度太低,就失去了存在的价值。内容效度 内容效度:测验题目样本对于应测内容与行为领域的代表性程度。一个测验具备良好的内容效度应满足两个条件:测验内容范围要明确。对学业成绩测验来说,就是试题要符合
36、教材内容和教学大纲,试题不应该超出确定的范围。试题应是已界定的内容范围的代表性样本,它应该覆盖所测内容的主要方面,并使各部分题目所占比例适当。结构效度 所谓结构,是指心理学或社会学上的一种理论构想或特质。它本身观察不到,并且也无法直接测量到,但学术理论假设它是存在的,以便能够来解释和预测个人或团体的行为表现。结构效度就是指测验成绩所能够解释心理学或社会学理论上的某种结构或特质的程度。因素分析的SPSS操作 SPSS for Windows使用Factor过程进行因子分析,其基本步骤为:(1)计算相关矩阵,判断是否需要进行因子分析,并采用KMO检验及球形检验来判断原始变量是否适合于因子分析。(2
37、)进行因子分析,按一定标准确定提取的因子数目。(3)考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式。(4)计算并保存因子得分,以便进一步分析使用。验证性因素分析的应用例举 验证性因素分析属于结构方程模型(structural equation modeling;简称SEM)的一种次模型,为SEM分析的一种特殊应用。由于SEM的模型界定能够处理潜在变量的估计与分析,具有高度的理论先验性,因而若是研究者对于潜在变量的内容与属性,能提出适当的测量变量以组成测量模型,借由SEM的分析程序,便可以对潜在变量的结构或影响关系进行有效的分析。效标关联效度 效标关联效度是指测验分数与作为效标的
38、另一独立测验结果之间的一致性程度。一般是用本测验分数与效标测验结果之间的相关系数表示。效标是用来检测效度的参照标准,可用来作效标的变量很多。效标关联效度效标关联效度可以分为两种:同时效度同时效度:一种测验的结果与另一大约同 时获得的测验结果(效标)之间的一致程 度,并用两测验结果的相关系数来估算。预测效度预测效度:某一测验结果与另一将来获得 的测验结果之间的相关程度。效标关联效度从效度估计的方法上来看,效标关联效度可以用三种方法进行估计:命中率 显著差异法 相关法 效度与信度的关系 效度是测量准确性的量度,信度是测量结果一致性或稳定性的量度,准确性与一致性的关系,亦即效度与信度的关系。若一测验
39、的信度低,则其效度也不会高;而测验的信度高时,却不一定保证效度高。但是,具有高效度的测验都必定有足够高信度。所以,高信度是高效度测验的一个必要条件而非充分条件。3.3 难度 3.3.1 难度系数的计算办法3.3.2 难度的转换3.3.3 难度对测验的影响3.3 难度 难度是衡量试题与试卷难易程度的指标,而且是相对于被试的该批考生而言的。定量刻画被试作答一个题目所遇到的困难程度的量数,就叫题目的难度系,或称难度值,用符号P表示。难度系数的计算办法 客观试题的难度计算:(1)对于采用二分法记分的题目,难度以通过率来表示:100%RPN(3-7)难度系数的计算办法(2)当被试人数很多时,可以将被试依
40、照总分从高到低排列,然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组,运用公式(3-7)分别计算两组的通过率,然后用下式计算该题难度:2HLPPP (3-10)难度系数的计算办法 2主观性试题的难度计算(1)设为被试在某一试题上的平均分,W为该题的满分,则 上式适用于论题题、问答题和计算题等非二分法记分的题目。100%XPW(3-11)难度系数的计算办法(2)当被试人数很多时,主观性试题可采用下式计算难度:22()HLXXNLPN HL(3-12)难度系数的计算办法 3难度的测前估算 在未测试前就估算难度,需要了解影响试题难度的一般因素:熟悉程度 信息数量 题目结构 变化动态难
41、度的转换 人们常假设每个试题所要测量的潜在特质或能力是呈正态分布的,然后就可以根据正态分布曲线,将试题的难度指数P作为正态曲线下的(概率)面积,转换成具有相等单位的等距量表,即Z分数(标准分数)。由于标准分数具有相等单位,属于等距量表。所以,用标准分数作为题目难度的指标,为进一步作难度分析带来了一些方便。难度对测验的影响 难度对测验分数分布的影响 难度对测验信度的影响 难度与测验目的的关系 3.4 区分度 3.4.1 区分度的意义3.4.2 区分度的计算3.4.3 区分度对测验的影响区分度的意义 题目区分度就是题目区别被试水平能力的量度,常记为D。测验多少都带有将被试的水平加以区分的意图,那么
42、构成测验的每一个题目就应该为这一目标作贡献,区分度就是刻画试题的这种功能的质量指标。区分度的意义 区分度的分析方法,大约可以归纳成两类:一为外在效标法,即分析被试在测验题目上的得分与外在客观标准上的表现之间的关系。另一为内部一致性法,即分析被试在测验题上的得分与在整个测验总分之间的一致性程度。区分度的意义 区分度的取值范围在-1.00至1.00之间。通常D为正值,称作积极区分;D为负值,称作消极区分;D为0,称作无区分作用。具有积极区分作用的项目,其D值越大,区分的效果越好。区分度的计算 高低分组法 相关法 区分度对测验的影响 区分度与难度的关系 区分度对测验的影响 区分度与信度的关系 一个良
43、好的测验,信度必须要高。艾贝尔(R.L.Ebel)的研究表明,整个测验中各试题的区分度D值的平均数越高,测验的信度就越高。信度是随区分度的提高而增长的,且信度增长的速度比区分度增长还快。所以,要想使得测验信度达到理想的值,提高各试题区分度是一个好的途径。第4章 测验分数等值及其常模量表的建立4.1 测验分数等值及其常模 4.1.1 测验等值的含义 4.1.2 测验分数等值的方法 4.1.3 常模测验等值的含义 测验等值是指对测量同一心理特质的不同测验的分数或试题参数,通过一定的数学方法,转换成同一单位系统中的量数,以利于相互比较的方法。测验等值包括分数等值和项目参数等值两类。测验等值的含义 测
44、验等值转换一般以两种形式出现:水平等值:若两个测验的难度水平相当,考生能力分布类似时,即时说,它是同一测验的不同形式,称为测验的水平等值。如高考时的正卷与副卷,其副卷是为正卷在某种意外不能使用的情况下备用的,它们两者的等值是水平等值。垂直等值:当测验程度水平不同,考生的能力分布也不同时,这一类等值称为垂直等值。测验分数等值的方法 线性等值:两个平行且信度相等的测验分数X和Y,假若它们各自导出的标准分数相等,就可以认为是等值分数,因此,有:X和Y是两测验的原始分数;、和、分别是两个测验上的原始分数的平均数与标准差。YXYXYMXMSSYMXMYSXS测验分数等值的方法 百分位等值:两个平行且信度
45、相等的测验分数X和Y,如果它们在各自的考生组中的百分位数级相等,就可以认为是等值。随机地划分两组考生A和B,分别计算它们的累积频率、相对累积频率,则在A和B两个组中同一百分位等级所对应的原始分数,就是等值分数。测验分数等值的方法 铆等值:实际工作中,常采用设置一批共同试题的方法,求取两个测验间的等值转换关系,两个测验所共用的部分试题称为铆题。铆题的数量应为全卷的1/5,铆题在试卷中可以分散、也可以集中,或者作为一个独立的测验来施测。常模 常模的定义:在教育测量中,测验的常模,简称常模。它是指一个有代表性的样组在某种测验上的表现情况,或者说,是一个与被试同类的团体在相同测验上得分的分布状况与结构
46、模式。常模 常模资料的获取:通过抽样获取一个有代表性的常模团体。进行统计学描述。将原始分数转换为导出分数。4.2 百分等级常模的建立 4.2.1 百分等级常模的意义4.2.2 百分等级常模的建立方法百分等级常模的意义百分等级是一个地位量数,能够反映某个测验分数在一组数据中的相对地位。在学生测验中,它把学生的原始分数放在该学生所在群体(比如四年级)的成绩中进行比较,以确定该学生在群体中的相对地位之高低。百分等级常模的建立方法 用原始分数直接计算其百分等级 用频数分布表编制百分等级量表:分为编制频数分布表和建立百分等级与原始分数的等值对照表两大步骤。4.3 标准分数常模的建立 4.3.1 标准分数
47、的定义4.3.2 标准分数常模的建立方法 标准分数的定义 标准分数是以标准差为单位表示测验成绩与平均分数之间的距离。线形标准分数就是原始分数转换成标准分数之后,只改变了分布的平均数和标准差,并不改变分布的形态。非线性标准分就是正态化的标准分,也就是原始分数与正态化标准分数的等值对照表,其量表值就是正态化的标准分数或非线性的标准数。标准分数的定义 1标准分数ZZ分数本身就是关于原始分数X的一种线性变换,因此,Z分数不改变原始分数的分布形态。任何一批原始分数,转化成Z分数后,这批Z分数的平均值为0,标准差为1。在一般情况下,标准分数Z的取值范围在-3到+3之间。标准分数的定义 标准分数标准分数Z计
48、算公式:计算公式:(4-10)式中和分别表示测验的平均分数和标准差。式中和分别表示测验的平均分数和标准差。XXZSXS标准分数的定义 由于标准分数Z分值过小,并往往带有小数和负值等缺陷,在许多情形下,直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z通过线性变换,转到更大的标准分数量表上,其一般公式为:a和b为选定的两个常数,Z为标准分数,T为线性变换分数。TabZ标准分数的定义 常见的转换分数有以下几种:教育与心理测验中的T分数:T=50+10Z 韦氏智力量表中各分测验的量表分:T=10+3Z 韦氏智力量表智商(离差智商):IQ=100+15Z 美国大学入学考试报告分数:CEEB=500
49、+100Z 为出国人员举行的英语水平考试:EPT=90+20Z 美国教育测验中心举办“托福”考试:TOEFL=500+70Z 标准分数的定义 2.正态分布下标准分数Z和百分等级PR之间的关系:标准分数Z是与百分等级PR相联系的一种相对分数,在正态分布下,其对应的百分等级PR与一个以标准分Z为界点的正态曲线左尾部面积比例数相对应。这种对应关系由统计学家编制出正态分布面积表供人们查表确定。通过查正态分布表,只要简单计算就可以确定某个Z分数所对应的百分等级PR。标准分数的定义 3正态分布下若干种分数量表之间的关系 标准分数及其与百分等级和标准分数之间的关系 标准分数的定义 其他多等级评分量表及其对应
50、关系 标准分数常模的建立方法 标准分数常模的建立方法可分为两个步骤:根据标准化样本中每个被试测验的原始分数,计算其平均分数及标准差;根据公式(4-10)计算原始分数的Z分数。第第5章章 测验分数的描述统计测验分数的描述统计5.1 频数分布5.1.1 数据的基本类型5.1.2 频数分布表5.1.3 频数分析的SPSS例解5.1.4 频数分布图的SPSS操作5.1.5 运用SPSS对多选题的描述统计数据的基本类型 离散型数据:一般指取整数值的数量指标。这类数据是计数性的,数据之间不能再划分为更小的单位。连续型数据:一般指经过度量和测定而得到的数量指标。这类数据取值可以连续变化,尽管数据本身仍然是数