经典测量理论、概化、项目反应理论课件.ppt_163文库

资源描述

1、经典测量理论(classical test theory,CTT)2022-4-1719041904年斯皮尔曼首次提出了经典测量理论，年斯皮尔曼首次提出了经典测量理论，19501950年，美国学者格立克森（年，美国学者格立克森（GulliksenGulliksen）出版了）出版了“Theory of Mental TestsTheory of Mental Tests”一书，标志着经典一书，标志着经典测验理论的成熟。测验理论的成熟。经典测量理论主要是以真实分数模型经典测量理论主要是以真实分数模型 (true (true score model)score model)为基础为基础, ,围绕被试

2、对试题的应答结果围绕被试对试题的应答结果( (观测分数观测分数) )和被试所具有的真实的心理特质和被试所具有的真实的心理特质( (真分真分数数) )之间存在的误差进行分析之间存在的误差进行分析, ,发展并形成了包括发展并形成了包括信度、效度、区分度、等值等概念在内的比较完信度、效度、区分度、等值等概念在内的比较完整的心理与教育测量理论体系整的心理与教育测量理论体系, ,故经典测量理论又故经典测量理论又称为真分数理论。称为真分数理论。2022-4-17X=T+E任何一个测验成绩都看做是真分数和测量误差之和,这是经典测量理论的基本思想。真分数理论的基本假设：在讨论范围内在讨论范围内, ,真分数具有

3、某种程度的稳定性真分数具有某种程度的稳定性, ,即真分数不即真分数不变变, ,是常数；是常数；测量误差的期望值为测量误差的期望值为0,0,即即E=0E=0；测量误差与真分数相互独立测量误差与真分数相互独立, ,真分数与测量误差相关为真分数与测量误差相关为0 0；不同测量误差之间的相关为不同测量误差之间的相关为0 0；平行性假设平行性假设: :以相同的程度测量同一心理特质的测验称为平行测验。以相同的程度测量同一心理特质的测验称为平行测验。每个平行测验的平均数相等每个平行测验的平均数相等, ,等于同一心理特质等于同一心理特质, ,即真分数；测量误差即真分数；测量误差的平均数相等的平均数相等, ,且

4、等于且等于0 0；测量误差方差相等。；测量误差方差相等。2022-4-17根据上面的假设,可以将真分数定义为:一个被试在某一测量中无限多次测量的均值或数学期望,即经典测量理论的优点与局限性经典测量理论的优点与局限性优点：优点：在在2020世纪大部分年代里世纪大部分年代里, ,心理与教育测量的理心理与教育测量的理论与实践一直建立在真分数模型基础上。论与实践一直建立在真分数模型基础上。真分数模型是以弱假设为基础的真分数模型是以弱假设为基础的, , 采用的计算采用的计算公式简单明了、浅显易懂公式简单明了、浅显易懂, ,能够对测试结果做能够对测试结果做出合理的解释出合理的解释, ,并且可操作性强

5、并且可操作性强, ,便于在实际测便于在实际测验情境验情境( (尤其是小规模资料尤其是小规模资料) )中实施中实施, ,能满足人能满足人们对将测试作为一种选拔工具的需要们对将测试作为一种选拔工具的需要, ,在测验在测验实际工作中有着较强影响力实际工作中有着较强影响力, ,并发挥着重要的并发挥着重要的指导作用。指导作用。局限性：局限性：2022-4-17（1 1）信度估计精确性不高）信度估计精确性不高经典测量理论对信度的假设是建立在平行测验的概念假设上的，但很难找到两个测验的测量误差完全相等，不可能要求每位受试者接受同一份测验无数次，而每次测量间都彼此独立不相关。因此平行测验的理论假设很难满足。

6、在平行测验条件不满足的情况下，估计的各种信度可能有较大误差。（2 2）各参数估计受样本依赖性太大）各参数估计受样本依赖性太大难度、区分度和信度等各项指标，依赖于它们所来自的特定的被试样本。这些指标会因接受测验的受试者样本的不同而不同，因此，同一份试卷很难获得一致的难度、区分度或信度。2022-4-17（3 3）等测量标准误差难做到）等测量标准误差难做到真分数模型已经指出测量误差的存在，以一个相同的测量标准误作为每位受试者的测量误差，显然不适当。当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差，且误差会随着被试水平与测验难度距离的增加而变大。（4 4）能力量表与难度

7、量表不配套）能力量表与难度量表不配套在经典测量理论中，被试能力量表是卷面总分，项目的难度量表是题目难度。因而不能提供不同能力水平的被试如何对项目进行反应的预测信息，找不到验证某个项目是否匹配某种能力水平被试的计量方法，这使得在选题时带有一定盲目性，失去了精确指导测验编制的作用。概化理论(generalizability theory, GT)2022-4-17克朗巴赫等人(Cronbach)于1972年出版的The Dependability of Behavioral Measurement一书是概化理论形成的标志。GT是关于行为测量的可信赖度的统计学理论。概括性：分数能够推论的范围。分数

8、能够推论的范围。可信赖度：推广应用时，推广或概括化的准确程推广应用时，推广或概括化的准确程度。度。2022-4-17GT理论的基本思想是，任何测量都处在一定的情境关系之中，应该从测量的情境关系中具体地考察测量工作，提出了多种真分数与多种不同的信度系数的观念，并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。用“全域分数”(Universe Score)代替“真分数”(True Score) ，用“概括化系数，G系数”(Generalizability Coefficent)代替了“信度”。2022-4-17概化理论把全域分数方差对总方差的比称为为概括力系数（简称G系数）。而总方差可以分

9、成全域分数方差2(p)和误差分数方差2()。概化理论的研究程序2022-4-17G G研究研究(G study):(G study):测量的测量的过程中有哪些因素会影过程中有哪些因素会影响被试的测量结果。响被试的测量结果。测量目标主效应方差、测测量目标主效应方差、测量面的主效应方差、各种量面的主效应方差、各种交互效应方差。交互效应方差。D D研究研究(D study)(D study)概化系数概化系数可信赖指数可信赖指数2022-4-17测量工作中要加以认识和应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素，称为测量侧面(Facets of Measurement)。测量侧面又

10、分为随机侧面和固定侧面。进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差，但却会使测量目标变得更为局限，这样，测验所得的分数就不能再推广到原来那么宽广的范围了。GTGT与与CTTCTT的几点比较的几点比较2022-4-17（1 1）CTTCTT要求严格平行测验的要求严格平行测验的“强假设强假设”，即两个平行测验的，即两个平行测验的实测分数必须具有相同的平均数和方差，否则无法确定测验实测分数必须具有相同的平均数和方差，否则无法确定测验信度的意义；而信度的意义；而GTGT只要求随机平行的只要求随机平行的“弱假设弱假设”，所谓随机，所谓随机平行测验是指随机取自同一题库的长度相

11、同的测验。因而平行测验是指随机取自同一题库的长度相同的测验。因而CTTCTT的应用范围受到许多限制，而的应用范围受到许多限制，而GTGT的应用范围则更广泛，的应用范围则更广泛，应用也更合理。应用也更合理。（2 2）CTTCTT把测验分数简单划分为真分数和误差分数两个部分，把测验分数简单划分为真分数和误差分数两个部分，误差分数是单一的、含混的、随机的，这就导致不能有效地误差分数是单一的、含混的、随机的，这就导致不能有效地解释影响人的心理活动因素的多样性，从而在实践上对控制解释影响人的心理活动因素的多样性，从而在实践上对控制误差缺乏有效指导。误差缺乏有效指导。GTGT采用方差分析方法，充分考虑了影

12、响采用方差分析方法，充分考虑了影响分数的所有误差来源，并进一步提出绝对误差和相对误差的分数的所有误差来源，并进一步提出绝对误差和相对误差的划分及其对绝对误差和相对误差的度量。划分及其对绝对误差和相对误差的度量。2022-4-17（3 3） CTT CTT主要关注的是个体之间的差异，而主要关注的是个体之间的差异，而GTGT除除了个体之间的差异以外，还关注个体的绝对水平。了个体之间的差异以外，还关注个体的绝对水平。（4 4）在）在CTTCTT中，测量误差的估计方法导致同一个测中，测量误差的估计方法导致同一个测量量表往往表现出多种测量信度并存现象，如重量量表往往表现出多种测量信度并存现象，如重测信度

13、、复本信度、同质信度等，这些信度系数测信度、复本信度、同质信度等，这些信度系数之间没有必然的内在关系。而之间没有必然的内在关系。而GTGT则采用具有内在则采用具有内在逻辑关系的概化系数、可靠性系数或信噪比等指逻辑关系的概化系数、可靠性系数或信噪比等指数来反映各种因素可能对测验分数的影响程度。数来反映各种因素可能对测验分数的影响程度。2022-4-17尽管尽管CTTCTT和和GTGT之间存在着基础性差异，但是在之间存在着基础性差异，但是在某种程度上，某种程度上，GTGT仍然可以看做是通过应用适当仍然可以看做是通过应用适当的方差分析的方差分析ANOVAANOVA程序对程序对CTTCTT的一种拓展。

14、的一种拓展。由于统计计算相当繁杂，前在我国还处于实验由于统计计算相当繁杂，前在我国还处于实验研究阶段，在面试、考核等主观性测评中有一研究阶段，在面试、考核等主观性测评中有一些应用。些应用。项目反应理论(item response theory,IRT)2022-4-17无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通过抽取一定的样本（行为样本或被试样本）实现，二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面：（1 1）测量结果的应用范围有限。）测量结果的应用范围有限。（2 2）测量分数赖性于具体的测验（内容）。）测量分数赖性于具体的测验（内容）。（

15、3 3）测量参数依赖于被试样本。）测量参数依赖于被试样本。（4 4）信度估计的精确性不高。）信度估计的精确性不高。2022-4-17 项目反应理论也称项目特征曲线理论或潜在特质理论，它是依据一定的数学模型，用项目特征参数估计潜在特质的一种测量理论。该理论中最重要的两个基本概念是“潜在特质”和“项目特征曲线”。项目反应理论的基本假设项目反应理论的基本假设17（一）潜在特质空间假说（一）潜在特质空间假说潜在特质空间是指由心理学中的潜在特质组潜在特质空间是指由心理学中的潜在特质组成的抽象空间。如果考生在测验项目上的反应成的抽象空间。如果考生在测验项目上的反应是有是有K K种潜在特质所决定的，那么这些

16、潜在特种潜在特质所决定的，那么这些潜在特征就定义了一个征就定义了一个K K维潜在空间，考生的各个潜维潜在空间，考生的各个潜在特质分数综合起来，就决定了该考生在该潜在特质分数综合起来，就决定了该考生在该潜在空间的位置。如果影响考生测验分数的所有在空间的位置。如果影响考生测验分数的所有重要的心理特质都被确定了，那么该潜在空间重要的心理特质都被确定了，那么该潜在空间就称为完全潜在空间。就称为完全潜在空间。 2022-4-17目前比较成熟的大多数项目反应模型都假设完全目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的，即只有一种潜在特质决定了潜在空间是单维的，即只有一种潜在特质决定了考生对项目

17、的反应，也就是说组成某个测验的所考生对项目的反应，也就是说组成某个测验的所有项目都是测量的同一个心理变量。有项目都是测量的同一个心理变量。单维单维项目反应理论项目反应理论多维目反应理论多维目反应理论（二）局部独立性假设（二）局部独立性假设2022-4-17指某个考生对于某个项目的正确概率不会受到他对于指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响，也就是说只有考生的该测验中其他项目反应的影响，也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应。特质水平和项目的特性会影响到考生对该项目的反应。在实际的教育和心理测量问题中在实际的教育和心理测量问题中, ,

18、如果前一个项目的如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的内容为后一个项目的正确反应提供暗示或其它有效的信息信息, , 局部独立性的假设就会遭到破坏局部独立性的假设就会遭到破坏, , 例如所谓的例如所谓的链状试题就会出现这种情况。链状试题就会出现这种情况。局部独立性是建立在统计的意义上的，对每一个测验局部独立性是建立在统计的意义上的，对每一个测验者来说者来说, , 对整个试题作出某种反应的概率等于对组成对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积。试卷的每个项目的反应的概率的乘积。（三）项目特征曲线假设（三）项目特征曲线假设2022-4-17项目反

19、应理论的一个关键就是在被试者对项目作出项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。所谓的项目特征曲线间建立某种函数关系。所谓的项目特征曲线（item charecteristic curve, ICC）, , 就是相应函数关系的图象。就是相应函数关系的图象。项目反应理论之所以要作出项目特征曲线形式的假项目反应理论之所以要作出项目特征曲线形式的假设设, , 是因为项目反应理论的建立不是首先从理论上是因为项目反应理论的建立不是首先从理论上推导出函数关系的存在推导出函数关系的存在, , 而是先

20、假定有某种形式的而是先假定有某种形式的项目特征曲线项目特征曲线, , 然后找出满足相应曲线的函数形式。然后找出满足相应曲线的函数形式。所以所以, , 关于项目特征曲线的特征形式的假设实际上关于项目特征曲线的特征形式的假设实际上就是对未来函数关系的假设。就是对未来函数关系的假设。项目特征曲线有项目特征曲线有3 3个特点：个特点：2022-4-171.1.人的潜在特质量表应定义在正负无穷的区域内；人的潜在特质量表应定义在正负无穷的区域内；2.2.被试在项目上正确作答的概率被试在项目上正确作答的概率P P（）取值在）取值在0,10,1区间之内；区间之内；3.3.若题目质量好，则被试的正确作答率应随被

21、试若题目质量好，则被试的正确作答率应随被试的特质水平的提高而提高，项目特征曲线应是的特质水平的提高而提高，项目特征曲线应是一条从负无穷到正无穷的递增曲线。一条从负无穷到正无穷的递增曲线。三、项目反应模型三、项目反应模型2022-4-17IRTIRT 模型是一种数学模型模型是一种数学模型, 它的特点是以概率的概它的特点是以概率的概念来解释应试者对试题的反应和其潜在能力特质之念来解释应试者对试题的反应和其潜在能力特质之间的关系。间的关系。IRTIRT 的模型有的模型有2020余种余种, 但比较常用的有但比较常用的有洛德提出的著名的正态卵形模型和伯恩鲍姆提出的洛德提出的著名的正态卵形模型和伯恩鲍姆提

22、出的逻辑斯蒂模型逻辑斯蒂模型( Logistic( Logistic模型模型) )。这两种函数模型在计算结果上并无大的区别这两种函数模型在计算结果上并无大的区别, 所绘所绘制的曲线也大体相同制的曲线也大体相同, 然而然而, 在实际中大多采用后在实际中大多采用后者。其中主要有以下两个方面的原因：首先是它形者。其中主要有以下两个方面的原因：首先是它形式上的简洁式上的简洁, 更具数学模型的特点；更具数学模型的特点；其次是它便于其次是它便于用对数关系作处理用对数关系作处理, 因而模型的项目质量参数和能因而模型的项目质量参数和能力参数估计起来较为方便。力参数估计起来较为方便。逻辑斯蒂模型( Logis

23、tic模型)2022-4-17由于Logistic 模型相对比较简单, 准确性较高,计算量较其他模型小, 因此在建立自适应考试系统时, 常采用Logistic 模型。由于参数的不同, 分为单参数、双参数和三参数，其中以三参数的Logistic模型最为常用, 由于计算机和网络技术的发展, 对考试的准确性的要求也越来越高, 对三参数的Logistic 模型的研究也比较成熟, 现在逐步趋向使用三参数模型。()1( )1iiiiiDabcPce 式中表示能力为的被试在项目上正确作答的概率；表示被试的能力；表示项目的难度参数；表示自然对数之底=2.71828； D表示量表因字常数=1.7；表

24、示项目的区分度参数；表示项目的伪随机水平参数，习惯称猜测参数。 ( )iPibieiaiici()1( )1iiDbPe()1( )1iiiDabPe2022-4-17项目反应理论的优点：项目反应理论的优点：2022-4-17（）特质水平的估计可以从任何一组项目属性已知的项目中得出。（）项目属性直接与测验行为联系在一起。（）自变量，即特质水平和项目属性，可以不借助额外数据而分别估计。四、项目反应理论的应用四、项目反应理论的应用- -计算机自适应测验计算机自适应测验2022-4-17computerized adaptive testingcomputerized adaptive

25、testing（CATCAT）是建立在项目反应理）是建立在项目反应理论基础上的，由计算机根据被论基础上的，由计算机根据被试能力水平自动选择测题，最试能力水平自动选择测题，最终对被试能力做出估计的一种终对被试能力做出估计的一种新型测验。新型测验。其目的在于通过被试正确回答其目的在于通过被试正确回答题目难度的高低来评价其能力，题目难度的高低来评价其能力，而不是像传统的纸笔测验那样而不是像传统的纸笔测验那样通过被试能正确回答题目的多通过被试能正确回答题目的多少来评价其能力。少来评价其能力。2022-4-17与传统的纸笔测验相比，计算机自适应测验在理论上与传统的纸笔测验相比，计算机自适应测验在理论上可

26、以允许被试在任何时间进行测试，而且测试的时间可以允许被试在任何时间进行测试，而且测试的时间要比纸笔测验所需时间明显减少。要比纸笔测验所需时间明显减少。与一般计算机测验相比，计算机自适应测验可以像一与一般计算机测验相比，计算机自适应测验可以像一般的计算机测验一样呈现试题、输入答案、自动评分、般的计算机测验一样呈现试题、输入答案、自动评分、得出结果，但它所依据的理论不是经典测验理论，而得出结果，但它所依据的理论不是经典测验理论，而是项目反应理论。是项目反应理论。能够根据被试的作答结果，自动地从大型题库中调用能够根据被试的作答结果，自动地从大型题库中调用难度跟被试相适应、测量性能优良的试题来施测。这难度跟被试相适应、测量性能优良的试题来施测。这样，测查高水平被试时，施用的是一批难度低、性能样，测查高水平被试时，施用的是一批难度低、性能也属优良的试题；测验不再固定，而是主动适应被试也属优良的试题；测验不再固定，而是主动适应被试水平，灵活地水平，灵活地“ 因人施测因人施测”。计算机在这里不再像一。计算机在这里不再像一般的计算机测验仅仅充当般的计算机测验仅仅充当 “ 媒体工具媒体工具”的角色，而是的角色，而是充当起充当起 “ 决策者决策者”的角色。的角色。2022-4-17

展开阅读全文