语言测验的质量评价课件.ppt_163文库

资源描述

1、第八章第八章汉语作为第二语言的测试汉语作为第二语言的测试主讲人：辽宁师范大学主讲人：辽宁师范大学赵越赵越第八章第八章汉语作为第二语言的测试汉语作为第二语言的测试知识点1知识点2语言测试题目编写和分析方法知识点3语言测试的发展阶段与基本类型语言测验的开发语言测验的质量评估知识点4知识知识点点4 4 语言测验的质量评估语言测验的质量评估4 语言测验的质量评估4 4.1.1 测量的信度（Reliability）可靠性与稳定性4.1.1 信度的基本概念4.1.2 测验信度的估计4.1.3 影响测验信度的一些因素4 4.2 2 测量的效度（Validity）准确性，是否达到测验目的4.2.1 效度

2、的基本概念4.2.2 效度的类别4.2.3 影响效度的一些因素 4.2.4 信度和效度的关系4.1 测量的信度（Reliability）4 4.1.1.1.1 信度的基本概念信度的基本概念信度的描述定义测量的信度指测量结果的可靠性、一致性和稳定性程度。一个高质量的测验（理想化），对同样一组被试反复多次测量，其结果应该保持不变。但现实中，任何一种测量都存在误差。观察分数X=真分数T+误差分数E 观察分数X：任一次的测量结果，即我们观测到的分数。真分数T：能够反映被试真实水平的分数。误差分数E：由于种种原因造成的误差分数。真正影响每次测量结果稳定性（信度）的因素。正是由于现实测验与理想测验之间

3、存在误差，所以有了信度的测量学定义。信度的测量学定义（操作性定义）误差方差与信度的关系可以看出，误差变异数占实得变异数的比例越小，信度系数会越高。若误差变异数为0，信度系数就是1。但一般不可能。总之，0 rxx 1。SE2Sx2rxxrxx越高信度越高越高信度越高4.1.2 测验信度的估计（1）再测信度（2）等值复本信度（3）分半信度（4）内部一致性信度（5）评分者间信度（1）再测信度（Test-Retest Reliability）使用同一测验对同一组被试在不同的时间施测两次，然后计算两次分数之间的相关程度，就得到了该测验的再测信度系数。优点：能检测测验跨时间的稳定性。局限：使用必须

4、小心。必须考虑两次测验间隔期间被试方面可能发生的各种变化；不适用难度测验，仅适用于数量较多的速度测验。式中，式中，X1、X2 为同一被试两次测验的观察分数；为同一被试两次测验的观察分数；N为被试人数。为被试人数。标准化语言测试信度系数应该在0.90以上HSK达到0.98 影响误差变异的因素：被试、测验本身、测试条件或环境、阅卷评分等。（2）等值复本信度（Equivalent-form Relibbility）指用同一测验的两个平行试卷分别对同一组被试施测，两个试卷可以在同一天连续施测，也可以在一段时间内分两次施测，施测后计算出的被试在两个试卷上得分之间的相关系数，即为复本信度系数。优点：使用

5、不同的卷子，减少练习和记忆等因素的干扰。局限：对测验的等值性要求很高，使用受限。计算方法计算方法式中X1、X2为同一被试的两次测验分数，、为全体被试两次测验的平均数，S1、S2为两次测验的标准差，N为被试人数。212121SSXXNXXrxx公式公式1X方差、标准差方差、标准差例：例：假设用假设用A、B套测验卷对汉语初级水平套测验卷对汉语初级水平10个学生施测。个学生施测。例例3：假设用：假设用A、B套测套测验卷对汉语初级水平验卷对汉语初级水平10个学生施测。结果见表个学生施测。结果见表 212121SSXXNXXrxx（3）分半信度（Split-half Reliability）将一个测

6、验的全部题目按照一定标准分成两个相等的部分，然后计算出被试在这两个部分的观察分数的相关系数，此相关系数即表明测验的分半信度。优点：不需要对被试试测两次，不受练习和记忆干扰。局限：对所分的两半测验的等值性要求很高；速度测验不适用。所计算的只是其中一个复本的信度，这就会造成对整个测验的信度的低估，因为信度会随着测验长度的增加而提高。所以，要对求出的相关系数进行校正。校正公式：斯皮尔曼布朗（Spearman-Brown）公式（4 4）内部一致性信度内部一致性信度（Internal Consistent ReliabilityInternal Consistent Reliability）分半法实

7、际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的，而且用不同的分半方法求出的分半信度都不一样，因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足，可以采用其它的方法。1）用库德-理查逊的KR20公式估计德信度系数2）克伦巴赫系数1 1）用库德）用库德-理查逊的理查逊的KR20KR20公式估计德信度系数公式估计德信度系数库德（库德（Kuder）、理查逊（）、理查逊（Richardson）针对分半法）针对分半法的不足，提出以项目统计量为转移，利用项目统计量的不足，提出以项目统计量为转移，利用项目统计量来计算信度。称为来计算信度。称为K-R20公式。公式。式中式中

8、k表示构成测验的题目数，表示构成测验的题目数，Pi为通过第为通过第i题的人数比题的人数比例，例，qi为未通过第为未通过第i题的人数比例，题的人数比例，Sx为测验总分的变为测验总分的变异数。异数。如果对测验的结果已经做了项目分析，已经知道了各如果对测验的结果已经做了项目分析，已经知道了各个项目的难度，那么采用上述公式计算信度较为方便。个项目的难度，那么采用上述公式计算信度较为方便。xiiKRSqpKKr22011ip2 2）克伦巴赫）克伦巴赫系数系数克伦巴赫（克伦巴赫（Cronbach）的）的系数系数库德理查逊公式只适用于两级记分的测验，而对多级库德理查逊公式只适用于两级记分的测验，而对多级

9、记分的测验，则可以采用克伦巴赫（记分的测验，则可以采用克伦巴赫（Cronbach）的）的系数，克伦巴赫的系数，克伦巴赫的系数对两级记分的测验也是适用的。系数对两级记分的测验也是适用的。其计算公式为：其计算公式为：xiSSKK2211iS2xS2K K为测验的题目数，为测验的题目数，为某一测验题目分数的变异数，为某一测验题目分数的变异数，为测验总分的变异数。为测验总分的变异数。（5 5）评分者间信度）评分者间信度必要性：客观性测验不存在评分者之间不一致的情况，因此无需计算评分者信度，但在涉及主观性测验的题目中，评分者的不同会造成测验分数的差异，从而导致测验误差，此时，要计算评分者信度。如：作文

10、、口试。评分者信度：随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关，所得的相关系数即为评分者信度。公式：肯德尔和谐系数肯德尔和谐系数肯德尔和谐系数（Kendall coefficient of concordance）NNKNRiRWi3222121W为和谐系数，为和谐系数，一般认为经过训练的成对评分者之间的一致性达一般认为经过训练的成对评分者之间的一致性达0.90以上，评分才是客观的。以上，评分才是客观的。例：六位教师各自评阅相同的五篇作文，每位教师给每一篇作文都评了等级（共五等）并列入下表。求六位老师所评等级的一致性程度。，总结（1）再测信度（2）等值复本信度（3

11、）分半信度（4）内部一致性信度（5）评分者间信度4.1.3 影响测验信度的因素测验的长度（题目数量）测验题目的同质性（题目的区分性指标）题目难易度分布被试样本的异质程度（1）测验的长度（题目数量）一般来讲，测验题目数量越多，信度越高，但当题目数量过多时，被试会产生疲劳或厌倦，信度反而会降低。HSK(初中等)有个170项目，但有人研究发现140个项目足以达到相当的，因此从经济的角度考虑，可以减少一些题目。（2）测验题目的同质性测验题目的同质性主要靠题目的区分性(如较高的点双列相关系数)来保证，一个测验所有题目都有较好的区分性，则内部一致性信度便会较高。（3）题目难易度分布如果题目难易度分布不

12、好，就会造成分数范围缩小，分数的变异程度减小，因而降低信度系数。另外，过难的题目会增加猜测的可能，也会使信度降低。（4）被试样本的异质程度被试的水平差距越大，即被试异质程度越高，分数的变异范围就越大，信度系数就会越高。4.2 测量的效度（Validity）准确性，是否达到测验目的4.2.1 效度的基本概念4.2.2 效度的类别4.2.3 影响效度的一些因素 4.2.4 信度和效度的关系4.2.1 效度的基本概念效度：指测量的有效性或准确性，即测量对它所要测的东西准确测量的程度。两个基本问题:测验测量到了它要测量的东西吗？（测量效度）测验对它所测量的东西测量到了什么程度，它是否可以用于制定

13、精确的决策？（用于决策的效度）4 4.2 2.2 2 效度的类别（1）内容效度（Content Validity）（2）效标关联效度（Criterion-Related Validity）预测效度（Predictive Validity）共时效度（Concurrent Validity）（3）构想效度（Construct Validity）（1 1）内容效度）内容效度（Content ValidityContent Validity）指测验的内容（测验项目）对所欲测量的内容范围或行为范围取样的代表性和恰当性程度，即指实际测验内容与预定测验内容之间的一致性程度。代表性如何就是内容效度问题。评判方

14、法：评判方法：主要靠经验判断，如主要靠经验判断，如专家判断的方法。专家判断的方法。内容效度的确定方法主要是逻辑分析的方法。其工作思路是请专家对测验题目与原定内容范围的吻合程度作出判断。（1 1）内容效度）内容效度（Content ValidityContent Validity）明确测验目的及测验内容的范围；确定每个题目所测的内容，并与测验编制者所列的双向细目表对照；制订评定量表，考查题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异等。（1 1）内容效度）内容效度（Content ValidityContent Validity）评判步骤（2）效标关联效度（Criterion-

15、Related Validity）效标就是衡量一个测验是否有效的外在标准，是我们所要预测的行为。如：我国高考的效标应该是被选拔出进入大学的考生未来在大学学习的成功程度；HSK的效标可以是根据其他可靠的手段评定的考生实际运用汉语的熟巧程度。根据测验的不同性质和用途，用来评判其效标关联效度的效标也是多种多样的，像学业成就、工作表现、特殊训练成绩、团体的能力划分、教师对学生的等级评定、其他相关测验的成绩等等都是常用的效标。效标关联效度指测验结果与效标的一致性程度。也就是测验分数与某一外部效标间的一致性程度，即测验结果能够代表或预测效标行为的有效性和准确性程度。计算方法：测验结果与效标之间的相关系数=

16、PEARSON(A2:A6,B2:B6)（2）效标关联效度（Criterion-Related Validity）效标关联效度分类1）预测效度（Predictive Validity）以参加测验的被试未来的表现为效标来评定测验的有效性，看测验结果是否能够有效地预测被试未来的行为。2）共时效度（Concurrent Validity）以测验实施相同或相近的时间里搜集到的其他经验性资料为效标。即所谓共时，是说效标资料与测验数据能够同时获得.（3 3）构想效度）构想效度（Construct ValidityConstruct Validity）指测验结果与理论构想或特质之间的一致性程度。也就是测验是

17、否实际测量了所欲测量的理论概念或能力。如：“幸福感”“智力”“职业倦怠”“汉语水平”当人们想测量这些概念时，当人们想测量这些概念时，必然先量化这些概念，必然先量化这些概念，就要分析这些概念或能力是一个什么结构就要分析这些概念或能力是一个什么结构构想效度建立的过程测验编制者提出关于能力或特质的理论假设即所谓构想；对构想进行操作性定义即编制测验并实施测试；检验测试结果与构想的一致性程度。如：如：从一般的智力理论，可提出四项主要的假设：（1）智力随年龄的增长而增长；（2）智商是相对稳定的；（3）智力与学业成就有密切关系；（4）智力受遗传和环境的影响。根据上述假设，编制智力测验，再对实施测验的结果进

18、行分析。如果受测者的分数随着年龄的增长而增长；其智商在一段时间内保持相对的稳定；智力与学业成就之间有正相关存在；同卵双生子的智力相关高于一般兄弟姐妹；一起抚养的双生子的智力的相关高于分开抚养的双生子，这些实际的研究结果就成了肯定该测验构想效度的有力证据。4.2.3 影响效度的一些因素（1）样本的异质程度（2）效标的质量（3）测验本身的质量（4）测试实施的程序（1 1）样本的异质程度被试间的水平会影响测验分数的变异程度，水平差距越大，分数变异越大，所求出的相关系数即效度系数就会比较大；相反，被试太同质，分数变异小，效度系数也会相对降低。4.2.3 影响效度的一些因素（2）效标的质量效标选取是否

19、恰当、是否与测验所测内容有真正的相关关系以及效标本身的可靠性都会影响效标关联效度。4.2.3 影响效度的一些因素（3）测验本身的质量测验的内容、题目难度以及难度分布、题目区分度等特性会影响测验效度，例如，测验过难或过易都会使分数分布过于集中，从而造成分数变异减小，影响效度系数。4.2.3 影响效度的一些因素（4 4）测试实施的程序测验的实施在可能的情况下最好标准化，这样既可以提高测验的信度也有助于提高测验的效度。4.2.3 影响效度的一些因素 4.2.4 信度和效度的关系（1）测验信度是测验效度的必要前提，效度受到信度的制约一个缺乏信度的测验是不可靠和不稳定的，根本谈不上准确测量所要测的东

20、西的准确程度。例如，两个评分者给同一名被试的作文评分，一个给最高的分），一个给最低的分数，即评分者间信度很低，那么我们就无从得出这个被试写作水平高低的结论。（2）信度高的测验不一定效度高测验中常会有这样的情况，虽然多次施测的结果非常稳定，但却不能达到测验所要达到的测量目的。例1：一个可靠的数学考试，对于选拔运动员也不会很有效。例2：在作文评分中，一个评分员使用的评分标准是看被试观点是否与他自己观点一致，与他观点一致他就给高分，不一致就给低分，而且他始终掌握这一标准，评分很稳定，评分者内信度很高，但它所评出的分数并不能反映被试在写作能力方面的差异。这个题目与其说是考了被试的听力理解能力，不如

21、说是考了被试的计算能力或反应速度，如果整个测验都是由这类跟语言能力无关或关系不大的题目组成，或许测验分数会很稳定、很可靠，比如多次施测，总是那些反应快的、计算快的被试做对，但是，这个测验对于测量被试的汉语水平来说却不可能有多高的效度。例例3：小结：4 语言测验的质量评估4 4.1.1 测量的信度（Reliability）可靠性与稳定性4 4.1.1.1.1 信度的基本概念4 4.1.1.2 2 测验信度的估计4 4.1.1.3 3 影响测验信度的一些因素4 4.2 2 测量的效度（Validity）准确性，是否达到测验目的4 4.2 2.1.1 效度的基本概念4 4.2 2.2 2 效效度的类别4 4.2 2.3 3 影影响效度的一些因素 4 4.2 2.4 4 信度和效度的关系思考与练习思考与练习1.为什么说语言测验的开发是一个系统的过程？这一过程主要包括哪些步骤和环节？2.语言测试题目分析方法有哪些？3.为什么说信度和效度是语言测验最重要的质量标准？

展开阅读全文