第四章-心理测验的信度与效度课件.ppt_163文库

资源描述

1、第四章心理测验的信度与效度任滨海任滨海2提纲v信度信度信度概述信度概述信度的类型信度的类型影响信度的因素影响信度的因素v效度效度效度概述效度概述效度的类型效度的类型影响效度的因素影响效度的因素3SV2SI2SE2SX2ST2 4第一节信度一、信度定义一、信度定义v 1、通俗的定义、通俗的定义信度，即测量的可靠性，多次测量结果保持一致性的程信度，即测量的可靠性，多次测量结果保持一致性的程度。度。5v2、测量学定义：、测量学定义：信度为一组测量分数的真分数方差和总方差（实得分数信度为一组测量分数的真分数方差和总方差（实得分数的方差）的比率。的方差）的比率。l信度乃是一个被试群体的真分数与实得

2、分数的相关系数信度乃是一个被试群体的真分数与实得分数的相关系数的平方。的平方。l信度乃是一个测验信度乃是一个测验X与它的任意一个平行测验与它的任意一个平行测验Y的相关系的相关系数。数。信度只受随机误差影响，系统误差不影响信度信度只受随机误差影响，系统误差不影响信度6二、信度的指标二、信度的指标信度以信度以信度系数信度系数为指标，常用相关系数表示，表示实得为指标，常用相关系数表示，表示实得分数的变异数中有多少比例是由真分数的变异决定的，分数的变异数中有多少比例是由真分数的变异决定的，v信度系数信度系数以相关系数为指标，以相关系数为指标，r rxxxx=r=rxTxT2 2=S=ST T2 2/

3、S/SX X2 2v信度的平方根就是信度的平方根就是信度指数信度指数，r rxTxT=S=ST T/S/SX X7信度指数(rxT)与信度系数(rXX)实得分数 x2真实分数 T2rxx 信度系数(百分比)rOT2信度指数(实得分数与真实分数的相关）rxx=rxT28v信度定理：信度定理：定理定理 1：如果满足独立性条件：如果满足独立性条件(即误差分数与真分数无关即误差分数与真分数无关)时，真分数方差与观察分数方差之时，真分数方差与观察分数方差之比比(信度系数信度系数)等于真等于真分数与观察分数之间的相关系数的平方。分数与观察分数之间的相关系数的平方。定理定理 2：如果满足平行测验条件：如果

4、满足平行测验条件时，真分数方差与观察时，真分数方差与观察分数方差之比分数方差之比(信度系数信度系数)等于两个平行测验的观察分数之等于两个平行测验的观察分数之间的相关系数间的相关系数。补充补充：信度系数、信度指数、测定系数的讨论：信度系数、信度指数、测定系数的讨论Baidu 测定系数测定系数信度系数信度系数搜索搜索。9三、信度的评估方式三、信度的评估方式v（一）重测信度（一）重测信度v（二）复本信度（二）复本信度v（三）内在一致性信度（三）内在一致性信度v（四）评分者信度（四）评分者信度10（一）重测信度（一）重测信度1、定义：用同一个测验对同一组被试在不同时间施测两次所得结、定义：用同

5、一个测验对同一组被试在不同时间施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的果的一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。又称稳定性信度、再测信度、施测皮尔逊积差相关系数。又称稳定性信度、再测信度、施测再施测再施测信度、跨时间一致性。信度、跨时间一致性。11图图1 1 重测信度图式重测信度图式 10名学生幸福感调查的两次施测分数名学生幸福感调查的两次施测分数重测信度的计算举例重测信度的计算举例ABCDEFGHIJ161513131110109871516141210911867X1X2132、注意事项：、注意事项：v所测量的心理特性必须

6、是稳定的。所测量的心理特性必须是稳定的。v遗忘和练习的效果基本上是相互抵消的。遗忘和练习的效果基本上是相互抵消的。v在两次施测的间隔时期内，被试在所要测验的心理特在两次施测的间隔时期内，被试在所要测验的心理特质方面没有获得的更多的学习和训练。质方面没有获得的更多的学习和训练。v易受练习和记忆的影响，两次测试的时间间隔要适当，易受练习和记忆的影响，两次测试的时间间隔要适当，一般是一般是24周较宜，间隔时间最好不超过周较宜，间隔时间最好不超过6个月。个月。14（二）复本信度（二）复本信度1、定义：又称等值性系数，是以两个等值但题目不同的、定义：又称等值性系数，是以两个等值但题目不同的测验（复本）来

7、测量同一群体，然后求得被试者在两个测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数。测验上得分的相关系数。2、方法：为排除施测顺序的影响，在实施时，可将被试、方法：为排除施测顺序的影响，在实施时，可将被试先分为两组，一组人先作先分为两组，一组人先作A型测验，再作型测验，再作B型测验；另一型测验；另一组人则反之。组人则反之。15图图2 2 复本信度图式复本信度图式 10名学生创造力的复本测验结果名学生创造力的复本测验结果复本信度的计算举例复本信度的计算举例ABCDEFGHIJX1X220191818171614121210202019161617121113917v3、注意事

8、项、注意事项要构造真正的平行测验要构造真正的平行测验 v 复本测验必须在题目的内容、数量、形式、难度、复本测验必须在题目的内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式、测验区分度、指导语、时限以及所用的例题、公式、测验其它方面都相同或相似。其它方面都相同或相似。被试有条件接受两个测验。被试有条件接受两个测验。18（三）内部一致性信度（三）内部一致性信度v1 1、定义：、定义：反映的是题目之间的关系，表示测验能够测量相同内容反映的是题目之间的关系，表示测验能够测量相同内容或特质的程度。或特质的程度。v2 2、方法：、方法：(1)(1)分半信度分半信度:v通常是先把一份测验按题

9、目的奇偶顺序或其它方法分通常是先把一份测验按题目的奇偶顺序或其它方法分成两个尽可能平行的半份测验，然后计算两半之间的成两个尽可能平行的半份测验，然后计算两半之间的相关，即得到分半信度系数。相关，即得到分半信度系数。19v两半变异数相等：两半变异数相等：积差相关积差相关斯皮尔曼布朗公式校正斯皮尔曼布朗公式校正 hhxxhh2rr1 r20l变异数不相等：l弗朗那根（Flanagan）公式：l卢伦（Rulon）公式：22xx2r2 1abxsss2xx21rdxss21(2)(2)同质性信度同质性信度:v测验内部所有题目间的一致性。测验内部所有题目间的一致性。用每个题目和其它题目平均数用每个题目和

10、其它题目平均数的相关。的相关。当各测题得分有较高的正相关时，即为同质；相反，当各测题得分有较高的正相关时，即为同质；相反，测题间相关很低或为负相关则为异质。测题间相关很低或为负相关则为异质。v0 0、1 1计分项目（库德计分项目（库德(Kuder(Kuder)-)-理查逊理查逊(Richardson)(Richardson)方法）方法）v非非0 0、1 1计分项目（计分项目（系数或克伦巴赫系数或克伦巴赫(Cronbach(Cronbach)公式公式）211i ixxxkpqrks2211ixxxskrks22注意事项注意事项v 在一个测量多种特质的问卷中，不同的因子的同质在一个测量多种特质的

11、问卷中，不同的因子的同质性信度应该分开计算。性信度应该分开计算。v克伦巴赫克伦巴赫系数相当于计算了所有项目间的一致性系数相当于计算了所有项目间的一致性程度，避免了分半信度由于分半方式不同所造成的程度，避免了分半信度由于分半方式不同所造成的分半系数不一致的问题。分半系数不一致的问题。23（四）评分者信度（四）评分者信度v1、定义：用于测量不同评分者之间所产生的误差。、定义：用于测量不同评分者之间所产生的误差。是由多个评分者给一组测验结果评分，所得各个分是由多个评分者给一组测验结果评分，所得各个分数之间的一致性。数之间的一致性。l对于客观性试题，评分所引起的误差或忽略不计对于客观性试题，评分所引起

12、的误差或忽略不计l对于主观性题目来说，不同评分人员对相同被试的评分存在差异。对于主观性题目来说，不同评分人员对相同被试的评分存在差异。如心理测量中的投射测验，学业测验中的高考作文，职业选拔中的如心理测量中的投射测验，学业测验中的高考作文，职业选拔中的面试等。面试等。l一般要求在成对的受过训练的评分者之间平均一致性达一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，以上，才认为评分是客观的。才认为评分是客观的。24v2、计算、计算当评分者为当评分者为2人时，可以积差相关或等级相关人时，可以积差相关或等级相关当评分者多于当评分者多于2人时，可以使用肯德尔和谐系数人时，可以使用肯德尔和谐

13、系数NNKNRRWii3222/1225如有如有A A、B B、C C三位专家给三位专家给6 6位应聘者的面试评分，结位应聘者的面试评分，结果如下，试求评分者信度。果如下，试求评分者信度。ABC175664529072603816354460604258475636969066 ABCRi15451422237345413466618533286111326=14+7+13+18+8+3=63 =142+72+132+182+82+32=811 iR2iR由题意知由题意知 K=3,N=6,将上述值代入公式有将上述值代入公式有:W=0.95 如在评定中有相同的等级时，用下式校正。其中如在评定中有

14、相同的等级时，用下式校正。其中n为为相同等级的个数相同等级的个数 6636/638111232212/1232222nnKNNKNRRWii27四、信度对测验分数的意义四、信度对测验分数的意义v1 1、解释真实分数与实得分数的相关、解释真实分数与实得分数的相关信度系数可以解释为测验的总变异中，真分数造成的变信度系数可以解释为测验的总变异中，真分数造成的变异占百分之几。如，当异占百分之几。如，当rxxrxx=0.90=0.90时，我们可以说实得分时，我们可以说实得分数中有数中有90%90%的变异是真分数造成的，仅的变异是真分数造成的，仅10%10%来自测验的误来自测验的误差。差。rxxrxx=

15、1.00=1.00，则表示完全没有测量误差，所有的变异，则表示完全没有测量误差，所有的变异均来自真实分数；同样，信度系数也告诉测量的误差比均来自真实分数；同样，信度系数也告诉测量的误差比例是多少。例是多少。28v2 2、确定信度可以接受的水平、确定信度可以接受的水平一个测验究竟信度多高才合适，才让人满意呢？当然，最理想的情一个测验究竟信度多高才合适，才让人满意呢？当然，最理想的情况是况是rxxrxx=1.00=1.00，但实际上是办不到的。根据多年的研究结果，一般，但实际上是办不到的。根据多年的研究结果，一般的能力测验和成就测验的信度系数都在的能力测验和成就测验的信度系数都在0.900.90

16、以上，有的可以达以上，有的可以达0.950.95；而人格测验、兴趣、态度、价值观等测验的信度一般在而人格测验、兴趣、态度、价值观等测验的信度一般在0.800.850.800.85或或更高些。一般原则是：当更高些。一般原则是：当rxxrxx0.700.70时，测验不能用于对个人做出评时，测验不能用于对个人做出评价或预测，而且不能作团体比较；当价或预测，而且不能作团体比较；当0.70rxx0.850.70rxx0.85时，可用于团时，可用于团体比较；当体比较；当rxx0.85rxx0.85时，才能用来鉴别或预测个人成绩或作为。时，才能用来鉴别或预测个人成绩或作为。29v3 3、解释个人分数的意义（

17、区间估计）、解释个人分数的意义（区间估计）从信度可以解释个人分数的意义，这就是测量标准误的从信度可以解释个人分数的意义，这就是测量标准误的应用。它有两个作用应用。它有两个作用v其一是估计真实分数的范围；其一是估计真实分数的范围；v其二是了解实得分数再测时可能的变化情形。其二是了解实得分数再测时可能的变化情形。30v由于误差的存在，一个人通过测量得到的分数很难由于误差的存在，一个人通过测量得到的分数很难等于真分数。理论上，我们可以对一个人施测无数等于真分数。理论上，我们可以对一个人施测无数次，然后求得所得分数的平均数和标准差。在这个次，然后求得所得分数的平均数和标准差。在这个假设的分布里，平均数

18、就是这个人的真分数，标准假设的分布里，平均数就是这个人的真分数，标准差则为误差大小的指标。差则为误差大小的指标。31X32v在实际工作中，我们用一组被试（人数足够多）两在实际工作中，我们用一组被试（人数足够多）两次施测的结果来代替对同一个人反复施测，以估计次施测的结果来代替对同一个人反复施测，以估计测量误差的变异数。此时，个人在两次测验中的分测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差（这个分布的标准差（误差分布的标准差）我们称之）我们称之为为测量的标准误，是表示测量误差的大小的指标，是

19、表示测量误差的大小的指标，其计算公式为：其计算公式为：v （公式（公式5 54 4）v式中式中SESE表示测量的标准误，即误差分布的标准差；表示测量的标准误，即误差分布的标准差；S Sx x表示一次测量分数的标准差；表示一次测量分数的标准差；r rxxxx表示信度系数。表示信度系数。xxxrSSE133v我们可以用测量的标准误来估计个人测验的真分数我们可以用测量的标准误来估计个人测验的真分数的大小。的大小。v如果选用如果选用9595的可靠性水平（置信水平），即显著的可靠性水平（置信水平），即显著性水平（性水平（a a值）为值）为.05.05，真分数有，真分数有9595的可能落入的可能落入X X

20、 1.96SE 1.96SE，即，即X X 1.96 SE1.96 SE的范围之内，也可以的范围之内，也可以写成写成X X1.96SE 1.96SE T T X X1.96 SE1.96 SE，SESE则用公式则用公式5 54 4代入。或有代入。或有5 5的可能落入这范围之外。这实际的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。上也表明了再测时分数改变的可能范围。2Z34v例例1 1，已知，已知WISC-RWISC-R的标准差为的标准差为1515，信度系数为，信度系数为0.950.95，对一名，对一名1212岁的儿童实施该测验后，岁的儿童实施该测验后，IQIQ为为110110

21、，那么他的真分数在，那么他的真分数在9595的可靠度要求下，的可靠度要求下，变动范围应是多大？变动范围应是多大？35xxxErSS135.395.0115=110tX35.396.111035.396.1110X103.4 116.6X36v注意几点：注意几点：v（1 1）SESE对真分数做的是区间估计，不可能由对真分数做的是区间估计，不可能由此得到一个确切的点。这就是说，测验分数不此得到一个确切的点。这就是说，测验分数不是一个定点，而是具有一定的分布范围。因此，是一个定点，而是具有一定的分布范围。因此，两次测验分数之间存在差异是很正常的。两次测验分数之间存在差异是很正常的。v（2 2）置信水

22、平确定后，估计的精度主要取决）置信水平确定后，估计的精度主要取决于于SESE，SESE越小，范围越小，估计就越精确，反越小，范围越小，估计就越精确，反之也然。之也然。v（3 3）真分数不能等同于真正能力或心理特质，）真分数不能等同于真正能力或心理特质，真分数中包括了系统误差。真分数中包括了系统误差。37v4 4、比较不同测验分数的差异、比较不同测验分数的差异测量标准误和测验信度在评价两个不同测验的分数是测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。分数的差别和

23、同一被试在两个测验上的差别。38v我们可以用我们可以用“差异的标准误差异的标准误”来检验差异的显著性。来检验差异的显著性。v差异的标准误的公式为：差异的标准误的公式为：v （公式（公式55）v 为差异的标准误，为差异的标准误，S为相同尺度的标准分数的标准差，为相同尺度的标准分数的标准差，Z分数为分数为1，T分数为分数为10。、分别为两个测验的信度系分别为两个测验的信度系数。数。v先将原始分数化成标准分数，然后将两个标准分数的差异先将原始分数化成标准分数，然后将两个标准分数的差异与与1.96SEd（0.05显著性水平）进行比较，如果其绝对值显著性水平）进行比较，如果其绝对值大于此值，则差异显著，

24、否则差异不显著。大于此值，则差异显著，否则差异不显著。yyxxdrrSSESESE22221dSEyyrxxr39例题例题v某被试在韦氏成人智力测验中言语智商为102，操作智商为110。假设言语测验和操作测验的信度分别为0.87和0.88，则该被试的操作智商与言语智商有显著性差异吗？v解答一：21520.870.887.5dtxxyydSESrrSE标准分数差异的范围（标准分数差异的范围（95%95%）：）：-1.96-1.967.57.51.961.967.57.5-14.7-14.714.714.7所以被试的操作智商与言语智商无显著性差异所以被试的操作智商与言语智商无显著性差异40解答二4

25、1v例，某校五年级进行了两次数学测验，小张第一例，某校五年级进行了两次数学测验，小张第一次考了次考了8585分，此次数学测验年级平均分是分，此次数学测验年级平均分是7777分，分，标准差是标准差是8 8分，此次测验的信度系数是分，此次测验的信度系数是0.840.84；第；第二次考了二次考了9595分，此次数学测验年级平均分是分，此次数学测验年级平均分是8181分，分，标准差是标准差是1010分，此次测验的信度系数是分，此次测验的信度系数是0.910.91；问；问小张这两次数学测验的成绩是否有显著差异？小张这两次数学测验的成绩是否有显著差异？v 42五、影响信度的因素五、影响信度的因素v样本的影

26、响样本的影响样本团体的异质性高，信度就高样本团体的异质性高，信度就高样本团体平均能力水平的影响样本团体平均能力水平的影响v测验长度的影响测验长度的影响可以通过增加测验长度的方式提高信度值。可以通过增加测验长度的方式提高信度值。v新增项目必须与试卷中的原有项目同质。新增项目必须与试卷中的原有项目同质。v新增项目的数量必须适度。新增项目的数量必须适度。1(1)xxxxkrrkr43v如由50题组成的儿童心理学测验，其信度系数为0.72，若再增加30个与原测验难度相近且同质性的题目，问长度增加后的测验系数是多少？XXXXKKrKKrr)1(172.01503050172.0503050KKr=0.8

27、044v例：有一个包括例：有一个包括1010个题目的测验，信度为个题目的测验，信度为0.500.50，若把测验增加到若把测验增加到5050个题目，其信度将增加到多个题目，其信度将增加到多少？少？45v用同样方法可以算出题目数量继续增加时相关用同样方法可以算出题目数量继续增加时相关系数的值见下表系数的值见下表v表表题目数量对相关系数的影响题目数量对相关系数的影响题目数题目数量量10105050100100200200300300400400500500相关系相关系数数0.500.500.830.830.910.910.950.950.9680.9680.9760.9760.9800.98046

28、v由表可以看出，增加题目数量可以提高信度，由表可以看出，增加题目数量可以提高信度，但并非多多益善。测验过长是得不偿失的：但并非多多益善。测验过长是得不偿失的：（1 1）测验过长，编制测验要浪费较多的时间）测验过长，编制测验要浪费较多的时间和精力，施测时浪费受测者的时间和精力，花和精力，施测时浪费受测者的时间和精力，花费大。（费大。（2 2）测验过长会引起被试的疲劳和反）测验过长会引起被试的疲劳和反感，从而降低可靠性。为了节省时间和精力，感，从而降低可靠性。为了节省时间和精力，有时还需要将过长的测验适当缩短，而不使其有时还需要将过长的测验适当缩短，而不使其对信度有大的损害。对信度有大的损害。47

29、v测验难度的影响测验难度的影响测验太难或太容易，则分数的范围会缩小，从而降低信测验太难或太容易，则分数的范围会缩小，从而降低信度。应该有一个适当的难度水平，以产生最广的分数分度。应该有一个适当的难度水平，以产生最广的分数分布。布。各类选择题的理想平均难度：五择一测题，各类选择题的理想平均难度：五择一测题，0.70；四择；四择一测题，一测题，0.74；三择一测题，；三择一测题，0.77；是非题，；是非题，0.85.48 100 75 50 25 0 1 2 3分數評量次數難度太小難度太大適當難度平均數（M）：85 21 60標準差（)：3.9 4.2 12.4信度（KR21）：0.43 0.46

30、 0.90 分數之分散度和難度與信度之間的關係49v时间间隔的影响时间间隔的影响只对重测信度有影响只对重测信度有影响50v1.1.对对5 5个学生进行某种测验，得分分别为个学生进行某种测验，得分分别为1414、1111、1313、1616、1515。为了考察这个测验的信度，在。为了考察这个测验的信度，在2020天后用原量表再次测验，天后用原量表再次测验，得分分别为得分分别为1313、1212、1414、1515、1616。试计算稳定性系数，并解。试计算稳定性系数，并解释之。释之。小测验512.2.有有1616人参加的一项测验，本拟再测一次以估计信度，但因学生毕人参加的一项测验，本拟再测一次以估

31、计信度，但因学生毕业离校，无法再测，现把各人奇数题得分和偶数题得分分列后，业离校，无法再测，现把各人奇数题得分和偶数题得分分列后，请估计测验结果的信度。请估计测验结果的信度。得分得分被试被试奇数题奇数题1817181514171713偶数题偶数题1817161613181714得分得分被试被试奇数题奇数题1313161415161316偶数题偶数题131314141416151752v3.43.4位教师评阅位教师评阅5 5份试卷，所评等级如下表，问份试卷，所评等级如下表，问评分是否一致？评分是否一致？阅卷者阅卷者（K=4K=4）作文编号（作文编号（N N5 5）1 12 23 34 45 5张

32、张2 25 54 43 31 1王王1 15 54 43 32 2李李1 14 45 53 32 2赵赵2 25 54 43 31 153v4.4.有一种包含有一种包含7 7个论文式题目的测验，对个论文式题目的测验，对6 6个应试者施行，得分见下表，个应试者施行，得分见下表，试求该测验的信度。试求该测验的信度。题号题号被试被试1 12 23 34 45 56 61 16 611117 78 89 97 72 25 59 96 67 78 87 73 37 79 96 69 96 68 84 48 83 38 88 87 79 95 59 911117 77 79 99 96 69 911117

33、 71010101010107 710109 9111112128 8101054第二节效度ENGLISH 55一、效度的定义一、效度的定义v1、效度的通俗定义、效度的通俗定义效度指的是测量的正确性，即一个测验或量具能够测量效度指的是测量的正确性，即一个测验或量具能够测量出其所要测量的东西的程度。出其所要测量的东西的程度。效度所要回答的问题是：效度所要回答的问题是：v（1 1）一个测验测量了什么特性？或者说，测验测到了）一个测验测量了什么特性？或者说，测验测到了它所要测量的东西吗？它所要测量的东西吗？v（2 2）它对所要测量的特性测得有多准？）它对所要测量的特性测得有多准？56v2、效度的理

34、论定义：一组测量中，与测量目标有关的、效度的理论定义：一组测量中，与测量目标有关的真实方差与总方差的比率。真实方差与总方差的比率。v效度除受随机误差影响外，还受系统误差的影响效度除受随机误差影响外，还受系统误差的影响。2222VIES=S+S+SX22vxy2Sr=SX222XVI2ES：变异总量；S：有关（有效）变异量；S：无关而稳定的变异量（系统误差）；S：误差变异量57二、效度的性质二、效度的性质v1 1、效度具有相对性、效度具有相对性相对某一目标的有效性相对某一目标的有效性v2 2、效度具有连续性、效度具有连续性只有程度上的不同，而没有只有程度

35、上的不同，而没有“全有全有或或“全无全无”的区别的区别反映有效性程度高低反映有效性程度高低58三、效度评估的三种方法三、效度评估的三种方法v（一）内容效度（一）内容效度v（二）结构效度（二）结构效度v（三）实证效度（三）实证效度59（一）内容效度（一）内容效度1、定义：指测验题目对欲测内容或行为取样的适当程度，、定义：指测验题目对欲测内容或行为取样的适当程度，从而确定测验是否是所欲测量的行为领域的代表性取样从而确定测验是否是所欲测量的行为领域的代表性取样2 2、一个测验要有内容效度必须具备两个条件：、一个测验要有内容效度必须具备两个条件：v（1 1）要有定义得完好的内容范围）要有定义得完好的内

36、容范围 2020以内的加减法以内的加减法中小学生的心理健康的特点和表现。中小学生的心理健康的特点和表现。v（2 2）测验项目应是已界定的内容范围的代表性样本）测验项目应是已界定的内容范围的代表性样本如果把所有的内容视为一个总体，那么测验项目可以视为一如果把所有的内容视为一个总体，那么测验项目可以视为一个样本，这个样本要具有代表性，这个样本能够代表总体的个样本，这个样本要具有代表性，这个样本能够代表总体的程度就是内容效度。程度就是内容效度。603、确定内容效度的方法、确定内容效度的方法（1）专家判断法：内容效度又称）专家判断法：内容效度又称“逻辑效度逻辑效度”v明确欲测内容的范围。包括知识范

37、围和能力要求两明确欲测内容的范围。包括知识范围和能力要求两个方面。个方面。v编制双向细目表，要求测验编制者将各个条目所欲编制双向细目表，要求测验编制者将各个条目所欲测的内容和技能要求列出，并将条目与第一步确定的测的内容和技能要求列出，并将条目与第一步确定的要求相结合。要求相结合。v制定评定量表来册来测量测验的效度。制定评定量表来册来测量测验的效度。61雙向細目表雙向細目表v表格左方表格左方表示教學表示教學所欲達成所欲達成的目標，的目標，上方表示上方表示教材內容教材內容範圍，並範圍，並逐一檢視逐一檢視每一試題每一試題以考驗整以考驗整份測驗之份測驗之內容效度內容效度題數題數內容範圍內容範圍行為目標

38、行為目標細胞細胞能量代能量代謝謝光合作光合作用用呼吸作呼吸作用用生物分生物分子子總題數總題數分數分數百分比百分比知識知識0 02 21 11 10 04 44 46.76.7理解理解2 20 01 12 22 27 77 711.711.7應用應用1 12 21 11 11 16 66 610.010.0分析分析1 11 12 21 11 16 66 610.010.0綜合綜合2 21 11 12 21 17 77 711.711.7評鑑評鑑0 01 11 12 21 15 55 58.38.3情意情意1 10 01 11 11 14 44 46.76.7技能技能1 10 00 01 10 0

39、2 22 23.33.3簡答題簡答題1 11 11 11 11 15 5191931.731.7總題數總題數9 98 89 912128 84646分數分數111110101414151510106060百分比百分比18.318.316.716.723.323.325.025.016.716.710010062v（2）统计分析法）统计分析法v克伦巴赫（克伦巴赫（Cronbach）提出内容效度的统计分析方法。）提出内容效度的统计分析方法。从同一个教学内容总体中抽取两套独立的平行测验，用这两个平行从同一个教学内容总体中抽取两套独立的平行测验，用这两个平行测验来测同一批被试，求其相关。若相关低，则两

40、个测验中至少有测验来测同一批被试，求其相关。若相关低，则两个测验中至少有一个缺乏内容效度；若相关高，则测验可能有较高的内容效度（除一个缺乏内容效度；若相关高，则测验可能有较高的内容效度（除非两个测验取样偏向同一个方面）。非两个测验取样偏向同一个方面）。v再测法再测法在被试学习某种知识之前作一次测验，在学过该知识之后再作同样在被试学习某种知识之前作一次测验，在学过该知识之后再作同样的测验。这时，如果后测成绩显著的优于前测成绩，则说明所测内的测验。这时，如果后测成绩显著的优于前测成绩，则说明所测内容正是被试新近所学内容。容正是被试新近所学内容。63（3）经验法）经验法v这种效度是通过实践来检验效

41、度，如儿童发展量表是这种效度是通过实践来检验效度，如儿童发展量表是否有效，经过对不同年龄阶段的儿童进行调查，然后否有效，经过对不同年龄阶段的儿童进行调查，然后分析其结果。分析其结果。644、注意：内容效度的特性、注意：内容效度的特性v（1）内容效度与所有效度的性质一样，不是普遍适用）内容效度与所有效度的性质一样，不是普遍适用的，而是根据具体情况分析得来。的，而是根据具体情况分析得来。v（2 2）内容效度适合于测验所要测量的内容总体能够明）内容效度适合于测验所要测量的内容总体能够明确界定的情况。因此尤其适合对确界定的情况。因此尤其适合对教育测验教育测验的效度的考的效度的考察。内容效度对各种用于察

42、。内容效度对各种用于人员选拔和安置的职业测验人员选拔和安置的职业测验也是适用的。职业测验关心的是被试是否具有从事某也是适用的。职业测验关心的是被试是否具有从事某项职业的知识、技能等，那么要明确某项职业所需的项职业的知识、技能等，那么要明确某项职业所需的全部知识和技能，再对这些知识和技能进行取样，取全部知识和技能，再对这些知识和技能进行取样，取出一个有代表性的样本。出一个有代表性的样本。65v（3 3）内容效度对）内容效度对能力倾向测验和人格测验能力倾向测验和人格测验不是很合适，不是很合适，因为它们要测量的往往是较抽象的特质，其范围难以因为它们要测量的往往是较抽象的特质，其范围难以明确界定，没有

43、明确的内容范围，就无法考证测验项明确界定，没有明确的内容范围，就无法考证测验项目是否具有代表性。目是否具有代表性。v（4 4）缺点：缺乏理想的数量指标，因而妨碍了信息交）缺点：缺乏理想的数量指标，因而妨碍了信息交流和各测验的相互比较。流和各测验的相互比较。66 5、内容效度与表面效度、内容效度与表面效度v（1）内容效度经常与表面效度（）内容效度经常与表面效度（face validity）混淆。）混淆。表面效度是由外行对测验作表面上的检查确定的，它表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来不反映测验实际测量的东西，只是指测验表面上看来好像是测量所

44、要测的东西；而内容效度是由够资格的好像是测量所要测的东西；而内容效度是由够资格的判断者（专家）详尽地、系统地对测验作评价而建立判断者（专家）详尽地、系统地对测验作评价而建立的。的。67（2）测验对表面效度的考虑：）测验对表面效度的考虑：v表面效度不是效度的客观指标，不能保证测验的正确表面效度不是效度的客观指标，不能保证测验的正确性，但能对受测者的动机产生影响，因而也会影响到性，但能对受测者的动机产生影响，因而也会影响到测验的效度。测验的效度。如：如：“我偷过东西。我偷过东西。”v编制测验时应根据编制测验的要求提高或降低表面效编制测验时应根据编制测验的要求提高或降低表面效度，如人格测验，表面效度

45、应该低，使被试看不出来，度，如人格测验，表面效度应该低，使被试看不出来，从而让被试作出真实的反应，能力测验应该提高表面从而让被试作出真实的反应，能力测验应该提高表面效度，以激发被试的答题动机。效度，以激发被试的答题动机。68（二）构想效度（结构效度）（二）构想效度（结构效度）v1、定义：、定义：构想效度（构想效度（construct validityconstruct validity），又称构念效度、结构效度。构），又称构念效度、结构效度。构想：心理学理论中所涉及的假设性的概念或特质，如智力、焦虑等，想：心理学理论中所涉及的假设性的概念或特质，如智力、焦虑等，它们往往用某种操作定义来定义、可

46、以用测验来测量。它们往往用某种操作定义来定义、可以用测验来测量。构想效度是指测验分数能够说明某一理论概念或特质的程度。构想效度是指测验分数能够说明某一理论概念或特质的程度。也就也就是测验是否实际测量了所欲测量的理论概念或特质。考察构想效度是测验是否实际测量了所欲测量的理论概念或特质。考察构想效度的宗旨是要回答下面一些问题：一个测验测量的是什么心理构想？的宗旨是要回答下面一些问题：一个测验测量的是什么心理构想？对这个构想测得有多好？测验分数中有多少变异数是来自测验所欲对这个构想测得有多好？测验分数中有多少变异数是来自测验所欲测量的构想。测量的构想。69v2、实际操作步骤：、实际操作步骤：（1）先

47、从某一建构的理论开始）先从某一建构的理论开始（2）提出各项心理功能或行为的基本假设）提出各项心理功能或行为的基本假设（3）据以设计和编制测验问卷）据以设计和编制测验问卷（4）以相关分析、因素分析等方法来检测结果是否符合）以相关分析、因素分析等方法来检测结果是否符合理论之见解理论之见解70v3、计算结构效度的方法、计算结构效度的方法（1）测验内方法）测验内方法v测验的内容效度测验的内容效度内容效度可以作为检验结构效度的一个方面。内容效度可以作为检验结构效度的一个方面。v分析被试解答测题时的反应过程分析被试解答测题时的反应过程在施行个别测验时，要求被试边想边说，从而可以分析被试在施行个别测验时，要

48、求被试边想边说，从而可以分析被试解题时的心理过程，以核实测验是否真正测到了所要测量的解题时的心理过程，以核实测验是否真正测到了所要测量的心理构想。心理构想。如，人格测验中有这样一个题目：如，人格测验中有这样一个题目：“我喜欢在别人面前说另我喜欢在别人面前说另一个人的缺点。一个人的缺点。”一个被试回答一个被试回答“否否”，问他是怎么考虑的，问他是怎么考虑的，他说：他说：“一个人如果喜欢在别人面前说另一个人的缺点，那一个人如果喜欢在别人面前说另一个人的缺点，那他就是个小人。他就是个小人。71v考察测验的同质性考察测验的同质性这种方法是以测验的内在一致性系数（如这种方法是以测验的内在一致性系数（如K

49、 KR20R20，K KR21R21，以及以及系数等）为指标，判断测验测的是单一特质还是多种系数等）为指标，判断测验测的是单一特质还是多种特质，从而确定测验构想效度的高低。特质，从而确定测验构想效度的高低。（2 2）测验间方法）测验间方法v相容效度（相容效度（congruent validitycongruent validity）计算受测者在新测验上的分数与原有的已知效度计算受测者在新测验上的分数与原有的已知效度较高的同类测验上的分数之间的相关较高的同类测验上的分数之间的相关。如，斯坦福比奈量表和韦氏量表是公认的效度如，斯坦福比奈量表和韦氏量表是公认的效度较高的智力量表，后人编制的智力测验

50、常计算与这较高的智力量表，后人编制的智力测验常计算与这些量表的测验分数的相关，以提供相容效度的证据。些量表的测验分数的相关，以提供相容效度的证据。72v区分效度（区分效度（discriminantdiscriminant validity validity）一个有效的测验不仅应与其他测同一构想的测验一个有效的测验不仅应与其他测同一构想的测验有关，而且还必须与测量不同构想的测验无关有关，而且还必须与测量不同构想的测验无关。用用此种方法确定的效度称区分效度。此种方法确定的效度称区分效度。低相关：可以证明新测验相对独立于某些无关因低相关：可以证明新测验相对独立于某些无关因素，但并不保证它一定有效。素

展开阅读全文