人事测评测评的质量评价课件.ppt_163文库

资源描述

1、可编辑ppt1可编辑ppt2一、误差一、误差可编辑ppt3(一）误差的含义一）误差的含义F 两层含义：两层含义：F 其一，误差是由与测量目的无关的变因引起的；其一，误差是由与测量目的无关的变因引起的；F 其二，误差是不准确或不一致的测量结果。其二，误差是不准确或不一致的测量结果。可编辑ppt4F 一种是随机误差，又叫可变误差，这是由与测一种是随机误差，又叫可变误差，这是由与测量目的无关的偶然因素引起而不易控制的误差，量目的无关的偶然因素引起而不易控制的误差，它使多次测量产生不一致的结果。这类误差的它使多次测量产生不一致的结果。这类误差的方向和大小的变化完全是随机的，无规律可循。方向和大小的变化

2、完全是随机的，无规律可循。(二）误差的主要表现形式二）误差的主要表现形式F 另一种是系统误差，又称常定误差，这是由与另一种是系统误差，又称常定误差，这是由与测量目的无关的变因引起的一种恒定而有规律测量目的无关的变因引起的一种恒定而有规律的效应，稳定地存在于每一次测量中，此时虽的效应，稳定地存在于每一次测量中，此时虽然测值一致，但不正确。可见，系统误差只影然测值一致，但不正确。可见，系统误差只影响测值的准确性，而随机误差既影响准确性又响测值的准确性，而随机误差既影响准确性又影响一致性。影响一致性。可编辑ppt5（三）人事测评的误差类型（三）人事测评的误差类型F 第一类是来源于人事测评工具本身的误

3、差；第一类是来源于人事测评工具本身的误差；F 第二类是来源于测评实施过程的误差；第二类是来源于测评实施过程的误差；F 第三类是来源于测评实施者的误差；第三类是来源于测评实施者的误差；F 第四类是来源于应试者的误差。第四类是来源于应试者的误差。可编辑ppt61、测评工具和方法的因素、测评工具和方法的因素F 物理、化学测评工具越精密、测评方法越科学，物理、化学测评工具越精密、测评方法越科学，则误差越小；反之则误差越大。则误差越小；反之则误差越大。F 人事测评不像物理、化学测量，人的才能、个性、人事测评不像物理、化学测量，人的才能、个性、品德等许多特性都是无法直接测量的，而且人事品德等许多特性都是无

4、法直接测量的，而且人事测评常常有主观的因素。测评常常有主观的因素。F 因此，人事测评工具和方法造成的误差比物理化因此，人事测评工具和方法造成的误差比物理化学测量要大得多。学测量要大得多。可编辑ppt7测评工具和方法造成误差的因素测评工具和方法造成误差的因素F（1）测评工具所测评的行为和特性与目标上所）测评工具所测评的行为和特性与目标上所欲测评的行为和特性之间的不一致。比如，测评欲测评的行为和特性之间的不一致。比如，测评情绪稳定性的所有测评题目都应该只测评情绪稳情绪稳定性的所有测评题目都应该只测评情绪稳定性，而实际上，有的题目还测了情绪稳定性以定性，而实际上，有的题目还测了情绪稳定性以外的特性，

5、这些特性就成了干扰因素，是测评误外的特性，这些特性就成了干扰因素，是测评误差的来源。差的来源。可编辑ppt8（2）测评指标和测题抽样的代表性）测评指标和测题抽样的代表性F 一般来说，测评指标、测题越多，则代表性越好，一般来说，测评指标、测题越多，则代表性越好，误差也就越少。误差也就越少。F 因为经济、可行性等原因，不可能把所有与测评因为经济、可行性等原因，不可能把所有与测评目的有关的所有指标都作为测评的指标，也不可目的有关的所有指标都作为测评的指标，也不可能把所有相关的全部测题都选作测试题目，能把所有相关的全部测题都选作测试题目，F 只能选有代表性的指标、有代表性的测题样本用只能选有代表性的指

6、标、有代表性的测题样本用来作测评之用。测题的内容和难度分布是测题代来作测评之用。测题的内容和难度分布是测题代表性的重要指标。表性的重要指标。可编辑ppt9（3）测题的格式和用词、测评程序等）测题的格式和用词、测评程序等因素因素F 有的题目格式（如是非题）具有可猜测性；有的题目格式（如是非题）具有可猜测性；F 有的题目格式（所有的主观题）其评分具有主有的题目格式（所有的主观题）其评分具有主观性；观性；F 测题的用词有歧义或用词不是很准确测题的用词有歧义或用词不是很准确F 这些都是引起测评误差的来源。这些都是引起测评误差的来源。可编辑ppt102、测评的具体实施过程中的偶然因素、测评的具体实施过程

7、中的偶然因素F 随着电脑等测评工具的使用，测评实施已经越随着电脑等测评工具的使用，测评实施已经越来越标准化，有测评实施造成的误差也越来越来越标准化，有测评实施造成的误差也越来越少。少。F 但是，测评的具体实施过程中还是会有许多不但是，测评的具体实施过程中还是会有许多不可预期的偶然因素。可预期的偶然因素。可编辑ppt11不可预期的偶然因素种类不可预期的偶然因素种类F（1）环境干扰。环境干扰。测评环境的温度、通风、噪音、测评环境的温度、通风、噪音、照明、突然断电等因素，都可以产生误差。照明、突然断电等因素，都可以产生误差。F（2）测评纪律的控制不好。测评纪律的控制不好。测评纪律控制不严测评纪律控制

8、不严格，出现有人作弊（如代考、抄袭、相互交流格，出现有人作弊（如代考、抄袭、相互交流等）、泄露测评题目等，也会造成测评误差。等）、泄露测评题目等，也会造成测评误差。F（3）错误操作。错误操作。误读指导语、对指导语错误理误读指导语、对指导语错误理解、误答（如自己答的答案是解、误答（如自己答的答案是A，却选了，却选了C）、）、记录错误、记分错误等因素。记录错误、记分错误等因素。可编辑ppt123、被测评者因素、被测评者因素F 被测评者因素被测评者是活生生的人，人是非被测评者因素被测评者是活生生的人，人是非常复杂的，诸多生理、心理因素都可以成为干常复杂的，诸多生理、心理因素都可以成为干扰人事测评目的

9、的因素。扰人事测评目的的因素。F 可导致人事测评误差的被测评者因素大致有：可导致人事测评误差的被测评者因素大致有：F（1）生理因素。）生理因素。身体健康因素、饥饿与过饱、身体健康因素、饥饿与过饱、疲劳程度、生理周期等都可以影响人格测试的疲劳程度、生理周期等都可以影响人格测试的结果。结果。可编辑ppt13F（2）动机水平）动机水平F 每个被测评者都有参加测评的目的，这个目的每个被测评者都有参加测评的目的，这个目的可以导致被测评者故意掩饰自己，采取装好或可以导致被测评者故意掩饰自己，采取装好或装坏的倾向性回答，其结果就不能反映出被测装坏的倾向性回答，其结果就不能反映出被测评者的真实情况。评者的真实

10、情况。F 不同的被测评者其动机水平不一样，因而掩饰不同的被测评者其动机水平不一样，因而掩饰程度也会有所不同。程度也会有所不同。可编辑ppt14F 不同的动机水平可以引起被测评者不同的应激不同的动机水平可以引起被测评者不同的应激状态，动机过分强烈会引起被测评者产生测评状态，动机过分强烈会引起被测评者产生测评焦虑，而动机不足则会引起被测评者对测评采焦虑，而动机不足则会引起被测评者对测评采取敷衍了事的态度，。取敷衍了事的态度，。F 在人格、态度、动机等测评中，被测评者的动在人格、态度、动机等测评中，被测评者的动机水平常常会是测评被测评者因素产生误差的机水平常常会是测评被测评者因素产生误差的最重要的因

11、素。最重要的因素。可编辑ppt15F（3）受教育程度、价值观等文化因素。受教育程度、价值观等文化因素。被测被测评者受教育程度不同，其成长的文化背景不同，评者受教育程度不同，其成长的文化背景不同，价值观不同，会造成被测评者对测题的理解、价值观不同，会造成被测评者对测题的理解、答题态度、答题偏好等的不同，从而造成测评答题态度、答题偏好等的不同，从而造成测评误差。误差。可编辑ppt16F（4）有关经验。有关经验。如果在测评之前，被测评者如果在测评之前，被测评者已经具有与测评有关的经验，比如已经经历过已经具有与测评有关的经验，比如已经经历过类似的或同一类型的测试从而掌握了有关的答类似的或同一类型的测试

12、从而掌握了有关的答题策略，就可能对测评结果产生较大的影响。题策略，就可能对测评结果产生较大的影响。F 有人曾做过试验，让有人曾做过试验，让5名熟悉、已知其智力水名熟悉、已知其智力水平的学生进行知觉和图形推理的大量练习，然平的学生进行知觉和图形推理的大量练习，然后再进行瑞文图形智力测试，结果测得的结果后再进行瑞文图形智力测试，结果测得的结果比他们的实际智力高出不少。比他们的实际智力高出不少。可编辑ppt174、主试因素、主试因素F 主试以貌取人、对被测评者有偏见，可以造成主试以貌取人、对被测评者有偏见，可以造成测评误差。测评误差。F 主试不良的言行举止对被试的心理状态干扰、主试不良的言行举止对被

13、试的心理状态干扰、暗示、误导，可以造成误差。暗示、误导，可以造成误差。F 主试评分的标准不一致，先紧后松、先松后紧、主试评分的标准不一致，先紧后松、先松后紧、忽高忽低，或有意无意地修改评分标准，对某忽高忽低，或有意无意地修改评分标准，对某些人特别照顾，都可以引起误差。些人特别照顾，都可以引起误差。可编辑ppt18总结总结F 测评的误差一般可以被分为两大类：随机误差测评的误差一般可以被分为两大类：随机误差和系统误差。和系统误差。F 随机误差是由偶然因素造成的，其产生是随机随机误差是由偶然因素造成的，其产生是随机的、无规律的，因此其数值大小也是随机变化、的、无规律的，因此其数值大小也是随机变化、不

14、确定的。它是引起测评不一致的变因，与测不确定的。它是引起测评不一致的变因，与测评信度有关。评信度有关。可编辑ppt19F 系统误差，又称为常定误差或偏差。它是由与测系统误差，又称为常定误差或偏差。它是由与测验目的无关的因子引起的一种恒定的、系统的变验目的无关的因子引起的一种恒定的、系统的变化，其数值大小具有一定的规律性和稳定性。它化，其数值大小具有一定的规律性和稳定性。它与测评的效度有关。与测评的效度有关。F 习惯上，把随机误差称为观察误差或测评误差。习惯上，把随机误差称为观察误差或测评误差。从这个意义上讲，测评误差这个概念所指误差只从这个意义上讲，测评误差这个概念所指误差只是测评分数所包含的

15、误差（随机误差和系统误差）是测评分数所包含的误差（随机误差和系统误差）的一部分（即随机误差）。的一部分（即随机误差）。可编辑ppt20二、信度分析二、信度分析可编辑ppt21（一）信度的基本概念（一）信度的基本概念F 信度又叫可靠性程度，用于分析一种测评方法信度又叫可靠性程度，用于分析一种测评方法所得结果的前后一致性水平，并以这种一致性所得结果的前后一致性水平，并以这种一致性程度为指标来判断测评的可靠性。程度为指标来判断测评的可靠性。F 测验结果的可靠性与测验结果受误差影响的程测验结果的可靠性与测验结果受误差影响的程度密切相关。度密切相关。F 在人才测评中误差是不可避免的，只能尽可能在人才测评

16、中误差是不可避免的，只能尽可能追求高的精度，把误差控制在一个有规律的范追求高的精度，把误差控制在一个有规律的范围以内，这样测量得到的结果才比较稳定可靠。围以内，这样测量得到的结果才比较稳定可靠。信度实际上就是随机误差的一种度量。信度实际上就是随机误差的一种度量。可编辑ppt22（二）信度系数及估计方法（二）信度系数及估计方法F 信度指标都用信度系数的形式呈现。信度指标都用信度系数的形式呈现。F 信度系数是同一样本在两种不同时间、不同情信度系数是同一样本在两种不同时间、不同情境条件或两组不同评价材料评定结果之间的相境条件或两组不同评价材料评定结果之间的相关系数。关系数。F 针对不同的误差来源，信

17、度可有不同的确定方针对不同的误差来源，信度可有不同的确定方法。法。F 一般有以下几种类型：重测信度、复本信度、一般有以下几种类型：重测信度、复本信度、内部一致性信度、评分者信度。内部一致性信度、评分者信度。可编辑ppt231.重测信度重测信度F 重测信度又称为稳定性系数，它是估计测评跨重测信度又称为稳定性系数，它是估计测评跨时间的一致性程度，即用同一测验，在两个不时间的一致性程度，即用同一测验，在两个不同时间里对同一群体施测两次，这两次测验分同时间里对同一群体施测两次，这两次测验分数的相关系数就是重测系数。数的相关系数就是重测系数。F 一个测验的重测系数越高，说明测评的稳定性一个测验的重测系数

18、越高，说明测评的稳定性越好，测评受随机因素的影响越小。越好，测评受随机因素的影响越小。可编辑ppt24F 在获得重测系数时，最需要注意的是必须根据在获得重测系数时，最需要注意的是必须根据测验的性质和目的来控制合理的时间间隔。测验的性质和目的来控制合理的时间间隔。F 时间间隔长了，被试的心理特征就会因为学习、时间间隔长了，被试的心理特征就会因为学习、经历、教育培训等因素而发展变化，使相关系经历、教育培训等因素而发展变化，使相关系数降低；数降低；F 时间间隔短了，又会使首次测评时的练习效果时间间隔短了，又会使首次测评时的练习效果和记忆效果的影响增大，从而造成了假性的高和记忆效果的影响增大，从而造成

19、了假性的高相关。相关。可编辑ppt252.复本信度复本信度F 复本是指在内容、数量、格式、难度、平均数、复本是指在内容、数量、格式、难度、平均数、标准差等各方面与原测评一样的测评，即功能等标准差等各方面与原测评一样的测评，即功能等值但题目内容不同。两个等值的测验互为复本。值但题目内容不同。两个等值的测验互为复本。F 复本信度又称为等值性系数，它是代表测评跨形复本信度又称为等值性系数，它是代表测评跨形式的一致性，即在对被试进行测评以后间隔一定式的一致性，即在对被试进行测评以后间隔一定的时间，运用复本再测评一次所获得的复本相关的时间，运用复本再测评一次所获得的复本相关系数。系数。F 复本信度的高低

20、反映了两个测验复本在内容上的复本信度的高低反映了两个测验复本在内容上的等值性程度。等值性程度。可编辑ppt26F 复本信度的优点：适用于在长期追踪研究或调查复本信度的优点：适用于在长期追踪研究或调查某些干涉变量对测验成绩影响，同时减少了辅导某些干涉变量对测验成绩影响，同时减少了辅导或作弊的可能性。或作弊的可能性。F 当然，复本相关系数也有局限性：当然，复本相关系数也有局限性：F 一方面，在现实中，编制理想的复本常常很难，一方面，在现实中，编制理想的复本常常很难，有许多测评都没有复本。有许多测评都没有复本。F 另一方面，复本测评也会受练习的影响。另一方面，复本测评也会受练习的影响。可编辑ppt2

21、73.内部一致性信度内部一致性信度F 用重测相关系数和复本相关系数，都需测评两用重测相关系数和复本相关系数，都需测评两次，不但要花较多的精力，而且受测者会受练次，不但要花较多的精力，而且受测者会受练习的影响使第二次测评失真。习的影响使第二次测评失真。F 内部一致性系数则不同，它只需要测评一次，内部一致性系数则不同，它只需要测评一次，它通过分析同一测评内部各测评项目之间的相它通过分析同一测评内部各测评项目之间的相关系数的方法来估计信度系数。关系数的方法来估计信度系数。可编辑ppt28F 内部一致性系数反映的是跨测题的一致性，即内部一致性系数反映的是跨测题的一致性，即测评内部各部分之间是否具有同质

22、性。测评内部各部分之间是否具有同质性。F 内部一致性信度又分为分半信度、同质性信度内部一致性信度又分为分半信度、同质性信度和和系数。系数。可编辑ppt29（1）分半信度）分半信度F 获得分半信度系数的方法是把一个测评分成两获得分半信度系数的方法是把一个测评分成两个最为等值的两半，并分别计算每位被试在两个最为等值的两半，并分别计算每位被试在两半测验上的得分，再求出这两个分数的相关系半测验上的得分，再求出这两个分数的相关系数，从而来估计整个测评的信度。数，从而来估计整个测评的信度。F 因为分半系数只是根据原测题的一半题目而来，因为分半系数只是根据原测题的一半题目而来，而信度的大小又与测验的长度有关

23、，所以分半而信度的大小又与测验的长度有关，所以分半系数常常要比原测验的信度低。系数常常要比原测验的信度低。可编辑ppt30F 为了校正这个差异，常运用斯皮尔曼为了校正这个差异，常运用斯皮尔曼-布朗公式：布朗公式：F rxx=2rhh/(1+rhh)F 其中，其中，rhh：两半测验的相关系数；：两半测验的相关系数；rxx：估计：估计或修正后的信度。或修正后的信度。可编辑ppt31（2）同质性信度）同质性信度F 同质性信度不需要把测评分为两半，它是指测同质性信度不需要把测评分为两半，它是指测验内部的各题目在多大程度上考察了同一内容。验内部的各题目在多大程度上考察了同一内容。F 所谓的同质性是指所有

24、的测验题目测量的只是所谓的同质性是指所有的测验题目测量的只是单一的特质或内容，表现为所有测验题目得分单一的特质或内容，表现为所有测验题目得分的一致性。的一致性。F 常用的计算方法是库德常用的计算方法是库德-理查逊估计方法理查逊估计方法。计。计算公式有库德算公式有库德-理查逊理查逊20号公式（简称号公式（简称KR20）和和21号公式（号公式（KR21）。）。可编辑ppt32KR20公式公式F n为测验题目数，为测验题目数，pi为通过为通过i题的人数比例；题的人数比例；qi为未通过为未通过该题的人数比例；该题的人数比例；pi+qi=1；piqi为所有题目答对与为所有题目答对与答错人数百分比乘积的总

25、和。答错人数百分比乘积的总和。F 库德库德-理查逊信度系数的运用需要满足几个条件：所有测理查逊信度系数的运用需要满足几个条件：所有测题都采用二分法记分，即都采用题都采用二分法记分，即都采用0，1记分，答对记记分，答对记1分，分，答错记答错记0分；测验的项目难度比较接近；项目间的组间分；测验的项目难度比较接近；项目间的组间相关相等。相关相等。212011XniiiKRSqpnnr可编辑ppt33（3）系数系数F 当测验项目采用多重记分（如人格测验、态度当测验项目采用多重记分（如人格测验、态度量表），库德量表），库德-理查逊信度就无法运用。克伦巴理查逊信度就无法运用。克伦巴赫提出了适用于各种记分情

26、况的赫提出了适用于各种记分情况的系数来估计系数来估计信度。具体公式如下：其中，信度。具体公式如下：其中，Si为每一项目的为每一项目的方差；方差；Sx为测验总分方差。为测验总分方差。21211XniiSSnn2iS可编辑ppt344、评分者信度、评分者信度F 在人事测评中，不同的评分者其观察角度、注在人事测评中，不同的评分者其观察角度、注意力、对被试的偏见等都会使评分的结果不一意力、对被试的偏见等都会使评分的结果不一致，因此，评分者的评判也是误差的来源之一。致，因此，评分者的评判也是误差的来源之一。评分者信度就是指不同评分者对同样对象进行评分者信度就是指不同评分者对同样对象进行评定的一致性。评定

27、的一致性。F 具体方法是：由两名评分者对同一个被试样组具体方法是：由两名评分者对同一个被试样组进行评分，再求两个评判分数的相关系数。这进行评分，再求两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。以采用斯皮尔曼等级相关方法。可编辑ppt35F 如果评分者在三人以上，而且又采用等级记分时，就要如果评分者在三人以上，而且又采用等级记分时，就要用肯德尔和谐系数来求评分者信度。公式为：用肯德尔和谐系数来求评分者信度。公式为：F 其中，其中，K为评分者人数，为评分者人数，N为被评定的人数或答卷数；为被评定的人数或答卷数

28、；Ri为每一个对象被评等级。为每一个对象被评等级。)(121)()(12132112232NNKNRRNNKSWNiNiii可编辑ppt36（三）影响信度系数的主要因素（三）影响信度系数的主要因素F 1.测验长度测验长度：在其他条件相等的情况下，测：在其他条件相等的情况下，测验长度（题目的多少）越长，信度值越高。因验长度（题目的多少）越长，信度值越高。因为测验越长，题目取样或内容取样就越充分，为测验越长，题目取样或内容取样就越充分，结果就越可靠，同时也避免猜测题目的影响。结果就越可靠，同时也避免猜测题目的影响。F 2.样本团体的性质：一般而言，在其他条件不样本团体的性质：一般而言，在其他条件

29、不变的情况下，样本团体的分数分布范围越大，变的情况下，样本团体的分数分布范围越大，变异性越大，信度系数将越大。样本团体的异变异性越大，信度系数将越大。样本团体的异质性越大，信度系数就越高。质性越大，信度系数就越高。可编辑ppt37F 3.测验难度：测验难度对信度也会产生影响。测验难度：测验难度对信度也会产生影响。F 如果一个测验的难度太低，大多数被试都可以如果一个测验的难度太低，大多数被试都可以轻而易举地答对题目，测验分数会非常集中并轻而易举地答对题目，测验分数会非常集中并聚在高分端；聚在高分端；F 如果测验的难度太高，多数被试都只能凭猜测如果测验的难度太高，多数被试都只能凭猜测答题，所有分数

30、都集中在低分端。这样都会使答题，所有分数都集中在低分端。这样都会使测量到的分数分布太窄，导致信度降低。测量到的分数分布太窄，导致信度降低。可编辑ppt38三、效度三、效度可编辑ppt39（一）（一）效度的含义效度的含义F 人事测量的效度就是指测量的有效性，即所采人事测量的效度就是指测量的有效性，即所采用的测评工具对其所要测评的特性测量到什么用的测评工具对其所要测评的特性测量到什么程度的估计。程度的估计。F 一是效度是针对测验结果的。一是效度是针对测验结果的。F 二是效度是针对某种特定的测评目的而存在的。二是效度是针对某种特定的测评目的而存在的。F 三是效度是连续性的，是一个关于程度的估计。三是

31、效度是连续性的，是一个关于程度的估计。可编辑ppt40（二）效度的类型及估计方法（二）效度的类型及估计方法F 一般把效度分为内容效度、构思效度和效标关联一般把效度分为内容效度、构思效度和效标关联效度三类，效度三类，F 这三类效度是相互联系的，一个好的测评通常可这三类效度是相互联系的，一个好的测评通常可以用一种或一种以上的效度来表示。以用一种或一种以上的效度来表示。可编辑ppt411.内容效度内容效度F 内容效度是检查测验内容是否是所欲测量的行内容效度是检查测验内容是否是所欲测量的行为领域的代表性取样的指标为领域的代表性取样的指标,即是说指标与标准即是说指标与标准是否符合该类人员的功能特征。要素

32、的设计与是否符合该类人员的功能特征。要素的设计与标准的编制成为鉴定测评效度的内容。常见方标准的编制成为鉴定测评效度的内容。常见方法：法：F（1）通过对照内容范围来估计）通过对照内容范围来估计F（2）评分者信度）评分者信度F（3）统计分析）统计分析可编辑ppt422.构思效度构思效度F 构思效度是指测验能够测量到理论上的构思或特构思效度是指测验能够测量到理论上的构思或特质的程度。质的程度。F 所谓的构思是指一些抽象的假设性的概念、特性所谓的构思是指一些抽象的假设性的概念、特性或变量。如智力、创造力、言语流畅性、焦虑、或变量。如智力、创造力、言语流畅性、焦虑、动机等。构思不能直接测量，需要借助一定

33、的测动机等。构思不能直接测量，需要借助一定的测评工具来反映。评工具来反映。F 构思效度的估计方法有许多，总的来说，可以分构思效度的估计方法有许多，总的来说，可以分为测验内部的方法和测验间方法两大类。为测验内部的方法和测验间方法两大类。可编辑ppt433、效标关联效度、效标关联效度F 效标关联效度是以测评分数和效度准则之间的相效标关联效度是以测评分数和效度准则之间的相关系数来表示测评效度的高低的，表现进行预测关系数来表示测评效度的高低的，表现进行预测的有效性程度。这里效标是指考察测验效用的外的有效性程度。这里效标是指考察测验效用的外在参照标准，是一种可以直接、独立测量的行为。在参照标准，是一种可

34、以直接、独立测量的行为。可编辑ppt44F 通常情况下，对一般职工来讲，其效标应为产通常情况下，对一般职工来讲，其效标应为产量与质量；对于科技人员应以发明、创造及技量与质量；对于科技人员应以发明、创造及技术成果的数量和效益为效标；对管理人员应以术成果的数量和效益为效标；对管理人员应以工作效率、职工积极性调动程度和经济效益为工作效率、职工积极性调动程度和经济效益为效标；对领导人员应以开发人才、开创局面和效标；对领导人员应以开发人才、开创局面和社会、经济效益为效标。社会、经济效益为效标。可编辑ppt45（三）影响效度的主要因素（三）影响效度的主要因素F(1)(1)受测样本受测样本F 一个测验施测于

35、不同的样本，由于受测者在年一个测验施测于不同的样本，由于受测者在年龄、文化程度以及经验背景上的差别，效度就龄、文化程度以及经验背景上的差别，效度就会随之不同，因此，受测样本的选取是用来考会随之不同，因此，受测样本的选取是用来考察效度所依据的重要因素。样本容量的大小与察效度所依据的重要因素。样本容量的大小与效度系数的高低也有一定关系。样本容量越大，效度系数的高低也有一定关系。样本容量越大，测量误差就会有相互抵消的趋势，由此会有助测量误差就会有相互抵消的趋势，由此会有助于提高测验和效标测量的信度，同时有助于提于提高测验和效标测量的信度，同时有助于提高效度系数。高效度系数。可编辑ppt46F(2)效

36、标效标F 选择适当的效标是统计效度的先决条件。一个选择适当的效标是统计效度的先决条件。一个测验由于采用的效标不同，其效度可能会大相测验由于采用的效标不同，其效度可能会大相径庭。甚至，由于效标选择不当，可能导致无径庭。甚至，由于效标选择不当，可能导致无法衡量测验的效度。法衡量测验的效度。可编辑ppt47F 通过以上的分析，我们可以看出信度与效度的分通过以上的分析，我们可以看出信度与效度的分析是直接对测评结果质量的考查，而一个测验的析是直接对测评结果质量的考查，而一个测验的信度和效度在很大程度上取决于该测验的题目参信度和效度在很大程度上取决于该测验的题目参数数(难度和区分度难度和区分度)，编制和筛

37、选具有适当参数的，编制和筛选具有适当参数的题目是改善测验信度和效度的前提。我们根据试题目是改善测验信度和效度的前提。我们根据试题结果对组成测验的各个题目进行分析，从而评题结果对组成测验的各个题目进行分析，从而评价题目好坏。价题目好坏。四、难度分析四、难度分析可编辑ppt48（一）难度的概念（一）难度的概念F 难度是指测验题目的难易程度，也是试难度是指测验题目的难易程度，也是试题对被试知识和能力水平的适合程度的题对被试知识和能力水平的适合程度的指标。指标。F 难度是一个相对的概念，难度的高低与难度是一个相对的概念，难度的高低与被试的水平直接相关。我们在说测量的被试的水平直接相关。我们在说测量的难

38、易程度时，应该针对具体的被试。难易程度时，应该针对具体的被试。可编辑ppt49（二）难度的计算（二）难度的计算F 1、以答对百分比来估计难度、以答对百分比来估计难度F 如果试题为二分法反应记分项目，如果试题为二分法反应记分项目，P值可以采值可以采用通过率公式计算。公式为：用通过率公式计算。公式为：P=R/N F 其中，其中，P为试题难度；为试题难度；R为答对试题的人数；为答对试题的人数；N为参加测验的总人数。为参加测验的总人数。可编辑ppt50F 当被试人数较多时，可以采用极端分组法求试当被试人数较多时，可以采用极端分组法求试题的难度，先按测验总分的高低进行排序，然题的难度，先按测验总分的高低

39、进行排序，然后将被试分成三组：分数高的后将被试分成三组：分数高的27%被试为高被试为高分组，分数最低的分组，分数最低的27%的被试为低分组，中的被试为低分组，中间间46%的被试为中间组。分别计算高分组和的被试为中间组。分别计算高分组和低分组的通过率，再求试题的难度。低分组的通过率，再求试题的难度。F P=（PH+PL）/2F 其中，其中，PH和和PL分别代表高分组和低分组的通过分别代表高分组和低分组的通过率。率。可编辑ppt51（三）难度对测验的影响（三）难度对测验的影响F 1.1.测验难度影响测验分数的分布形态测验难度影响测验分数的分布形态 F 测验的难度就越大，测验分数就越是集中在低分测验

40、的难度就越大，测验分数就越是集中在低分段，其分数分布呈正偏态；相反，分数分布呈现段，其分数分布呈正偏态；相反，分数分布呈现负偏态。负偏态。F 2.2.测验难度影响测验分数的离散程度测验难度影响测验分数的离散程度 F 测验分数过高或过低，测验分数就会高度集中，测验分数过高或过低，测验分数就会高度集中，测验分数的离散程度就变小了。测验分数的离散程度就变小了。F 3.3.测验难度影响测验的鉴别能力测验难度影响测验的鉴别能力可编辑ppt52（四）测验难度的确定（四）测验难度的确定F 确定合理的测验难度才能使试题产生区分不同程确定合理的测验难度才能使试题产生区分不同程度被试的最大效果。但题目的难度水平

41、究竟多高度被试的最大效果。但题目的难度水平究竟多高合适，依赖于测验的目的、性质、和题目形式。合适，依赖于测验的目的、性质、和题目形式。F 一般来说，我们进行测验的目的是要了解被试一般来说，我们进行测验的目的是要了解被试个体间的差异，所以在选择题目时，最好使试题个体间的差异，所以在选择题目时，最好使试题的平均难度接近的平均难度接近0.50 0.50，而各题难度在，而各题难度在0.500.500.200.20之间。之间。F 此外，对于不同的题型应该有各自适宜的难度。此外，对于不同的题型应该有各自适宜的难度。如是非题难度值应为如是非题难度值应为0.750.75，而对于四择一题目，而对于四择一题目，难

42、度值约为难度值约为0.630.63。可编辑ppt53五、区分度分析五、区分度分析可编辑ppt54（一）区分度的概念（一）区分度的概念F 区分度又称鉴别度，它是指测验项目对不同水区分度又称鉴别度，它是指测验项目对不同水平的被试反应的鉴别能力和区分程度。平的被试反应的鉴别能力和区分程度。F 若项目鉴别力高，则能力强、水平高的被试得若项目鉴别力高，则能力强、水平高的被试得分高，能力弱、水平低的被试得分低，否则就分高，能力弱、水平低的被试得分低，否则就没有鉴别力。没有鉴别力。F 它是评价测题质量，筛选测题的主要指标和依它是评价测题质量，筛选测题的主要指标和依据。据。可编辑ppt55（二）区分度的估计方

43、法（二）区分度的估计方法F 1.1.鉴别度指数鉴别度指数F 鉴别度指数是衡量区分度的一种最常用，也是鉴别度指数是衡量区分度的一种最常用，也是最简便的方法，它是比较得分高和得分低的两最简便的方法，它是比较得分高和得分低的两组被试在项目通过率上的差值。组被试在项目通过率上的差值。可编辑ppt56F 一般思路为，当成绩是连续变量时，可从分数一般思路为，当成绩是连续变量时，可从分数分布的两端各选择分布的两端各选择27%的被试组成高、低分的被试组成高、低分组，再分别计算两组每道题目上的通过率，二组，再分别计算两组每道题目上的通过率，二者之差就是各题目的鉴别度指数者之差就是各题目的鉴别度指数D。F 公式：

44、公式：D=PH-PLF 其中，其中，PH为高分组答对该题的人数比率；为高分组答对该题的人数比率；PL为低分组答对该题的人数比率。为低分组答对该题的人数比率。可编辑ppt572.方差法方差法F 方差表示一组数据离散程度。方差大，数据分散。方差表示一组数据离散程度。方差大，数据分散。被试在某一试题上的得分越分散，则该题的鉴别被试在某一试题上的得分越分散，则该题的鉴别力越大。力越大。F 在进行实际的项目分析中，被试一般不能少于在进行实际的项目分析中，被试一般不能少于30人，这样使用下面公式才有效。人，这样使用下面公式才有效。nXXSi22)(可编辑ppt583.内部一致性系数计算区分度内部一致性系数

45、计算区分度F 一般以总分来衡量被试能力的高低，当被试总分一般以总分来衡量被试能力的高低，当被试总分高时，在某个项目上的得分也高；高时，在某个项目上的得分也高；F 总分低时，项目上的得分也低，说明该项目和总总分低时，项目上的得分也低，说明该项目和总分有一致性。分有一致性。F 在标准化和大规模的测验中，通过考察项目和总在标准化和大规模的测验中，通过考察项目和总分的相关，来测验各项目所测查内容的一致性。分的相关，来测验各项目所测查内容的一致性。如果项目与总分高相关，项目的鉴别力也就高。如果项目与总分高相关，项目的鉴别力也就高。可编辑ppt594.项目与外部准则的相关项目与外部准则的相关项目效度分析项

46、目效度分析F 项目效度分析是考察被试在项目上反应和在效项目效度分析是考察被试在项目上反应和在效标上表现的关系标上表现的关系,即每个测题所测查的行为是否即每个测题所测查的行为是否反映了被试在效标上的表现。反映了被试在效标上的表现。F 相关系数就是项目通过率与效标成绩的相关系相关系数就是项目通过率与效标成绩的相关系数。相关越高，表明项目越具有区分的能力。数。相关越高，表明项目越具有区分的能力。可编辑ppt60（三）合理区分度的确定（三）合理区分度的确定F 在上面已经谈到不同的计算方法会带来不同的在上面已经谈到不同的计算方法会带来不同的区分度值，也就是说区分度的值具有相对性。区分度值，也就是说区分度的值具有相对性。F 此外，区分度还与受测团体的同质程度有关，此外，区分度还与受测团体的同质程度有关，同质性越强，区分度就越小。同质性越强，区分度就越小。F 所以，在确定合理的区分度时，我们既要考虑所以，在确定合理的区分度时，我们既要考虑采用哪种区分度指标，以及样本大小和特性外，采用哪种区分度指标，以及样本大小和特性外，还要考虑测验的目的、性质和功能。还要考虑测验的目的、性质和功能。

展开阅读全文