研究工具性能的测定(精)课件.ppt_163文库

资源描述

1、第八章研究工具性能的测定信度和效度是用来反映研究工具质量高低的两个指标，高信度和高效度的研究工具是良好科研的必需条件。第一节信度一、概念信度（reliability）是指使用某些研究工具所获得结果的一致程度或准确程度。n稳定性、内在一致性、等同性是信度的稳定性、内在一致性、等同性是信度的三个主要特征三个主要特征信度信度n所谓的信度，是指使用相同指标或测量所谓的信度，是指使用相同指标或测量工具重复测量相同事物时，得到相同结工具重复测量相同事物时，得到相同结果的可能性。如果说某个指标或测量工果的可能性。如果说某个指标或测量工具的信度高，那它提供的测量结果就不具的信度高，那它提供的测量结果就不会

2、因为指标、测量工具或测量设计本身会因为指标、测量工具或测量设计本身的特性而发生变化；反之亦然。的特性而发生变化；反之亦然。二、信度的计算方法（一）重测信度（稳定性）1.定义：是用同一测量工具在不同的时间对同一群受试者前后测量两次，然后计算两次测量分数的相关系数，相关系数越大说明两次测量的一致性越高。相隔的时间不应该太长。 2.计算方法1.重测信度(test-retest reliability)n常用来描述研究工具的稳定性大小，即用一研究工具两次或多次测定同一群体，所得结果的一致程度。一致性程度越高，则该工具的稳定性越好，重测信度也就越高。n重测信度的具体做法是先进行第一次测试，隔一段时间（间

3、隔以可能忘却上次测验内容为宜）后进行重测，然后计算两次测试结果的相关系数。重测对象一般要达到总研究数目的1/10。n重测信度简单、直观，适用于评估性质相对稳定的问题，如个性、价值观、自尊等。n不足之处在于计算结果会受多种因素影响。例如时间、受测对象第二次反应、态度和记忆力等 R= (x-x)(y-y) (x-x)2(y-y)2 3.使用重测信度需考虑的问题（1）两次测量之间的间隔时间（2）研究工具所测量的变量的性质（3）测量环境的一致性（二）折半信度、cronbach 系数与KR值（内部一致性）n此三种方法可用来反映工具的内在一致性。当研究工具包含多条项目时，需要对各项目之间的关系进行评定。内

4、在一致性（internal consistency）指各项目之间的同质性或内在相关性, 内在相关性越好，说明组成研究工具的各项目都在一致地测量同一个问题或指标，也就是说明工具的内在一致性越好，信度越高 n(1)折半系数：折半系数是测定内在一致性的古老方法，具体方法是将项目分成两部分，分别记分（选奇偶项是最常见的划分方法），对两个部分进行相关分析，然后采用Spearman-Brown 公式计算信度 n只用一个测量工具对同一群受试者实施一次测量，但将奇数题和偶数题分开计分，再计算奇数试题和偶数试题分数之间的相关系数。(2)Cronbachs a相关系数与KR-20值(Kuder-Richardso

5、n formula 20)：折半信度的主要不足是不同折半方法会导致不同的结果。例如一个10项目的问卷，共可有126种不同的折半法。按奇偶项进行折半与按前半、后半部分折半计算所得的信度就很可能不同。而Cronbachs a与KR20值所计算的是工具中所有项目的平均相关程度，避免了折半信度计算的缺点。与Cronbachs不同的是KR-20值适用于二分制的研究工具（包含两种反应，例如回答“是”或“不是”）的一种方法。（三）评定者间信度和复本信度（等同性）（三）评定者间信度和复本信度（等同性）n评定者间信度和复本信度：用来表示研究工具等评定者间信度和复本信度：用来表示研究工具等同性这一特征。或准确

6、性是指两个相似的测量工同性这一特征。或准确性是指两个相似的测量工具反映被测量对象真实状况的能力。等同性的计具反映被测量对象真实状况的能力。等同性的计算也是进行相关分析。算也是进行相关分析。n（1 1）不同观察者使用相同工具，同时测量相同对）不同观察者使用相同工具，同时测量相同对象，需计算评定者间一致性信度。可用一致数目象，需计算评定者间一致性信度。可用一致数目与观察总数的比简单估算，或用方差分析、等级与观察总数的比简单估算，或用方差分析、等级相关等来计算。相关等来计算。n（2 2）两个大致相同的工具同时被用于研究对象，）两个大致相同的工具同时被用于研究对象，需计算复本信度，可直接用需计算复本信

7、度，可直接用PearsonPearson相关系数计算。相关系数计算。复本信度复本信度n复本信度是用两个完全等值的（平行的）复本信度是用两个完全等值的（平行的）复本对同一群受试者进行测试，计算两复本对同一群受试者进行测试，计算两种复本测量分数的相关系数，相关系数种复本测量分数的相关系数，相关系数越大说明两个复本构成带来的变异越小。越大说明两个复本构成带来的变异越小。如考试中使用的、卷如考试中使用的、卷信度信度n在进行预试验时，一般选取在进行预试验时，一般选取10-20例样例样本进行信度测量。到目前为止对于信度本进行信度测量。到目前为止对于信度系数的标准尚无统一的标准，一般认为系数的标准尚无统

8、一的标准，一般认为信度数值高于信度数值高于0.8时工具的信度才理想，时工具的信度才理想，但若使用的问卷项目数较少时，高于但若使用的问卷项目数较少时，高于0.6或或0.5即可接受。评估工具的信度时，最即可接受。评估工具的信度时，最重要是要报告出工具的信度数值，并说重要是要报告出工具的信度数值，并说明它是怎么计算出来的明它是怎么计算出来的第二节效度第二节效度n效度是指某一研究工具能真正反映它所期望研究的效度是指某一研究工具能真正反映它所期望研究的概念的程度。反映研究概念的程度越好，效度越高概念的程度。反映研究概念的程度越好，效度越高 n效度效度(Validity) 即有效性，指此测验测查到所要测

9、即有效性，指此测验测查到所要测查的没有？测查到何种程度？如一个智力测验，若查的没有？测查到何种程度？如一个智力测验，若测验结果所表明的确实是受试的智力，而且量准了测验结果所表明的确实是受试的智力，而且量准了智力水平，那么这一智力测验的效度好；反之则不智力水平，那么这一智力测验的效度好；反之则不好。效度检查，也同信度检查一样，有多种方法，好。效度检查，也同信度检查一样，有多种方法，并有各种名称，如内容效度、预测效度、因素效度、并有各种名称，如内容效度、预测效度、因素效度、内部效度等。内部效度等。一、表面效度一、表面效度二、内容效度二、内容效度三、效标关联效度三、效标关联效度四、结构效度四、结构效

10、度1.表面效度表面效度n表面效度是指测量内容或测量指标与测表面效度是指测量内容或测量指标与测量目标之间的适合性和逻辑相符性。表量目标之间的适合性和逻辑相符性。表面效度是最浅层次上的效度，它指的是面效度是最浅层次上的效度，它指的是从表现上看起来，测验题目是否与测验从表现上看起来，测验题目是否与测验目的一致。目的一致。n是由评估人根据自己对所要测量概念的是由评估人根据自己对所要测量概念的理解，尽其判断能力之所及来断定工具理解，尽其判断能力之所及来断定工具是否适当而做出的一种直觉判断。表面是否适当而做出的一种直觉判断。表面效度一般不能作为工具质量的有力证据。效度一般不能作为工具质量的有力证据。 1.

11、表面效度表面效度n指测试应达到的卷面标准，即一套测试指测试应达到的卷面标准，即一套测试题从表面看来是否是合适的。例如，若题从表面看来是否是合适的。例如，若一次阅读理解力的测试包括许多受试者一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。试者正常水平的一种保证因素。2.内容效度内容效度n是根据理论基础及实际经验来对工具是是根据理论基础及实际经验来对工具是否包括足够的项目而且有恰当的内容比否包括足够的项目而且有恰当的内容比例分配所做出的判断。内容效度

12、需建立例分配所做出的判断。内容效度需建立在大量文献查阅、工作经验以及综合分在大量文献查阅、工作经验以及综合分析判断的基础之上，多由有关专家来评析判断的基础之上，多由有关专家来评议。议。2.内容效度内容效度n内容效度是指项目对欲测的内容或行为内容效度是指项目对欲测的内容或行为范围取样的适当程度。例如，教师在讲范围取样的适当程度。例如，教师在讲授了一段时间课程之后就要进行考试，授了一段时间课程之后就要进行考试，而试卷不可能包含所有内容，只能从中而试卷不可能包含所有内容，只能从中选出一个代表性样本来测试，再根据分选出一个代表性样本来测试，再根据分数来推论学生在该范围内的知识技能的数来推论学生在该范围

13、内的知识技能的掌握情况。如果测试题目是该范围内容掌握情况。如果测试题目是该范围内容的好样本，推论就有效。的好样本，推论就有效。 2.内容效度内容效度n指一套测试题是否测试了应该测试的内指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程的要求，即测试的代表性和覆盖面的程度。例如，如果某一套发音技能测试题度。例如，如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该语调

14、或音素在词语中的发音，那么，该测试的内容效度就很低。测试的内容效度就很低。2.内容效度内容效度n一个测验要具备较好的内容效度必须满一个测验要具备较好的内容效度必须满足两个条件。足两个条件。 n要确定好内容范围，并使测验的全部要确定好内容范围，并使测验的全部项目均在此范围内。所谓内容范围可以项目均在此范围内。所谓内容范围可以是具体知识或技能，也可以是复杂行为。是具体知识或技能，也可以是复杂行为。成就测验的主要目的在于测量学生的学成就测验的主要目的在于测量学生的学习效果，因此特别重视内容效度。习效果，因此特别重视内容效度。 2.内容效度内容效度n测验项目应是已界定的内容范围的代测验项目应是已界定的

15、内容范围的代表性样本。换句话说，就是选出的项目表性样本。换句话说，就是选出的项目能包含所测的内容范围的主要方面，并能包含所测的内容范围的主要方面，并且使各部分项目所占比例适当。具体做且使各部分项目所占比例适当。具体做法是对内容范围进行系统分析，将该范法是对内容范围进行系统分析，将该范围划分为具体纲目，并对每个纲目作适围划分为具体纲目，并对每个纲目作适当加权，然后根据权重，从每个纲目中当加权，然后根据权重，从每个纲目中随机取样。随机取样。 3.效标关联效度效标关联效度n反映研究工作与其他测量标准之间的关系。反映研究工作与其他测量标准之间的关系。n包括同时效度和预测效度包括同时效度和预测效度n同时

16、效度是指测量分数与现有标准之间的相关同时效度是指测量分数与现有标准之间的相关程度；程度；n预测效度是指测量工具作为未来情况预测指标预测效度是指测量工具作为未来情况预测指标的有效程度，以应激控制量表与将来健康状况的有效程度，以应激控制量表与将来健康状况或焦虑、抑郁的关联情况来反映效度。或焦虑、抑郁的关联情况来反映效度。n同时效度和预测效度的主要区别是时间上的差同时效度和预测效度的主要区别是时间上的差异。异。4.结构效度结构效度结构效度结构效度是指实验与理论之间的一致性，是指实验与理论之间的一致性，即实验是否真正测量到假设（构造）的理论。即实验是否真正测量到假设（构造）的理论。重点是了解工具的内在

17、属性，而不是使用工具重点是了解工具的内在属性，而不是使用工具测得的分数。它主要回答测得的分数。它主要回答“该工具到底在测该工具到底在测量什么？量什么？”，“使用该工具能否测量出被研使用该工具能否测量出被研究的抽象概念？究的抽象概念？”这类问题，反映工具所依这类问题，反映工具所依据理论或概念构架的程度。概念越抽象就越据理论或概念构架的程度。概念越抽象就越难建立结构效度，同时也越不适宜使用效标难建立结构效度，同时也越不适宜使用效标关联效度评价。结构效度的建立最为复杂，关联效度评价。结构效度的建立最为复杂，目前有关结构效度的数字计算，应用最多的目前有关结构效度的数字计算，应用最多的是因子分析。是因子

18、分析。例：CET-4听力试卷结构效度探索性研究 n中文摘要: 大学英语四、六级考试是教育部主管的一项全国性教学考大学英语四、六级考试是教育部主管的一项全国性教学考试，其目的是对大学生的实际英语能力进行客观、准确的测量，为试，其目的是对大学生的实际英语能力进行客观、准确的测量，为大学英语教学服务。结构效度是语言测试的核心问题。结构效度决大学英语教学服务。结构效度是语言测试的核心问题。结构效度决定对测试结果在多大程度上做出了正确地解释。随着四级听力试卷定对测试结果在多大程度上做出了正确地解释。随着四级听力试卷的比重不断增加，其结构效度的实现对整张试卷结构效度的实现有的比重不断增加，其结构效度的实现

19、对整张试卷结构效度的实现有很重要的影响，会对四级听力试卷的不断完善，现实中听力课堂教很重要的影响，会对四级听力试卷的不断完善，现实中听力课堂教学的组织的优化，以及学生自我学习能力的提高有重要启示作用。学的组织的优化，以及学生自我学习能力的提高有重要启示作用。本研究通过策略问卷，模拟测试及口头陈述的方式，从学生在听力本研究通过策略问卷，模拟测试及口头陈述的方式，从学生在听力过程中使用的策略，学生的考试成绩及试卷内容效度三方面收集资过程中使用的策略，学生的考试成绩及试卷内容效度三方面收集资料，并将数据输入料，并将数据输入SPSS统计包进行数据分析，以求验证四级听力试统计包进行数据分析，以求验证四级

20、听力试卷的结构效度是否受到威胁，以及威胁的因素是那些。所有的被试卷的结构效度是否受到威胁，以及威胁的因素是那些。所有的被试来自浙江大学和浙江大学城市学院，他们参加了最近的一次四级考来自浙江大学和浙江大学城市学院，他们参加了最近的一次四级考试。实验前与被试的良好沟通使得实验结果比较接近于真实情况。试。实验前与被试的良好沟通使得实验结果比较接近于真实情况。实验结果表明，实验结果表明，test-wiseness策略的频繁使用，三种问题类型策略的频繁使用，三种问题类型(大大意主旨型，具体细节型，推断型意主旨型，具体细节型，推断型)设置比例不符合大纲要求，以及学设置比例不符合大纲要求，以及学生在完成这三

21、种题目时使用的策略类型差异不大。这三个方面的问生在完成这三种题目时使用的策略类型差异不大。这三个方面的问题揭示出目前的四级听力试卷的结构效度是受到了威胁。此次实验题揭示出目前的四级听力试卷的结构效度是受到了威胁。此次实验的结果对英语测的结果对英语测.例：广东省公务员考试中行政职业能力倾向测验的结构效度研究 n中文摘要: 目的：探讨广东省公务员考试中使用的目的：探讨广东省公务员考试中使用的行行政职业能力倾向测验政职业能力倾向测验的结构效度。方法：的结构效度。方法：2001年年4月月和和2002年年11月广东省公务员考试中使用的两套月广东省公务员考试中使用的两套行政行政职业能力倾向测验职业能力倾向

22、测验；2001年年4月测验的有效答卷月测验的有效答卷3312份和份和2002年年11月测验的有效答卷月测验的有效答卷4990份；所有份；所有数据随机分组，一半用于数据随机分组，一半用于EFA探索模型，另一半用于探索模型，另一半用于CFA验证模型。结果：验证模型。结果：(1)测验有效地测量了公务员能力测验有效地测量了公务员能力结构中所必须的结构中所必须的“数量关系理解与运算能力数量关系理解与运算能力”、“言语言语理解与运用能力理解与运用能力”、“推理能力推理能力”。(2)表征表征“语文能语文能力力”、“数学能力数学能力”和和“推理判断能力推理判断能力”的三因素模型的三因素模型是拟合测验的最佳模型

23、。是拟合测验的最佳模型。(3)推理分量表中所测量的不是推理分量表中所测量的不是一种单一的能力。一种单一的能力。(4)“资料分析能力资料分析能力”不是一种独立的不是一种独立的能力。结论：广东省公务员考试中使用的能力。结论：广东省公务员考试中使用的行政职业能行政职业能力倾向测验力倾向测验具有较好的结构效度，但在测验的结构和具有较好的结构效度，但在测验的结构和内容方面需要做一定的调整。内容方面需要做一定的调整。信度与效度信度与效度n信度和效度都不是信度和效度都不是“有或无有或无”，而是表示一个，而是表示一个程度的问题。对一个研究工具来说，信度和效程度的问题。对一个研究工具来说，信度和效度并非是截然孤

24、立的。测量中的错误有系统误度并非是截然孤立的。测量中的错误有系统误差和非系统误差两种，信度针对的是随机的非差和非系统误差两种，信度针对的是随机的非系统误差，例如调查对象、调查环境、被调查系统误差，例如调查对象、调查环境、被调查者的动机和注意力等因素的影响，而效度针对者的动机和注意力等因素的影响，而效度针对的是系统误差，即工具本身的正确程度。信度的是系统误差，即工具本身的正确程度。信度低的工具肯定效度不高，但高信度也仅能说明低的工具肯定效度不高，但高信度也仅能说明有效度高的可能性。测量工具的信度高可以使有效度高的可能性。测量工具的信度高可以使我们得到一致的答案，而效度高则可使我们得我们得到一致的

25、答案，而效度高则可使我们得到正确的答案。到正确的答案。信度与效度的关系信度与效度的关系n信度是效度的必要条件，但不是充分条件。一信度是效度的必要条件，但不是充分条件。一个测量工具要有效度必须有信度，没有信度就个测量工具要有效度必须有信度，没有信度就没有效度；但是有了信度不一定有效度。没有效度；但是有了信度不一定有效度。n信度低，效度不可能高。因为如果测量的数据信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象不准确，也并不能有效地说明所研究的对象。n信度高，效度未必高。例如，如果我们准确地信度高，效度未必高。例如，如果我们准确地测量出某人的经济收入，也未必能够说明他的测量出某人的经济收入，也未必能够说明他的消费水平。消费水平。n效度低，信度很可能高。例如，即是一项研究效度低，信度很可能高。例如，即是一项研究未能说明社会流动的原因，但它很有可能很精未能说明社会流动的原因，但它很有可能很精确很可靠地调查各个时期各种类型的人的流动确很可靠地调查各个时期各种类型的人的流动数量。数量。n效度高，信度也必然高。效度高，信度也必然高。一、翻译一、翻译二、回译二、回译三、检测：检测原量表与中文版量三、检测：检测原量表与中文版量表之间的等同性。表之间的等同性。第三节国外量表的翻译第三节国外量表的翻译

展开阅读全文