量表质量分析课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

量表质量分析课件.ppt

1、量表质量分析：信度与效度谷冠鹏2014.1.191 項目分析（Item Analysis) 使用时机问卷预试完后，根据样本填答的资料求出各题项的决断值（CR)，若决断值没有达到显著水平，则该题项便允以删除。案例说明国道客运满意度问卷项目分析步骤（SPSS操作）输入问卷资料至SPSS 若有反向题则需要以Recode来进行转换加总全部题项的分数。按总分排序区分高低分组以样本总分的前27%为高分组以样本总分的后27%为低分组独立样本t检验，检验每个题项在高低分组有无差异。若未达显著，则删除。求其各题项与总分之相关，若达显著水平，则不需删题。满意度问卷整体满意度部分满意度问卷社经背景STEP

2、 1 开启资料STEP 2 加总分数我们以问卷第三部分整体满意度之第18题来当范例。选Transform/Compute 来加总分数。输入以下公式，然后选OK。将总分储存于Total变量中。计算极端值用Analyze /Descripitive Statistics /Frequencies求出前27%與後27%的值。利用统计量找出极端值前27%的值为32 后27%的值为25区分高低分组用Transform/ Recode / Into Different Variables 将total变量分群。输入以下信息，然后按Old and New Value 输入分群信息如下 Group变量 1代

3、表低分组 2代表高分组 . 代表未分组执行Analyze / Compare Means / Independent-Samples T test利用Group变量来进行 T test检验满意度8个题目有无差异。结果说明：显示8个题目均具有鉴别度，可以保留。先看变异数同质性考验之F值（Levenes Test) F值之p-value 0.05 看 Equal variances assumed之t值各题项之t值便是CR值STEP6 求算与各题项之相关Analyze/Correlate/Bivariate用Person求出变量与总分间相关程度将问卷各题项（8题）及Total变量放入Variabl

4、e方块，并勾选Person、Two-tailed、Flag significant correlation。由右表可知，各题项与总分相关皆达显著水平（p 0.01)，因此此8个题项皆可保留。信度与效度：初步知识信度（Reliability）：测量结果的稳定性稳定性、可靠性可靠性程度。用同一把尺子测量张三的身高，第一天测得175cm，第二天测得170cm，第三天再测181cm。误差相当大，说明这把尺子有问题。这是一个信度问题。效度（Validity）：测验能够反映所要测量的特性的程度，反应问卷的准确性或称为有效性。对于一个标准测验来说，效度比信度更为重要。其回答的问题是：（1）测验

5、的目的。测验测量的是什么东西?或者说，测验测到了它要测的东西吗? 用一个英文版的智商量表来测量中国儿童的智商，可以吗？（2）测量精确度和真实性。测验对它所测量的东西测量到什么程度? 2 信度2.1 重测信度（Test-Retest Reliability）用同一个量表，对同一组被试，在不同时间施测两次，所得结果的一致性程度。通常用同一组被试在两次测验上所得分数的皮尔逊积差相关系数来表示。首测（X1）再测（X2）相关系数r时间间隔使用的前提条件：（1）测验所测的特质必须是稳定的，即被测的特征和属性在两次测验之间没有发生变化（2）把握适当的时间间隔，遗忘和练习的效果基本上相互抵消（3）

6、两次施测期间被试的学习效果没有差别时间间隔的把握：间隔时间越长，稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童，间隔要小；年长群体，间隔可大。智力测验的间隔不能太短，成就测验的间隔不能太长。一般间隔时间不超过六个月。（即不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘）2.2 复本信度（ Alternate-form Reliability ）用两个平行测验（同一测验的两个复本）在相距最短时间内，测量同一组被试所得结果的一致性程度。通常用同一组被试在两个复本测验上所得分数的皮尔逊积差相关系数来表示。又称等值性信度。测验A（X1

7、）测验B（X2）相关系数r最短时间使用的前提条件：（1）施测所用的两个复本必须是真正平行的测验各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。（2）被试要有条件接受两个测验。注意排除施测顺序的影响在报告结果时，应报告两次施测的间隔，及在此间隔内被试的有关经历。稳定性与等值性(Stability and Equivalent)信度如果两个复本测验是相距较长一段时间分两次施测的，同一组被试施测结果的一致性

8、程度。是一种最为严格的信度指标时间间隔施测，内容变异重测信度误差形式：复本A适当时间复本B 2.3 内部一致性(internal consistency)信度指的是测验内容的一致性或测验内部所有题目的一致性（项目同质性）程度。又称同质性(homogeneity)信度。计算同质性信度的方法分半法库德理查逊公式法系数或克伦巴赫公式法2.3.1分半信度（Split-Half Reliability）在测验没有复本且只能实施一次的情况下，可将测验项目分成对等的两半（一般是将奇数题和偶数题各作为一半）。根据被试在这两半测验中所得的分数计算相关系数，即得分半信度。计算过程：分半信度先要

9、确定分半方法。不同的分半法可能会得到不同的信度值。计算两半的相关系数利用公式校正满足等值性时，使用斯皮尔曼布朗公式(Spearman-Brown) rhh 表示两半题目各自得分总分的相关系数 n为原问卷相对于变化后问卷长度的倍数，计算分半信度时n=2。hhhhrnrn) 1(1rtt2.3.2库得理查森 (Kuder Richardson)信度库德-理查森信度适用于计算“对或错”的是非题的同质性信度，其是计算所有可能的分半信度的平均数。最有代表性的计算公式是库德-理查森公式: 为问卷测验总得分的方差 pi表示答对该题的人数占总答卷人数的比例，可视为该题的难度， qi=1-pi 。n为问卷包

10、含的题目数)1 (12120XniiiKRSqpnnr2XS2.3.3 克隆巴赫信度系数 (cronbachs )Cronbachs 系数是Cronbach于1951年创立的，用于评价问卷的内部一致性。系数取值在0到1之间，系数越高，信度越高，问卷的内部一致性越好。Cronbachs 系数不仅适用于两级记分的问卷，还适用于多级计分的问卷。计算公式：式中， n为问卷包含的题目数为答卷者在第i题得分的方差为答卷者问卷测验总得分的方差)1 (1212XniiSSnn2iS2XS系数有以下性质：系数是所有可能的分半信度的平均值系数是估计信度的最低限度当问卷计分为二分名义变量时，即答案为0或1，

11、系数与KR20值相同，即库德-理查森信度公式是克隆巴赫的系数的一个特例。低信度：0.35, 中信度： 0.350.70, 高信度： 0.70 一般地，问卷的系数在0.8以上该问卷才具有使用价值。值皆达0.85以上，表明问卷信度良好。至少要求大於0.6才好。 2.4 评分者信度（Scorer reliability）多个评分者给同一批人的答卷进行评分的一致性程度。当评分者人数为2时，评分者信度等于两个评分者给同一批被试答卷所给分数的相关系数。如果是多个评分者，评分者信度采用肯德尔和谐系数进行估计。 2.5 提高信度的方法（1）适当延长问卷的长度问卷题目较多，其在一定程度上排除了偶然因

12、素的影响，从而提高了问卷的信度。但是问卷长度的增加与问卷的信度的增加并不总是成正比的，当信度系数较小时，延长问卷长度，问卷的信度系数增加较大；而当信度系数较大时，延长问卷长度对信度系数的影响就较小。（2）问卷的难度适中当问卷题目难度太大时，问卷得分普遍过低；当问卷题目难度太小时，问卷得分普遍较高。问卷题目太难或太易都会使问卷得分差异减小，使实得分数方差减小，从而降低了问卷的信度。（3）问卷的内容尽量同质内容同质的问卷，要求答卷者具有相同的能力、知识和技能。因而为了提高问卷的信度，问卷的内容应尽量保持同质。（4）测验的时间要充分一份问卷应保证绝大多数答卷者在规定的时间内能完成测验。当

13、答卷者不能从容地回答所有题目时，问卷的得分就不能反映答卷者的真实情况。（5）测验的程序要统一问卷题目要统一，指导语、回答问题的方式、分收试卷的方法和问卷测验的时间等都要统一，这些是问卷有较高信度的基本保证。3 效度3.1内容效度（Content Validity）指测验实际测到的内容与所要测量的内容之间的吻合程度，反映了问卷内容的贴切性（relevance）和代表性（representativeness）。内容效度常以题目分布的合理性来判断，属于命题的逻辑分析，故也称“逻辑效度” (logical validity)、“内在效度（intrinsic Validity）适用于成就测验、选

14、拔和分类的职业测验，不适于能力倾向测验和人格测验。内容效度是经由专家详尽地、系统地对测验进行评价而建立的。内容效度的评价主要通过经验判断进行，通常考虑3方面的问题： (1)项目所测量的是否真属于应测量的领域； (2)测验所包含的项目是否覆盖了应测领域的各个方面； (3)测验题目的构成比例是否恰当。内容效度的评估方法1：逻辑分析法（专家法）请有关专家对问卷题目与原来的内容范围是否符合进行分析,作出判断，看问卷题目是否较好地代表了原来的内容作法与程序明确欲测内容的范围与双向细目表对比；制定评定量表；局限无良好的数量指标描述这种符合性的程度；不同专家对同一测验内容效度的判断可能不

15、一致；不同专家对内容范围会有不同的理解双向细目表（举例）一、教学目标(以橫轴表示) 以Bloom所提的认知领域6个教学目标为依据：知识、理解、应用、分析、综合、评价。二、教材內容(以纵轴表示) 以出题的范围，表示出包含几个不同的单元。以台湾学校教育文科为例内容效度的评估方法2：统计分析法从同一内容总体中抽取两套问卷，分别对同一组答卷者进行测验, 两种问卷的相关系数就可用来估计问卷的内容效度。计算某个问题与去掉此问题后总得分的相关性情况，分析是否需要被剔除（敏感性分析）。内容效度是编制任何测验都要加以考虑的方面。它的主要缺点是缺乏理想的数量指标，因而妨碍了信息交流和各测验间的相互比较。3.

16、2结构效度(Construct Validity) 又称构想效度，指问卷对某一理论概念或特质测量的程度，即某问卷测验的实际得分能解释某一特质的程度。如果依理论的假设结构，通过问卷测验得到答卷者实际分数，经统计检验，结果表明问卷能有效解释答卷者该项特质，则说此问卷具有良好的结构效度。构想或结构是指用来解释人类行为的理论框架或心理特质，它是抽象的假设性的概念、特性或变量，例如：智力、创造力、动机以及焦虑等。心理学上主要用于智力测验、人格测验常用的确定结构效度的方法：(1)根据文献、前人研究结果、实际经验等，建立假设性理论建构；(2)对问卷题目进行分析。主要是分析问卷的内容，答卷者对题目所作的

17、反应，问卷题目的同质性以及分项目之间的关系来判断问卷的结构效度；(3)根据建构的假设性理论编制适当的问卷；(4)计算与同类权威问卷的相关;(5)以统计检验的实证方法去考查问卷能否有效解释所欲建构的特质。因子分析简介基本原理依相关性大小把变量分组，使得同组内的变量间相关较高，不同组变量间的相关较低；每组变量聚合成群，即因子。意义找出变量间内在本质联系的一种多元统计方法。通过缩减变量的方法，用反映变量本质联系的少数几个基本因子（或公共因子）来说明先前需要用较多变量才能说明的原因或特性。因子分析示例下表是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问，用7级量表询问受访者对以下陈述的认

18、同程度（1表示非常不同意，7表示非常同意）。V1：购买预防蛀牙的牙膏是重要的；V2：我喜欢使牙齿亮泽的牙膏；V3：牙膏应当保护牙龈；V4：我喜欢使口气清新的牙膏；V5：预防坏牙不是牙膏提供的一项重要利益；V6：购买牙膏时最重要的考虑是富有魅力的牙齿。牙膏属性评分得分表牙膏属性评分得分表将表中的数据通过SPSS进行因子分析，得到相关结果是：1. 特征根和累计贡献率方差贡献率表方差贡献率表可以看出，提取2个因子累计方差贡献率就达到82%，第3个特征根相比下降较快，因此我们选取2个公共因子。2.因子的含义为了得到意义明确的因子含义，将因子载荷阵进行方差最大法旋转，得到旋转后的因子载荷矩阵如

19、下表。旋转后因子载荷矩阵旋转后因子载荷矩阵从因子载荷阵可以看出：因子1与V1（预防蛀牙），V3（保护牙龈），V5（预防坏牙）相关性强，其中V5的载荷是负数，是由于这个陈述是反向询问的；因子2与V2（牙齿亮泽），V4（口气清新），V6（富有魅力）的相关系数相对较高。因此，我们命名因子1为“护牙因子”，是人们对牙齿的保健态度；因子2是“美牙因子”，说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析，对牙膏生产企业开发新产品都富有启发意义。3.3效标效度（Criterion Validity）效标就是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的

20、行为。效标效度是说明问卷得分与某种外部准则（效标）间的关联程度，用问卷测量得分与效度准则之间的相关系数表示。效标效度也称为准则关联效度（Criterion-Related Validity）、经验效度（Empirical Validity）、统计效度（Statistical Validity）。可用預測效度和同時效度來衡量可用預測效度和同時效度來衡量预测效度指以新的衡量工具预测未来的事件，即以两者之间之关联性来推定衡量工具之预测能力。例如使用大学联考成绩来预测学生微积分成绩同时效度指根据衡量工具与目前某种衡量效标的相关程度一般估计效标效度的主要方法：（1）相关法，即求某问卷分数与效标间的

21、相关，所得结果即效标效度。假设有假设有1010名男性经职业兴趣测验而被选定作为推销员，其测验分名男性经职业兴趣测验而被选定作为推销员，其测验分数下表第一行，而第二行是经过若干年后他们某段时间内销售金额总数下表第一行，而第二行是经过若干年后他们某段时间内销售金额总量量( (以万元为单位以万元为单位) )。现问该测验的预测效度如何。现问该测验的预测效度如何? ? 计算结果如下：75. 0/2222nYYnXXnYXXYrxy （2）区分法，即看问卷分数是否可以区分由效标所划分的团体。可以运用 t 检验对先后两次问卷结果平均分数进行差异性检验。若差异有统计学意义，说明问卷是有效的；若差异无统计学

22、意义，说明问卷是无效的。某工厂通过测验录用了一批工人，过一段时间后，根据工作成绩（如产品的数量、质量）将他们分成成功的和失败的两组，然后回过头来检查他们的测验分数。运用t检验看看两组在测验上的平均分数是否有显著性差异。假如：成功组有60人，失败组有40人；成功组的平均数为6.05，标准差为2.02；失败组的平均数为4.25，标准差为1.3。试问两组的平均数有无显著差异？独立样本t检验所以，两组分数有极其显著性差异，即该测验确实可以预测工作上的成败。626. 240. 59801. 0ttdf，xDSt21XX)11(2) 1() 1(S2121222211DXnnnnSnSn401.69,

23、S4.25,X603.31,S6.05,X12221211nn工作失败组：工作成功组：3.4 判别效度（Discriminant Validity）也称辨别效标，指运用相同的问卷测定不同特质和内涵，测量结果之间不应有太大的相关性。 3.5聚合效度（Convergent Validity）也称收敛效度、相容效度，指运用不同测量方法测定同一特质所得结果的相似程度，即对同一特质的两种或多种测定方法间应有较高的相关性。求一个新编测验与另一已知结构测验间的相关。斯坦福-比奈量表、韦氏智力测验是公认有效的智力测验。后人编的智力测验大多与此量表作比较，如果相关高，便说明新编测验有效。3.6多种特质-

24、多种方法矩阵法坎贝尔和费司克（1959）实质上是相容效度法和区分效度法的综合运用原理是若用多种极不相同的方法测量同一种特质相关很高，则说明测量效度较高（相容效度即属此类）。从理论上看，测验的结果应与其所要测的特质有显著相关，而与其他不相干的特质无关。以相同方法测量相同特质所得的分数之间应具有最大的相关，以不同方法测量相同特质所得的分数之间应具有次大的相关，以相同方法测量不同特质所得的分数之间的相关应较低，以不同方法测量不同特质所得的分数之间的相关应最低。若合乎上述的情形，即表示这套测验同时兼有相容效应和区分效度，这是考验构想效度的新途径。资料来自于Mosher（1968）的研究报告，他假设了3种不同结构，名为“性罪恶感”“敌对罪恶感”和“道德良心”，使用了是非判断、迫选和完成句子3种测验方法对62名女性被试样本施测。提高问卷效度的方法（1）理论正确，解释清楚（2）操作规范以减少误差（3）控制系统误差（4）样本适宜且要预防流失（5）适当增加问卷的长度（6）排除无关因素干扰。从理论的角度来看，一份好的问卷应具有足够的效度和信度。但是，从实践的观点来看，一份好的问卷还应该具有实用性，即问卷的经济性、便利性和可解释性。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？