1、心理咨询师(基础知识)心理测量学 第一章第一章 心理测量的历史回顾心理测量的历史回顾 第二章第二章 心理测量与测验的一般介绍心理测量与测验的一般介绍 第三章第三章 测验的信度测验的信度 第四章第四章 测验的效度测验的效度 第五章第五章 项目分析项目分析 第六章第六章 测验的常模测验的常模 第七章第七章 测验编制的一般程序测验编制的一般程序 第八章第八章 心理测验的使用心理测验的使用心理咨询师(基础知识)心理测量学要肯定心理的可测性,正视心理的差异;要肯定心理的可测性,正视心理的差异;要确定对何种心理特征进行测量,对待要确定对何种心理特征进行测量,对待测或可测的内容进行理论说明;测或可测的内容进
2、行理论说明;要形成具体的测量方法,即把内容操作要形成具体的测量方法,即把内容操作化。化。 能测能测测什么测什么怎么测怎么测 中国古代的心理测量在这三个方面均中国古代的心理测量在这三个方面均有卓越的贡献。有卓越的贡献。 孔子的个体心理差异思想孔子的个体心理差异思想 孟子的孟子的“心理可测心理可测”思想思想 我国古代先哲的我国古代先哲的“知人之法知人之法” 汉代考试、隋唐以后的科举考试汉代考试、隋唐以后的科举考试 民间的民间的“抓物试儿抓物试儿”(周岁试儿、抓周)(周岁试儿、抓周) 智力游戏工具:九连环、七巧版智力游戏工具:九连环、七巧版 性相近,习相远。性相近,习相远。 唯上知与下愚不移。唯上知
3、与下愚不移。 中人以上,可以语上也。中人以上,可以语上也。 中人以下,不可以语上中人以下,不可以语上也。也。 孔子论语孔子论语 权,然后知轻重;度,然权,然后知轻重;度,然后可以知长短;物皆然,后可以知长短;物皆然,心为甚。心为甚。孟子孟子 凡物之存在必有其数凡物之存在必有其数量。量。桑代克桑代克 凡有数量的东西都可以测凡有数量的东西都可以测量。量。 麦柯尔麦柯尔 周武王:如何知道周武王:如何知道“士之高下士之高下” 太公曰:知有八征太公曰:知有八征 一曰问之以言以观其辞一曰问之以言以观其辞 二曰穷之以辞以观其变二曰穷之以辞以观其变 三曰与之以间谍以观其诚三曰与之以间谍以观其诚 四曰明白显问以
4、观其德四曰明白显问以观其德 五曰使之以财以观其廉五曰使之以财以观其廉 六曰试之以色以观其贞六曰试之以色以观其贞 七曰告之以难以观其勇七曰告之以难以观其勇 八曰醉之以酒以观其态八曰醉之以酒以观其态 美恶既殊,情貌不一,有温良而为诈者,有外恭而美恶既殊,情貌不一,有温良而为诈者,有外恭而内欺者,有外勇而内怯者,有尽力而不忠者。内欺者,有外勇而内怯者,有尽力而不忠者。 知人之道,有七焉:知人之道,有七焉: 一曰,问之以是非而观其志;一曰,问之以是非而观其志; 二曰,穷之以辞辩而观其变;二曰,穷之以辞辩而观其变; 三曰,咨之以计谋而观其识;三曰,咨之以计谋而观其识; 四曰,告之以祸难而观其勇;四曰,告
5、之以祸难而观其勇; 五曰,醉之以酒而观其性;五曰,醉之以酒而观其性; 六曰,临之以利而观其廉;六曰,临之以利而观其廉; 七曰,期之以事而观其信。七曰,期之以事而观其信。 诸葛亮文集之诸葛亮文集之知人性知人性 初步考试:初步考试: 童试:州县督学考试合格后称童试:州县督学考试合格后称“秀才秀才”。 岁试,每年考一次,这是一个选优的过程。岁试,每年考一次,这是一个选优的过程。 科试:每三年一次,确定参加乡试的资格。科试:每三年一次,确定参加乡试的资格。 正式考试(三场):正式考试(三场): 乡试:每三年一次乡试:每三年一次 , , 考中后称考中后称“举人举人”。 有资格做县有资格做县令令 会试:乡
6、试下一年二月份举行会试:乡试下一年二月份举行 ,考中后称,考中后称“进士进士”。进士每年的名额大概有进士每年的名额大概有300300名左右名左右 殿试:会试后第二个月进行,皇帝在太和殿亲自考试,殿试:会试后第二个月进行,皇帝在太和殿亲自考试,考中分一、二、三甲,可直接做官,分别为状元、榜眼、考中分一、二、三甲,可直接做官,分别为状元、榜眼、探花。探花。 江南风俗,儿生一期,为制新衣,盥浴装饰。男则用弓矢纸笔。女则刀尺针镂,并加饮食之物及珍宝服玩,置之儿前,观其发意所取,以验贪廉智愚,名之为试儿。 颜之推颜氏家训风操篇 要解开要解开“九连环套九连环套”,至少需要移动诸环,至少需要移动诸环3413
7、41次。次。 九连环可追溯至秦昭王时期。九连环可追溯至秦昭王时期。 现在已成为国内外的一种益智游戏工具。现在已成为国内外的一种益智游戏工具。 七巧板的发明可能在七巧板的发明可能在1818世纪初,世纪初,源于蝶几源于蝶几 。 在欧洲,大约在在欧洲,大约在18051805年出版的年出版的新编中国儿童谜解中有新编中国儿童谜解中有2424幅七幅七 巧图,并附有一份木制的巧图,并附有一份木制的七巧板。随后,七巧板。随后,18101810年在法国,年在法国,18181818年在德国年在德国 和美国都纷纷出和美国都纷纷出版了关于七巧板的书。版了关于七巧板的书。 早期对智力落后儿童的分类和训练的关注 冯特和实
8、验心理学对心理测验的影响 高尔顿的贡献 卡特尔和早期心理测验 比奈和世界上第一个智力测验 团体测验的产生 欧美国家迫于社会人道主义思想与舆论的压力,为了使欧美国家迫于社会人道主义思想与舆论的压力,为了使低能者能寻找到维生的职业,一些地方官员与工厂主订低能者能寻找到维生的职业,一些地方官员与工厂主订约,每雇佣约,每雇佣2020名童工,必须同时带雇名童工,必须同时带雇1 1名低能者。名低能者。 为了设法使低能者尽可能适应工厂技术的要求,法国医为了设法使低能者尽可能适应工厂技术的要求,法国医生沈干生沈干(E. Seguin)(E. Seguin)开始训练智力落后的儿童,并于开始训练智力落后的儿童,并
9、于18371837年创办了第一所专门教育智力落后的儿童的学校。年创办了第一所专门教育智力落后的儿童的学校。 18461846年出版白痴:用生理学方法进行诊断和治疗年出版白痴:用生理学方法进行诊断和治疗 非常重视感官训练、肌肉训练,发展感觉与精细动作。非常重视感官训练、肌肉训练,发展感觉与精细动作。 还发明了很多测验和训练工具,如沈氏拼图板。还发明了很多测验和训练工具,如沈氏拼图板。 (测什么、怎么测)(测什么、怎么测) 1879年,德国心理学家冯特在莱比锡大学建立了世界上第一个心理实验室。 实验心理学的主要目标是要寻求人类行为和心理的共同规律,并不关心个体差异。它把实验中不同被试对同一刺激的反
10、应差异看作是一种误差。 实验心理对心理测验的影响(测什么、怎么测) 实验心理学中测量感觉和简单反应时的方法,成为测量个体心理差异的项目和工具。 实验心理学中严格控制实验条件的要求,称为心理测验标准化的基本要求。 高尔顿(Francis Galton),英国科学家和探险家。著有遗传的天才:它的规律与后果(1869)、英国的科学家们:他们的秉赋与教养(1874)、人类的能力及其发展的研究(1883)(能测、怎么测) 重视个体差异研究,重视运用测量来收集证据。 设计了很多测量工具,并在1884年设立人体测量实验室,在此后6年内测量了9337人。 倡导运用数学方法处理和分析心理学研究资料。 提出人类的
11、许多心理特性的表现呈正态分布。 提出相关概念,其学生皮尔逊发明积差相关法。 美国心理学家卡特尔(James McKeen Cattell,18601944), 早年师从冯特,与高尔顿有过密切交往,深受两人影响。 1890年,他在心理杂志上发表心理测验与测量一文。首次提出“心理测验”这个术语,并报告了他编制的一套能力测验的应用结果。(测什么、怎么测) 其测验主要是测定感觉敏锐性、短时记忆、动作灵敏性,还不是真正意义上的智力和能力测验。 比奈(Alfred Binet,1857-1911),法国心理学家,智力测验的创始人。主要从事智力心理学研究,著有推理心理学(1886)、语句的记忆(1895)、
12、智力的实验研究(1903)。 (能测、测什么、怎么测) 他主张用测验法去辨别有心理缺陷的儿童。 1905年,他与助手西蒙(T. Simon)发表诊断异常儿童智力的新方法,介绍了世界上第一个智力测验。 比奈智力测验及其各国的修订本属于个别测验,一个主试一次只能测验一个被试,测验的效率较低。 1917年美国参加第一次世界大战,美国心理学会受命成立了一个委员会研究心理学如何为战争服务。要对100多万新兵进行快速分类,只能用团体施测方法。 军事心理学家参考有所有可以得到的测验材料,尤其是阿瑟奥蒂斯(Arthur S. Otis)未发表的团体智力测验,最后编制出“军队甲种测验”(文字测验)和“军队乙种测
13、验”(非文字测验)。可用于大规模的团体施测。 战后,两种测验在修订后被广泛运用于社会各个领域。 旧中国教育与心理测验的发展和停滞 “五四”前后至1928年:昌盛时期 1929年至1949:缓慢发展 新中国的心理测验的停滞与发展 1949-1978:停止发展 1979至今:重新发展 高考命题标准化 翻译、引介西方教育与心理测验理论 修订西方心理测验量表的中国版本 编制中国自己的心理测验量表(很少) 当前我国心理测验发展状况本土化一、测量的基本问题二、心理测量的基本概念三、测验的种类四、纠正错误的测验观 五、心理测验的应用六、心理测验的具体分类心理咨询师(基础知识)心理测量学 我们日常生活中哪些运
14、用了测量? 女人考验男人是否真正爱她? 生病(询问的次数,照顾的时间、次数) 关心(打电话的次数、沟通的时间、提醒早睡的次数、吃醋的次数、主动关心还是被动关心、眼神火辣度、做早饭的频率、做家务的次数) 争吵次数 专一度(赚钱多少;花钱数;发脾气的容忍度;先挂电话的次数;煲电话粥时长;看美女的时间、次数) 浪漫度(玫瑰花的数量、次数;旅游的次数)(一)测量定义定义:根据一定的法则用数字对事物加以确定。(1)事物(测量对象):我们所感兴趣的东西,特指引起兴趣的事物的属性或特征。(2)数字(测量的结果):描写事物属性的数字或符号。(3)法则:即为依据、规律、规则、理论等,即测量时给属性分派的标准或依
15、据。它是测量中最关键也是最困难的工作。 法则的好坏取决于: 制定规则的程序 所要测量的事物属性本身是否易于建立规则及规则是否便于操作测量的要素:参照点与单位1、参照点 绝对零点:轻重、长短 相对零点:海拔、智力2、单位 有确定的定义 有相等的价值 量表:在一个定有参照点和单位的连续体上把事物的属性表现出来,这个连续体称为量表。 名称量表:根据事物的某一特点,对事物属性进行分类,并用数字或符号表示,例如:性别、国籍; 等级量表:根据事物的某一特点,将事物属性分成等级,并用数字表示,例如:高矮、胖瘦; 等距量表:对事物属性的划分是等距的,即单位是等值的,但没有绝对零点,例如:海拔、摄氏度; 等比量
16、表:对事物属性的划分是等比的,即单位是等值的,且有绝对零点,例如:长度、重量。四种测量水平的测量量表四种测量水平的测量量表量表名称量表名称统计方法统计方法名称量表次数,百分比,X2,列联相关等级量表中位数,百分位数,等级相关,秩次检验等距量表均数,标准差,积矩相关,T检验,F检验等比量表一切统计方法四种测量量表在三个维度上的表现四种测量量表在三个维度上的表现类别类别等级等级等距等距比率比率绝对零点绝对零点无无无无无无有有相等单位相等单位无无无无有有有有大小关系大小关系无无有有有有有有1、直接测量:直接测到事物属性的测量。(生理、物理、化学等)2、间接测量:间接测到事物属性的测量。(心理属性)人
17、心可测,但只能测外显行为。问题:如何对外显行为进行测量,如测谎?心理测量:根据一定的法则用数字对人的行为加以确心理测量:根据一定的法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。给人的行为和心理属性确定出一种数量化的价值。心理测量的特点:心理测量的特点:间接性:无法直接测量人的心理,只能测量人的外显间接性:无法直接测量人的心理,只能测量人的外显行为。例如,一个人喜欢阅读机械杂质,喜欢看各种行为。例如,一个人喜欢阅读机械杂质,喜欢看各种机器运转,热心为别人修理自行车等等,由此一系
18、列机器运转,热心为别人修理自行车等等,由此一系列的外显行为,我们便可能推论此人具有机械兴趣的特的外显行为,我们便可能推论此人具有机械兴趣的特质。质。相对性:对人的行为进行比较,没有绝对的标准,所相对性:对人的行为进行比较,没有绝对的标准,所有心理测量都是在看每个人处在这个序列的什么位置。有心理测量都是在看每个人处在这个序列的什么位置。客观性:测验的标准化,包括测验的编制、施测、计客观性:测验的标准化,包括测验的编制、施测、计分、分数转换、结果分析、解释等。分、分数转换、结果分析、解释等。 心理测量,不论是对智力,还是对能力倾向或人格的测量,都只具有等级量表的特征。 测验分数一般只能显示个体智力
19、、能力、人格上的等级位次,而没有一个相等的单位,所以不是等距量表只能是等级量表。 但是由于多数心理特征具有常态分布的特征,且没有绝对零点,所以可以把测量后直接得到的原始分数转化为常态分布下的标准分数,把量表当作等距量表来处理。 (一)按测验的功能分类 智力测验评估人的一般智力水平,如逻辑思维能力、创造力、记忆能力等 特殊能力测验评估人的特殊潜在能力,如音乐、绘画、机械技巧等 人格测验评估人的个性心理特征,如性格、气质、态度、情绪、动机、信念等 文字测验(语言测验) 优点:施测方便,适合团体测试 缺点:受文化程度的影响 操作测验(非语言测试) 优点:不受文化程度的影响 缺点:不能团体测试,在时间
20、上不经济 客观测验 直接呈现刺激的词句、图形等,意义明确,无须发挥想象力来猜测和遐想 投射测验 刺激没有明确意义,对受测者的反应没有明确规定,需要发挥想象力 个别测验(测验者和被测者一对一) 优点:对被试的反应有较多的观察和控制机会,结果比较可靠 缺点:时间不经济 团体测验(一个测验者同时测多个被试) 优点:时间经济,对主试要求不高 缺点:被试在测验中的行为不宜控制。结果不一定可靠。 最高行为测验 要求受测者尽可能做出最好的回答,例如,智力测验、特殊能力测验 典型行为测验 要求受测者按通常的习惯方式做出反应,没有正确答案,例如,各种人格测验 一、错误的测验观 测验万能论 测验无用论 心理测验即
21、智力测验 二、正确的测验观 心理测验是重要的心理学研究方法之一,是决策的辅助工具 心理测验作为研究和测量工具尚不完善军事领域(国外应用广泛)企业领域(人员选拔和分配)心理咨询领域(心理诊断、效果评估)教育领域(智力及学习能力评估)心理学研究中(调查研究的基础) 智力测验 求助者有可疑智力障碍时使用(韦氏) 人格测验 有助于咨询师对求助者人格特征的了解,以及是否属于精神异常范围(16PF、MMPI) 心理评定量表 检查求助者是否存在某方面心理障碍,并可以反应病情的演变(SCL-90、SAS、SDS)1、人格测试量表 艾森克人格测试( EPQ ) 卡特尔16项个性因素测试(16PF) 气质测试 性
22、向测试 明尼苏达(MMPI)多相人格测试 心境投射测验 2、智力测试量表 韦氏智力 测验(儿童) 画人智力测验 瑞文智力测验 韦氏智力测验(成人) 幼儿智力测验 比内-西蒙智力测验 3、心理健康量表 90症状清单(SCL-90) 抑郁自评量表 (SDS)康奈尔医学指数焦虑自评量表 (SAS)简明精神病量表 社会功能缺陷评定量表 4、心理状态测量量表 成人人际关系量表 成人心理压力量表 社会适应能力量表 心理适应性量表 社会支持问卷 防御方式问卷 情商测试 (EQ)5、学生心理专用量表 提高学习能力因素诊断测验 小学生心理健康综合测量量表 学习障碍的鉴别 中学生心理健康综合测量 中学生学习态度与
23、态度测验 6、人力资源管理量表社会适应能力诊断量表 职业能力倾向测验心理发展状态测验 行动潜力测验 个人风格测评问卷 员工健康状况测评 员工素质测评 工作环境测评量表 职业满意度量表 人力资源管理能力测评 成功商数测试 霍兰德职业兴趣量表 7、婚姻心理控制源量表 艾森克性心理健康测验 恋爱方式测验 夫妻生活健康测验 婚姻安全界线检测问卷 婚恋测试量表 婚姻质量测试8、儿童心理测验与量表 儿童行为量表 (CBCL) 父母养育方式评价量表 亲子关系与父母角色测量量表 亲子关系诊断测验 托马斯婴儿气质问卷 幼儿智力测验量表 康纳尔父母量表一、信度的概念二、信度评估的方法三、影响信度的因素心理咨询师(
24、基础知识)心理测量学 信度是评价测验优劣的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决三个问题: 一、明确信度的理论定义及操作定义;(难点) 二、掌握几种常模参照测验的信度估计方法;(重点) 三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差。 信度是对测量一致性程度的估计,是测量稳定性、可靠性的表征。 真正能够使用的测验量表和问卷一般都必须具有较高的信度。 能力与学习成就测验的信度系数应该达到0.90以上; 性格、兴趣、价值观等人格测验的信度系数应该达到0.80以上。 当rxx0.70时,不能用测验对个人作评价,也不能在团体间作比较;当rxx0.75
25、时,可用于团体间比较;当rxx 0.85时,可用于鉴别个人。信度是一个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。 因为测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。 重测信度重测信度 复本信度复本信度 内部一致性信度内部一致性信度 分半信度和同质性信度分半信度和同质性信度 评分者信度评分者信度 重测信度(稳定性系数)重测信度(稳定性系数) (一)定义与计算(一)定义与计算定义定义 用同一种测验,对同一组受试用同一种测验,对同一组受试者,前后施测两次,再根据受试者两者,前后施测两次,再根据
26、受试者两次测验分数计算其相关系数,即得再次测验分数计算其相关系数,即得再测信度。测信度。即即 测验测验 再测验再测验 此种信度能表示两次测验结果有此种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,无变动,反映测验分数的稳定程度,故又称稳定性系数。故又称稳定性系数。 时间间隔两周到四周为宜,一般时间间隔两周到四周为宜,一般不超过半年。不超过半年。时距(二)误差来源 1. 测验本身:测验所测的特性本身就不稳定,例如情绪。2. 被试方面:成熟、知识的发展并非人人都等量增长,且练习因素、记忆效果也存在个体差异。3. 施测情境:偶发因素的干扰,如计时错误,情绪波动,健康状况,动机变化等。重测信
27、度高,说明分数受被试状况和测验情境变化影响小。这里题目取样并不影响重测信度。(三)使用重测信度的优缺点 (优点)能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。(缺点)容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。 复本信度(等值系数)复本信度(等值系数) (一)定义与计算(一)定义与计算 1. 1. 定义定义 根据一组被试在两个平行(等根据一组被试在两个平行(等值)测验上的得分计算相关系数。值)测验上的得分计算相关系数。 即即 测验复份测验复份A A 测验复份测验复份B B 因为它反映的是两个
28、测验之间因为它反映的是两个测验之间的等值程度,故又称等值系数。的等值程度,故又称等值系数。 最短时距(二)误差来源 1. 测验两种形式是否等值: (1)测题取样是否匹配; (2)格式是否相同; (3)内容、难度、标准差等是否一致。 2. 被试方面情绪波动、动机变化等。 3. 测验情境的变化,偶发因素的干扰。 (三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使用的必须是真正的复本。复本应符合以下条件: 1. 各份测验测量的是同一种心理特性; 2. 各份测验具有相同的内容和形式; 3. 各份测验的题目不应有重复的地方; 4. 各份测验题目数量相等,并且有大体相等的难度、区分度; 5.
29、分数分布(平均数和差异度)大致相等。 (四)使用复本信度的局限 只能减少但不能完全消除练习和记忆的影响。由于第二个测验只改变了题目的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题。对许多测验来说,建立复本是十分困难的。 (一)定义和计算 在测验无复本且只能施测一次的情况下,通常用分半法估计信度,即将测题分成对等的两半,根据各人在这两半测验的分数,用皮尔逊积差相关公式计算其相关系数,作为信度指标。 分半信度考察的是两半题目之间的一致性,故这种信度系数也称内部一致性系数。计算分半信度仍然可用积差相关方法。(二)分半的方法 要计算分半信度,首先是如何将测验分半,以便得到最接近的可比较的两半
30、。通常采用奇偶分半法。使用此方法应注意: 1一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。 2当试卷中有任选题时不宜使用分半法,速度测验也不宜用。 同质性信度同质性信度 (一)同质性的含义(一)同质性的含义 所谓同质性指的是测验内所谓同质性指的是测验内部题目间的一致性。部题目间的一致性。 即测验里即测验里各题得分为正相关(测验里各题各题得分为正相关(测验里各题得分相关为零或负叫异质)。得分相关为零或负叫异质)。 题目内部的一致性主要受题目内部的一致性主要受两方面变异的影响:两方面变异的影响: 1 1内容的一致性;内容的一致性; 2 2所研究的行为的同质所研究的行为的同质性。性。 评分
31、者信度评分者信度 考察评分者信度的方法是:考察评分者信度的方法是:随机抽取相当份数的试卷,由随机抽取相当份数的试卷,由两位或多位评分者按记分规则分两位或多位评分者按记分规则分别给分,别给分,然后根据每份试卷的分数计算其然后根据每份试卷的分数计算其相关系数,相关系数,即得评分者信度。即得评分者信度。 一般要求在成对的受过训一般要求在成对的受过训练的评分者之间平均一致性达练的评分者之间平均一致性达到到0.900.90以上,才认为评分是客以上,才认为评分是客观的。观的。 分数分布范围测验长度测验的难度间隔时间 随机误差变异越大,信度越低。除前面谈到的几种误差来源外,还有以下几个因素会影响信度系数的大
32、小: (一)被试样本(分数分布范围) 信度系数受分数的分布范围(全距)的影响,而分数范围与被试团体的异质程度有关。一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。 图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在小方框中显示的是一个高度同质的亚团体,两次分数几乎呈随机变化,相关接近于零。 (二)测验长度 一般说来,在一个测验中增加同质的题目,可以使信度提高。即测验越长,信度越高。这是因为测验加长,加大了分数分布的范围,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平。即测验的项目越多,在每个项目上的随机误差就可以
33、互相抵消。(三)测验难度的影响要使信度达到最高,能产生最广分数分布的难度水平方为合适。通常这个难度为0.5。洛德提出选择题的理想平均难度是:五选题0.70、四选题0.74、三选题0.77、是非题0.85。 (四)间隔时间间隔时间越短,信度系数越大;间隔时间越长,受外界影响越大,信度系数越小。本章小结本章小结v信度又叫可靠性。指的是测量的一致性程度。一个好的测验必须稳定可靠,即多次测量结果要保持一致。v信度是个理论上构想的概念,大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标。v信度与误差变异之间有密切的关系。随机误差越大,信度越低。v被试样本、测验
34、长度、测验难度及间隔时间都会影响信度的估计。一、效度的概念二、评估效度的方法三、效度的功能四、影响效度的因素心理咨询师(基础知识)心理测量学 本章中要学习另一个问题, 即测验结果是否准确, 测验是否测到了要测的东西、测到多少的问题。测验的效度越高, 说明测验测到要测的东西的程度越高, 也就是测验的结果越准确。 测验的效度主要是为了回答两个问题: 一、测验要测量什么特性? 二、它对所要测量的特征测量到什么程度?(一)效度的含义 效度就是一个测验对其所要测量的特性测量到什么程度的估计,即是指一个心理测验的准确性。 (二)效度的性质相对性效度是对一定的测验目标来说的,或者说测验只有用于与测验目标一致
35、的目的和场合才会有效连续性效度只有程度上的不同效度是针对测验结果的 信度是效度的必要条件,但非充分条件 信度高,效度未必高 效度高,信度必高 效度是测量的最终目的 效度受到系统误差和随机误差的影响 效度验证(validation):收集证据来检验效度的工作过程。 根据测验的目的,收集证据的方法和证据的来源不尽相同,即效度验证的途径不同,最终获得的效度也有差异。 效度的种类大致有三种 内容效度、结构效度、效标效度 (一)内容效度的含义 内容效度:评估测题是否充分代表了所要测量的内容范围,即测验题目在有关内容或行为范围取样的适当性,关注的是测验内容。 (二)内容效度的评估方法 专家评判 统计分析法
36、 1、界定所要研究行为的领域/范围(比如在成就测验里就用教学目标表来界定行为领域) 2、选择一组在该领域具有资格的专家(非测验编制者) 3、提供测题与行为领域匹配的结构化框架(请专家根据匹配的框架匹配的规则,来评定测题与行为领域是否匹配以及匹配的程度) 4、收集并总结通过匹配过程得到的数据(判定题目与行为领域匹配的情况、测验与行为领域匹配的情况)专家评判的基本程序 双向细目表典型的教学目标表双向细目表既是编制测题所依循的框架,又是专家评判测双向细目表既是编制测题所依循的框架,又是专家评判测题是否具有内容效度的参照对象题是否具有内容效度的参照对象 (三)内容效度的特性 内容效度与表面效度的区别
37、表面效度是测验使用者或被试主观认为测验有效的程度,并不是测验理论意义上的效度; 内容效度是由资深评判者详尽地、系统地对测验作评价而建立的,两者判断依据和标准不同。 最高行为测验要求有较高的表面效度,以使受测者有较强的动机、尽量努力完成;相反,典型行为测验却要求较低的表面效度,降低反应偏差。 (一)结构效度的定义 结构效度就是测验测量到其所欲测量的结构或特质的程度。 (二)结构效度的估计方法 对测验本身的分析 测验间的相互比较 效标效度的研究证明 实验法和观察法 测验的内容效度可以作为结构效度的证据 测验的内部一致性指标可以推断测验是测量单一特质还是多种特质,从而为评估测验构想效度提供依据 分析
38、受测者对题目的反应特点(社会赞许和道德倾向)也可以作为结构效度的证据 相容效度 最简单的是计算两种测验之间得分的相关,其中一个测验是待研究效度的,另一个是已有效度证据的成熟的测验,两者之间测量同一心理特质。 相关越高,说明新测验所测量的特质和旧测验所测量的特质的一致性程度越高。 区分效度 与测量不同心理特质的测验无相关 (一)效标效度的定义1 、效标某种能够显示测验欲测特征的变量,是检验测验效度的参照标准。 比如把大学期间的学习成绩作为大学入学考试的效标,把实际的智力(学业成绩)表现作为智力测验的效标,把工作能力作为人事招聘测验的效标等等。 效标测量本身必须有效 效标必须有较高的信度、稳定可靠
39、,不随时间等因素变化 效标可以客观地加以测量,可用数据等级来表示 效标测量的方法简单、省时省力,经济实用。 学业成绩 等级评定 临床诊断 专门的训练成绩 实际的工作表现 其他现成的有效测验(二)准则关联效度的估计方法相关法区分法命中率法 评估效标效度最常用的方法,即求测验分数与效标分数之间的相关,这一相关系数就称为效度系数。 计算方法 积差相关法 点二列相关 二列相关 多系列相关 检验测验分数能否有效地区分由效标所定义的团体的一种方法。 分析由效标分数区分的高分组与低分组在测验分数分布上的重叠量。重叠量越小,说明分数的差异越大,那么测验分数有效地区分了由效标所定义的团体特性,故测验的效度越好;
40、反之,重叠量越大,说明分数的差异越小,测验效度越差。 当测验用来做取舍的依据时,用正确决定的比例作为效度指标的一种方法。 总命中率通过预测测验正确录取的人员和正确拒绝的人员数量占总体的比例 正命中率正确录取人员占被录取人员数量的比例 正命中率的高低随着临界分数(预测测验划分标准)的高低变化,临界分数越高,正命中率越高;临界分数越低,则正命中率也越低。 预测误差 预测效标分数 预测效标指数 测验本身的因素 测验实施和计分方面 被试的主观方面 样本团体的性质 效标的性质 测题中所用词汇和句型不能过于困难 测题的意思应该清楚 测题应该适合所要测量的学习结果 测题中不能提供额外线索 测题的编制要合理
41、选择题的正确答案不能有明显的组型 测题数目不可太少 测题难度适当 样组的代表性、规模、异质性 测验情景、意外干扰 主试是否严格按指导手册的要求进行测试、否按测验规定的测试时间进行测试 指导语是否清楚明白 计分是否客观、标准 兴趣和动机 情绪和态度 身体健康状况 测验经验 样本的异质性 样本团体越异质,分数分布范围越大,测验效度就越高 干涉变量 对于不同性质的团体,同一测验的效度会有很大的不同 这些性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何其他有关的特征 效标测量本身的可靠性即效标测验的信度,对评价测验的效度有影响 如果效标测量的信度不可靠,与之相关的测验测量的信度也就失去了可靠
42、性一、项目的难度二、项目的区分度三、难度与区分度之间的关系四、项目分析实例心理咨询师(基础知识)心理测量学 测验项目难度的意义及其计算方法; 测验项目区分度的意义及其计算方法; 难度和区分度的关系; 项目分析实例 项目分析就是对组成测验的每个测题进行分析。 质的分析指的是内容效度分析,分析项目的内容和形式。 量的分析则采用统计方法来分析项目的品质。 定义:题目难易程度的指标。 估计项目难度的方法 (一)二值记分项目 1.通过率 P:项目的难度指标;R:答对该 题的人数;N:总人数。 注意:P值越小,难度越大。RPN2.极端分组法将被试依照测验总分从低到高排列,分成二组,总分高端取27%被试-高
43、分组,总分低端取27%被试-低分组;分别计算高分组和低分组的通过率;求项目难度,计算公式:2HLPPP(二)非二值记分项目 计算难度的公式: :全体考生在该题上的平均分 :该题的满分maxXPXXmaxX(一)测验目的和性质效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。(二)项目的难度对于选择题来说,难度值一般应大于猜测概率;例如,对于是非题而言,其难度值应该为0.75最合适;而对于四选一的题目,其难度值约为0.63最合适。(三)测验的难度测验的难度直接依赖于组成测验的项目的难度。大体而言,难度为0.
44、50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.500.20之间变化。(三)测验的难度测验难度影响测验分数的分布难度大,正偏态难度小,负偏态(一)定义:指的是测验项目对于某种心理特质不同水平的被试反应差异的区分程度和鉴别能力,故又称为鉴别力。 (二)项目鉴别力(D)的取值范围:-1.00-1.00 D为正值称作积极区分,D越大,项目的鉴别力越好 D为负值称为消极区分(负鉴别力) D为0称无区分作用鉴别指数鉴别指数项目评价项目评价0.40以上以上很好很好0.300.39良好,修
45、改会更好良好,修改会更好0.200.29尚可,仍需修改尚可,仍需修改0.19以下以下差,必须淘汰差,必须淘汰(一)项目鉴别指数法:较适合于二值记分项目当效标分数是连续变量时,可将分数从高到低排列,取两端27被试分别作为高分组和低分组。(二)方差法方差大,数据分散,鉴别力好(三)相关系数指标项目与总分相关 项目之间相关HLDPP 理想状态下,每个项目应该与测量同一构想的其他项目之间高度相关,并且与测量不同构想的其他项目之间不存在相关。项目1234561-0.610.390.360.740.662-0.110.550.140.083-0.030.010.194-0.320.435-0.726-项目
46、通过率项目通过率P PD D的最大值的最大值1.001.000.000.000.900.900.200.200.700.700.600.600.600.600.800.800.500.501.001.000.400.400.800.800.300.300.600.600.100.100.200.200.000.000.000.00分析:分析:难度越接近难度越接近0.500.50,项目,项目潜在的区分潜在的区分度越大,而度越大,而难度难度D D越接近越接近1.001.00或或0 0时,时,项目潜在区项目潜在区分度越小。分度越小。 选取有代表性的样组,按规定程序预测 测验分数:按总分从高到低排序,
47、高、低分组各27 同一测题,高分组,低分组通过人数比率 分别求出难度,鉴别力 分别登记各选项中的人数分布:比较高分组,低分组在每题答案上的反应。 根据统计结果修改测题题号题号分组分组选项选项A A选项选项B B选项选项C C选项选项D DP PD D1 1高分组高分组2 223230 02 20.720.720.260.26低分组低分组4 416160 06 62 2高分组高分组9 918180 00 00.560.560.220.22低分组低分组3 312126 66 6题组别选答人数正确答案难度鉴别力ABCD未答PrbD1高分组592120B0.710.520.42低分组225012160
48、2高分组581015161A0.420.330.32低分组2621153623高分组1715282812D0.31 -0.04-0.06低分组25111934114高分组14414365C0.120.080.04低分组15610285题号组别选答人数正确答案难度鉴别力ABCD未答PrbD1高分组592120B0.710.520.42低分组2250121602高分组581015161A0.420.330.32低分组2621153623高分组1715282812D0.31-0.04 -0.06低分组25111934114高分组14414365C0.120.080.04低分组15610285一、常模
49、团体二、常模的类型三、常模分数的表示方法心理咨询师(基础知识)心理测量学 为了使测验获得的原始分数本身具有意义,使不同测验的分数可以相互比较,就必须将原始分数转换成导出分数。 心理测量中的导出分数通常用参照常模的办法解释其意义。 常模的获得有赖于常模团体的测验结果。 定义:常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个标准化样组。 常模团体的条件 群体的构成必须明确界定 常模团体必须是所测群体的代表性样本 样本的大小要适当 总体数目小,只有几十人,需要100%的样本;如果总体数目大,相应的样本也大,一般最低不小于30或100个;全国性常模,一般应有2000-3000人为宜
50、 标准化样组是一定时空的产物简单随机抽样最简单的抽样方法,将抽样范围中的每个人或单位编号,随机选择;系统抽样将被试按一定的规则排列,研究者确定一个随机的起始点,每K个被试选择一个;分层随机抽样研究者事先决定某些类型的被试在样本中所占的比例, 然后按照简单随机抽样的方法选择;整群抽样以自然组合的单位为随机抽取对象,如班级、工厂等。 常模:一种比较的标准量数,由标准化测试结果计算而来,它是心理测验时用于比较和解释测验结果的参照分数标准。 分为:全国常模、区域常模、特殊常模 常模分数 常模分数是施测常模团体或标准化样组后,将受测 者的原始分数按一定规则转换出来的导出分数 导出分数具有一定的参照点和单