1、第一讲 验证性因素分析北京师范大学心理学院引言n模型的产生与发展n模型简介n模型优点n模型应用的步骤n应用软件模型的产生与发展模型的产生与发展 协方差结构模型(Covariance Structure Models,简称CSM),又称为结构方程模型(Structural Equation Modeling, 简称SEM),协方差结构分析(the analysis of covariance structure),线性结构模型(the linear structural relations models),矩结构模型(the moments structure models),结构化线性模型中的
2、潜变量方程系统(Latent variable equation system linear model)以及LISREL模型。1966年,Bock 和Bargmann最早提出了“验证性因素分析模型”。此后,Joreskog(1973)、Van Thillo(1972)、Kellsling (1972)和Wiley (1973) 将Bock 和Bargmann的模型逐渐演变,使之成为一个更通用的模型,这就是我们今天所说的协方差结构模型。 协方差结构模型简介n协方差结构模型主要是利用一定的统计手段,对复杂的理论模式加以处理,并根据模式与数据关系的一致性程度,对理论模式做出适当评价,从而达到证实或
3、证伪研究者事先假设的理论模式的目的。SEM实际是一般线性模式(General Linear Models, GLM)的扩展。一般线性模式包括:路径分析、典型相关、因素分析、判别分析、多元方差分析以及多元回归分析。n协方差结构模型包含测量模型(验证性因素分析)和结构模型(因果模型)两部分。这种模型由一种因素模型和一种结构方程式模型组成,将心理测量学与计量经济学有效的结合起来。协方差结构模型的优点 协方差结构模型与传统的回归分析方法相比,至少有以下优点:可同时考虑和处理多个因变量 允许自变量和因变量含有测量误差 容许潜在变量由多个外源指标变量组成,并可同时估计指标变量的信度和效度 可采用比传统方法
4、更有弹性的测量模型,如某一观测变量或项目在SEM内可以同时从属于两个潜在变量 可以考虑潜变量之间的关系,并估计整个模型是否与数据相吻合 应用协方差结构模型的步骤v数学模型的设定(model specification)v模型的识别 (model identification) v模型的估计(model estimation) v模型的评价(model evaluation)v模型的修正(model modification)协方差结构模型应用软件 LISREL AMOS EQS SAS因素分析n因素分析简介n因素分析模型n因素分析中的基本概念因素分析简介n因素分析就是用最少的因素概括和解释大量
5、的观测事实,建立起最简洁的,基本的概念系统,以揭示事物之间,各种复杂现象背后本质联系的一种统计分析方法。 n当因素分析的重点放在从一堆观测变量中去探索/挖掘出潜变量的时候,称为探索性因素分析。当方法的重点放在检验假设(即事先对潜变量的维度有了假设)时候,称为验证性因素分析。 因素分析模型n因素分析假定个体在某一变量上的反应由两部分组成:一是各个变量共有的部分,称为共同因素(Common Factor);另一部分是各变量所特有的部分,称为独特因素(Unique Factor),可用下式表示: 是第i个体在第j观测变量上的得分,( j k)是因素对观测变量的加权系数,(Fik)是个体i在因素F k
6、上的得分,Uij为特殊因素,dj为特殊因素对观测变量的加权系数;N为样本容量,n为观测变量的个数,m为公因素的个数。 ijjimjmijijijUdFaFaFaz2211ijz因素分析中的基本概念n因素载荷(Factor loading)n公共因素方差(Communality)n唯一性方差(uniqueness)jkjkjk因素载荷(Factor loading)n因素载荷指因素分析模型中各公共因素对观测变量的加权系数jk 。一般情况下,称公共因素的系数为因素载荷。即因素分析模型中的系数。将所有的因素载荷以矩阵的形式表示即为因素载荷矩阵。公共因素方差n公共因素方差是指被公共因素所决定的方差在观
7、测变量总方差中所占的比例。n在对观测数据进行标准化的情况下,一个观测变量的总方差Sj2为:n其中由公共因素决定的方差为:mpjpjmjjjaaaah12222212唯一性方差(uniqueness)n归因于唯一性因素的那部分方差称为唯一性方差,唯一性方差表示m个公共因素对观测变量的方差不能作出解释的部分,一部分归因于所选变量的特殊性,称为特殊性方差;剩余部分归因于测量的不完备性探索性因素分析与验证性因素分析n1.模型假设q探索性因素分析的假设:(1)所有的公共因素都相关(或都无关)(2)所有的公共因素直接影响所有的观测变量(3)特殊因素之间相互独立(4)所有观测变量只受一个特殊因素的影响(5)
8、公共因素和特殊因素相互独立 (6)观测变量与潜在变量之间的关系不是事先假定的;(7)潜在变量的个数不是在分析前确定的探索性因素分析与验证性因素分析q验证性因素分析的假设(1)公共因素之间可以相关也可以无关(2)观测变量可以只受某一个或几个公共因素 的影响而不必受所有公共因素的影响(3)特殊因素之间可以有相关,还可以出现不存在误差因素的观测变量(4)公共因素和特殊因素之间相互独立 (5)观测变量与潜变量之间的关系事先假定的;(6)潜在变量的个数在数据分析前确定的(7)模型通常要求是可识别的验证性因素分析模型及其符号表示探索性因素分析与验证性因素分析n2.应用 探索性因素分析往往的不到可以合理解释
9、的模型; 验证性因素分析往往得不到拟合优度的模型。结构方程的原理:输入/输出 n输入:n(1) 相关矩阵、协方差矩阵n(2)先验模式n输出: (1)繁衍协方差(相关)矩阵(E),根据先验模式所得 (2)总体吻合指数(反映E与S的总体差异)(3)项目与因子间关系,因子间关系,即参数值 结构方程的原理:输入/输出n输入(S) Q1 1.00Q2 .12 1.00Q3 .08 .08 1.00Q4 .50 .11 .08 1.00Q5 .48 .03 .12 .45 1.00Q6 .07 .46 .15 .08 .11 1.00Q7 .05 .44 .15 .12 .12 .44 1.00Q8 .1
10、4 .17 .53 .14 .08 .10 .06 1.00Q9 .16 .05 .43 .10 .06 .08 .10 .54 1.00 结构方程的原理:输入/输出n输入(先验模式)n因子1:Q1,Q4,Q5, 因子2:Q2,Q6,Q7, 因子3:Q3,Q8,Q9 结构方程的原理:输入/输出n输出(E)(以先验模式为依据,渐进估计的最小值)nQ1 1.00nQ2 .10 1.00nQ3 .11 .10 1.00nQ4 .50 .09 .10 1.00nQ5 .48 .09 .09 .45 1.00nQ6 .10 .46 .10 .09 .09 1.00nQ7 .09 .44 .09 .09
11、.08 .44 1.00nQ8 .13 .12 .53 .12 .12 .12 .11 1.00nQ9 .11 .10 .43 .10 .10 .10 .09 .54 1.00 结构方程的原理:输入/输出n输出:整体拟合指数 2=40;GFI=.978,NNFI=.969,CFI=.979n输出参数值: 因 子 载 荷 : . 7 3 , . 6 9 , . 6 5 ( 项 目1 , 4 , 5 ) ; . 5 4 , . 5 4 , . 5 8 ( 项 目2,6,7);.65,.81,.66(项目3,8,9)因子相关:.19(因子1,2),.22(因子1,3),.22(因子2,3) 验证性因
12、素分析n模型的定义(Specification)n模型的识别(Identification)n模型的参数估计(Parameter Estimation)n模型的评价(Model Evaluation)n模型修正(Modification)和再定义(Respecification)n验证性因素分析在测验中的应用验证性因素分析模型及其符号表示n模型假设为:(1)在总体中,模型所有的变量(观测变量、潜变量、误差)都设定其平均值为零;(2)公共因子与误差项之间相互独立(3)各独立因子之间相互独立(这一条件有时得到放宽);(4)观测变量数大于公共因素数。验证性因素分析模型及其符号表示n 验证性因素分析模
13、型及其符号表示n模型的数学表达公式为: (1)n其中,X为p1阶的观测变量向量,是n1阶的潜在变量,x是pn阶因子载荷矩阵,为 p1阶的测量误差向量。 xX验证性因素分析模型及其符号表示n在验证性因素分析中,由于潜变量是不可观测的,所以因素方程不能直接估计,为此必须导出它的观测变量的协方差阵之间的关系,对于(1)式通过对方程两边求协方差可以得到: (2) 上式称为协方差方程。其中,是观测变量之间的协方差矩阵;x是观测变量X相应于的载荷阵; 是潜变量之间的协方差矩阵; 则是测量模型中误差项之间的协方差矩阵。该方程把观测变量X的协方差矩阵分解成载荷矩阵x、的协方差以及的协方差矩阵。模型的估计就是求
14、解上面协方差方程中的各个参数的估计值,以便使模型更好地重新产生观测变量的协方差矩阵。xx(验证性因素分析模型及其符号表示参数的类型: 固定参数 自由参数 限定参数自由度(df):1/2(q)(q+1)-自由参数验证性因素分析模型的定义n理论上的假设是定义模型的基础 (a)存在多少个因素? (b)每一个因素分别影响哪些观测变量? (c)如果有两个或更多个因素,它们之间的关系如何? 验证性因素分析模型的定义n例3:GSC: SDQGSC APIGSC SESGSCnASC: SDQASC APIASC SESASCnESC: SDQESC APIESC SESESCnMSC: SDQMSC API
15、MSC SESMSC验证性因素分析模型的定义n模型假设1:自我概念 (Self-concept) 1.General SC 2.Academic SC 3.English SC 4.Mathematics SC验证性因素分析模型的定义n模型假设2:SC is a two factor structure consisting of an academic component(ASC) and a general component(GSC).n模型假设3:SC is a unidimensional construct.验证性因素分析模型的识别n模型识别的概念:n模型识别是指求出模型参数的唯一
16、解 ,即模型(2)中的自由估计的参数有唯一满足方程的值。n模型的识别可以分为三种情况 : 恰好识别(just identified)、超识别(over identified )和不足识别的(under identified) 恰好识别和超识别模型都是可以识别的。验证性因素分析模型的识别n刚好识别(just identified),指模型中方程式的个数等于要估计的参数的个数,因此每个参数都能求得唯一解。n超识别(over identified),指模型中方程式的个数多于参数估计所需要的方程数,也就是说,一个待识别的参数可以用一个以上的已知量(观测变量的协方差或已识别的参数)表示时,该参数可取不同
17、的值,因此就是超识别的。 n不足识别的(under identified):指模型上方程式的个数少于待估参数的个数,使参数有多个解。 验证性因素分析模型的识别n识别的条件nT准则:t=1/2(q)(q+1) 模型中自由参数的个数不能超过协方差矩阵的元素数 n三指标准则(每个潜变量至少有三个或三个以上的观测变量):三个条件:x的每一行只有一个非零元素,每一个因素至少有三个获三个以上的指标变量, 为对角矩阵。n二指标准则(每个潜变量至少有三个或三个以上的观测变量):四个条件: x的每一行只有一个非零元素,每一个因素至少有两个获两个以上的指标变量, 为对角矩阵,对于因素之间的协方差矩阵中非主对角线上
18、元素 ij 至少有一个不等于零。验证性因素分析模型的识别模型识别:计算出标准误进行识别单位问题(方差和因素载荷只是一种比例关系)n固定因素载荷n固定因素方差模型的参数估计n在验证性因素分析中,总体协方差矩阵和参数之间的关系为:n参数估计值必须在满足模型限定的条件下,使由它得出的协方差阵尽可能地接近样本协方差矩阵。在验证性因素分析中常用的参数估计的方法有: xx模型的参数估计n未加权最小二乘法(ULS) n广义最小二乘估计(GLS) n极大似然估计(ML)n工具变量法(IV)n两阶段最小平方法(TSLS)n广义加权最小平方法(WLS)n对角加权最小平方DWLS) 最常用的参数估计的方法有:极大似
19、然估计和广义最小二乘法。模型的参数估计n模型参数估计收敛(convergence)的问题:收敛的准则允许的迭代次数初始值模型定义 模型的评价n模型的拟合的概念 Cudeck及Henly(1991)提出一个有助于了解模型拟合的图示 : E S E 模型的评价n 与 E之 间 的 差 异 , 称 为 近 似 差 距(discrepancy of approximation),S与E之间的差异,称为样本差距(Sample/empirical discrepancy), E与E之间的差异,称为估计差距(discrepancy of estimation), 与E之间的差距,称为整体差距(overall
20、 discrepancy)。n协方差结构模型中用来描述模型与数据拟合程度大小的统计指标称为拟合优度指数,检验E与S的差异程度大小 。模型的评价n常用模型总体拟合指数 1.绝对拟合指数2统计量(Bollen,1989 )2/df拟合优度指数GFI(Tanaka& Huba,1984调 整 的 拟 合 优 度 指 数 A G F I ( T a n a k a & Huba,1984 )近 似 均 方 根 误 差 R M S E A ( S t e i g e r & Lind,1980 )模型的评价n2.相对拟合指数相对拟合指数CFI(Coffin,1993 )标 准 拟 合 指 数 N F I
21、 ( B e n t l e r & Bonett,1980)Tucker-Lewis指数TLI或NNFI(Tucker& Lewis,1980 )递增拟合指数IFI(Bollen,1989 )模型的评价n判断一个好的拟合指数的标准: 不受样本容量大小的影响 取值在一定的范围 惩罚复杂模型 服从一定的概率分布,可以给出检验标准。模型的评价n 残差分析。nLISREL会输出模型的残差和标准化残差。在LISREL中,残差被定义为样本协方差矩阵S与拟合矩阵(fitted matrix)即再生协方差矩阵中的元素。标准化残差则是残差除以大样本中残差的标准误。LISREL输出误差的枝叶(Stem-leaf
22、)图和Q图(Quantile -plot)。对一个拟合得好的模型,残差枝-叶图应符合正态分布,而Q-图则接近一个45度角的直线 模型的修正与再定义n模型的修正指数:对每一条潜在途径进行检验,并保守估计所能减少的卡方值n模型之间的比较chi-square difference testn选取模型省俭原则验证性因素分析在测验中的应用n构想效度(construct validity) 测验对理论上的构想或特质的测量程度 n项目信度(item coefficient) 公共因素与观测变量相关的平方,它表示在一个观测变量的总方差中,能够由公共因素所解释的方差的比例 验证性因素分析在测验中的应用 筛选题目
23、 (1)剔除因素载荷在指定因素上小于0.4的项目 (2)根据修正指数的结果,剔除掉允许项目与其它因素上的载荷自由估计时,修正指数较大的项目。 (3)根据修正指数,剔除掉允许项目特殊因子相关时,修正指数较大的项目。 在剔除项目的过程中,应该特别注意的问题: (1)每剔除一个题目,重新运行程序。 (2)剔除的项目除了数值上的考虑外,必须是在意义上可以解释的。 (3)每个维度上最后至少要保留三个项目。直到模型中最后修正指数的值都小于10为止验证性因素分析在测验中的应用n对145名7岁到8岁儿童六项进行心理测验(VISPERC:平面想象能力、CUBES:空间想象能力、LOZENGES:空间方向感、 P
24、ARAGRAPH:段落理解、SENTENCE句子完成、WORDMEAN词义理解),假设理论上认为前三个变量:平面想象能力、空间想象能力、空间方向感测量同一个潜在特质(知觉),后三个变量测量一个潜在特质(语言理解)。验证性因素分析在测验中的应用spatial.49visperc.43cubes.54lozenges.71wordmean.77paragrap.68sentenceerr_verr_cerr_lerr_perr_serr_wverbal.70.65.74.88.83.84.49验证性因素分析在测验中的应用n模型的整个拟合情况 拟合指数 卡方自由度 卡方/自由度 CFI GFI AG
25、FI NFI TIL RMSEA 数值 7.853 8 0.982 1.00 0.966 0.910 0.958 1.00 0.000 验证性因素分析应用n样本容量 n变量性质 分布特点 测量尺度 变量数量 Lisrel (LInear Structural RELationship)应用软件简介 x的测量模型: X=x+ DA NI=6 NO=556 MA=KM LA * S-C ABIL PPAREVAL PTEAEVAL PFRIEVAL EDUC ASP COL PLAN KM SY (6F4.2) 100 73 100 70 68 100 58 61 57 100 46 43 40 37 100 56 52 48 41 72 100 MO NX=6 NK=2 LK ABILITY ASPIRATN FR LX(1,1) LX(2,1) LX(3,1) LX(4,1) LX(5,2) LX(6,2) OU