1、结构方程简介1学习目标区分测量模型和结构模型了解结构方程与其它多元方法的相似之处 能用路径图画出各种理论模型用SEM 检验一个结构方程诊断SEM结果的问题所在.用SEM 检验中介作用2SEM的研究情境 本科的学业成功是由三个可观测方面来度量的:GPA,GRE分数和教员的推荐,研究生的学业成功是由另外三个可观测方面来度量的:发表文章的数量,成绩,教员的评估。本科的学业成功可以在一定程度上预测研究生的学业成功。其间的关系因性别而不同。3用SEM作理论检验用SEM 检验理论模型考虑以下两个观点:模型的整体拟合度和相对拟合度.结构参数估计的大小,方向和显著性4SEM的优越性 与回归分析比较:(1)认为
2、变量有测量误差,特别是心理学中有许多变量不是直接测量的,误差问题更严重;(2)变量间的关系有方向性、层次性、针对性;与路径分析比较:(1)变量有测量误差;(2)可以解决非递归问题。5SEM使我们能作什么?了解统计分析中因果关系的作用 用路径图(path diagram)代表一系列因果关系 将path diagram翻译成一套方程以估计 注意到变量的测量特性对于统计分析结果的作用和影响 区分可观测和不可观测变量以及它们在结构方程中的作用 评价结构方程模型对于支持模型和修正指标的贡献 将结构方程模型应用到CFA,路径分析中。6结构方程模型的核心思想结构方程分两个部分测量模型:反映观测变量与潜在变量
3、之间的关系,类似因素分析结构模型:反映潜在变量与潜在变量之间的关系类似回归分析结构方程模型的特点将因素分析和回归分析中固有的误差和未予解释的方差,作为正在检验的模型的一部分研究者对参数估计的主要兴趣在于反映观测变量与潜在变量之间的关系因子载荷(),回归系数(),以及因变量之间的相关()7SEM的步骤Stage 1:定义每个构念 Stage 2:建立测量模型Stage 3:设计研究取得经验的结果Stage 4:评价测量模型的效度Stage 5:设定结构模型Stage 6:评价结构模型的效度注意:我们在1-4阶段中检验测量模型的理论在5-6阶段中检验结构模型的理论.8一个完整SEM模型例子9SEM
4、模型的符号 变量代表外生潜变量(exogenous latent variables),即他们的影响因素处于模型之外 变量代表内生潜变量(endogenous latent variables),即由模型内变量作用所影响的变量 外生潜变量的指标如x1,x2,x3称为外生指标(exogenous indicators),内生潜变量的指标如y1,y2,y3,称为内生指标(endogenous indicators)。前者的测量误差为,后者的测量误差为 是 与之间的相关;是 之间的相关10完整SEM模型的符号 -外源内隐变量 LX-外源内隐变量与外显变量的相关系数 -内源内隐变量 LY-内源内隐变量
5、与外显变量的相关系数 -之间的相关 -之间的相关 (GA)-外源内隐变量 对内源内隐变量 的影响 -外部指标误差的相关 -内部指标误差的相关 (TD)外部指标误差的协方差 (TE)内部指标误差的协方差 (Zeta)方程的残差 (PS)残差的方差矩阵11矩阵 矩阵大小 内容 LXNX x NKX指标在指标在 因子的负荷因子的负荷LYNY x NEY指标在指标在 因子的负荷因子的负荷PHNK x NK 因子的协方差因子的协方差(相关相关)PSNE x NE 因子残差的协方差因子残差的协方差(相关相关)TDNX x NXX指标误差间的关系指标误差间的关系(协方差协方差)TENY x NYY指标误差间
6、的关系指标误差间的关系(协方差协方差)GANE x NK 因子对因子对 因子的效应因子的效应BENE x NE 因子对因子对 因子的效应因子的效应12矩阵一般设定方法LXLY(a)指标与因子有从属关系的指标与因子有从属关系的:自由估计自由估计(FR)(b)若用若用”固定负荷法固定负荷法”,则每个因子则每个因子,选取一个负荷固定选取一个负荷固定为为”1”PH(a)非对角线元素非对角线元素:因子间互有相关的位置因子间互有相关的位置,自由估计自由估计(b)对角线元素对角线元素:若用若用”固定方差法固定方差法”,则则:固定为固定为”1”若用若用”固定负荷法固定负荷法”,则则:自由估计自由估计PS(a)
7、非对角线元素非对角线元素:因子残差互有相关的位置因子残差互有相关的位置,自由估计自由估计(b)对角线元素对角线元素:自由估计自由估计13矩阵一般设定方法TDTE(a)对角线对角线diagonal的元素的元素:自由估计自由估计(b)非对角线非对角线non-diagonal的元素的元素:固定为固定为”零零”;有特殊情况;有特殊情况,容许额外的对应相容许额外的对应相关关GABE因子对因子有效应因子对因子有效应effect的参数的参数:自由估计自由估计14结构模型 结构模型可以表达为以下方程式:=+yy+x=X+对于 矩阵,矩阵,注意:矩阵是对称的 残差间无相关,因此矩阵不在对角线上的元素均为0。15
8、八个需要估计的参数矩阵 LISREL模型一共有八个基础参数矩阵需要在线性结构关系模型中估计x,y,,x,y 矩阵是因子负荷矩阵,是结构路径系数矩阵 是外生潜变量的方差协方差矩阵 是结构方程残差项的方差协方差矩阵 最后两个矩阵分别是观测误差和的方差协方差矩阵 16SEM模型的前提1.与 无相关2.与 无相关3.与 无相关4.,与 彼此无相关17SEM的原则CFA 仅限于检验构念之间的简单相关可以在构念之间建立结构关系:以表示因果关系的单箭头关系取代CFA中的双箭头关系 将没有假定因果关系的构念之间的双箭头除去当设定结构模型时,应当使用相应的测量模型,并且允许其载荷和误差项与结构模型系数一起估计.
9、18例1:一个外源性变量和一个单指标内源性变量 设定MA=智力,以三个指标来测量 AA=学术成就,以一个指标来测量,估计智力和学术成就之间的关系19DA NI=6 NO=200LAY1 Y2 Y3 X1 X2 X3Km1.00.52 1.00.45.58 1.00.38.35.46 1.00.42.44.48.69 1.00.37.39.43.77.73 1.00SD4.67 5.81 5.12 10.12 11.09 12.31SE1 4 5 6/MO NX=3 NK=1 NY=1 NE=1 TE=ZEro(default=DI,FR)FR LX 1 1 LX 2 1 LX 3 1 LY 1
10、 1LK MALEAAPDOU AL20模型的识别(IDENTIFICATION)识别工作主要是考虑模型中每一个未知的(自由)参数能否由观测资料求得唯一解来作为估计值。对于某一个自由参数,如果不可能将这一参数以样本变异数与共变量的代数函数表达,那么这个参数就不能识别(unidentified)。要是一个未知参数至少可以由观测变量的变异数与共变量矩阵(一般用S来代表)中的一个或多个元素的代数函数来表达,就称这个参数可以识别.21模型的识别(IDENTIFICATION)当一个模型中的每个参数都是可识别的,且没有一个参数是过度识别的,这个模型就是恰好识别的(just-identified)。不可识
11、别(under-identified)模型的识别恰好识别(just-identified)可以识别(identifiable)过度识别(over-identified)模型是否能够识别并不是样本规模的问题,SEM模型着重于过度识别的结构方程模型。在此况下,模型中的自由参数数目少于观测变数中变异数和共变数的总数,即资料点(data points)。资料点与自由参数的数目之差,既是检定模型配合所需的自由度,恰好识别模型总是完全配合观测资料,其卡方检定值和自由度永远为0,对于恰好识别模型是无法检定其配合度22模型的识别(IDENTIFICATION)模型的识别有两个必要条件:(1)数据点的数目不能少
12、于自由参数的数目。数据点的数目就是观测变量的方差和协方差的数目。它等于(p+q)(p+q+1)/2.其中,p是观测变量y的数目,q是观测变量x的数目 数据点比自由参数多,这一模型即为过度识别(over-identified)数据点比自由参数少,这一模型就是不能识别 (under-identified)(2)必须为模型中的每个潜变量建立一个测量尺度 一种,可以将潜变量的方差设定为1(方差固定法)或者,将潜变量的观测指标中任何一个设定为为1(载荷固定法)23识别模型的技巧为了确认模型,可采取两个方法1.将潜变量的方差标准化2.把每个潜变量的其中一个指标变量误差固定为03对于单一指标潜变量,误差应当
13、有适当的设定24因子的指标变量 一个因子一般应该有3个或以上的指标变量 单指标变量的因子应进行如下设定:FI LX 和误差项 LX=sqrt(信度)误差项要固定在(1-信度)指标的方差例:FI LX 4,3 TD 4,4 VA.15 TD 4,4!(1-0.85)=0.15 VA.922 LX 4,3!SQRT(.85)=.922如何避免非识别模型的发生 解决识别问题最好的办法是避免它的发生。通常,可对潜在变量加上更多的标识,因而有更多的数据点。模型识别实际上依赖于自由参数(free parameters)、固定参数(fixed parameters)和限制参数(restricted para
14、meters)的设定。自由参数是未知并需要估计的参数,固定参数是不自由的并固定于设定的参数。比如,在测量模型中,将每个潜在变量标识的因素负荷之一设定为1。限制参数是那些未知的,但被规定相等于另一个参数值的参数。26如何避免非识别模型的发生 循环的或称之为非递归(nonrecursive)的结构方程模型也常常是识别问题发生的另一个来源。当在模型中设定变量之间有循环或双向关系,以至两个因变量之间存在反馈圈(feedback loops)时,这一结构模型就是非递归的。还可以在一开始建立模型时尽量削减自由参数,只保留那些绝对必要的参数,使模型简化。要是这个模型得到识别,再考虑在随后修改的模型中加入其它
15、感兴趣的参数27其它程序运行常见的问题矩阵非正定(matrix not positive definite)迭代不收敛(not converge after iterations)28迭代不收敛的原因和解决1.重新检查数据,确保其中没有缺失数据和空格码。如果有,不要使用默认缺失值(LISREL用-999999)。用合适的方法比如均值来替代缺失值。2.如果样本量过小,会导致收敛性问题。如果你的测度项总数小于20,样本量应该至少是测度项总数的两倍。如果你的测度项总数在20与35之间,样本量应该至少是测度项总数的三倍。如果你的测度项总数在34与45之间,样本量应该至少是测度项总数的四倍。如果你的测度
16、项总数大于45,则样本量应该至少是测度项总数的五倍。这些只是一个粗略估计的最低标准。满足这些要求并不能保证一定收敛。3.检查各列,看有没有重复。有时,在复制数据列时,一个列可能会不小心被重复,这也会导致不收敛。相似地,虽然我们要求一个潜变量的各测度项相关,但如果相关性过高(比如r0.95),也会导致收敛性问题。4.检查测度项是否有很高的skewness。如果测度项不服从正态分布,也会导致不收敛。5.删除载荷很低的测度项。29例2 一个外源性变量和一个多指标内源性变量 设定MA=智力,以三个指标来测量,AA=学术成就,以三个指标来测量,估计智力学术成就之间的关系30DA NI=6 NO=200L
17、AY1 Y2 Y3 X1 X2 X3Km1.00.52 1.00.45.58 1.00.38.35.46 1.00.42.44.48.69 1.00.37.39.43.77.73 1.00SD4.67 5.81 5.12 10.12 11.09 12.31MO NX=3 NK=1 NY=3 NE=1 FR LX1 1 LX 2 1 LX 3 1 LY 1 1 LY 2 1 LY 3 1LK MALEAAPDOU AL31例3 设定MA=智力,以三个指标来测量,AA=学术成就,以三个指标来测量,SC=自我概念,以三个指标来测量,估计智力,学术成就和自我概念之间的关系32 DA NI=9 NO=2
18、00 LA Y1 Y2 Y3 Z1 Z2 Z3 X1 X2 X3 KM 1.00 .52 1.00 .45.58 1.00.29.34.23 1.00.31.30.28.53 1.00.27.36.35.48.45 1.00.38.35.46.41.38.42 1.00.42.44.48.39.31.41.69 1.00.37.39.43.38.36.40.77.73 1.00 SD 4.67 5.81 5.12 2.76 3.12 2.93 10.12 11.09 12.31 MO NY=6 NE=2 NX=3 NK=1 PS=DI FR LX 2 1 LX 3 1 LY 2 1 LY 3
19、1 LY 5 2 LY 6 2 GA 1 1 GA 2 1 BE 2 1 ST 1 LX 1 1 LY 1 1 LY 4 2 LK MA LE AA SC PD OU AL AD=OFF IT=2000 33AD=Admissibility test 容许性检查容许性检查 (default=20)IT=No.of iteration 迭代次数上限迭代次数上限其他重要参数设定 GAmma default FU FRee BEta default FU Fixed 设定BE=SD:当之间有相关时,最简单的方法,对角线上和对角线之上的元素均固定为 0,对角线之下的元素free34例4Eg2.sav是
20、应激-反应与预先应对,预防应对的数据,分析预先应对,预防应对在应激-反应-间的中介作用35LISREL中的数据导入 导入数据:FileImport Data选数据文件,确认设定临时数据文件名,确认手工设定变量个数、首行是否变量名 LISREL中需要定义缺失值 DataDefine Variables选变量,点Missing Values36LISREL图形界面中的缺失值设置37*全部的缺失值都写在下方Global missing values一栏;如果写在上方Missing values栏,Lisrel8.7.2会在某些场合不认。*除了设置缺失值,Define Variables窗口中,还要点
21、Variable Types设置变量类型例4 初始模型38例4 中介模型39初始模型DA NI=11 NO=220LA FRU CON PRE PRO1 PRO2 PRO3 PRE1 PRE2 PRE3 EMO PHIRAW=eg2.psfSE11 1 2 3/MO NX=3 NK=1 NY=1 NE=1 FR LX 2 1 LX 3 1 GA 1 1 FI TE 1 1 LY 1 1 VA 0.1 TE 1 1VA 0.93 LY 1 1VA 1 LX 1 1 LKSTRSSLE OUTCOMEPDOU AD=OFF IT=2000 SS EF MI40中介模型DA NI=11 NO=220
22、LA FRU CON PRE PRO1 PRO2 PRO3 PRE1 PRE2 PRE3 EMO PHIRAW=eg2.psfSE4 5 6 7 8 9 11 1 2 3/MO NX=3 NK=1 NY=7 NE=3 BE=SY,FUFR LX 2 1 LX 3 1 LY 2 1 LY 3 1 LY 5 2 LY 6 2 GA 1 1 GA 2 1 GA 3 1 BE 3 1 BE 3 2FI TE 7 7 LY 7 3 VA 0.1 TE 7 7VA 0.93 LY 7 3VA 1 LX 1 1 LY 1 1 LY 4 2 LY 7 3LKSTRSSLE PROACTIVEPREVENTIV
23、E OUTCOMEPDOU AD=OFF IT=2000 SS EF MI41SOBEL TEST 的输出 Indirect Effects of KSI on ETA PROACTIV PREVENTI -STRESS -OUTCOME -0.19 0.16 (0.07)(0.07)-2.75 2.3242结构方程是否验证变量间的因果关系?严格来说,非经设计用以探讨变量间因果效应的研究,都不能证明变量间是否真正存在因果关系。单从等同模型,已经可以举出拟合指数相同,但变量间效应相反的例子 利用非实验设计:采用纵贯研究数据,每个变量至少要有2次测量(2时段以上设计)使用多个指标以推算潜变量 样本
24、要够大并具代表性,使结果具有实质意义和普遍性 考虑不同模型的意义,考虑指标误差项相关的意义 43嵌套模型 如果乙模型所有自由参数只是甲模型中自由参数的一部分,则称乙模型嵌套于甲模型内嵌套模型的2比较 例:例2-工作倦怠的CFA 3因素模型显著地好于所有2因素模型和一因素模型吗?写出以下模型的LISREL设定(N=300)46画出以下路径图 DA NI=11 NO=220 raw=eg2.psf SE 1 2 3 10 11 4 5 6 7 8 9/MO NX=6 NY=5 NK=2 NE=2 BE=FU GA=FI PS=SY TE=SY TD=SY LE STRESS OUTCOME LK PROACTIV PREVENTI FR LY(2,1)LY(3,1)LY(5,2)LX(2,1)LX(3,1)LX(5,2)LX(6,2)BE(1,2)GA(1,1)GA(1,2)FR GA(2,2)VA 1 LY(1,1)LY(4,2)LX(1,1)LX(4,2)PD OU EF SS 47