1、第一节第一节 因果模型与通径分析因果模型与通径分析第二节第二节 通径模型的设置通径模型的设置第三节第三节 通径模型的分类通径模型的分类第四节第四节 分解简单回归系数分解简单回归系数第五节第五节 分解简单相关系数分解简单相关系数第六节第六节 通径模型的整体检验通径模型的整体检验第七节第七节 研究实例研究实例参见郭志刚主编,参见郭志刚主编,社会统计分析方法社会统计分析方法SPSS软件应用软件应用第五章第五章 中国人民大学出版社中国人民大学出版社1999因果关系模型明确设置自变量和因变量,通过模因果关系模型明确设置自变量和因变量,通过模型分析,检查自变量对因变量的作用方向、作用型分析,检查自变量对因
2、变量的作用方向、作用强度和解释能力。强度和解释能力。简单回归系数简单回归系数是一个自变量对因变量作用的是一个自变量对因变量作用的“毛毛”测量测量(gross measure) (gross measure) 多元分析的偏回归系数多元分析的偏回归系数则是自变量作用的一种则是自变量作用的一种“净净”测量测量(net measure)(net measure)通径分析的主要功能之一通径分析的主要功能之一是将毛作用分解为直接是将毛作用分解为直接作用(相当于上述的净作用)和各种形式的间接作用(相当于上述的净作用)和各种形式的间接作用,使我们对整个模型系统中变量的因果关系作用,使我们对整个模型系统中变量的
3、因果关系有更为具体的深入理解有更为具体的深入理解第一节第一节 因果模型与通径分析因果模型与通径分析图图1 多元回归模型因果关系示意图多元回归模型因果关系示意图yx1x2by2.1by1.2图图2 2 通径模型的因果结构示意图通径模型的因果结构示意图z1p31p21z2z3p32与回归分析的异同与回归分析的异同各个自变量被假设处于各个自变量被假设处于相同的地位,相同的地位,多元回归多元回归分析得到的回归系数分析得到的回归系数(或标准化的回归系数)(或标准化的回归系数)表示在控制其他自变量表示在控制其他自变量的条件下每个自变量对的条件下每个自变量对于因变量单独的净作用于因变量单独的净作用但是,往往
4、变量之间但是,往往变量之间的因果作用是的因果作用是更复杂更复杂的传递过程,的传递过程,一个变一个变量对于某些变量可能量对于某些变量可能是原因变量,而对于是原因变量,而对于另外一些变量则可能另外一些变量则可能是结果变量是结果变量 通径分析的目的:通径分析的目的:回归系数回归系数( (或相关系数或相关系数) ) 通径分析可视为多环节的通径分析可视为多环节的一组回归分析。 通径模型代表理论假设通径模型代表理论假设。通径分析的特点通径分析的特点通径分析的有关概念:通径分析的有关概念:1 1、通径、通径(path)、通径系数、通径系数 (如如P32)2 2、相关关系、相关关系(略)3 3、外生变量、外生
5、变量(exogenous variable)4、内生变量内生变量(endogenous variable) 5、误差、误差(error) (略)6、最终结果变量最终结果变量(ultimate response variable) 通径模型的结构方程组通径模型的结构方程组 23213131212zzzzzppp通径模型既可以用结构方程组的形式来表示,也可通径模型既可以用结构方程组的形式来表示,也可以用通径图来表示以用通径图来表示为了表达和分析上的简明,一般在通径分析中采用为了表达和分析上的简明,一般在通径分析中采用标准化的变量,并按照因果序列给出相应的下标标准化的变量,并按照因果序列给出相应的下
6、标第二节第二节 通径模型的设置通径模型的设置z2=p21z1z3=p31z1+p32z2z2z1p32p31p21z3在通径图中以通径在通径图中以通径(即图中那些带有箭(即图中那些带有箭头的直线)表达因果头的直线)表达因果关系。关系。 对于因果关系的强度,对于因果关系的强度,是用通径系数来表达是用通径系数来表达的,如的,如p21 p21 为了区别不同通径系为了区别不同通径系数,一般用该通径箭数,一般用该通径箭头所指的结果变量的头所指的结果变量的下标作为通径系数的下标作为通径系数的第一下标,而用该通第一下标,而用该通径的原因变量下标作径的原因变量下标作为通径系数的第二下为通径系数的第二下标。标。
7、1 1、一类是外生变量,、一类是外生变量,即由模型中没有注明即由模型中没有注明它的变化是由什么因它的变化是由什么因素造成的素造成的 2 2、另一类是内生变、另一类是内生变量,即由模型中另外量,即由模型中另外一些变量所影响的那一些变量所影响的那些变量些变量 此外,我们可以将通此外,我们可以将通径模型内不影响其他径模型内不影响其他变量的内生变量称为变量的内生变量称为最终结果变量最终结果变量z2 z3 z3z1 z2z1p32p31p21z3第三节第三节 通径模型的分类通径模型的分类递归模型:因果关系结构中全部为单向递归模型:因果关系结构中全部为单向链条关系、无反馈作用的模型链条关系、无反馈作用的模
8、型v 非递归结构类型示意非递归结构类型示意z1z2z1z3z2p22z1z3z2a. 两个变量直接反馈两个变量直接反馈b. 某些变自反馈某些变自反馈c. 某些变量间接循环某些变量间接循环v 递归通径模型分析递归通径模型分析的的假定条件假定条件 通径模型中各变量之间的关系为通径模型中各变量之间的关系为的因果关系的因果关系 内生变量的误差项内生变量的误差项与其前置变量与其前置变量( (或其他内生变量或其他内生变量误差项误差项) ) 模型中因果关系必须为单向,模型中因果关系必须为单向,包括各种形式的包括各种形式的作用作用 模型中各变量均为模型中各变量均为等级等级 各变量的各变量的重要v 1 1、计算
9、一个自、计算一个自变量对最终反映变量的直接影响变量对最终反映变量的直接影响、间接影响间接影响、总影响。总影响。 v 2 2、在间接影响中还可以分解出以不同通径传递的间接影响。、在间接影响中还可以分解出以不同通径传递的间接影响。 v 3 3、在控制某些变量的条件下,完成上面两项工作。、在控制某些变量的条件下,完成上面两项工作。 v 4 4、统计、统计检验检验:包括包括对对各通径的检验,以及对过度识别模型各通径的检验,以及对过度识别模型(over-identified model)的整体的整体检验。检验。 主要功能主要功能1 1、计算一个变量对最终反应变量的各种影响、计算一个变量对最终反应变量的各
10、种影响如,结构方程组如,结构方程组(1)(1)代入代入(2)(2)后后:式(2)(2)为式(2)(2)的。 括号内各项代数和括号内各项代数和z3z3和和z1z1的简单的简单回归系数回归系数 (2)zpzpz(1)zpz23213131212 )( zpppzppzpz1213231121321313 2 z1p31p21z2z3p32最终反应变量完全以某最终反应变量完全以某一个外生变量的函数的一个外生变量的函数的形式来加以描述形式来加以描述包括直接影响和间接包括直接影响和间接影响影响总效应总效应 直接效应直接效应 + 间接效应间接效应 (简单回归系数)(简单回归系数) (直接计算的偏回归系数)
11、(通径系数的乘积)(直接计算的偏回归系数)(通径系数的乘积)例题 当我们考察个人年收入与年龄的关系 1、可以直接计算相关系数r0.003 2、我们认为年龄不仅直接影响收入,还跟教育有关,而教育也影响收入,于是我们考虑有变量关系:年龄年龄p31p21上学上学收入收入p32结构方程:上学p21年龄收入p31年龄p32上学r0.003年龄年龄P310.053P21-0.295上学上学收入收入P320.196对结构方程求解(spss)上学-0.295年龄收入0.053年龄0.196上学根据标准化回归系数分解,收入与年龄的实际关系为:0.0030.053+(-0.295*0.196) 0.053-0.0
12、57 1、直接效应为正、直接效应为正, 间接效应为负。相间接效应为负。相互抵消互抵消 , 总效应值很小总效应值很小虚假无关虚假无关 2、标准化回归系数不考虑符号、标准化回归系数不考虑符号 3、存在计算误差、存在计算误差 )( zpppzppzpz1213231121321313 2 2 2、以不同通径传递的间接影响、以不同通径传递的间接影响 (3)zpzpzpz(2)zpzpz(1)zpz343242141423213131212 )( zpppzppzpz1213231121321313 2 z4z1p41p21z2p42z3p32p31p43(1)(1)代入代入(2)(2):(1)(2)(
13、1)(2)代入代入(3)(3): )( zppppppppzppppzppzpz12132433143214241121323143121421414 3 直接效应直接效应间接效应间接效应从一个简单回归模型到一个有较多中间变量的通径分析模型,外生变量从一个简单回归模型到一个有较多中间变量的通径分析模型,外生变量对最终结果变量的总影响不变对最终结果变量的总影响不变 其实质做法与前面并无差别,只不过模型其实质做法与前面并无差别,只不过模型更复杂而已!更复杂而已!3 3、在控制某些变量的条件下的总影响的分解工作、在控制某些变量的条件下的总影响的分解工作 (3)zpzpzpz(2)zpzpz(1)zp
14、z343242141423213131212(2)(2)代入代入(3) :不经过不经过z z2 2的效应的效应经过经过z z2 2的效应的效应通径分析中的控制,指控制变量处被阻断以后,原因变量还能发挥哪些作用通径分析中的控制,指控制变量处被阻断以后,原因变量还能发挥哪些作用z4z1p41p21z2p42z3p32p31p43)(3 zpppzppp zpzppzpzpz23243421314341232131432421414)()()( 式式(3)(3)在通径分析中称为在通径分析中称为偏简化式偏简化式(partial reduced form)。 分解的目的:将z2的作用集中表达,这就是控制
15、,看看抽离了z2影响后,z1的影响构成情况 )( xpppapxppapxpxpapxpx1213231232121322321311212321313 2aaa333 (1)(1)代入代入(2)(2): (2) xpxpx(1) xpx 2321313121232aa非非标标化化回回归归x3p32x1p31p21x2 (2) old309. 0income235. 0874. 7DRC(1) ncomei907. 0391. 2ldo Coefficientsa8.614.045(Constant)INCOMEBDependent Variable: CDRa. income045. 061
16、3. 8income280. 0235. 0739. 0874. 7income907. 0309. 0235. 0391. 2309. 0874. 7RDC 优点:优点: 但是,但是,标准化系数有标准化系数有特定样本特定样本(sample specific)的性质的性质,不能用于不同,不能用于不同情况或不同总体之间的比较。因为,标准化系数所反映的不仅是自变量对情况或不同总体之间的比较。因为,标准化系数所反映的不仅是自变量对因变量的影响强度,而且还反映了模型中各变量的方差以及它们之间的协因变量的影响强度,而且还反映了模型中各变量的方差以及它们之间的协方差,以及寓于误差项之内的未包括在模型中的那
17、些变量的方差。方差,以及寓于误差项之内的未包括在模型中的那些变量的方差。优点:优点: 但是,各变量的非标准化系数之间不能相互比较。另外,采用非标准但是,各变量的非标准化系数之间不能相互比较。另外,采用非标准化系数时,通径分析分解工作量将变得比较大。化系数时,通径分析分解工作量将变得比较大。z4p*42= - -0.1p*41=0.7z1z2p32=-0.6p31=0.8p42=0.2p43=0.5p41=0.3z4z1z2z3变量变量作用类型作用类型模型模型 (2)符号符号系数值系数值x1直接作用直接作用p p410.30.3间接作用间接作用p p43p p310.40.4总作用总作用p p*
18、410.70.7x2直接作用直接作用p420.20.2间接作用间接作用p p43p p32-0.3-0.3总作用总作用p p*42-0.1-0.1x3直接作用直接作用p p430.50.5p32=-0.6p31=0.8p42=0.2p43=0.5p41=0.3z4z1z2z3例例人均GDPTFR0.718总和生育率人均国内生产总值e3z1p32p31p21z3z2e2z4e4p42p43p41人均GDP初中及以上比例节育率总和生育率通径图通径图z1z3z2e2z4e4-0.0350.248-0.3010.772-0.431-0.3760.5290.6360.975直接影响间接影响总影响-0.4
19、16=0.772*(-0.431)+ 0.248*(-0.376)+ 0.772*(-0.035)*(-0.376)Z2-0.4310.013=(-0.035)*(-0.376)-0.418Z3-0.376-0.376Z1-0.301-0.717各因素的影响各因素的影响 一、相关系数r的计算原理 定距变量之间的相关是从两个变量共变的角度来界定的 是两个变量以平均数为基准的平均共变程度指标,称为协方差,也称一致性度量nyyxx)( 但是,因为x、y都是具有一定测量单位的绝对量值,所以,协方差也是一个绝对量值,无法直接表示x、y之间的相关 为此,人们用协方差除以各自的标准差Sx和Sy,得到没有实际
20、单位的相对量值r,称为相关系数zzssssryxyxyxxynyyxxnnyyxx1)()(1)( 也即:相关系数就是两个变量z分数之积的平均数z3z2z1z3z1z2e1e2e1e2e2e3e3p31p31p32p32z1z2z3e1e3p31p32p21模型1模型2模型3二、模型分解z1z2z3e1e3p31p32p21ezpzpzezpzez321313231212211e2未列入模型的各个变量的影响模型1021rennnnezzzpezpzzzr211121212112112)(11rrrjiijii 1根据相关系数的特性:pr2112并由路径分析的假设条件:内生变量与外生变量的残差项
21、无关,因此有最终,两变量的相关系数可以表达为:将代入,则有: 此过程说明了为什么在通径分析中可以将标准化系数直接用作通径系数 因为对于两个标准化的变量来说,其回归系数、标准化回归系数和相关系数完全相等ppprppezzzpzzpezpzpzzzrnnnnn2132311232312121321131323213113113)(11Z1对Z3的直接作用Z1通过中介变量Z2对Z3的间接作用将代入,则有:pppprpezzzpzzpezpzpzzzrnnnnn3221313212313222321231323213123223)(11虚假相关将代入,则有:Z2对Z3的直接作用为什么会产生虚假相关?
22、看模型 z1z2z3e1e3p31p32p21e2变量2和3有共同的前置变量(共同影响因素)模型1模型2分解ezpzpzezez321313232211 因为Z1、Z2为独立外生变量,所以012rprppezzzpzzpezpzpzzzrnnnnn311232313121321131323213113113)(11将代入,则有:同理:pr3223=0 模型2是什么? 多元线性回归!模型3分解 Z1和Z2之间存在非0相关,但无法表达 与模型2的方程组相同,但分析中必须考虑这一相关的存在r12为给定条件,无法分解rppezzzpzzpezpzpzzzrnnnnn123231312132113132
23、3213113113)(11将代入,则有:同理:rppr123132230 未析部分prrp31131232prrp32231231未析部分无法解释,但可计算相关系数相关系数间接作用间接作用未析部分未析部分直接作用直接作用虚假相关虚假相关下标序号可以连接起来的包括给定不明相关关系下标序号无法连接的总结(关于相关系数分解)(关于相关系数分解) 1、这里的路径方程要考虑残差项考虑残差项。所以这里的结构方程组包括外生变量为因变量的方程 2、公式 非常重要,切记!分解时 将路径方程代入即可 3、分解出的各组成部分,根据下标是否相连、是否包含不明相关关系等,可以区分为4个部分(不一定都包括),因而加深对
24、变量关系的理解xy1xynrz z 对简单相关系数的分解大于对回归系数的分解 模型的设置十分重要,来源于理论通过逐步回归通过逐步回归优化模型优化模型优化模型的依据:优化模型的依据:1 1、理论依据、理论依据2 2、统计显著度、统计显著度3 3、实际意义(标准化偏回归系数:、实际意义(标准化偏回归系数:0.050.05)事先没有明确的理论假设:事先没有明确的理论假设:依赖统计得到较高拟合度的模依赖统计得到较高拟合度的模型型不是真正的理论检验,只不是真正的理论检验,只是探测性研究,为了形成比较是探测性研究,为了形成比较符合事实的统计模型符合事实的统计模型事先有明确的理论假设:事先有明确的理论假设:
25、检验经过调试得到的模型与原检验经过调试得到的模型与原建设模型是否有所不同建设模型是否有所不同检验说明现在这个检验模检验说明现在这个检验模型与假设模型拟合状况的评价型与假设模型拟合状况的评价统计检验的意义是通过检验模型与实际观察数据的拟合情况来反映这统计检验的意义是通过检验模型与实际观察数据的拟合情况来反映这两个模型之间的差别是否反映了数据的抽样误差。两个模型之间的差别是否反映了数据的抽样误差。如果检验不显著,说明调试中对原模型的修改,并不妨碍如果检验不显著,说明调试中对原模型的修改,并不妨碍“接受接受”原原假设模型假设模型模型调试的主要目的是尽量保持原先根据理论构想形成的模型,模型调试的主要目
26、的是尽量保持原先根据理论构想形成的模型,使得模型检验取得理论假设检验的方法论意义使得模型检验取得理论假设检验的方法论意义恰好识别过度识别不可识别可以识别模型中所有变量之间的模型中所有变量之间的通径系数是否能够完全通径系数是否能够完全以相关系数来表达以相关系数来表达检验一个模型是否有效:考察该模型的通径系检验一个模型是否有效:考察该模型的通径系数能否反求出十分近似于实际相关系数数能否反求出十分近似于实际相关系数恰好识别的模型能够完全再现实际相关系数值,恰好识别的模型能够完全再现实际相关系数值,所以不存在模型检验问题。所以不存在模型检验问题。这并不说明这一模型设置完美无缺地反映了实这并不说明这一模
27、型设置完美无缺地反映了实际因果关系结构,而是说明它没有检验的余地,际因果关系结构,而是说明它没有检验的余地,不存在可证伪性不存在可证伪性过度识别模型是从恰好识别模型中删除某些通过度识别模型是从恰好识别模型中删除某些通径所形成的径所形成的反映了研究人员关于某些变量反映了研究人员关于某些变量对于其他变量没有直接作用的假设对于其他变量没有直接作用的假设模型检模型检验的正是这些假设验的正是这些假设两种检验:两种检验:1 1、以饱和模型为基准的检验;、以饱和模型为基准的检验; 2 2、两个嵌套、两个嵌套(nested)的非饱和模型之间差异的检验的非饱和模型之间差异的检验以饱和模型为基准以饱和模型为基准无
28、差异假设:该模型从饱和模型中删除的那些通径的系数等于无差异假设:该模型从饱和模型中删除的那些通径的系数等于0 0重要概念:重要概念:基准解释指数基准解释指数基准残差指数待检解释指数待检解释指数待检残差指数待检模型拟合优度Q (越接近1,拟合优度越好)指标W (渐近卡方分布)两个嵌套的非饱和模型之间差异的比较两个嵌套的非饱和模型之间差异的比较(原理完全相同)用excel软件获得统计检验临界值 通经模型中有多少个内生变量就会有多少个观测变量及其相应参数所构成的线性方程(1)、(2)、(3)(p) 每个方程的确定系数分别为: 直至RR2)2(2)1(Rp2)(那么,R21就是回归方程未能解释的残差比
29、例根据对应所有内生变量的残差比例可以计算出饱和模型的一个指数)1 ()1)(1 (12)(2)2(2)1(2RRRRpc 称为:基准解释指数基准解释指数意义:由因果模型已经解释的广义方差占需要得到解释的广义方差的比例。类似于确定系数类似于确定系数Rc21就是基准残差指数基准残差指数同理,我们还可以计算出此饱和模型嵌套的非饱和模型的相应解释指数)1 ()1)(1 (12)(2)2(2)1(2RRRRpt 称为:待检解释指数待检解释指数Rt21就是待检残差指数待检残差指数RRt22c11Q将基准残差指数与待检残差指数相比,便能得到一个关于检验模型拟合优度的测量值可以根据可以根据Q计算出一个可以直接进行统计检验的计算出一个可以直接进行统计检验的W值来,它具有渐近卡方分布的性质(值来,它具有渐近卡方分布的性质(n100)RRt22c11d)ln-(nd)lnQ-(nW自由度为d其中,n为样本规模,d为检验模型与饱和模型的通径目之差,即形成检验模型时从饱和模型中删除通径的数目对sig值的解读方式 Sig值越大,待检模型的数据拟合程度越好 含义:表明那些被删除的通径系数等于0的概率越大,说明删除的变量越有可能是无关的 也就是说,删除了冗余信息得到了一个简化而有不失真的好模型研究的目的环境关心的性别差异分析环境关心的性别差异分析洪大用洪大用 肖晨阳肖晨阳