1、第五章 通径分析一、引言 科学的最终目的在于揭示事物变化的内在规律,因果关系是事物内在规律的一种基本形式。然而,事物的内在联系并不能被直接观察到,所以需要在科学研究中应用各种方法来加以探索和分析。通径分析便是一种探索系统因果关系的统计方法。二、通径模型的设置 通径模型既可以用结构方程组的形式来表示,也可以用通径图来表示。为了表达和分析上的简明,一般在通径分析中采用标准化的变量,并按照因果序列给出相应的下标。三、递归通径模型与非递归通径模型 通径模型有两种基本类型:递归模型与非递归模型。两种模型在分析时有所不同。递归模型可以直接通过常规最小二乘法回归()来取得通径系数估计值,而对于非递归模型则不
2、能这样做。尽管本章主要介绍递归模型的通径分析,但是要求读者能够预先正确判断一个模型的类型属性,才能保证应用这些分析技术时不会发生搞错研究对象的问题。(一)递归通径模型 因果关系结构中全部为单向链条关系、无反馈作用的模型称为递归模型。并且这意味着在这种模型中,各内生变量与其原因变量的误差之间、各两个内生变量的误差之间必须相互独立,即相关系数为。(二)非递归通径模型 与递归模型相对的另一类模型称作非递归模型。通径分析在分解相关系数时以模型中所有变量之间的相关系数矩阵作为基础数据,分析也比较繁琐,我们将放到后面来介绍。而利用通径分析技术分解简单回归系数时可以直接依赖计算机统计软件所输出的回归系数。借
3、助上面陈述的两个基本性质,我们将直接以计算输出的标准化回归系数作为基础数据,展示递归通径模型分析技术。(三)递归通径模型分析的假设条件 总结本节以上讨论,可以归纳出递归通径模型需要满足以下假设和限制条件:第一,通径模型中各变量之间的关系为线性、可加的因果关系。模型变量之间的关系必须为线性关系,意味着在设立因果关系时,原因变量的每一单位变化引起结果变量的变化量不变。由于变量之间的关系是线性的,进而达到一个结果变量在受多个原因变量作用时,各原因变量的作用可以迭加。尽管通径分析本来可以处理交互作用,但不作为本章介绍的内容。第二,每一内生变量的误差项与其前置变量不得相关,同时也不得与其他内生变量的误差
4、项相关。这就是说,假设误差项所代表的一些未明确纳入模型的变量不能与前置变量相关。同时,模型不对外生变量之间的相关进行分析。第三,模型中因果关系必须为单向,不得包括各种形式的反馈作用。第四,模型中各变量均为间距测度等级。第五,各变量的测量不存在误差。在满足上述假设条件的情况下,便同时满足了一般回归的假设条件,因此通径分析可以通过对每个内生变量进行简单或多元常规回归求解模型中各通径的系数。四、分解简单回归系数的通径分析 在递归模型中,通过回归分析得到模型的所有通径系数以后,可以在此基础上对于变量之间简单回归系数进行分解。与下一节将要介绍的对相关系数分解的方法有所不同,在对回归系数分解的通径分析中,
5、我们将忽略各个回归方程的误差项。实际上,每个内生变量的误差项都作为模型的外部影响单列处理。分解简单回归系数的通径分析的主要功能如下:第一,计算一个变量对最终反应变量的直接影响和间接影响,以及作为两者之和的总影响。第二,在间接影响中,还可以分解出以不同通径传递的间接影响。第三,在控制某些变量的条件下,完成上面两项工作。第四,对于通径模型进行检验,包括对各通径的检验,以及对过度识别模型进行检验。(一)外生变量对最终反应变量的各种影响 当最终反应变量完全作为一个外生变量的函数时,我们就称这个表达式为简化型模型。在简化型模型中最终反应变量与这一外生变量之间的关系就通过括号中的部分表示,它就是总影响。而
6、括号中可以包括一项直接影响和若干项间接影响。因为本例中的模型过于简单,所以只有两项。(二)以不同通径传递的间接影响 如果模型比较复杂,则简化型模型便会呈现较为复杂的情况。由于中间变量较多,一个原因变量对于结果变量的总间接影响是通过各种通径传递影响的总和。而这些不同的间接影响可以应用通径分析来进行分解。(三)在控制某些变量的条件下的总影响的分解 在研究工作中,除了需要分析一个原因变量对反应变量的总影响并将其分解为直接作用、各种间接作用以外,常常还需要知道在控制某些中间变量的作用以后上述各种影响的强度和方向。这一需要导致了本小节所要介绍的分析技术的产生。“控制”这一概念是整个统计研究的一个极为重要
7、的内容。这里所说的控制的目的是为获得净作用,并且采取的是统计调整法手段。在多元回归中我们已经介绍了这种控制的概念。在通径分析中的控制,实际上是分析如果控制变量处被阻断以后,原因变量还能发挥哪些作用。(四)标准化与非标准化的通径系数 在统计文献中,对于通径分析以及回归分析中采用标准化系数还是采用非标准化系数一直有所争论。实际上,两种方式各有其优缺点。标准化系数的优点在于,它没有测量单位,因而在同一层次中的通径系数(即同一回归中不同的偏回归系数)之间具有可比性。同时,标准化系数的采用在通径分析中能使分解和表达变得更简单。但是标准化系数所反映的不仅是自变量对因变量的影响强度,而且还反映了模型中各变量
8、的方差以及它们之间的协方差,甚至还反映了寓于误差项之内的未包括在模型中的那些变量的方差。(五)用列表法报告各种影响作用分解 通常在进行了通径系数估计之后,都以通径结构方程组或通径图的形式提供报告。然后对于一些简化型方程所得到的各种影响的分解结果以列表的形式给出,这不但能够以简明的格式表达多种分解情况,而且还同时对于分解结果进行了验算。五、分解简单相关系数的通径分析 实际上,通径分析技术是从分解相关系数发展起来的,因此分解相关系数的通径分析更带有一般性意义,并且可以更清楚地揭示出通径分析的原理。此外,分解相关系数的通径分析还与通径模型的统计检验的理解相联系。六、通径模型的调试与检验 通径模型建立
9、以后,除了估计通径系数、分解各种不同作用组成部分以外,通常还需要进行模型的调试与模型的统计检验。(一)通径模型的调试 在很多情况下,通径模型的调试及分析往往是先从饱和模型的建立开始的。但是饱和模型往往并不是我们实际上想要的最终模型,饱和模型经常只是作为一个起点或基准,并且下一小节将说明,真正能够检验的是非饱和模型,而饱和模型无法进行整个模型的统计检验。饱和模型的因果关系结构必须建立在实际经验的总结和一定的理论假设之上。比如,可以通过变量之间的逻辑关系、时间关系来设置因果结构。但是,饱和模型通常都需要进一步调试。有时,调试是出于初步统计分析的需要,有时是出于理论分析的需要。(二)通径模型的识别
10、本章第五节中讨论了通径模型中所有变量之间的相关系数可能以通径系数函数的形式来表达,那么反过来还有通径系数能否用相关系数表达的问题。模型中所有变量之间的通径系数是否能够完全以相关系数表达是这一模型的基本性质,这一性质在评价和检验一个具体模型的有效性时具有十分重要意义。对这一性质的判断在通径分析中称为模型的识别。所谓识别,就是判断模型参数是否可以被估计出来。(三)对过度识别的通径模型的整体检验方法 对于递归模型来说,过度识别模型是饱和模型中删除若干通径后所形成的模型。因为不论如何具体设置,饱和递归模型能够完全拟合数据,即通过其通径系数能够完美地反求出模型变量之间的所有实测相关系数,因此饱和模型就是
11、完美拟合的代表,可以作为评价非饱和模型(即过度识别模型)的基准。所以,对于非饱和模型的评价,就是通过其对于相关系数的估计与饱和模型估计的相关系数进行比较所进行的。注意要检验的非饱和模型实际上是作为标准的饱和模型中的一部分,它除了删掉了某些通径(也可以说是将这些通径系数值设置为)以外,其余部分与作为标准的饱和模型完全相同。这种关系在统计上称为嵌套。在用饱和模型作为基准模型时的检验 两个嵌套的非饱和模型之间差异的比较七、示范例题 下面我们用第二章例回归方程所用的五个变量建立一个通径模型,然后分解回归系数,并根据有关回归结果进行该通径模型的调试,最后示范调试模型的统计检验。这个例题并不是一个具有严格
12、理论意义上的研究,其主要目的是示范通径分析的操作步骤,并通过其具体的统计结果帮助读者深入了解通径分析的原理以及它与回归分析的不同之处。(一)初始通径模型(二)初始模型的模拟结果(三)调试模型的模拟结果 将图中两条统计不显著的通径删去,便得到了新的调试模型。其中还是有四个内生变量,表明它仍是一个四个回归方程的联立方程组。其实,这时其他的方程都没有任何变化,只有初始模型中的回归()发生了变化,由三个自变量的多元回归变成了一个简单回归,我们将这个方程称为回归()。将其取得的标准化回归系数替代初始估计,于是我们就可以将调试模型的估计结果画为一个新的通径图。(四)外生变量对最终反应变量的影响分解表 在初
13、始模型中,如果不考虑各通径系数的统计显著性,人均收入对死亡率的因果影响链条是非常复杂的。它的直接影响为0.325,表明经济水平提高可以降低死亡水平。但是它还存在很多的间接影响,其中既有正作用的,也有反作用的,合计的间接总影响为正的0.122。所以,负的直接影响与正的间接总影响发生部分抵消,导致人均收入的总影响为0.204,小于其直接影响幅度。实际上,由于初始模型是一个饱和模型,因此这个总影响的方向与幅度就等于用死亡率对人均收入做简单回归取得的标准化回归系数。这种结果并不是出于巧合,而是由统计原理决定的。就此,我们便可以知道,一个简单回归虽然并没有包括其他自变量,但其回归系数中其实包含着该自变量
14、通过其他自变量传递的间接影响。同时,我们也不应该将简单回归系数看成是一种“虚假的”影响,因为它不是虚假的,而是表达了该自变量对因变量的总影响。(五)调试模型的统计检验 上述拟合的调试模型是通过从初始模型中删除了两条通径后得到的,于是我们就很关心:这两条通径的删除应该理解为出于数据样本的抽样误差,而两个模型之间差异不大,还是应该将这种改变理解为两个模型存在统计性显著的差异,因此需要拒绝初始模型的理论假设?这就需要以初始模型作为标准对调试模型进行统计检验。基本概念 通径模型 通径方程组 通径图 通径系数 外生变量 内生变量 误差 最终反应变量 递归模型 非递归模型 直接影响 间接影响 总间接影响
15、总影响 简化型模型 中间变量 饱和模型 控制变量 偏简化式 标准化系数 非标准化系数 作用分解表 伪相关 未析部 分 模型调试 模型识别 过度识别模型 模型检验 放大镜效应 显微镜效应本章要点 通径分析探索变量系统的因果关系结构,描述变量之间作用的链条传递形式。通径模型有两种类型:递归模型与非递归模型。本章介绍了这两种模型的辨别,但是只讨论了递归模型的建立和分析。通径分析可以用来分解简单回归系数,其主要功能是将一个变量对最终反应变量的总影响划分为直接影响和间接影响,并且可以将间接影响进一步划分为以不同通径传递的部分。通径分析还可以用来分解简单相关系数。对简单相关系数的分解包含了对于简单回归系数的分解,它不仅提供一个变量与最终反应变量之间简单相关系数之中所包含的直接影响和间接影响,还提供了其中的未析部分和伪相关部分。由于通径分析是建立在回归分析和相关分析基础上的分析,因此属于更高层次的分析方法。这一分析技术不仅具有巨大的实际应用价值,而且对于深刻理解回归分析和相关分析具有重要的方法论指导意义。