1、第十一章典型相关分析 典型相关分析是进行两组变量之间相关的分析技术,因而是一种更一般性的方法,具有较强的分析能力。相比之下,简单相关反映两个变量之间的相关,多元相关则反映一个变量与一组(多个)变量之间的相关,而典型相关分析则是要反映两组变量之间的相关,而这两组变量都包括不止一个变量。所以,典型相关模型将更为复杂。换一个角度来说,多元相关分析是典型相关分析的一种特例,而简单相关分析又是多元相关分析的一种特例。典型相关分析的用途很广。当研究人员希望研究两组变量之间的关系时,就可能用到典型相关分析。这里所要强调的是,典型相关分析不是分别对其中一个变量组的每个变量做与另一组的多个变量之间的多元相关或多
2、元回归,这样做其实不能得到两个变量组之间的整体相关的信息,因为同组每一个变量之间也存在着相关,多个多元相关或回归的结果是不能简单迭加在一起的。而典型相关分析则是将各组变量都作为整体来对待,因此它所描述的是两个变量组之间的整体的相关形式,而不是关于两个变量组中变量的相关。实际研究当中,注重变量组之间关系的情况是很多的。比如,研究个人及其家庭的社会经济状况与本人在某些方面的表现之间的联系,其中社会经济状况可以是多方面的,本人的表现也可以从多个方面来测量。又比如,在有关专题的调查(即关于知识、态度和实际行动的调查)以后,我们可能将知识和态度变量作为一组变量,将实际行动作为另一组变量,研究知识和态度与
3、实际行动之间的联系。再比如,典型相关分析还可以用来分析试验研究中产生的两组变量,即试验前各方面的测量记录与试验后各方面的测量记录之间的联系。还有,典型相关分析还可以用于对应关系研究,如夫妻之间、代代之间、干群之间、供求之间所存在着的两组多变量之间关系的研究。一、典型相关分析思路的简介 本章的主旨是介绍利用软件来进行典型相关分析,不再详细介绍它的数学证明及其计算过程,而是注重介绍它的分析思路以及有关主要概念、指标的理解和应用。典型变量都是成对构建的,一对典型变量构成典型相关分析的一个维度。一对典型变量之间的简单相关系数就是典型相关系数。请注意,典型相关表达的不是原来两组中任何具体观测变量之间的相
4、关,而是根据两组所有观测变量的信息相应构建的成对工具变量之间的相关,因此表达了两组变量整体关系的一部分。并且,两个观测变量组之间的典型相关往往存在多个维度,其维度的多少由两个变量组中较小一组的变量数决定。因此,两个变量组之间的整体关联最终被分解到不同的独立维度上,由该维上的成对典型变量来代表,而该维关联程度则由这一维的典型相关系数来计量。图中只给出了典型变式的通项表达,实际上有多维典型变式,而每一维典型变式中的系数都不相同。典型相关分析建立第一对典型变量的原则是尽量使所建的两个典型变量之间的相关系数最大化。换句话说,就是在两个变量组各自的总变异中先寻求它们之间最大的一部分协变关系,并用一对典型
5、变式(量)所描述。于是,第一维度上的典型相关系数也随之求得。同时,这还意味着上述的协变差异部分已经从两组各自总变异中被剥离出去了。然后,在两组变量剩余的变异中继续寻找第二个最大的协变部分,形成第二对典型变式(量),并解出第二维度上的典型相关。这样的过程不断继续,直至所有协变差异最终被剥离完毕。因此,两组观测变量之间的关联可以由若干对典型变量来代表。各对典型变量之间的典型相关程度依序次逐步下降。由于每一维上成对典型变式都是根据两组观测变量之间的协变差异构建的,因此实际上能够得到典型相关维度数目的上限为两组中变量较少一组的变量个数。二、典型相关模型的基本假设和数据要求 典型相关模型的基本关系假设是
6、两组变量之间为线性关系,即每对典型变量之间为线性关系。并且,每个典型变量与本组所有观测变量的关系也是线性关系。如果理论和经验说明,两组变量之间并不是线性关系,就需要采取一些方法来改造原来的观测变量。一些在多元回归中常用的变量改造方法都可以用在这里,比如取对数、取倒数、取平方值等等。为了检验两组之间观测变量是否为线性关系,可以审阅其简单相关矩阵。当理论和经验说明应存在较强联系的变量之间相关程度很低时,就应考虑它们的关联可能实际上不是线性关系,并寻找将其转换为线性关系的方法。另外,检验所有观测变量的分布也是常用的手段。如果一个变量的分布呈严重偏态,便会影响它与其他正态分布的变量之间的简单相关程度。
7、三、使用软件进行典型相关分析 非常遗憾的是,软件对别的分析模块越做越好,只有典型相关分析是个例外,现在已经不能通过菜单来操作典型相关分析了。但是,在的程序窗口仍可以调入或直接写入命令的方式来完成典型相关分析工作。有两种不同命令方法都可以完成对数据的典型相关分析。第一种,宏程序方法 第二种,宏程序方法(一)使用spss附带的典型相关分析命令程序进行分析 准备工作 调用或键入运行典型相关分析的命令 第一种方法:命令的说明与运行 第二种方法:命令的说明及运行(二)关于两种操作方法可能取得某些统计指标的不同结果的讨论 需要提示的是,的两种方法所得到对应典型系数、负载经常出现数值相等而符号相反的情况。这
8、种不一致并不是程序设计错误,而是因为两种方法对典型变量定义不同所造成的。如果初始构建的一对典型变量之间计算的典型相关系数为负数,为了能保持输出正的典型相关系数的常规,就需要改变其中一个典型变量值的符号。这种形式上的改变其实完全不影响该维度的相关程度。但是,不同软件或模块的程序在决定对哪一个典型变量改变符号时有任意性,而上述两种计算程序里出现了相反的选择。与此对应,其他一些与改变符号的典型变量相联系的指标也要改变符号。所以,这两种方法输出的典型相关系数虽然完全相同(都是正数),但由于改变符号的典型变量不同,因此会出现两种方法得到的一部分典型系数、负载等出现数值相等、符号相反的情况。其实,这种表面
9、上的不一致并没有改变两种方法的统计结果本质上的一致性。了解这种表面不一致的原因以后,研究人员也就用不着再感到奇怪了。四、典型相关分析的统计指标 在后面各统计指标的介绍中,我们将同时注明提供的两种方法能否提供每项指标,以及如何提供这些指标。我们将不再讨论这些统计指标的公式和计算过程,只对某些可以再做一些简单计算便能得到的重要信息才给出计算公式。介绍和讨论将集中于典型相关分析中所涉及统计指标的意义,以及如何应用这些指标来展开后续分析工作和结论的阐述。(一)典型相关系数 两种方法都能够产生典型相关系数。并且这一部分结果的输出部分实际上是排在统计检验的前后。我们为了叙述方便将其作为第一个指标来介绍。(
10、二)典型相关系数的平方 典型相关系数的平方值本身构成一个重要指标,亦可简称为典型相关平方。在使用方法时,此项指标必须由研究人员自己来进行计算。比如,本章例题的第一个典型相关系数为0.578,那么相应的典型相关平方为0.334。(三)特征值及其他有关指标(四)检验典型相关系数 典型相关系数的显著性检验有两种,一种是整体检验,一种是维度递减检验。整体检验 整体检验()是同时检验所有的典型相关系数,看是否有一个是显著的,即对总体的典型相关程度有推断意义。维度递减检验 维度递减检验是典型相关分析必要输出,因此的两种方法都提供这种检验。(五)典型系数 典型系数是观测变量转换为典型变量的权数,相当于回归系
11、数。因为典型变量有若干个,所以相应有多套典型系数,一套对应一个典型变式。同时因为有两组变量,因此共有(k1,k2)套典型系数。(六)典型负载系数 典型负载在有些文献中也被称为结构相关系数或结构系数。典型负载是典型变量与同组观测变量之间的两两简单相关系数。(七)交叉负载 交叉负载即某组的典型变量与另一组的观测变量之间的两两简单相关。比如,下列第二个相关矩阵中的第二行第一列元素值,是第二组观测变量狓与另一组(即第一组)的第一个典型变量之间的简单相关系数。设立交叉负载这个指标本来是为了直接将典型变量与观测变量在组间交叉联系在一起,但是由于其相关系数形式的缺陷,现在人们更愿意采用它的平方即后面介绍的一
12、组的典型变量与另一组观测变量的交叉共享方差百分比的形式。(八)典型变量对本组观测变量总方差的代表比例 典型变量被构建出来是为了作为本组观测变量总方差中某一特征部分的代表,同一组不同的典型变量则分别代表了本组观测总方差中完全不同的特征部分。于是,一个典型变量所代表的本组观测总方差中的比例便反映了这个典型变量的代表能力。这一指标也可以采用被动式来表达,即本组所有观测总方差中由本组各典型变量所分别代表的比例。为了叙述方便,后面有时将简称其为组内代表比例或代表比例。这一代表比例用百分比来测量显然便利于同组的各典型变量代表性的比较。(九)冗余指数 冗余指数也是一组观测总方差中与一个典型变量所共享的比例,
13、不过它不是某组的典型变量与同组观测变量总方差的共享比例,而是某组的典型变量与另外一组的观测变量总方差的共享比例,因此是一种组间交叉的协变差异比例。这一比例在研究模型中有因果关系假设时尤其重要,因为它能够反映自变量组各典型变量对于因变量组所有观测变量总方差的解释能力。为了叙述方便,后面有时将根据行文具体情况将冗余指数称为(一个典型变量的)解释比例或(某组总方差的)被解释比例。五、关于典型冗余分析的介绍 冗余这个概念可能对于大多数读者十分陌生,然而它不仅对于典型相关分析十分重要,而且对于整个统计分析也很重要。就词意理解,冗余有冗长、多余、重复、过剩的意思。与相关分析类似,冗余是就方差量而言的关联程
14、度分析。如果一个变量中的部分方差与另一个变量的部分方差有协变关系,就说这个方差部分与另一变量方差相冗余,也就是说它可以由另一个变量来预测或解释。其实,相关分析是同一关联的另一种表达,但相关系数的数量含义并不确切。而相关系数的平方(如回归中的确定系数)就属于冗余指标的范围,表达了解释方差的百分比。所以,冗余比相关更具有明确的定量含义,更方便实际应用。六、例题分析 借用第三章例题数据(文件名为)。数据中共有个案例和个变量,变量名为x1,x2,x3,x4,x5,分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。按变量性质将其分为两个变量组,即前两个变量组成计划生
15、育变量组,后三个变量组成社会经济变量组。研究目的是通过典型相关分析揭示社会经济变化对计划生育工作的影响。所以,计划生育变量组作为因变量组,而社会经济变量组作为自变量组。下面,我们根据方法取得的典型相关分析结果来进行简要的阐释。本例题中自变量组解释能力较差主要是由于典型相关平方不太高。但有的时候并不是这样,可能会出现典型相关平方的值很高而代表比例很低而导致解释比例低的情况。这时,典型相关系数值则会显得更高。但是,千万不要被很高的典型相关系数所迷惑,以为典型相关程度高便一定意味着两个变量组之间有很强的关联,其实典型相关程度高只是说明构建的一对典型变量之间关联紧密,其中一个典型变量对另一侧变量总方差
16、的解释能力还要依赖于另一侧对应的典型变量的代表能力有多高,而两个变量组的总方差关联程度高不高则同时依赖于这一对典型变量对各自本组总方差的代表能力强不强。此外,根据前面对于本例题结果统计检验不显著的分析,一个有效的措施是删除那些不太重要的“重复”变量。比如狓与本组其他变量相关程度很高,而其标准化典型系数和典型负载又较低。如果将其从模型中删除后重新进行分析,那么第一维度便可以得到的显著水平。并且第一维度的典型相关仍高达,而且第一维度的冗余指数也并没有明显的损失。读者可以自行操作,从实践中得到一些经验。基本概念 典型变式 典型变量 预测变量 标准变量 典型函数 多元检验 多元正态分布假定 方差齐性假
17、定 典型相关系数 典型相关系数的平方 特征值 整体检验 维度递减检验 典型系数 粗典型系数 标准化系数 典型负载 结构相关系数 交叉负载 组内代表比例 冗余指数 共享方差百分比 总冗余 指数本章要点 典型相关分析用于描述两组变量之间所存在的相关关系。它将每组变量作为一个整体来对待。通过相关系数最大化原则,依次建立若干成对的典型变量,并计算出它们之间的相关系数(即典型相关系数),代表两组变量之间在不同维度上的共变关系。对于各维度上的典型相关进行检验,精简不显著的维度,以便将分析集中于那些存在显著相关性的维度。典型相关分析不能局限于典型变量之间的相关。因为即使在典型变量与原始观测变量之间相关程度很弱时,典型相关也可能很强。所以,还需要对某个典型变量对本组观测变量的代表能力和对另一组观测变量的解释能力等方面具体分析后,才能正确评价典型相关的意义。冗余分析是典型相关分析中十分关键的一环,它综合各种分析指标对两个变量组之间的整体相关性进行评价。参考文献 王国梁,何晓群多变量经济数据统计分析西安:陕西科学技术出版社,方开泰实用多元统计分析上海:华东师范大学出版社,吴国富,安万福实用数据分析方法北京:中国统计出版社,肖云茹概率统计计算方法天津:南开大学出版社,