1、第四章相关分析第四章相关分析【本章要点】1.变量相关的概念;2.相关系数的概念及其计算公式;3.相关系数与回归系数、样本拟合优度的关系以及相关系数的显著性检验;4.偏相关系数与复相关系数的概念及其计算公式。4.1相关的概念相关的概念所谓相关是指两个或两个以上变量之间的非确定性关系。存在于两个变量之间的相关关系叫做简单相关;存在于三个或三个以上的变量之间的相关关系叫做多重相关(或复相关)。相关可以是线性的,也可以是非线性的。两个变量可以是正相关,也可以是负相关,或不相关(即零相关)。所谓正相关,就是两个变量的变化趋势在同一个方向上变化,即同时增加或同时减少。所谓负相关,就是两个变量的变化趋势在相
2、反方向上变化,即当一个变量增加,则另一个变量减少。所谓不相关就是两个变量趋向变化时,它们之间没有联系。一、相关系数一、相关系数用来描述两个变量之间线性关系程度的数量指标称作相关系数,用表示。由数理统计知道,yxxyxy(4.1.1)其中 称为总体相关系数,、为x和y的总体标准差,为x和y的总体协方差COV(x,y)。但是,实际问题中总体x与y的分布是未知时,总体相关系数无法计算,因此应该利用 xyxyxy样本观测值给出 的一个估计量,这就是所谓的样本相关系数。它定义为:xySSSryxxy(4.1.2)其中 1nyxSiixy122nxSix122nySiy(4.1.3)(4.1.4)(4.1
3、.5)与 分别叫做x和y的样本方差,叫做x和y的样本协方差,并且可以证明 、分别是 、的无偏估计量。Sx2Sy2SxySx2Sy2Sxy2x2yxy把(4.1.3)、(4.1.4)和(4.1.5)代入(4.1.2)便有yxyxriiii22(4.1.6)利用样本观测值,由公式(4.1.6)便可计算相关系数 ,它是总体相关系数 的一个估计值。r二、样本相关系数与回归系数、样本拟合优度二、样本相关系数与回归系数、样本拟合优度 之间的关系之间的关系(一)样本相关系数与回归系数的关系对于一元回归方程xyii(4.1.7)其中参数估计值SSrxyyxyxxyxxyiiiiiiiii22222(4.1.8
4、)(4.1.8)表示样本回归系数与相关系数之间在数量上的关系。当 时,则 ,即当x与y无线性相关关系时,回归系数应为零,反之亦然。因为 是的估计值,是的估计值,所以,检验=0或检验=0是考察x与y之间有无线性关系的两种等价方法。0r0r(二)样本相关系数与拟合优度之间的关系在一元线性回归分析中,我们已经知道拟合优度为yxyxRiiii2222)((4.1.9)它与(4.1.6)式比较,便有Rr2(4.1.10)可以看出,样本相关系数与拟合优度在计算上是一致的。但是,它们是两个不同的概念。利用样本相关系数r对总体x与y的相关性进行判断时,必须进行显著性检验。三、样本相关系数的显著性检验三、样本相
5、关系数的显著性检验由数理统计知,在正态总体的假设下,当=0时,统计量)2(122ntrnr(4.1.11)服从自由度为(n-2)的分布。因此可利用检验来确定样本估计值 r 的显著性:3.当H0成立时,)2(ntT4.对给定的显著水平,查自由度为 的分布表,当统计量 时,拒绝H0,否则接受H0。2nt)2(2/ntT1.提出假设 ,备择假设2.构造统计量 0:0H0:1HrnrT212检验步骤:四、相关矩阵四、相关矩阵在研究某些问题(例如:多重共线性问题)时,需要了解k元回归模型中所有各对自变量之间的简单相关系数。为了清楚方便起见,常常把这些相关系数排成一个矩阵,这样的矩阵称为相关系数矩阵,简称
6、为相关矩阵,记作:R11121221112212222111211rrrrrrrrrrrrrrrRkkkkkkkkkk(4.1.12)从(4.1.12)表达式还可以看出,相关矩阵是一个对称矩阵。4.2偏相关系数偏相关系数一、偏相关系数的概念一、偏相关系数的概念一般地说,在多个变量之间,如果只考虑y与xi(i=1,2,k)之间的相关关系,而且清除其它变量对它们的影响(或者固定其它变量不变),这种相关叫做偏相关。在偏相关中,根据被固定的变量数目的多少,可分为零阶偏相关,一阶偏相关,二阶偏相关,(k-1)阶偏相关。零阶偏相关就是所说的简单相关,即在考虑y与xi的相关时,其它变量可以任意变动,即不计较
7、其它变量的影响。一阶偏相关就是在考虑y与xi的相关时,只固定一个变量(j i),即清除变量xj 的影响。二阶偏相关就是在考虑y与xi的相关时,固定 以外的任意两个变量,即消除这两个变量的影响,其余各阶偏相关可依此类推。xi用来衡量偏相关程度的数量指标叫做偏相关系数。例如:为一阶偏相关系数,即清除了x2的影响后y与x1的相关系数。为二阶偏相关系数,即清除了x2与x3的影响后y与x1的相关系数。为(k-1)阶偏相关系数,即清除了x2,xk的影响后y与x1的相关系数。rxyx21rxxyx321rxxyxk21二、偏相关系数的求法二、偏相关系数的求法我们以三个变量()为例,来说明偏相关系数的求法。我
8、们求y与x1的偏相关系数 必须清除x2的影响。(为了方便,相关系数 ,分别简记为 ,仿此可以类推。)为此xxy21,rxyx21rxyx21rxyx12rxx21ry 21ry 12r12(一)先做y对x2和x1对x2的回归2211112xxxy(4.2.1)其中xyrxyyxyxxyxy22222222222222xxrxxxxxxxxx222112222121221222121(4.2.2)和 分别是变量y和x1中未被x2解释的那部分变差,即清除了x2对y和x1影响后的y和x1的值。这两个残差之间的相关关系代表y和x1之间的纯相关关系。12(二)求ry 21由一段知,偏相关系数应定义为22
9、212122212121ry(4.2.3)其中 ,从而0212211,xyyyyyyy21)()(xxxxxxxx2111111112)()((4.2.4)(4.2.5)把(4.2.4)、(4.2.5)代入(4.2.3)的分子中)(122122121rrryxyy(4.2.6)又 把(4.2.2)代入整理可得)(2221xy)1(22221ryy(4.2.7)同理)1(2122122rx(4.2.8)把(4.2.6)、(4.2.7)和(4.2.8)代入(4.2.3)便有)1)(1(21222122121rrrrrryyyy(4.2.9)对(4.2.9)式中的下标作代换(12,21)就可得到)1
10、)(1(22121211212rrrrrryyyy(4.2.10)一般地说,多个变量y与x1,x2,xk,对于y与xj(j=1,2,k)的(k-1)阶偏相关系数有如下形式的递推公式:)1)(1(2)1()1()1(122)1()1()1(12)1()1()1(12)1()1()1(12)1()1()1(12)1)(1(12rrrrrrkjjjkkjjykkjjjkkjjykkjjyjkjjyj(4.2.11)4.3 复相关系数复相关系数复相关系数是指多个变量y与x1,x2,xk的相关关系中,其中一个变量 y 与其它所有变量相关程度的量度指标。也可以说是变量x1,x2,xk对y的相关程度。假定回
11、归模型为uxxykk110(4.3.1)记xxykk110*(4.3.2)则uyy*(4.3.3)对 y 与x1,x2,xk作相关分析就是对y 与 作相关分析,记 为 y 与 x1,x2,xk 的复相关系数,而可 以看作 y 与 的简单相关系数。y*xxky1*yyy*定义*1),(yyyyxkxyyyCOV(4.3.4)因为2*2*2*),()()()()(),(yyyuCOVyEyuyEyEyEyyEyEyyCOV(4.3.5)把(4.3.5)代入(4.3.4)便有:yyyxxk*1(4.3.6)由于 是无法求得的,我们考虑它们的估计量:*,yy)(1122yyniy(4.3.7)作为 的
12、估计量。由于2yyxxykk110*(4.3.8)所以)(11222*yyniyy(4.3.9)作为 的估计量。2*y于是,样本复相关系数定义为)22*(1yyyyRiiyyyyyxxk(4.3.10)是 的估计量。Rxxky1xxky1由3.4节知,y 对x1,x2,xk 回归方程的拟合优度)()(2221yyyyTSSRSSRxxiiyk(4.3.11)比较(4.3.10)和(4.3.11)两式可以看出,样本复相关系数与拟合优度在计算上是一致的,可以由拟合优度求得复相关系数。但是,两者的概念完全不同,它们各自的含义与4.1节的解释相同。由于总体复相关系数 是不可计算的,而计算出的都是样本复相关系数,所以,一般讲复相关系数都是样本复相关系数。样本复相关系数作为总体复相关系数的估计量也要进行显著性检验,其方法与4.1节的方法类似,这里不再重述。xxky1