1、 多元共线性的产生 多元共线性的影响与表现 多元共线性的诊断 多元共线性的处理 Logistic回归与Cox回归模型中的多元共线性问题多元共线性o“多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系 成立.其中常数km(m=1,2,n)不全为0.称为完全多元共线;0Mm2211XkXkXko 现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况 其中 为随机误差项.此时可称为近似多元共线。0Mm2211XkXkXk一、多元共线性的产生o
2、对于多元共线性问题产生的根源,可以从两个方面考虑:n 1、由变量性质引起由变量性质引起n 2、由数据问题引起n 情况一:样本含量过小情况一:样本含量过小n 情况二情况二:出现强影响观测值出现强影响观测值n 情况三情况三:时序变量时序变量 1、由变量性质引起n 在进行多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。情况一:样本含量过小 假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本
3、并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。如果研究的自变量个数大于2,设为X1,X2,.,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。情况二:出现强影响观测值o进入20世纪80年代后期,人们开始关注单个或几个样本点对多重共线性的影响。研究表明,存在两类这样的数据点或点群:(1)导致或加剧多重共线性(2)掩盖存在着的多重共线性。(a)中因异常观测值的出现而掩盖了共线性,(b)中因异常观测值的出现而产生了共线性。这样的异常观测值称为多元共线性强影响观测值。显然这种观测值会对设计矩
4、阵的性态产生很大影响,从而影响参数估计。情况三:时序变量o若建模所用的自变量是时序变量,并且是高阶单整时序变量,这种时序变量之间高度相关,必然导致多重共线性。二、多元共线性的影响o 以多元线性回归分析为例,讨论多元共线性问题对参数估计的影响。o 采用最小二乘法(the Least Squares Method)对多元线性回归模型的偏回归系数进行估计。经整理得一个关于0,1、m的线性方程组,称为正规方程组。若记方程组的系数矩阵为A,则A恰为 。的最小二乘估计可表示为:YXXXT1TXXTo 如果自变量存在完全多元共线性,设计矩阵不是列满秩的,,,即 的逆阵不存在,该矩阵为奇异矩阵。因此无法利用最
5、小二乘法估计偏回归系数。o 如果自变量之间存在近似共线性,接近奇异,此时如果仍然采用最小二乘法,会使偏回归系数的估计值不稳定、不合理,严重影响回归模型拟合的效果。1mXr0|XX|TXXT0|XX|TXXT多元共线性的表现o 上述效应在实际应用中主要表现为:n(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;n(2)偏回归系数估计值的方差很大;n(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;n(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释。出现以上表现,提示存在多元共线
6、性问题,应进行多元共线性诊断。三、多元共线性的诊断o 常用的共线性诊断指标有以下几个:n(1)方差膨胀因子(variance inflation factors,)其中 为 与其余(m-1)个自变量线性回归的决定系数。值越大,多元共线程度越严重。jVIF)1(12jjRVIFmj,2,12jRjXo(2)特征根系统(system of eigenvalues)主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当 且对应的方差比大于0.5时,可认为多元共线性严重存在。10jho 此外,还有几种方法可以进行共线性诊断:n 1、自变量的相关系数诊断法自变量的相关系数诊断法n 2
7、、多元决定系数值诊断法多元决定系数值诊断法n 3、行列式判别法行列式判别法n 4、回归系数方差分解法(、回归系数方差分解法(RCVDRCVD法)法)1、自变量的相关系数诊断法自变量的相关系数诊断法o自变量的两两相关分析,如果自变量间的二元相关系数值很大(如大于0.9),则可认为存在多元共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除多重共线性的可能。2、多元决定系数值诊断法多元决定系数值诊断法o假定多元回归模型p个自变量,其多元决定系数为 。分别构成不含其中某个自变量(Xi,i=1,2,p)的p个回归模型,并应用最小二乘法准则分别拟合回归方程,求出它们各
8、自的决定系数 (i=1,2,p)。2yRp,x,xx212iRo 如果其中最大的一个 与 很接近,假设不含 的回归模型,其决定系数与 很接近,说明将 从模型中去掉,对回归模型的决定系数影响不大。因此,可认为该变量对Y总变异的解释能力可由其他自变量代替。它很有可能是其他自变量的线性组合。该自变量进入模型后就有可能引起多重共线性问题。o 该方法也存在临界值和主观判断问题。2kR2yR2yR1X1X3、行列式判别法行列式判别法o令 ,为 的特征根,于是令 D=|=det(),为H的行列式。o当 为奇异矩阵时,其最小特征根很小,接近于0。而D=det()=j,这样D就接近于0。XXHTXXTp,1,2
9、,jXXTjXXTXXTXXT判断标准:o 当0 D0.01时,认为有严重共线性;o 当 0.01 D0.05时,认为有中等或较强共线性;o 当0.050.1时,认为没有共线性。小结o 模拟实验和实际数据都表明,这些方法和标准对诊断多元共线性有一定的效果。当 的特征根都比较小时,条件数法很难诊断多元共线性,这时可考虑用行列式法进行诊断;当特征根相差悬殊时,条件指数法容易发现严重复共线性,方差膨胀因子法容易发现一个自变量和其他自变量之间的线性关系。XXT强影响点的诊断o 样本数据的质量也是影响多元共线性存在与否的重要外因。目前诊断多重共线性影响点的基本方法有(1)学生化残差(studentize
10、d residual)(2)距离。此外还可以采用马氏距离(Mahalanobis.distance),删除残差(deleted residual)等方法。skCoo o Walker在1989年发展了一种多元共线影响点的奇异值分解(SVD)的诊断技术。该法在实践中很有效,但它依据奇异值分解计算较为繁琐,更为严重的是对多重共线性影响点诊断的遗漏。另外,我国学者赵进文曾提出多重共线性影响点的主成分诊断法。四、多元共线性的处理o 为了避免共线性的影响,目前多采用回归系数有偏估计的方法,即为了减小偏回归系数估计的方差而放弃对估计的无偏性要求。换言之,允许估计有不大的偏度,以换取估计方差可显著减小的结果
11、,并在使其总均方差为最小的原则下估计回归系数。解决多元共线性问题的方法o1、岭回归岭回归o2、主成分回归主成分回归o3、偏最小二乘回归偏最小二乘回归o4、其它:神经网络、通径分析其它:神经网络、通径分析1、岭回归:o 1962年,A.E.Hoerl针对多元共线性的问题,提出了一种叫岭回归的回归估计方法。对线性模型 定义偏回归系数的岭估计为 其中k称为岭参数。mmXXXY22110 YXXXT1TkIko 岭回归的核心思想是当出现多重共线性时,的特征根 至少有一个非常接近于0,从而使参数的最小二乘估计 很不稳定。给 加上一个正常数矩阵kI(k0),则 等于零的可能性就比 的可能性要小得多,的特征
12、根 接近于0 的程度就会得到改善。XXTjYXXXT1T0|XXTXXT|XX|TkIXXTkj|kI|XXTo 且从理论上可以证明,存在k0,使得的 均方误差比 的均方误差小。因此,用岭回归来估计偏回归系数比用普通最小二乘法估计要稳定得多。这样就消除了多重共线性对参数估计的危害。ko 在实际应用中,通常确定k值的方法有以下几种:n 岭迹图法岭迹图法n 方差膨胀因子法方差膨胀因子法n 控制残差平方和法控制残差平方和法2、主成分回归o 1965年,W.F.Massy提出了主成分回归(PrincipalComponent Regression,简称PCR)方法,首先提取自变量的主成分,由于各主成分
13、之间相互正交,相关系数为0,此时即可用最小二乘法估计偏回归系数,建立因变量与相互独立的前几个主成分的回归模型,然后再还原为原自变量的回归方程式。o 可见,主成分回归分析解决多重共线性问题是通过降维的处理而克服多元共线性的影响,正确表征变量间的关系。o 然而,由于PCR提取X的主成分是独立于因变量Y而进行的,没有考虑到X对Y的解释作用,这就增加了所建模型的不可靠性。3、偏最小二乘回归o 针对多元共线性干扰问题,S.Wold和C.Alban在1983年提出了偏最小二乘回归(Partia Least Squares Regression,简称PLSR)方法。PLSR方法吸取了主成分回归分析从自变量中
14、提取信息的思想,同时还考虑了自变量对因变量的解释问题。基本思路o 首先在自变量集中提取第一潜因子t1(t1是x1,x2,xm的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一潜因子u1,并要求t1与u1相关程度达最大。o 然后建立因变量Y与t1的回归,如果回归方程已达到满意的精度,则算法终止。否则继续第二轮潜在因子的提取,直到能达到满意的精度为止。o 若最终对自变量集提取m个潜因子t1,t2,tm,偏最小二乘回归将建立Y与t1,t2,tm的回归式,然后再表示为Y与原自变量的回归方程式。小结o 以上介绍了三种解决多重共线性问题的方法,它们各自都有其特点及适用范围:偏
15、最小二乘法在解决多因变量与自变量方面及预测方面有着比其它两种方法更优越的地方,但在t的实际意义解释方面与主成分一样比较欠缺。o 岭回归由于在其K值的确定上有很大的人为因素,使之缺乏一定的科学性,但也正因为如此,使它能够很好地把定性分析与定量分析两者有机地结合起来。由于这三种方法估计出的参数值都是有偏的,所以在未出现多重线性相关问题时最好还是用普通最小二乘法来估计参数。从实际运用来看最小二乘法与岭回归的模拟效果相对来说好一些。五、logistic回归的多元共线性问题o 诊断:诊断:多元线性回归中的三个诊断工具:条件指数、方差比、方差膨胀因子可以推广到logistic回归。处理o 逐步logist
16、ic回归通过筛选变量来建立最佳回归方程,是近年来用以处理共线性问题的常用办法。虽然这种方法尽量减少了多重共线性,但是它可能会把某些实际上对结果有显著影响的变量排除在模型之外。o 将主成分分析与logistic回归结合起来,先提取自变量的主成分,再进行logistic回归,也是一个可行的方法。通过主成分变换消除了自变量观察矩阵之间的共线关系,从而使回归得到较为可靠的结论。六、Cox回归模型的多元共线性问题 o 多因子Cox模型是比较灵活的生存分析模型,但是当多因子存在共线性时,可以利用逐步回归分析或最优回归分析等方法对多因子变量进行筛选,将存在共线性的因子从模型中剔除,但是直接采用逐步回归的方法筛选变量,所得模型并不总是很理想。o 目前,常用的处理共线性的方法是先进行主成分分析,得到几个主成分,然后再对主成分进行Cox模型拟合。但这样得到的模型有时很难解释清楚,一方面主要是主成分的代表性及其与原变量的关系有时难以解释清楚,另一方面可能会造成多变量之间“非共线性”信息的损失,使每个变量的特殊作用被忽略。o 广东药学院的张丕德曾撰文提出进一步的方法,即将因子分析法与Cox模型结合的方法,首先将变量的信息进行分解,分解为公因子与特殊因子两部分,然后对公因子和特殊因子分别进行Cox模型拟合,两个模型互为补充。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。