1、11 多重线性回归分析,相关分析和回归分析,是否有联系,联系的方向、程度如何?,定量指示相关或关联的指标:如相关系数,定量描述其依存关系,回归分析,相关或关联,依存性(relationship),回归分析,数学模型:,身高:不仅受到遗传因素的影响,而且还受到营养状况、体育锻炼情况、居住环境因素的作用; 血压:除了与年龄有关外,还与家族史、饮食习惯、劳动强度等因素有关。,生物医学研究领域中多因素相互作用现象非常普遍,问题:在潜在影响疾病众多因素中,哪些是影响因素? 哪些是主要的因素?各因素作用到底有多大?,多重线性回归:是研究一个因变量和多个自变量之间线性关系的统计学分析方法。,目的:用回归方程
2、的方式定量地描述一个因变量Y 和多个自变量X1、 X2、 X3、 、Xp 之间 的线性依存关系。,回归分析,1个因变量Y,1个自变量X,2个以上自变量X,Y是数值变量,Y是分类型变量,常用的回归分析中分类:,概念区分:,11.1 多重线性回归的概述,例12-1 :试对大气污染一氧化氮(NO)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。,车流量、气温、气湿、风速4因素是否都对空气中NO的浓度有影响? 如何定量地描述这种影响? 哪个因素对NO的影响最大?哪个因素影响的最小? 如何利用这些影响因素去预测空气中NO的浓度?如何预测?效果如何? 如果想在控制气温、气湿和风速的条件下,如何定量
3、地描述NO浓度与车流量的关系?,多重线性回归拟回答以下问题:,1. 多重线性回归适用条件,仅适用于1个应变量 y和多个自变量 x。 要求1个应变量 y和该组因变量 x 间满足线性、独立性、正态性、方差齐性的要求。 注意样本中的极端值,必要时可剔除或进行变量变换。,多重线性回归 (multiple linar regression),称 为y 的预测值,指对于某个确定x的群体,y 平均值的估计。 b0:常数项(constant),截距 ( intercept );即所有自变量x 取值均为0时,y的平均估计值。 bi:变量xi的偏回归系数(partial regression coefficien
4、t),是总体参数i 的估计值;指在方程中其它自变量固定不变的情况下, xi 每增加或减少一个计量单位,反应变量Y 平均变化 bi个单位。,2. 模型的基本结构:,回归系数的标准化:,问题:对NO浓度的贡献,哪个因素作用的大一点, 哪个小一些?,2.求标准化偏回归系数: 用标准化的数据进行回归模型的拟合,算出它的方程,此时所获得的偏回归系数b,叫。,1.自变量数据的标准化:,b无单位,可用来比较各个自变量对反应变量的贡献大小,未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。 标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y
5、 的影响幅度越大。,比较:,3. 多重线性回归分析的基本步骤:,估计b0、 b1、 b2 、bP,最小二乘法,回归方程和系数 的假设检验,列出回归方程,统计应用,方差分析和 t 检验,预测和控制、影响因素分析,关联趋势的图形考察,确定变量筛选的方法 数据预处理:强影响点用多重共线性 模型诊断:残差分析是否适合该模型(Line),建模准备,散点图、散点图矩阵、重叠/三维散点图,回归参数的估计:最小二乘估计 (least square estimation),两个自变量时回归平面示意图,用最小二乘法拟合直线,使得反应变量观测值Yi与回归方程求得估计值 之间的残差(样本点到直线的垂直距离)平方和达到
6、最小。 .,通过SPSS等统计软件,拟合X1、X2 、X3 、X4关于空气中NO浓度的多重线性回归方程,得:,还需要解决的三个问题:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立? 回归方程的效果如何?也即这四个变量能解释反应变量Y的百分比是多少? 四个自变量是否对反应变量Y的影响都有意义?,统计推断假设检验,假设检验,回归方程的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立,即是否至少有一个i 0; 方法:单因素方差分析。,目的:即检验各个偏回归体系数i是否为0; 方法:t 检验。,统计推断:,(1) 回归方程的假设检验:,总的
7、来说,若该回归方程成立,则这些回归系数里面至少有一个不为0,只要有一个不为0,这个方程来说总的就是成立的。,H0:1=2=3=i=0 H1:至少有一个 i 0,(2)对各个回归系数进行假设检验,问题:通过假设检验方程总的来说成立, 1.即至少有1个i 不为0,但到底哪些为0,哪些不为0? 2.再者,即使总体回归系数为零,也可能得到样本 偏回归系数不为0的情况。,方法:t 检验,回归方程的解释: 这3个因素对空气中NO浓度(污染)的影响有多大?,1. 确定系数 (coefficient of determination ,R2 ) 2. 复相关系数 (multiple correlation c
8、oefficient,R),1. 确定系数(coefficient of determination,R2)或决定系数:回归平方和与总平方和之比。 反映了一组自变量X对回归效果的贡献,即Y 的总变异中回归关系所能解释的百分比(variance account formula, VAF); 反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,本题:,2.复相关系数( multiple correlation coefficient,R) 定义:为确定系数R2的算术平方根。 反映了随机变量Y与一组自变量X对(X1,X2,Xp) 之间的线性相关程度,即Y 和该组自
9、变量的密切程度。,本题:,【电脑实现】 SPSS,1.数据录入,多重线性回归分析:,2. SPSS过程,【Method】 (自变量的选入方法) Enter(强行进入法) Stepwise(逐步法) Remove(强制剔除法) Backward(向后法) Forward(向前法),自变量筛选方法的选择:,【Statistics 】Regression Coefficients:回归系数 Estimate:非标准化及标准化回归系数、标准误,及其显著性检验结果(t值和P值)。 Confidence intervals:非标准化回归系数的95%可信区间。 Model fit:模型拟合优度检验,给出复相
10、关系数R,决定系数R2,调整R2及方差分析结果 R squared change:每剔出或引入一个自变量所引趋同的R2的变化量及相应的F值和P值。 Descriptives:输出每个变量的均数、标准差,样本容量,相关系数及单侧检验P值的矩阵。 Part and partial correlations:简单相关系数及偏相关系数。 Collinearity diagnostics:输出共线性诊断的统计量。 Residuals:用于选择输出残差诊断的信息All cases:给出所有观察单位的残差、标准化残差和预测值。,3. 结果及结果输出:,决定系数越大,说明构建的回归方程越好, Enter:强制
11、引入法,11.2 自变量筛选,收集资料时,涉及的自变量很多,有些可能存在较大的测量误差;,利用自变量筛选的准则和方法,产生“最优变量”子集,从而建立预测效果的最优模型。,有些自变量对反应变量无影响或影响甚微;,有的变量可能与其它的自变量存在高度的相关性共线性,1:设为入选标准;2设为剔除标准,自变量筛选的常用方法:, 后退法(backward regression), 前进法(forward regression), 逐步法( stepwise regression), 最优子集回归法(optimun subsets regression),【Method】 (自变量的选入方法) Enter(
12、强行进入法) Stepwise(逐步法) Remove(强制剔除法) Backward(向后法) Forward(向前法),自变量筛选方法的选择:,3. 结果及结果输出:,决定系数越大,说明构建的回归方程越好。, STEPWISE:逐步回归方程的决定系数, STEPWISE:逐步回归方程的方差分析表, STEPWISE:逐步回归方程的参数估计,回归分析结果:,2. 影响因素分析:根据SPSS输出结果,可以认为车流量、气温和风速是影响空气中NO浓度的主要因素: 当气温、风速保持不变的情况下,车流量增加1千辆,估计NO浓度平均升高0.11610-6; 当车流量、风速保持不变的情况下,气温上升1,估
13、计NO浓度平均升高0.00410-6; 当车流量、气温保持不变的情况下,风速增加1m/s,估计NO浓度平均减少0.03510-6。 3. 根据标准化偏回归系数,认为作用车流量气温风速。 4. 根据确定系数,方程3因素可解释污染变异的78.7%。,1. 回归方程,回归分析,简单线性:,多重线性:,logistic回归,线性回归,只1个X: (简单),多个X:,11.3 多重线性回归的 前提条件及注意事项,2. 多重线性回归分析的注意事项:,1. 前提条件和残差分析模型假设诊断 2. 多重共线性的问题 3. 哑变量的设置 4.交互作用,11.3.2 线性回归分析的前题条件:,线性(linear)
14、独立性(independent) 正态性 (normal) 等方差性(equal variance),线性回归分析的前题条件,line,normal 正态性,equal variance 等方差性,反应变量Y 的总体平均值与自变量组合之间呈线性关系,在一定范围内任意给定各个值,则反应变量服从正态分布,在一定范围内,对应于不同X值,Y总体变异保持不变,linear 线性,1. 线性和方差齐性:残差散点图 residual plot,模型假设诊断:LINE,散点均匀分布在以0为中心,与横轴平行的带状区域内,可以认为基本满足线性和方差齐性的假定条件。,散点呈现曲线趋势,提示资料不满足线性的假定。,散
15、点随预测值的变化而变化,提示资料不满足方差齐性的假定。,散点随预测值的变化而变化且呈曲线趋势,提示资料不满足线性和方差齐性的假定。,SPSS电脑实现,3. 线性和方差齐性检验结果残差散点图:,散点均匀分布在以0为中心,与横轴平行的带状区域内,可认为基本满足线性和方差齐性的假定条件。,2.正态性:残差图residual plot 或正态概率图,提示残差满足正态分布,3. 独立性: 应用残差图 或Durbin-Watson统计量判断,Durbin-Watson统计量的取值一般在0-4之间,如果残差之间相互独立,则取值在2左右,如果取值接近0或4,则提示不满足独立性。,SPSS电脑实现,3. 独立性
16、检验:,若残差之间相互独立,则取值在2左右。,如果资料不满足LINE的前提条件:,1. 不满足线性条件 修改模型或采用曲线拟合; 2. 不满足正态性、方差齐性条件 变量变换:包括对数变换、平方根变换、倒数变换等; 3. 不满足方差齐性: 采用其它方法估计偏回归系数。,11.3.3 多重共线性,在进行多重线性回归分析时,除了要满足LINE 外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断; 当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性(multicollinearity);自变量之间不存在多重共线性,即称其互相独立。,例11-2 研究胎
17、儿受精龄Y/周与胎儿身长X1/cm、头围 X2/cm,体重X3/g之间的依存关系。,显然,此处的3个解释变量X1、X2、X3 之间存在着高度的共线性, X1、X3 两项对Y 的过分贡献只能用X2 项的负系数抵消,造成其专业意义无法解释而出现悖论。,相关系数 Correlation 容忍度 Torelance 方差膨胀因子 VIF 条件数 Condition index 方差比例Variance proportions, VP 方差相关矩阵Variance Matrix,可用来判断变量之间的独立性、 或说多重共线性,如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一
18、般不会出现多大问题。,共线性诊断1.两个自变量之间的相关系数,2.容忍度 Tolerance /方差膨胀因子 VIF,经验表明:VIF大于5或10时,存在严重的共线性;一般要求Tolerance必须大于0.1,或 VIF必须小于10。,3.条件数condition index / 方差比例variance proportions, VP,一般地,当条件数大于10,且有两个以上的自变量对应的方差比例大于0.5时,可以认为这些自变量是严重相关的。,当模型诊断发现了共线性,应如何处理? 删除变量:根据偏相关系数大小,去掉其中一个对因变量影响最小的自变量,或根据方差比例(VP)的大小,去掉VP值大的自
19、变量,重新作共线性检查,直至多重共线性不存在为止; 通径分析 最好的方法采用主成分回归方法。,4. 哑变量的设置,将有序变量或无序多分类变量转换为多个二分类变量的过程称为“哑元化” (dummying),得到的多个二分类变量称为“哑变量”(dummy variable),例:,这种将k个多项无序分类转化为k-1个二分类变量的过程叫分类变量的哑变量化,主要用在多因素分析,如多重线性回归、Logistic 回归分析中。,表11-5 用3个二分类的哑变量描述血型,5. 交互作用,多重线线性回归中,要注意自变量间是否存在交互作用; 可通过引入新的自变量的方法,判断两个或多个原自变量间是否存在交互作用;
20、 如果存在交互作用,在模型中应纳入交互相,在结果解释时要考虑交互作用的影响。,小 结,多重线性回归用于研究一个反应变量与多个自变量之间的线性依存关系,常用于筛选危险因素、控制混杂因素、分析交互作用、预测和控制等。 其前提条件是LINE,常常用残差分析的方法考察资料是否满足这4个条件;如不满足,可尝试变量变换,或更换回归方程。 其估计方程参数依据的是最小二乘法原则。 偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反应变量的平均改变的单位数。原始偏回归系数用于构建回归方程,标准化偏回归系数用于比较自变量对反应变量的贡献大小。,确定系数和调整确定系数用于说明模型中自变量解释变量的
21、百分比,可用来评价方程拟合效果的好坏。 复相关系数可用来说明某一个变量与多个变量的线性相关程度。 变量筛选的目的是使议程尽量保留对回归贡献较大的重要变量而排除对回归贡献小的变量,以期用尽量简洁的模型达到尽可能高的估计精度。 当自变量存在较强的相关性的时候,回归模型会出现多重共线性的现象,使得模型参数估计不稳定或不易解释。,案例讨论,预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(Y,%)、年龄(X1,岁) 、体重(X2,kg) 、跑1.5km所需时间(X3,min)、休息时的心跳频率(X4,次/min)、跑步时
22、的心跳频率(X5,次/min )和最高心跳频率(X6,次/min )。试用多重线性回归方法建立预测人体吸氧效率的模型。,该研究员采用后退法对自变量进行筛选,最后得到结果如下表示。,对模型进行方差分析的结果认为模型有统计学意义(P0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。考查各个自变量的偏回归系数,研究者发现, X6的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。 提问:出现这种悖论的原因是什么呢?,案例分析 : 先分析各个自变量之间的简单相关系数r,结果发现 X5和X6存在有较强的相关(r=0.930,P0.001),对回归模型进行共线
23、性诊断,结果发现自变量X5的容忍度为0.122,方差膨胀因子等于8.188,自变量X6的容忍度为0.117,方差膨胀因子等于8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。,SPSS-共线性诊断:1.相关性,2.容忍度和方差膨胀因子,3.条件数和方差比例,正确做法: 在这里,可以把自变量X6从模型中删除以消除多重共线性的影响,应重新建立多重线性回归方程。最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。,思考题:,1. 多重线性回归的步骤是什么?怎样用SPSS实现多重回归? 2. 多重线性回归中偏回归系数的含义是什么? 3. 多重线性回归的前提条件是什么?如何判断资料是否满足这些条件,如不满足时的处理方法有哪些?,THANK YOU!,