1、n多重回归多重回归(multiple linear regression)与多重与多重相关相关(multiple correlation)是研究是研究一个因变量一个因变量和和多个自变量多个自变量之间线性关系的统计学分析方之间线性关系的统计学分析方法。法。第一节第一节 多重线性回归的概念及其统计描述多重线性回归的概念及其统计描述 n例例13-1 为了研究空气中一氧化氮为了研究空气中一氧化氮(NO)的)的浓度与汽车流量等因素的关系,有人测定了浓度与汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的某城市交通点在单位时间内过往的汽车数汽车数、气温气温、空气湿度空气湿度、风速风速以及空气中
2、的以及空气中的NO的浓的浓度度,数据如表,数据如表13-1所示。所示。ikikiiixxxY.22110kkxbxbxbby.22110 bj为自变量为自变量Xj 的的偏回归系数偏回归系数(partial regression coefficient),是),是j的估计值,表示当方程中其他的估计值,表示当方程中其他自变量保持常量时,自变量保持常量时,自变量自变量Xj变化变化一个计量单位一个计量单位,反应变量反应变量Y的平均值变化的平均值变化的单位数。的单位数。iiiiSXXX*标准化偏回归系数标准化偏回归系数(standardized partial regression coefficien
3、t),又称为),又称为通径系数通径系数(path coefficient)。标准化偏回归系数)。标准化偏回归系数bj较大的自变较大的自变量在数值上对反应变量量在数值上对反应变量Y的作用较大。的作用较大。回归参数的估计:回归参数的估计:n前提条件前提条件:LINE。n最小二乘法最小二乘法(least square method)。n基本原理是:利用观察或收集到的因变量基本原理是:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于和自变量的一组数据建立一个因变量关于自变量的线性函数模型,使得这个模型的自变量的线性函数模型,使得这个模型的理论值和观察值之间的理论值和观察值之间的残差平方和残
4、差平方和尽可能尽可能地小。地小。432103468.000000655.000449.000011619.014166.0 xxxxy第二节第二节 多重线性回归的假设检验多重线性回归的假设检验 05.00:0:143210不全为iHH 表表13-2显示,显示,P 0.0001,拒绝拒绝H0。说明从整体上。说明从整体上而言,用这四个自变量构成的回归方程解释空气而言,用这四个自变量构成的回归方程解释空气中中NO浓度的变化是浓度的变化是有统计学意义有统计学意义的。的。偏回归系数的偏回归系数的 t 检验检验 n偏回归系数的偏回归系数的 t 检验是在回归方程具有统计检验是在回归方程具有统计学意义的情况下
5、,检验某个总体偏回归系数学意义的情况下,检验某个总体偏回归系数等于零的假设等于零的假设,以判断是否相应的那个自变量以判断是否相应的那个自变量对回归确有贡献。对回归确有贡献。H0:i =0 H1:i 0biibiSbt第三节第三节 复相关系数与偏相关系数复相关系数与偏相关系数 n复相关系数复相关系数的平方称为的平方称为确定系数确定系数(coefficient of determination),或或决定系数决定系数,记为,记为R2,用,用以反映线性回归模型能在多大程度上解释反以反映线性回归模型能在多大程度上解释反应变量应变量Y的变异性。其定义为的变异性。其定义为 TRSSSSR 2),(YYco
6、rrR 复相关系数复相关系数 复相关系数复相关系数(multiple correlation coefficient)Rn 定义为确定系数的算术平方根,表示变量定义为确定系数的算术平方根,表示变量Y与与k个自变量(个自变量(X1,X2,Xk)线性相关的密切程度。线性相关的密切程度。TRSSSSR 8873.07874.0Rn调整的调整的R2(Adjusted R-Square):当回归方程:当回归方程中包含有很多自变量,即使其中有一些自变中包含有很多自变量,即使其中有一些自变量(如本例中的量(如本例中的X3)对解释反应变量变异的)对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,贡献极
7、小,随着回归方程的自变量的增加,R2 值表现为只增不减,这是复相关系数值表现为只增不减,这是复相关系数R2的的缺点。调整的缺点。调整的R2记为记为 ,定义为定义为 1)1(222knRkRRa7426.004475789.07874.01424)7874.01(47874.02aR2aRModel Summary.887a.787.743.030150.78717.590419.000Model1RR SquareAdjusted RSquareStd.Error ofthe EstimateR Square ChangeF Changedf1df2Sig.F ChangeChange Sta
8、tisticsPredictors:(Constant),风速,气湿,气温,车流a.Model Summary.887a.787.755.029387.78724.687320.000Model1RR SquareAdjusted RSquareStd.Error ofthe EstimateR Square ChangeF Changedf1df2Sig.F ChangeChange StatisticsPredictors:(Constant),风 速,气 温,车 流a.偏相关系数偏相关系数 n暑假期间双胞胎兄弟大明和小明参加勤工俭学,大明在超级市场帮助卖冷饮,小明在游泳池收门票。每天晚上
9、,二人闲聊。昨天大明冷饮卖得多,小明门票也收得多,今天,大明卖得少,小明门票也收得少。一个月下来,他们发现,超级市场冷饮销售量和游泳人数呈正相关。是不是爱吃冷饮的人想游泳?或爱游泳的人喜欢冷饮?r0.05=0.602原来冷饮销售量和气温正相关,原来冷饮销售量和气温正相关,游泳人数和气温也正相关,游泳人数和气温也正相关,冷饮销售量和游泳人数的正相关冷饮销售量和游泳人数的正相关是气温造成的假象,是气温造成的假象,扣除气温的影响之后两者就不相扣除气温的影响之后两者就不相关了。关了。一般地,扣除其他变量一般地,扣除其他变量的影响后,变量的影响后,变量Y与与X的相关,称为的相关,称为Y与与X的的偏相关系
10、数。偏相关系数。1213 2312.3221323(1)(1)rr rrrr偏相关系数偏相关系数 第四节第四节 自变量筛选自变量筛选 n为确保回归方程包含所有对反应变量有较大为确保回归方程包含所有对反应变量有较大影响的自变量,而把对反应变量作用不大或影响的自变量,而把对反应变量作用不大或可有可无的自变量排除在方程之外,这一统可有可无的自变量排除在方程之外,这一统计过程称为计过程称为自变量的选择自变量的选择。一、自变量筛选的标准与原则一、自变量筛选的标准与原则 1.残差平方和残差平方和(SSE)缩小与)缩小与确定系数确定系数(R2)增大增大;SSTSSER122.残差均方残差均方(MSE)缩小与
11、)缩小与调整确定系数调整确定系数(Ra2)增大增大1pnSSEMSE3.3.统计量统计量:pCnqSSECqp22二、二、自变量筛选的常用方法自变量筛选的常用方法 1.所有可能自变量子集选择所有可能自变量子集选择(all possible subsets selection),又称,又称全局择优法全局择优法;2.前向选择前向选择(forward selection););3.后向选择后向选择(backward selection););4.逐步选择逐步选择(stepwise selection)。)。1.1.全局择优法全局择优法 根据某种变量的选择准则,通过比较各根据某种变量的选择准则,通过比
12、较各子集符合准则的程度,从中选择出一个或几子集符合准则的程度,从中选择出一个或几个最优的回归,称为个最优的回归,称为“最优子集回归最优子集回归”。2.2.前向选择前向选择(forward selection)3.3.后向选择后向选择 (backward selection)4.4.逐步选择逐步选择(stepwise selection)影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量 观察个体数n与变量个数m的比例一般至少应为:n:m510不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共
13、线性影响 自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。回归系数的符号与由专业知识不符变量的重要性与专业不符 整个方程决定系数R2高,但各自变量对应的回归系数均不显著。解决共线性的主要方法:筛选自变量用主成分回归岭回归。当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。小小 结结1.1.多重线性回归是简单线性回归的扩展,模型的多重线性回归是简单线性回归的扩展,模型的前提假设、最小二乘原则都与简单线性回归分前提假设、最小二乘原则都与简单线性回归分析相同。析相同。2.2.偏回归系数与标准偏回归系数;偏回归系数与标准偏回归系数;3.3.复相关系数、偏相关系数;复相关系数、偏相关系数;4.4.确定系数和调整的确定系数;确定系数和调整的确定系数;5.5.模型自变量的筛选方法和准则。模型自变量的筛选方法和准则。