1、回归分析回归分析 回归分析基本概念回归分析基本概念1 一元线性回归分析一元线性回归分析2多元线性回归分析多元线性回归分析3回归分析基本概念回归分析基本概念1 回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题:q 通过分析大量的样本数据,确定变量之间的数学关系式。通过分析大量的样本数据,确定变量之间的数学关系式。q 对所确定的数学关系式的可信程度进行各种统计检验,并对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的区分出对某一特定变量影响较为显著的变量和影响不显著的变量。变量。q 利用所确定的数学关系式,根据一个或几个变量的值
2、来预利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。精确度。 2.1 2.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:一元线性回归分析是分析某一个因素定义:一元线性回归分析是分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实生活所进行的分析是比较理想化的。其实,在现实生活中,任何一个事物(因变量)总是受到其他多种事中,任何一个事物(因变量)总是受到其他多种事物(多个自变量
3、)的影响。物(多个自变量)的影响。一元线性回归分析一元线性回归分析2 研究问题研究问题 合成纤维的强度与其拉伸倍数有关,测得试验合成纤维的强度与其拉伸倍数有关,测得试验数据如表数据如表9-19-1所示。求合成纤维的强度与拉伸倍数之所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。间是否存在显著的线性相关关系。2.2 SPSS2.2 SPSS中实现过程中实现过程序序 号号拉拉 伸伸 倍倍 数数强度(强度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210
4、.08.1 实现步骤实现步骤q对应对应x x值值的残差图的残差图yyx0良好模式yyx0方差不齐yyx0不满足线性回归假设均数的置信区间均数的置信区间个体的容许区间个体的容许区间222, 2)(1xnxxxnstYievi222, 2)(11xnxxxnstYievi (1 1)输出的结果文件中的第一部分:)输出的结果文件中的第一部分:X与与Y的简单相关系数的简单相关系数2.3 2.3 结果和讨论结果和讨论2)(222nyyneSiiie估计标准误q1 1)决定系数)决定系数R R2 2 它表示在因变量它表示在因变量y y的总变异中可由回归方程所解释部分的总变异中可由回归方程所解释部分的比例。
5、的比例。 0R0R2 21, 1, 越接近于越接近于1, 1, 说明回归方程效果越好。说明回归方程效果越好。SSTSSESSTSSRR12q2 2)校正的决定系数)校正的决定系数A Adj dj R R2 2 0A 0AdjdjR R2 21, 1, 越接近于越接近于1, 1, 说明回归方程效果越好。说明回归方程效果越好。q即使自变量对即使自变量对Y Y无显著意义,无显著意义,R R2 2也随方程中的变量也随方程中的变量个数增加而增加。个数增加而增加。Adj R R2 2可以惩罚复杂模型。可以惩罚复杂模型。MSTMSERAdj12F=t2截距截距回归系数回归系数标准化回归系数结果显示:回归方程
6、显著,即合成纤维的强度受拉伸倍数的显著影响结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响XYssrb 1xYrzzxYzz(2 2)第二部分)第二部分 异常值分析异常值分析iistandardizedyyresidswhere sstd devof residualsq 如果标准化残差超过如果标准化残差超过2/-22/-2,称为异常值,称为异常值outliersoutliers。q 当样本量比较小,异常值又会影响回归系数的估计时,应当样本量比较小,异常值又会影响回归系数的估计时,应该关注异常值的影响。该关注异常值的影响。212nyysniiiq 异常值 a 不影响 异常值 b 影
7、响q第i个观察值的学生化残差)()(1(122xxxxnsyySyyresidiiiiyyiidstudentizeii212nyysniiiq 考虑了用来计算残差的考虑了用来计算残差的 值有不同的方值有不同的方差。这种调整能够使残差分析更加敏感地发现方差不齐。差。这种调整能够使残差分析更加敏感地发现方差不齐。q学生化残差超过学生化残差超过2 2和和-2-2的点可认为是异常值的点可认为是异常值iiyySiy (3 3)第三部分)第三部分 数据窗口的存储数据窗口的存储 未标准化残差 标准化残差 学生化残差均数的置信区间均数的置信区间个体的容许区间个体的容许区间1.7 利用回归方程进行估计和预测q
8、均数的置信区间:均数的置信区间: 均数均数 界值界值标准误标准误 q个体的容许区间个体的容许区间( (参考值范围参考值范围):): 均数均数 界值界值标准差标准差 22, 2)(+1)-(-xxxxnstYievi22, 2)(+1+1)-(-xxxxnstYievi22可编辑可信区间与预测区间示意图3.1 3.1 统计学上的定义统计学上的定义 定义:在上一节中讨论的回归问题只涉及了一定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影往有多个。例如,商品的需求除了受自身价格
9、的影响外,还要受到消费者收入、其他商品的价格、消响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。有平均气温、平均日照时数、平均湿度等。多元线性回归分析多元线性回归分析3q研究者往往是根据自己的经验或借鉴他人的研究研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待于考察。影响作用是否都有统计学意义还有待于考察。q在建立回归方程的过程中有必要考虑对自变量进在建立回归方程的
10、过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有影响的变建立回归方程。剔除那些对因变量没有影响的变量,从而建立一个较理想和稳定的回归方程。量,从而建立一个较理想和稳定的回归方程。3.2 3.2 逐步回归逐步回归逐步回归的思想:q1. 1. 开始方程中没有自变量,然后按自变量对开始方程中没有自变量,然后按自变量对y y的的贡献大小由大到小依次挑选进入方程,每选入一贡献大小由大到小依次挑选进入方程,每选入一个变量,都要对进行检验,决定个变量,都要对进行检验,决定变量的取或舍变量的取或舍。q 2. 2.
11、每一步都作一次如下的检验:每一步都作一次如下的检验: H H0 0 : p : p个自变量为好个自变量为好 H H1 1 : p+1 : p+1个自变量为好个自变量为好采用F作为统计量。 SSE (H0 )-SSE (H1 ) F SSE(H1 )/ (n-p-2) 其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。 若FF(界值),则拒绝H0 ,可决定增多相应的自变量; 否则,不拒绝H0 ,可决定不增加相应的自变量。 研究问题研究问题 用多元回归分析来分析用多元回归分析来分析3636个员工多个心理变量个员工多个心理变量值(值(z1z1
12、z5z5)对员工满意度)对员工满意度mymy的预测效果,测得试的预测效果,测得试验数据如表验数据如表9-29-2所示。所示。3.2 SPSS3.2 SPSS中实现过程中实现过程z1z2z3z4Z5满满 意意 度度66.0064.0058.001.081.0025.0055.0050.0053.001.001.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.
13、0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.0052.0056.0063.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.0
14、81.1420.0053.0066.0055.001.001.0025.00z1z2z3z4z5满满 意意 度度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.0052.0051.001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001
15、.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.1419.0053.0057.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00 实现步骤实现步骤EnterEnter:所有自变量强制进入回归方程:所有自变量强制进入回归方程q当自变量之间存在高度相关性,将引起回归方
16、程估计结果当自变量之间存在高度相关性,将引起回归方程估计结果不稳定,参数(回归系数)估计的标准误大大增加,称为不稳定,参数(回归系数)估计的标准误大大增加,称为共线性。共线性。q共线性诊断:共线性诊断: 1 1)条件数)条件数(Condition (Condition IndexIndex):): k10k10(轻度)(轻度) 10k30(10k30(k30(严重)严重) 2 2)方差扩大因子)方差扩大因子(VIF): 5(VIF): 5或或1010,严重严重 3 3) TolenceTolence(容忍度)(容忍度): : .1 .1 严重严重 (1 1)输出结果文件中的第一部分:)输出结果
17、文件中的第一部分:3.3 3.3 结果和讨论结果和讨论复相关=R2YR2y.12YX1X2总误差总回归SSSSSSSSR 12 (1 1)输出结果文件中的第一部分:)输出结果文件中的第一部分:3.3 3.3 结果和讨论结果和讨论R2的改变都是显著的,说明增加自变量可以显著的改变都是显著的,说明增加自变量可以显著地改善对因变量的预测地改善对因变量的预测第三个回归方程的解释率最高 2 2)输出的结果文件中第二部分:)输出的结果文件中第二部分:F F检验的结果显示,三个回归方程都显著检验的结果显示,三个回归方程都显著1 H1 H0 0 : B: B1 1=0=02 2 H H0 0 : B: B1
18、1= B= B2 2=0=03 H3 H0 0 : B : B1 1= B= B2 2= B= B3 3=0=0非标准化回归方程:非标准化回归方程:1 1Y=7.337+.276Y=7.337+.276Z1+eZ1+e2 2Y=14.129+.227Y=14.129+.227Z1-3.301Z1-3.301Z4+eZ4+e3 3Y=4.335+.268Y=4.335+.268Z1-6.286Z1-6.286Z4+10.188Z4+10.188Z5+eZ5+e标准化回归方程:标准化回归方程:1 1Y=.413Y=.413Z1+eZ1+e2 2Y=.340Y=.340Z1- .336Z1- .33
19、6Z4+ eZ4+ e3 3Y=.401Y=.401Z1- 6.639Z1- 6.639Z4 + .477Z4 + .477Z5+eZ5+e多重回归的矩阵表达1. 1. 一般公式一般公式 2. 2. 矩阵表示矩阵表示 3. 3. 最小二乘估计最小二乘估计y = X+e-1=(XX) Xy01 12 2ip piyxxxe0:20BH1y2rYX1X2Zero-Order 零阶相关零阶相关/ /简单相关简单相关y(1.2)2rPart Correlation部分相关部分相关YX1X2Part correlationPart correlation Correlation between Y an
20、d X1 when variable due to Correlation between Y and X1 when variable due to X2 has been partialed out of X1, but not out of Y.X2 has been partialed out of X1, but not out of Y.y(1.2)r2y1.22rPartial Correlation偏相关偏相关YX1X2partial correlation of Y and X, controlling for other partial correlation of Y a
21、nd X, controlling for other predictors. predictors. Simple correlation of Y and X, after all Simple correlation of Y and X, after all influences of predictors have been partialed out of both Y influences of predictors have been partialed out of both Y and X.and X.作业q等距、等级和分类变量的相关q一元回归q二元回归 各做一个分析,数据“作业.sav”43可编辑