1、第二章多元线性回归 多元线性回归()是分析一个随机变量与多个变量之间线性关系的最常用的统计方法。实际工作中,常常希望知道所关心的事物受哪些因素的影响,比如销售量与价格和广告费的关系、农业产量与原料和气候的关系、生育水平与教育水平和经济水平的关系、物价与失业率的关系、收入与受教育程度和年龄的关系等等。多元线性回归用观察数据拟合所关注的变量和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。一、变量的关系和回归的任务 对于统计相关的变量,我们希望能够在已知主要影响变量 变化的情况下,预测感兴趣变量 的变化。为此回归分
2、析用一条直线或曲线拟合图或图的散点,来描述当 变化时 的平均值的变化情况。这条曲线就称为回归曲线,它给出了 在给定 的条件下的均值。因此对于统计相关的变量,回归分析就是要寻找在给定 的条件下的概率分布,从而用一种确定的函数关系近似描述 与 的不确定关系。概括地说,回归分析要解决三个方面的主要任务。第一,依据研究理论和经验建立关于因变量与一个或多个自变量之间关系的回归方程,并且根据数据样本拟合来求解这个回归方程的各项回归系数值。这些回归系数值便反映了各自变量对因变量影响作用的方向和幅度。应用SPSS的回归程序可以非常便利地求解这些回归系数,保证得出一套最佳的回归系数解。第二,评价这一回归方程对实
3、际数据的拟合程度。回归分析保证取得“最佳”系数的意思只是说,这套系数对实际数据的拟合程度肯定比任何其他的解都要相对更好,但是我们还需要进一步了解采用这套系数的回归方程的拟合程度到底有多好。一般用回归方程对因变量变化解释的百分比来描述拟合程度,百分比越高就表示拟合程度越好。第三,在样本回归分析的基础上进行总体推断性统计。前两个任务还是在数据样本之内对回归方程的分析,但是社会科学的统计研究往往是通过样本分析来推断总体。所以,研究者需要对样本回归分析指标进行统计显著性检验,看看这些结果是否能推广到总体的情况。本章后面将大体按照这三方面的顺序来介绍回归分析。二、简单线性回归模型 我们从简单的情况开始,
4、先来看含有一个自变量的线性回归问题。一个自变量的回归称为简单回归或一元回归。统计分析经常是先对总体中随机抽样得到的样本数据进行分析,然后再对总体进行推断。在抽样原理统计教科书中,总体的各种指标称为参数,样本的各种指标称为统计。因此,在后面的统计表述中经常需要分清总体参数和样本统计量。在很多情况下,两者相互对应,所以为了简明,本章采用许多教科书的做法,在一般情况下将总体参数用大写符号标注,将样本统计量用小写符号标注。(一)简单线性回归方程(二)简单回归系数的意义 在回归模型式中,和 称为回归直线的系数。是直线在 轴上的截距,代表 的基础水平;是直线的斜率,它表示 变化一个单位时,的平均变化。(三
5、)变量变换 当因变量 与自变量 是非线性关系时,可以通过变量变换使经过变换的新变量对于参数是线性的。SPSS回归程序可以检查变量之间是不是有线性关系,如果是非线性关系,还可以应用SPSS曲线回归来探测具体是哪一种非线性关系。我们将在后面进行介绍。这里,我们仅用一个简单例子介绍如何对自变量进行非线性变换,以使线性回归能更好地拟合数据。(四)最小二乘估计的统计性质 最小二乘估计在求解回归方程模型时是最常用的估计方法。通过最小二乘法得到的回归方程估计,有很好的统计性质。(五)模型的假定条件 统计理论已经证明,在满足一定的假定先决条件下,样本数据的最小二乘估计是总体参数的最佳线性无偏估计。这是因为在推
6、断总体参数或进行统计检验时,必须考虑总体回归模型中的随机误差项的分布特征。因此,对随机误差项提出若干基本假定条件。三、多元线性回归模型 在本节中,我们要将简单回归推广到多元回归。在具体介绍有关分析之前需要说明,以上讨论的所有简单回归的假定条件都适用于多元线性回归。(一)多元线性回归方程(二)回归平面和回归系数的意义(三)一般回归模型 乘法模型 指数模型1 指数模型2 多项式模型(四)多元回归模型估计的统计推断四、方程的拟合程度(一)确定系数R2(二)调整的确定系数R2(三)多元相关系数R(四)偏确定系数(五)偏相关系数五、回归方程的统计检验和回归系数的推断统计 在一般情况下,我们是通过抽样样本
7、观测数据来推断总体的情况。因此,样本中计算的各统计量都服从一定的抽样误差。检验样本回归方程各统计量,就是为了根据样本统计量来判断总体各参数的情况。(一)整个回归方程的显著性检验 对整个回归方程的统计检验也是通过方差分析完成的。将因变量y的总的离差平方和分解为两个部分:一部分是可以由回归方程解释的部分,称之为回归平方和;另一部分则是不能由回归方程解释的部分,称之为残差平方和。然后,用残差平方和代表随机波动,来评价回归方程的解释能力是否具有统计显著性。(二)偏确定系数的统计检验 偏确定系数描述的是,在控制前一步回归中其他变量的条件下,新纳入一个或一组自变量的新增解释能力。偏确定系数也是一个百分比,
8、只不过它只涉及前一步回归没能解释的因变量变化。(三)各自变量回归系数的显著性检验 当回归方程整体检验具有统计显著性时,一般可以表明回归方程中至少有一个自变量的回归系数是显著的,但并不一定所有自变量的回归系数都是显著的。(四)回归系数的置信区间(五)回归系数不显著的原因()样本量太小,或者自变量个数较多()x(j)的变化范围太小()x(j)与方程中的其他自变量线性相关()y与x(j)虽然有关联,但却是非线性关系()y与x(j)确实不存在显著的线性关系六、标准化回归系数 因为变量的标准化过程中都要除以该变量的标准差,这不仅会改变变量的数值,而且约分掉了原变量的实际测量单位,所以z变量是无量纲变量,
9、即脱离了任何实际测量单位的纯统计量。于是,标准化变量的回归系数称为标准化回归系数,它表示当其他变量不变时,x变化个标准差单位,y的标准差的平均变化。七、多元统计控制对回归系数的影响 采用多元回归最重要的优越性就是可以将对因变量有重要影响的自变量同时纳入分析,在控制其他模型自变量的条件下一一求解对应自变量的偏回归系数。因此,偏回归系数表达了对应自变量相对“独立”的影响作用,将更为接近真实情况的反应。尽管研究者可能并不清楚还有哪些重要影响变量,但是多元回归在方法论层次更为优越,提供了研究者进行深入探索和检验的工具。八、回归预测的区间估计九、回归诊断 前面我们已经讨论过回归模型的正确估计和推断必须依
10、赖于一定的假定条件,如果我们的数据及变量分布不满足这些假定条件,用回归方法获得的结果可能会有误导性。本节将讨论一些回归诊断的方法,以检验我们的数据是否满足线性回归的假定条件。此外,还有一些问题并不直接涉及回归的假定条件,但是对回归结果的影响也很大,因此在进行回归分析时也要多加注意,比如案例的权势影响和自变量之间的共线性问题。在回归分析中对这类问题的检查称为诊断。十、最优回归方程的选择()全部纳入法()全部删除法()向前回归法()向后回归法()逐步回归法 上述五种方式可结合运用。十一、标识变量在回归分析中的应用 在社会科学研究中,有许多分类变量,比如地区、时期、公司、民族、性别、婚姻状况、教育程
11、度、职业和居住地等分类。这些分类信息对于研究同样是很重要的。虽然分类变量不能直接用于回归分析,但是通过将分类变量转换为按特定规则赋值的一套编码变量后,便可以将其作为自变量纳入多元线性回归模型,用以解释因变量的变化。并且,这种编码变量可以承载原分类变量的所有信息,将其引入回归方程后,所得到的回归结果也具有明确的意义解释。这类特殊编码变量在统计分析中通常称为标识。(一)虚拟变量的建立与应用分析 建立虚拟变量的规则 用单纯虚拟变量的回归模型来分析简单类别差异 用虚拟变量和间距变量的回归模型分析经统计调整的类别差异 用虚拟变量、间距变量及其交互变量的回归模型分析类别的水平差异和斜率差异(二)效应变量的
12、建立与应用分析 建立效应变量的规则 用单纯效应变量的回归模型来分析简单类别差异 用效应变量和间距变量的回归模型分析经统计调整的类别差异基本概念 基本假定 回归方程 截距 回归系数 最小二乘估计 确定系数 偏确定系数 整体检 验 偏回归系数检验 标准化回归系数 特定样本性质 统计控制 回归诊断 异常值 杠杆 值 权势影响 偏回归散点图 残差正态性 均方差性 多元共线性 误差独立性 非线性关 系 虚拟编码 参照类 效应编码 大平均数 方差分析 协方差分析 自变量交互作用本章要点 多元回归分析的功能是描述和预测多个自变量对一个因变量发生影响作用的数量关系。多元回归分析的因变量必须为间距测度等级,其他
13、自变量则必须为间距测度等级或特定的标识编码形式。在多元回归中,确定系数表示所有自变量对于因变量的解释能力。在社会科学研究中,多元回归确定系数一般不是很高,因此这一方法多用来进行分析和检验,较少用于预测。偏回归系数表示在控制其他自变量的条件下,某一自变量与因变量之间在变量实际测量单位基础上的数量关系,表示自变量每增加个单位量所造成因变量的变化量。标准化偏回归系数为某一自变量对因变量的纯统计联系,不受变量实际测量单位的影响,因此可以用来比较各自变量对因变量相对作用大小。参考文献 格杰雷蒂计量经济学概论刘宗鹤,赵明强译北京:农业出版社,约翰内特,威廉沃塞曼,迈克尔库特纳应用线性回归模型 张勇,王国民,赵秀珍译北京:中国统计出版社,应用回归分析王学仁,温忠嶙编译重庆:重庆大学出版社,陈希孺,王松桂近代实用回归分析南宁:广西人民出版社,
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。