第四讲-stata线性回归分析课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第四讲-stata线性回归分析课件.ppt

1、第九章线性回归(Linear Regression)导论统计分析：根据统计数据提供的资料，揭示变量之间的关系，并由此推演为事物之间内在联系的规律性为什么学习回归分析u回归分析探讨客观事物之间的联系，表现为变量之间的统计关系u建立在对客观事物进行大量实验和观察的基础上，用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法u因因变量衡量方式的不同，回归分析可分为线性回归和非线性回归u线性回归适用于因变量为连续衡量的场合u非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合u即便在这两大类中，分析方法又可区分为许多不同的类型u根据处理的变量多少来看，回归分析又分为：u简单相关和一元回归

2、：研究的是两个变量之间的关系u多元相关或多元回归：研究的是多个变量之间的关系本章主要内容9.1变量间的相关关系（correlation）9.2线性回归概述9.3. 一元线性回归9.4. 多元线性回归9.1变量间的相关关系（correlation）1、函数关系u回归分析前，首先必须掌握变量之间是否相关；只有变量之间存在关系，才有必要进行回归分析u假若x增加时，y的取值发生相应变化，则x和y之间是相关的u假若x增加时，y的取值没有确定的变化，x则y和之间是不相关的，或是没有相关关系的u变量之间的相关关系归纳起来可以分为两种：函数关系函数关系和统统计关系计关系2 2、统计相关、统计相关u现实事物之间

3、的联系不像函数关系那样容易确定u现象之间存在关联；但无法确定具体关系，不能像函数关系那样，用一个公式将它们的关系准确地描述出来；当一个变量取一定的值时，另一个变量可能有多个取值u当一个变量的值不能由另一个变量的值唯一确定时，这种当一个变量的值不能由另一个变量的值唯一确定时，这种关系称为统计关系关系称为统计关系u统计关系不如函数关系直接和明确；但通过对大量数据的观察和研究，就会发现许多变量之间确实存在着某种关联，强弱各不相同3、相关关系的特点u双向变化关系；u一个变量的取值不能由另一个变量的取值唯一确定；当x取一定的值时，y可能有多个取值，因为还受到其他因素的影响；u不确定关系难以用函数关系来衡

4、量和描述，但这并不表示x和y之间无规律可循；u类似定性描述u相关分为线性相关和非线性相关。4、相关分析u对两（多）个变量之间的关系进行描述，分析它们对两（多）个变量之间的关系进行描述，分析它们u是否相关是否相关u关系是否密切关系是否密切u关系的性质是什么（是正相关还是负相关）关系的性质是什么（是正相关还是负相关）u随着随着x x的变化，的变化，y y值的变化程度就确定二者是否相关和相关的强值的变化程度就确定二者是否相关和相关的强度度u当当x x增加（减少）时，增加（减少）时，y y的取值也随之增加（减少），则的取值也随之增加（减少），则x x和和y y之之间呈正相关关系；相反，当间呈正相关关系

5、；相反，当x x增加（减少）时，增加（减少）时，y y的取值却随之的取值却随之减少（增加），则和之间呈负相关关系减少（增加），则和之间呈负相关关系u相关分析的方法包括相关分析的方法包括散点图和相关系数散点图和相关系数相关散点图（scatter plot）0246810246810a_完全正线性关系0246810246810b_完全负线性关系02468100246810c_正线性关系02468102468d_负线性关系123450246810e_非线性关系02468100246810f_不相关相关系数相关系数u图形虽然直观，但不够精确；对散点图的视觉分析带有很大的主观性；需要更精确和更客观的度量

6、；u相关系数可准确地描述变量之间的线性相关程度；u线性相关系数相关系数是衡量变量之间相关程度的统计量，是描述两变量线性关系强度及方向的数值；u若相关系数是根据总体数据计算的，称为总体相关系数，记为；若是根据样本计算出来的，则称为样本相关系数，记为r r；u在统计学中，一般用样本相关系数来推断总体相关系数。相关系数：性质与方向niYiXisyysxxnr1)(11相关系数：程度根据经验，可以将相关程度分为几等：但这种解释必须建立在对相关系数进行显著性检验的基础之上。相关系数：其它特征相关系数的计算u. correlate 变量名变量名 u u u ：. correlate也可写为corr，是生成

7、变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令；u ：需要生成相关关系的变量名称u如：如：corr age edu weight heightu若要给出相关系数（每个变量的上行）及其假定检验的若要给出相关系数（每个变量的上行）及其假定检验的P指，使用命令：指，使用命令：u pwcorr 变量名变量名,sig 9.29.2线性回归概述线性回归概述“回归回归”一词来自英国学者、优生学的创始人一词来自英国学者、优生学的创始人S. F. S. F. GaltonGalton（1822-19111822-1911）。）。GaltonGalton在对遗传现象进行在对遗传现象进行研究后发现，当

8、高个的夫妻或矮个的夫妻有了孩子研究后发现，当高个的夫妻或矮个的夫妻有了孩子时，这些孩子的身高趋于回归到更典型的、同一性时，这些孩子的身高趋于回归到更典型的、同一性别的人的平均别的人的平均身高。身高。1 1、回归分析、回归分析u通过找出代表变量之间关系的直线图形或直线方程来描述变量之间的数学关系u这条直线称为回归直线；u该直线方程称为回归方程。u一元线性回归是回归分析中最简单、最基本的回归分析，描述两个变量之间的关系。u它是根据统计资料，寻求一个变量与另一个变量关系的恰当数学表达式的经验方程，来近似地表示变量间的平均变化关系的一种统计分析方法：u其中一个变量作为DV或被解释变量，通常用y表示；u

9、另一个变量IV（预测变量或解释变量）通常用x表示。2 2、相关分析与回归分析之别、相关分析与回归分析之别u依存关系与平等关系依存关系与平等关系。回归反映两个变量的依存关系，一个变量的改变引起另一个变量的变化，是一种单向的关系；其y变量称为因变量，被解释变量；在相关分析中，变量和变量处于平等地位：双向关系u关系程度与影响大小关系程度与影响大小。相关分析主要是刻画两类变量间线形相关的密切程度；而回归分析不仅要揭示自变量对因变量的影响大小，还可以由回归方程进行预测和控制。因此，回归是对两（多）个变量作定量描述，研究变量之间的数量关系，从已知的一个变量的取值预测另一个变量的取值，得到定量结果。3 3、

10、回归分析的目的、回归分析的目的u从一组样本数据出发，确定解释变量（从一组样本数据出发，确定解释变量（ IV IV ）与被解释变量）与被解释变量（DVDV）之间的数学关系式；回归方程就是要找出一条最好地描）之间的数学关系式；回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。述两个变量之间关系的直线方程。u对该关系式的可信程度进行各种统计检验；从影响对该关系式的可信程度进行各种统计检验；从影响DVDV的一组的一组IVIV中找出哪些变量的影响是显著的，那些是不显著的。中找出哪些变量的影响是显著的，那些是不显著的。u利用直线方程（即所求的关系），根据一个或几个变量的取值利用直线方程（即所求的

11、关系），根据一个或几个变量的取值来估计或预测来估计或预测DVDV的取值，并给出这种估计或预测的置信度。的取值，并给出这种估计或预测的置信度。u预测是有规律的。如，预测是有规律的。如，u利用汽车的速度来预测它刹车所需要的距离利用汽车的速度来预测它刹车所需要的距离u利用学生的中学成绩来预测考上大学的成功率利用学生的中学成绩来预测考上大学的成功率u精确的精确的y y值是不可预测的，靠近实际值。值是不可预测的，靠近实际值。4、回归分析的用途u用于研究一个用于研究一个IVIV对一个数值型对一个数值型DVDV在数量上的影响程度。在数量上的影响程度。设有两个变量，设有两个变量，x x，y y，其中，其中，y

12、 y的取值随的取值随x x取值的变化而取值的变化而变化，故变化，故y y是是DVDV，x x是是IVIV。-5-214710131605101520age in 2004u对于这两个变量，通过观察或试验得到若干组数据，记为1，2，n)。若x以代表年龄，以y代表教育，则从散点图中，可以清楚地确认x与y存在线性关系线性回归模型：回归直线儿童的年龄与教育之间存在很强的正向相关关系线条就是回归直线回归直线（regression lineregression line）如何将变量之间的相关关系用数学关系的代数表达式表达出来-5-214710131605101520age in 2004线性回归的理论模型

13、u等式（9.1）称为一元线性回归模型，描述因变量y如何依赖于自变量x和误差项e而异。在该模型中，y是x的线性函数（0+1x 部分）加上误差项e。其中， u0和1是模型的未知参数，前者称为回归常数项（或截距，intercept）；后者称为回归系数（coefficient）；0+1x反映了由于x的变化而引起的y的变化，也称为边际变化（当变量边际变化（当变量x变化一个单位时，变量变化一个单位时，变量y改变的数量）改变的数量）ue是被称为误差项的随机变量，代表因主观和客观原因而不可观测的随机误差，反映了除x和y之间的线性关系之外的随机因素对y的影响，是不能由x和y的线性关系所揭示的变异性。xy10（9

14、.1）线性回归模型的基本假定（1）零均值，即。误差项是一个期望值=0 的随机变量在自变量取一定值的条件下，其总体各误差项的条件平均值为0。这意味着，在等式（9.1）中，由于0和1都是常数或系数，故有因此，对于一个给定的x值，y的期望值为（2）等方差，即对于所有的x值，e的方差2都相同（3）误差项服从正态分布，且相互独立，即0)(E00)(E11)(ExyE10)(), 0(2N（9.2）总体回归方程 (equation)（I）根据回归模型的假定，误差项的期望值为0；因此，y的期望值等于一元总体回归方程总体回归方程：xyE10)(xy10 （9.4）（9.3）总体回归方程（II）（预测的）回归

15、方程回归分析的三种检验F检验用于检验回归方程的显著性R2用于测度回归直线对观测数据的拟合程度；也称判定系数、可决系数（coefficient of determination）t检验用于检验自变量回归系数的显著性reg edu ageu上部分分为左右两个区域上部分分为左右两个区域u左边是方差分析。方差部分给出回归平方和（Model）、残差平方和（Residual），总平方和（Total），自由度（df），回归和残差的均方（MS）u右边是回归统计量。包括检验统计量（F），F检验的显著水平（ProbF），R2（R-square）（判定系数），Adj R-squared（调整后的R2），观测值的个数

16、（即样本量），估计标准误差（Root MSE）u下部分是参数估计的内容下部分是参数估计的内容。包括回归方程截距（_cons）和斜率（Coef）的参数估计、标准误、t 统计量，P值（P|t|），置信区间（95% Conf. Interval）（1）判定系数R2：概念与计算对估计的回归方程拟合优度的度量，也就是要检验样本数据聚集在样本回归直线周围的密集程度，从而判定回归方程对样本数据的代表程度；该指标是建立在对总离差（deviation）平方和进行分解的基础之上。显然，各样本观测点（散点）与样本回归直线靠得越紧，SSR/SST则越大，直线拟合得越好。将该比例定义为判定系数或可决系数，记为R2222

17、)() (11yyyySSTSSESSTSSRR（1）判定系数R2：意义u若所有观测值都落在回归直线上，则 R2 = 1，拟合是完全的，模型具有完全解释能力；如果回归直线没有解释任何离差，则y的总离差全部归于残差平方和，即SST=SSE， R2 = 0，表示自变量x对因变量y的变异缺乏解释能力u通常观测值都是部分地落在回归线上，即0 R2 1uR2 越接近1，表明回归直线的拟合优度越好；反之， R2 越接近于0，则回归直线的拟合程度就越差。u就上面的例子而言，判定系数的实际意义是，在教育水平取值的离差中，有将近86%可以由年龄与教育之间的线性关系来解释；即86%的差异是由孩子的年龄决定的孩子年

18、龄可以解释教育差异的86%。（2）F检验：概念u对总体回归方程的显著性检验，是对因变量与所有自变量之间的线性关系是否显著的一种假设检验；u回归分析的主要目的是，根据所建立的估计方程用自变量x来估计、预测因变量y的取值；u当我们建立了估计方程后，还不能马上进行估计或预测，因为该估计方程是根据样本数据得出的，它是否真实地反映了变量x和y之间的关系，需要通过检验后才能证实；u该检验利用方差分析的方法进行。F统计量定义为：平均的回归平方和与平均的残差平方和（均方误差）之比。（2）F检验：计算方法uMSR（mean square regression）即回归均方，等于回归平方和除以它的自由度；uMSE（

19、mean square error）即残差均方，等于残差平方和除以它的自由度；u统计量F服从第一自由度为1，第二自由度为n-2的F分布。)21 ()2/(1/nFMSEMSRnSSESSRF，（2）F检验步骤u利用F统计量进行回归方程显著性检验的步骤如下：u（1）提出假设：uH0: 1 = 0（两个变量之间的线性关系不明显）uH1: 1 0 （两个变量之间存在显著的线性关系）u若原假设成立，说明回归总体缺乏显著线性关系，反之表明回归总体存在显著的线性关系，即自变量x对y有显著的线性作用，解释变量总体系数不为零。u（2）计算回归方程的F统计量值u（3）根据给定的显著水平确定临界值F（1，n-2）

20、，或计算F值对应的P值u（4）做出判断。若F值大于临界值F（1，n-2）或pp F = 0.0000，有充分的理由拒绝原假设，教育与孩子年龄之间的线性关系是显著的（3 3）T T检验检验定义定义u对回归系数显著性的检验，检验自变量对因变量的影响是检验自变量对因变量的影响是否显著，也即是否显著，也即是检验各解释变量的回归系数是否等于检验各解释变量的回归系数是否等于0 0；u之所以对回归系数进行显著性检验，是因为回归方程的显著性检验只能检验所有回归系数是否同时与0有显著差别，它不提供回归方程中的各自变量回归系数与因变量关系的显著性；u在一元线性回归模型中，如果回归系数 1 = 0，则回归线是一条水

21、平线，表明因变量的取值不因自变量而异，即两个变量之间没有线性关系；u如果回归系数1 0 ，也不能得出两个变量之间存在线性关系的结论。该结论依赖于这种关系是否具有统计意义上的显著性。（3）T检验检验步骤（a）首先提出原假设和备择假设：H0： 1 = 0H1： 1 0 （b）计算回归系数t 的统计量值（c）根据给定的显著水平确定临界值，或计算t值所对应的P值（d）作出判断。若t值大于临界值或p|t| Beta-+- yrsch | -.5025551 .0705833 -7.12 0.000 -.0942719 income | -.0011525 .0000518 -22.25 0.000 -.

23、结果不同：置信区间换成了标准回归系数常数项的标准偏回归系数总是0，故没有输出结果；其余内容不变从标准回归系数判断，income的作用显然远远超过yrsch的作用逐步回归（Stepwise regression）后退法后退法（backward）：事先给定从方程中剔出自变量的临界值pr。模型开始包括所有变量，其后，每个回合去掉一个p值最大的自变量；直到所有自变量的p值都等于或低于指定的临界值前进法前进法（forward）：事先挑选自变量进入方程的临界值pe。开始时方程中没有自变量，然后，按照自变量对因变量贡献的大小依次挑选进入方程，每选入一个变量，都要对已在模型中的变量进行检验，剔除p值大于临界

24、值的变量，直到方程外变量的p值均大于指定的临界值、再没有自变量可引入方程为止。这样保证最后所得的变量子集中的所有变量都是有统计学意义的. sw. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,prpr(0.05) begin with full modelp = 0.9464 = 0.0500 removing hanzu p = 0.4427 = 0.0500 removing gaozhongp = 0.5929 = 0.0500 removing dazue p = 0.3556 = 0.0500

26、5% Conf. Interval-+- age | .2317112 .0955109 2.43 0.015 .0443264 .419096 girl | 15.90959 .770415 20.65 0.000 14.3981 17.42108 urban | -4.693933 .8519099 -5.51 0.000 -6.365312 -3.022554 income | -.0007623 .0001057 -7.21 0.000 -.0009697 -.0005548 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-

27、. sw. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pepe(0.05) begin with empty modelp = 0.0000 0.0500 adding girl p = 0.0000 0.0500 adding incomep = 0.0000 0.0500 adding urbanp = 0.0154 F = 0.0000 Residual | 206678.564 1214 170.245934 R-squared = 0.3577-+- Adj R-squared = 0.35

29、0955109 2.43 0.015 .0443264 .419096 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-多重共线性然而，在实际问题中，一些基本假定往往不能满足，使OLS方法失去BLUE性质一般情况下，随机扰动项均值等于0的假设条件基本能够得到满足；即便不满足也不会影响解释变量的系数，只会影响截距项同样，随机扰动项正态分布的假设通常也能够成立。即便不成立，在大样本的情况下也会近似成立截面数据时，可能出现异方差，从而使分析结果产生偏差自变量之间不高度相关的假定有时得不到满足，造成多重共线性现象纵向数据中，随机扰动项可能自

30、相关，造成由于序列自相关而引起的多重共线性多重共线性的定义及后果一些自变量或全部自变量高度相关（相关系数在0.80以上），即自变量之间有近似线性关系不仅出现于线性回归分析中，也适用于非线性多元回归完全多重共线性和不完全多重共线性后果：严重多重共线性时，参数估计的符号与其预期意义相反，使分析结果难以解释，得出完全错误的结论完全的多重共线性：导致（1）参数估计值不确定（2）方差无限扩大多重共线性的后果不完全的多重共线性。可能导致以下现象：（1）虽然参数估计仍是无偏估计，但不稳定（2）参数估计的方差随共线性程度的增强而增大（3）t检验失效，区间估计失去意义。这是因为，存在多重共线性时，参数估计值的方

31、差与标准差变大，t统计量的拒绝域变小（临界值增大），使通过样本计算的t值小于临界值，从而使我们错误地作出参数为0的推断若自变量内在相关程度太大，一个因素对因变量的影响可能取代另一个因素的影响，或相互抵消各自对因变量的作用，使原本具有显著性的解释因素变得无显著性意义，从而将重要的解释变量排除在模型之外多重共线性的判别方法简单相关系数矩阵法（辅助手段）：简单相关系数矩阵法（辅助手段）：这是一个简单的方法。一般情况下，当系数在0.8以上时，即可初步判定两个变量之间存在线性相关但是，相关系数受到其它因素的影响，不一定反映变量之间真实的相关程度；需采用其它方法再检验变量显著性与方程显著性综合判断法变量

32、显著性与方程显著性综合判断法：若判定系数大，F值显著大于临界值，但t值不显著，则可认为存在多重共线性辅助回归法辅助回归法逐步回归法逐步回归法多重共线性的判别方法：辅助回归法多重共线性的判别方法：逐步回归法多重共线性的解决方法（1）找出并排除引起多重共线性的自变量：利用逐步回归法，发现产生共线性的自变量，将其剔除，从而减少共线性的影响。因此，逐步回归既是判断是否存在多重共线性的方法，也是解决多重共线性的方法（2）在资源允许的范围内增加样本容量，可使参数估计量的方差减小，部分地克服多重共线性带来的不利后果（即参数估计量具有较大的方差）。虽然减小参数估计量的方差并不能消除模型中的多重共线性，但却能在一定程度上避免或减轻多重共线性造成的后果。样本增加后，样本向量有可能不再线性相关。这也可以降低观察误差，减小估计量的方差，有助于提高估计精度

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？