1、 “回归分析回归分析”的起源的起源 “回归”是由英国著名生物学家兼统计学家高尔顿高尔顿(Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。 他发现这些数据的散点图大致呈直线状态,也就是说,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将子女与父母身高的这种现象拟合出一种线形关系,分析出子女的身高y与父母的身高x大致可归结为以下关系: y=33.73+0.516*x (单位:英寸) 有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所生的子女比其父母要高,身材较高的父母所生子
2、女的身高却回降到其家族的平均身高。换句话说,当父母身高走向极端,当父母身高走向极端,子女的身高不会象父母身高那样极端子女的身高不会象父母身高那样极端化,化,其身高要比父母们的身高更接近平其身高要比父母们的身高更接近平均水平,即有均水平,即有“回归回归”到平均数的趋势,到平均数的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均向平均数方向的回归数方向的回归”。本章内容本章内容第一节第一节 相关分析相关分析第二节第二节 一元线性回归一元线性回归1.1.函数关系函数关系 即:即:客观现象之间存在的相互依存的客观现象之间存在的相互依存的确定性确定性的数量关系的数量关系。(一一
3、对应的确定关系)。(一一对应的确定关系) 特征:特征: 在这个关系中,当中一个或多个表述现象的数量(自变量)发生变化时,另一个表述现象的数量(因变量)按照一定的规律有确定的数值与之对应, 可以用数学表达式数学表达式描述这种关系。例:例:圆的面积与半径的关系、价格一定时,商品销售额与销售量的关系 一、一、函数关系与相关关系函数关系与相关关系2.2.相关关系相关关系 (1)(1)概念概念:相关关系是指经济现象之间客观存相关关系是指经济现象之间客观存在的在数量上不是确定性的对应关系。在的在数量上不是确定性的对应关系。 特征特征: :某一现象或多个现象与另一有联系的现象之间在数量上存在着一定的依存关系
4、,但不是确定和严格的数量关系不是确定和严格的数量关系。 例例: :居民的月可支配收入和消费支出的关系、子女身高与父母身高之间的关系、人的收入水平与受教育程度之间的关系 二、相关关系的种类二、相关关系的种类按相关方向按相关方向正相关正相关负相关负相关按相关的形式按相关的形式线性相关线性相关非线性相关非线性相关按相关的程度按相关的程度完全相关完全相关不完全相不完全相关关不相关不相关三、相关关系的描述与度量三、相关关系的描述与度量1.散点图散点图 使用相关分析解决实际问题时,使用相关分析解决实际问题时,通常通过绘制两个变量之间的散点图,通常通过绘制两个变量之间的散点图,初步直观地判断变量之间相关关系
5、的初步直观地判断变量之间相关关系的类型、方向和强弱程度。类型、方向和强弱程度。各类相关关系的散点图各类相关关系的散点图 (e)非线性相关(d)完全负线性相关(c)完全正线性相关例例1 1:某地区某企业近:某地区某企业近8 8年产品产量与生产年产品产量与生产费用的相关情况如下表所示:费用的相关情况如下表所示:用用EXCELEXCEL绘制相关图如下绘制相关图如下 2.2.相关系数相关系数 相关系数是测度线性相关关系方向相关系数是测度线性相关关系方向与强弱程度的常用方法,因此也叫线性与强弱程度的常用方法,因此也叫线性相关系数。相关系数。相关系数分为两种:一种是总体相相关系数分为两种:一种是总体相关系
6、数,用于测度两个总体变量之间真关系数,用于测度两个总体变量之间真实的线性相关程度,一般以下相关系数实的线性相关程度,一般以下相关系数计算公式为:计算公式为:总体相关系数总体相关系数:)var()var(),cov(yxyx另一种是样本相关系数。另一种是样本相关系数。由由于于总体相关系数通常是未知的总体相关系数通常是未知的。所。所以我们一般用样本相关系数作为总以我们一般用样本相关系数作为总体相关系数的近似估计值。样本相体相关系数的近似估计值。样本相关系数关系数r的计算公式为的计算公式为:22xxyyrxxyy2222nxyxynxxnyy 3.相关系数的特点相关系数的特点(1)当r的取值范围是
7、:若 ,表明x与y之间存在正线性相关关系;若 ,表明x与y之间存在负线性相关关系; 若r=+1,表明x与y之间为完全正线性相关关系; 若r=-1,表明x与y之间为完全负线性相关关系; 即 时,x与y 之间为函数关系。 当r=0时,x与y之间不存在线性相关关系。11r10 r01r1r 对于一个具体的对于一个具体的r r的取值,根据经验可将的取值,根据经验可将相关程度分为以下几种情况:相关程度分为以下几种情况:当 时,可视为高度相关;当 时,可视为中度(显著)相关;当 时,视为低度相关;当 时,可视为微弱相关(不相关)。8 . 0r8 . 05 . 0 r5.03.0 r3 .0r(2)r具有对
8、称性, 。(3)r仅仅是与x和y 之间线性关系的一个度量,它不能用于描述非线性关系。(4)r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。 yxxyrr:即4.相关系数检验相关系数检验w 由于由于r是根据样本数据计算出来的是根据样本数据计算出来的,所以它会受到抽样波动的影响。由,所以它会受到抽样波动的影响。由于抽取样本的不同,于抽取样本的不同,r的取值也就不同的取值也就不同,因此,因此r是一个随机变量,我们能否根是一个随机变量,我们能否根据样本相关系数说明总体的相关程度据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可呢?这就需要考察样本相关系数的可
9、靠性,也就是进行显著性检验。靠性,也就是进行显著性检验。一、回归分析的概念一、回归分析的概念(一)回归分析的概念(一)回归分析的概念 回归分析实际上是相关现象间不确定、不规则的数量回归分析实际上是相关现象间不确定、不规则的数量关系的一般化、规律化关系的一般化、规律化。回归分析采用的方法是配合直线或曲线来反映现象之间的一般数量关系。这条直线或曲线叫回归直线或回归曲线回归直线或回归曲线,它们的方程称为回回归直线方程或回归曲线方程归直线方程或回归曲线方程。 回归分析是对具有相关关系的现象根据其相关形式,选择合适的数学模型(回归方程),近似地描述变量间的平均变化关系的一种统计分析方法。(二)(二) 回
10、归分析与相关分析的关系回归分析与相关分析的关系1. 1. 区别区别 (1)(1)相关分析相关分析所研究的两个变量是对等关系。 回归分析回归分析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。 (2)(2)相关分析相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值。 回归分析回归分析可以根据研究目的分别建立不同的回归方程。 (3)(3)相关分析相关分析中两个变量都必须是随机变量。 回归分析回归分析中自变量是给定的变量,因变量是随机变量。2.2.回归分析与相关分析的联系回归分析与相关分析的联系 (1)(1)相关分析是回归分析的基础和前提。相关分析是回归分
11、析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。 (2)(2)回归分析是相关分析的深入和继续。回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。回归分析按回归变量个数分按回归形式分一元回归多元回归线性回归非线性回归二、回归分析的种类二、回归分析的种类三、一元线性回归分析三、一元线性回归分析(一)(一)一元线性回归分析的含义与特点一元线性回归分析的含义与特点1.1.含义含义 2.2.特点特点 (1)模型中包含两个变量,自
12、变量和因变量。 (2)变量之间的变化规律近似于线性关系。 包含两个变量且变量之间关系为线性的回归分析称为一元线性回归分析。(二)一元线性回归模型 w 1 1一元线性回归模型的确定一元线性回归模型的确定一元线性回归模型可表示为:一元线性回归模型可表示为: 其中:其中:)(1010为模型的参数、xy所解释的变异性。之间线性关系和的影响,是不能由外的随机因素对之间线性关系之和映了除称为模型的误差项,反的线性变化;而引起的的变化反映了由于称为模型的线性部分,yxyyxx:yx:10(1)因变量y与自变量x之间具有线性关系;(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;(3)误差项 是
13、一个期望值为0的随机变量,即 ;(4)对于所有的x值, 的方差 都相同;(5)误差项 是一个服从正态分布的随机变量,且独立,即 0)(E2上述模型称为理论回归模型,对该模型上述模型称为理论回归模型,对该模型有以下几个主要假定:有以下几个主要假定:), 0(2N2 2、总体回归方程(总体回归函数)、总体回归方程(总体回归函数) 描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。 一元线性回归方程的形式为:一元线性回归方程的形式为: 该方程也叫直线回归方程。该方程也叫直线回归方程。)()(10 xyE 由于总体回归参数 是未知的,所以需要用样本数据去估计它们。那么用样本统计量 代替回归方程
14、中的未知参数 ,这时就得到了样本回归方程。 对于一元线性回归,样本的回归方程形式为:10和10和10和3 3、样本回归方程(样本回归函数)、样本回归方程(样本回归函数)xy10(三)一元线性回归模型参数的估计(三)一元线性回归模型参数的估计最小二乘估计最小二乘估计 最小二乘法也称最小平方法,它是由德国科学家卡尔高斯提出的。该方法主要是通过使因变量的观察值 与估计值 之间的离差平方和达到最小,从而来估计 的。即:使得即:使得最小。最小。iyiy10和2)(iiyyw 令令 ,根据最小二乘法,根据最小二乘法,使使Q Q最小最小w 根据微积分的极值定理,需要对根据微积分的极值定理,需要对Q Q求相求
15、相应于应于 的偏导数,并使其等于的偏导数,并使其等于0 0,便可求出便可求出 ,即:,即:2)(iiyyQ10和10和niiiiniiixyxQxyQ1101111100000)(20)(2 xyxxnyxxyn10221)(解上述方程,得参数解上述方程,得参数 的最小二的最小二乘估计为:乘估计为:10和例例2 2:某地区某企业近:某地区某企业近8 8年产品产量与生产年产品产量与生产费用的相关情况如下表所示:费用的相关情况如下表所示:解:设回归方程为:解:设回归方程为: x x为产量,为产量, 为生产费用,计算如下:为生产费用,计算如下:w w 故有制造费用对产量的回归方程故有制造费用对产量的
16、回归方程问题:以产量为自变量,以生产费用为因问题:以产量为自变量,以生产费用为因变量,求出估计的回归方程。变量,求出估计的回归方程。xy10yxy89599.123232.511220112.89599()51.3232nxyxynxxyx EXCEL输出的回归分析结果:输出的回归分析结果:(四)一元线性回归模型的检验(四)一元线性回归模型的检验1、拟合优度检验、拟合优度检验拟合优度:回归直线与各观测点的接近程度称之为。 为说明直线的拟合优度,需要计算判定系数:判定系数定义:回归平方和占总平方和的比例,记为 。 判定系数测度了回归直线对观测数据的拟合程度。2R公式公式性质:性质: ;越接近于越
17、接近于1,表明用,表明用x的变化解释的变化解释y值变动的部分就越多,回归直线的拟值变动的部分就越多,回归直线的拟合度就越好合度就越好;反之,;反之,越接近于越接近于0,回,回归直线的拟合程度就越差。归直线的拟合程度就越差。222)()(1yyyySSTSSRRiii102 R2R2R2、回归系数的检验、回归系数的检验 即检验自变量x对因变量y的影响是否显著的检验。 从形式上即检验回归系数检验回归系数 是否等于是否等于0 0。如果 不显著等于0,就说明x对y有显著性影响,在一元线性回归模型中,也就表示x和y之间存在线性关系。因此在一元线性回归模型中,对回归系数的显著性检验,等价于模型线性关系的显
18、著模型线性关系的显著性检验性检验。11检验的具体步骤如下:检验的具体步骤如下:w (1)提出原假设和备择假设。)提出原假设和备择假设。w (2)计算检验统计量:)计算检验统计量:w (3 3)明确拒绝域)明确拒绝域0111:0;:0HH11(2 )()ettnS)2(2nttW双(4 4)进行决策)进行决策 若若 ,则拒绝原假设,则拒绝原假设 ,表明模,表明模型通过检验,认为型通过检验,认为x对对y有显著性影响;有显著性影响;若若 ,则不拒绝原假设,则不拒绝原假设 ,表明,表明模型没有通过检验,认为模型没有通过检验,认为x对对y没有显没有显著性影响著性影响。2tt 0H2tt0H例例3:对:对
19、例例2中的一元线性回归模型进行回中的一元线性回归模型进行回归系数的显著性检验。归系数的显著性检验。解:(解:(1)提出原假设和备择假设。)提出原假设和备择假设。(2)计算检验统计量:)计算检验统计量:0111:0;:0HH1112.89609.72331.3263()etS(3 3)确定显著性水平)确定显著性水平 ,查表得,查表得(4 4)进行决策)进行决策 ,所以拒绝原假设,所以拒绝原假设 ,表明,表明该模型通过检验,认为该模型通过检验,认为x对对y有显著性影响。有显著性影响。2tt0H05. 02(2)2.447tn(五)一元线性回归模型的应用(五)一元线性回归模型的应用1、对现实的经济意
20、义、对现实的经济意义 回归方程 表明:当自变量x 每增加1个单位时,因变量 则平均增加 个单位。 试简述例2回归方程的经济意义。xy10y12、利用回归方程进行估计和预测、利用回归方程进行估计和预测 即根据自变量 x 的取值估计或预测因变量 y的取值。估计或预测的类型估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计点估计点估计区间估计区间估计1. 点估计值与实际值之间是有误差的,但是点估计不能给出估计的精度,因此需要进行区间估计。2. 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3. 区
21、间估计有两种类型置信区间估计预测区间估计(1)置信区间估计置信区间估计 y 的平均值的置信区间估计的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间。置信区间。 E(y0)在1-置信水平下的置信区间为:niiyxxxxnSnty1220201) 2((式中:式中:Sy为估计标准误差为估计标准误差)(2)预测区间估计预测区间估计 y 的个别值的预测区间估计的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间预测区间 。 y0在1-置信水平下的预测区间为:EXCEL输出的回归分析结果:输出的回归分析结果: