1、第7章-相关与回归分析学习目标学习目标1 1、了解相关关系的概念、种类以及相关分析与回归分析的区别、了解相关关系的概念、种类以及相关分析与回归分析的区别及联系,明确相关与回归分析的任务与程序;及联系,明确相关与回归分析的任务与程序;2 2、掌握相关系数的概念及常用计算公式;了解相关性的检验、掌握相关系数的概念及常用计算公式;了解相关性的检验、相关系数的取值范围及相关关系密切程度的判断标准;相关系数的取值范围及相关关系密切程度的判断标准;3 3、掌握一元线性回归的基本原理,熟练应用最小二乘法求估计、掌握一元线性回归的基本原理,熟练应用最小二乘法求估计的回归方程,理解参数的经济含义,利用回归方程进
2、行预的回归方程,理解参数的经济含义,利用回归方程进行预测;测;4 4、了解多元线性回归分析的基本方法;、了解多元线性回归分析的基本方法;5 5、了解估计标准误差的计算方法与应用。、了解估计标准误差的计算方法与应用。 7.1 相关关系概述相关关系概述函数关系函数关系是一一是一一对应的确定关系对应的确定关系设设有两个变量有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一起变化,并完全一起变化,并完全依赖于依赖于 x ,当变量,当变量 x 取某个取某个数值时,数值时, y 依确定的关系取依确定的关系取相应的值,则称相应的值,则称 y 是是 x 的函的函数,记为数,记为 y = = f
3、(x),其中,其中 x 称称为自变量,为自变量,y 称为因变量称为因变量各各观测点落在一条线上观测点落在一条线上 函数关系函数关系(几个例子几个例子)n某种商品的销售额某种商品的销售额y y与销售量与销售量x x之间的关系可之间的关系可表示为表示为 y y = = px px ( (p p 为单价为单价) )n圆的面积圆的面积S S与半径与半径R R之间的关系可表示为之间的关系可表示为S S= = R R2 2 n企业的原材料消耗额企业的原材料消耗额y y与产量与产量x x1 1 、单位产量、单位产量消耗消耗x x2 2 、原材料价格、原材料价格x x3 3之间的关系可表示为之间的关系可表示为
4、 y y = = x x1 1 x x2 2 x x3 3 相关关系相关关系(correlation)变量间关系不能用函数关变量间关系不能用函数关系精确表达。系精确表达。一个变量的取值不能完全一个变量的取值不能完全由另一个变量唯一确定。由另一个变量唯一确定。各观测各观测点分布在直线周围。点分布在直线周围。 相关关系相关关系(几个例子几个例子)n父亲身高父亲身高x x 与子女身高与子女身高y y之间的关系之间的关系n收入水平收入水平y y与受教育程度与受教育程度x x之间的关系之间的关系n粮食单位面积产量粮食单位面积产量y y与施肥量与施肥量x x1 1 、降雨量、降雨量x x2 2 、温度、温
5、度x x3 3之间的关系之间的关系n商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系n商品销售额商品销售额y y与广告费支出与广告费支出x x之间的关系之间的关系7.2 一元线性相关分析一元线性相关分析7.2 一元线性相关分析一元线性相关分析7.2.1 7.2.1 相关关系的描述与测度相关关系的描述与测度7.2.2 7.2.2 相关系数的显著性检验相关系数的显著性检验7.2.1 相关关系的描述与测度相关关系的描述与测度q相关分析要解决的问题相关分析要解决的问题q变量之间变量之间关系?关系?q变量之间的关系变量之间的关系如何?如何?q样本所反映的变量之间的关系能否样本
6、所反映的变量之间的关系能否变量之间的关系?变量之间的关系?q为解决这些问题,在进行相关分析时,对总体为解决这些问题,在进行相关分析时,对总体有以下两个主要假定有以下两个主要假定q两个变量之间是线性关系两个变量之间是线性关系q两个变量都是随机变量两个变量都是随机变量主要内容主要内容q相关关系的描述与测度相关关系的描述与测度散散点图点图q相关关系的描述与测度相关关系的描述与测度相关系数相关系数散点图散点图q描述变量间的相关性描述变量间的相关性的方法就是的方法就是画出两个变量的散点图。画出两个变量的散点图。q散点图显示了同一个个体上度量到的两个数量散点图显示了同一个个体上度量到的两个数量变量之间的关
7、系。其中一个变量的值在横轴上变量之间的关系。其中一个变量的值在横轴上标示,两一个变量的值在纵轴上标示,点的位标示,两一个变量的值在纵轴上标示,点的位置由该个体两个变量的值决定。置由该个体两个变量的值决定。q散点图能描述两变量间的大致关系,直观地看散点图能描述两变量间的大致关系,直观地看出变量之间关系出变量之间关系、和和。散点图散点图(scatter diagram)非线性相关(曲线相关)非线性相关(曲线相关). . 相关关相关关系种类系种类单相关(一元相关)单相关(一元相关)复相关(多元相关)复相关(多元相关)线性相关(直线相关)线性相关(直线相关) 正相关正相关负相关负相关完全相关(函数关系
8、)完全相关(函数关系)相关(不完全相关)相关(不完全相关)不相关不相关(一(一) )按相关关按相关关系涉及的系涉及的变量多少变量多少 (二(二) )按相关按相关的形式的形式. . (三(三) )按相关的方向按相关的方向 (直线相关)(直线相关). . (四(四) )按相关按相关 的程度的程度. . 相关关系的种类相关关系的种类散点图散点图(例题分析例题分析)【例【例1 1】一家大型商业银行在多个地区设有分行,其一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷固定资产投资
9、等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。据进行定量分析,以便找出控制不良贷款的办法。散点图散点图相关系数相关系数通过散点图可以初步判断变量之间是否存在相通过散点图可以初步判断变量之间是否存在相关关系,但不能准确反映变量之间的关系密切程度,关关系,但不能准确反映变量之间的关系密切程度,因此可以计算
10、相关系数来因此可以计算相关系数来。相关系数是度量变量之间关系强度和方向相关系数是度量变量之间关系强度和方向的一个统计量。的一个统计量。对两个变量之间线性相关的度量称为简单对两个变量之间线性相关的度量称为简单相关系数。相关系数。相关系数相关系数(correlation coefficient):线性相关,常用于数量型:线性相关,常用于数量型数据。数据。qSpearmanSpearman等级相关系数:秩相关,常用于定序等级相关系数:秩相关,常用于定序数据,也可以用于数量性数据。数据,也可以用于数量性数据。若相关系数若相关系数是根据总体全部数据计算的,是根据总体全部数据计算的,称为总体相关系数,记为
11、称为总体相关系数,记为 1. 1.若相关系数若相关系数是根据样本数据计算的,则称是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为为样本相关系数,简称为相关系数,记为 r. . 样本相样本相关系数关系数yxxysssr2两个变量的协方差两个变量的协方差:2xys的的标标准准差差变变量量)(xxs:的的标标准准差差变变量量)(yys: 样本相关系数的计算公式样本相关系数的计算公式或化简为或化简为相关系数的意义相关系数的意义1 1:r 的取值范围的取值范围是是 -1,1-1,1q |r|=1 1,为完全相关为完全相关nr =1 1,为完全正相关,为完全正相关nr =-1 -1,为完全负
12、正相关,为完全负正相关q r = 0,不存在不存在相关关系相关关系q -1 -1r0 0,为负相关为负相关q0 0r1 1,为正相关为正相关q|r|越趋于越趋于1 1表示表示关系越强;关系越强;|r|越趋于越趋于0 0表示关表示关系越弱系越弱相关系数的相关系数的取值及其意义的图解取值及其意义的图解相关系数的经验解释相关系数的经验解释 |r| 0.80.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关0.50.5 |r|0.80.8时,可视为中度相关时,可视为中度相关0.30.3 |r|0.50.5时,视为低度相关时,视为低度相关|r|0.3 t t,拒绝,拒绝H H0 0 若若t
13、 t =7.5344t t(25-2)=2.069(25-2)=2.069,拒绝,拒绝H H0 0,不良贷,不良贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 7.3 一元线性回归分析一元线性回归分析主要内容主要内容什么是回归分析什么是回归分析q回归分析就是对具有相关关系的多个变量之间回归分析就是对具有相关关系的多个变量之间的数量变化进行数量测定,配合一定的数学方的数量变化进行数量测定,配合一定的数学方程模型,以便由自变量的数值对因变量的可能程模型,以便由自变量的数值对因变量的可能值进行估计或预测的一种统计方法。值进行估计或预测的一种统计方法。 q回归分
14、析是研究一个回归分析是研究一个)对一个或多个)对一个或多个之间的统计依赖关系;其目的是通过后者的已之间的统计依赖关系;其目的是通过后者的已知的数值去估计和预测前者的值。知的数值去估计和预测前者的值。趋向中间高度的回归趋向中间高度的回归q回归这个术语是由英国著名统计学家回归这个术语是由英国著名统计学家Francis GaltonFrancis Galton在在1919世纪末期研究孩子及其父母的身高时提出来的。世纪末期研究孩子及其父母的身高时提出来的。GaltonGalton发现身材高的父母,他们的孩子身材也高。但发现身材高的父母,他们的孩子身材也高。但这些孩子平均起来并不像他们的父母那样高。对于
15、比这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。孩子的平均身高要比他们的父母的平均身高高。 GaltonGalton把这种孩子的身高向平均值靠近的趋势称为一把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称种回归效应,而他发展的研究两个数值变量的方法称为回归分析为回归分析回归分析与相关分析的区别回归分析与相关分析的区别相关相关分析中,变量分析中,变量 x 变量变量 y 处于平等的地位;回归处于平等的地位;回归分析中,变量分析中
16、,变量 y 称为因变量,处在被解释的地位,称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化。称为自变量,用于预测因变量的变化。相相关分析中所涉及的变量关分析中所涉及的变量 x 和和 y 都是随机变量;回都是随机变量;回归分析中,因变量归分析中,因变量 y 是随机变量,自变量是随机变量,自变量 x 是非随是非随机的确定变量。机的确定变量。相相关分析主要是描述两个变量之间线性关系的密切关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量程度;回归分析不仅可以揭示变量 x 对变量对变量 y 的影的影响大小,还可以由回归方程进行预测和控制响大小,还可以由回归方程进
17、行预测和控制 。回归分析回归分析的种类的种类按照回归按照回归线的形状线的形状按自变量按自变量的个数的个数多元回归多元回归非线性(曲线)回归非线性(曲线)回归回归模型的类型回归模型的类型7.3.1 7.3.1 一元线性回归模型一元线性回归模型一元线性回归一元线性回归涉及涉及自变量的回归自变量的回归因因变量变量y与自变量与自变量x之间为之间为关系关系q被预测或被解释的变量称为因变量被预测或被解释的变量称为因变量,用,用y表示表示q用来预测或用来解释因变量的一个或多用来预测或用来解释因变量的一个或多个变量称为自变量个变量称为自变量,用用x表示表示 一元线性回归模型一元线性回归模型一元线性一元线性回归
18、模型可表示为回归模型可表示为 qy 是是 x 的线性函数的线性函数( (部分部分) )加上误差项加上误差项q线性部分反映了由于线性部分反映了由于 x 的变化而引起的的变化而引起的 y 的的变化变化q误差项误差项 是随机变量是随机变量l反映了除反映了除 x 和和 y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y 的影响的影响l是不能由是不能由 x 和和 y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性q 0 和和 1 称为模型的参数称为模型的参数q变量要求:变量要求:y数值型数据数值型数据 x数值型数据数值型数据一元线性回归模型一元线性回归模型(基本假定基本假定)
19、 1. 1. 误差误差项项是一个期望值为是一个期望值为0 0的随机变量,即的随机变量,即E()=0(。对于一个给定的对于一个给定的 x 值,值,y 的期望值为的期望值为 E ( y ) = 0+ 1 x2. 2. 误差误差项项是一个服从正态分布的随机变量,且相互独立。即是一个服从正态分布的随机变量,且相互独立。即N(0 ,2 )q独立性意味着对于一个特定的独立性意味着对于一个特定的 x 值,它所对应的值,它所对应的与其与其他他 x 值所对应的值所对应的不相关不相关q对于一个特定的对于一个特定的 x 值,它所对应的值,它所对应的 y 值与其他值与其他 x 所对所对应的应的 y 值也不相关值也不相
20、关3. 3. 对对于所有的于所有的 x 值,值,的方差的方差2 都相同都相同回归方程回归方程 (regression equation)描描述述 y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x 的方程称的方程称为回归方程为回归方程一元一元线性回归方程的形式如下线性回归方程的形式如下 E( y ) = 0+ 1 x方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距轴上的截距; ; 1 1是直线的斜率,称为回归系数,是直线的斜率,称为回归系数,估计的回归方程估计的回归方程一元线性回归中估计的回归方程为一
21、元线性回归中估计的回归方程为用样本统计量用样本统计量 和和 代替回归方程中的未知参代替回归方程中的未知参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程总体回归参数总体回归参数 和和 是未知的,必须利用样本数是未知的,必须利用样本数据去估计据去估计其中:其中: 是估计的回归直线在是估计的回归直线在 y y 轴上的截距,轴上的截距, 是直线是直线的斜率,它表示对于一个给定的的斜率,它表示对于一个给定的 x x 的值,的值, 是是 y y 的估的估计值,也表示计值,也表示 x x 每变动一个单位时,每变动一个单位时, y y 的平均变动值的平均变动值 bxay或最小二乘估计最小二乘估计
22、使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 和和 的方法。即的方法。即2. 2. 用最小二乘法拟合的直线来代表用最小二乘法拟合的直线来代表x x与与y y之间的关系之间的关系与实际数据的离差比其他任何直线都小。与实际数据的离差比其他任何直线都小。01Karl Gauss的最小化图最小二乘法最小二乘法 ( 和和 的计算公式的计算公式). . 月份产量(千件)单位成本(元件)123456234345737271736968 (1 1)计算相关系数,说明产量与单位成本相关关系)计算相关系数,说明产量与单位成本相关关系 的密切程度。的密
23、切程度。 (2 2)配合单位成本与产量的直线回归方程,并解释)配合单位成本与产量的直线回归方程,并解释 回归系数的经济含义。回归系数的经济含义。(3 3)当产量为)当产量为60006000件时,试问单位成本为多少元?件时,试问单位成本为多少元?(4 4)计算估计标准误。)计算估计标准误。【例【例3 3】某企业某产品产量与单位成本资料如下:某企业某产品产量与单位成本资料如下: . . bxay1 1. .8 82 22 21 17 79 96 64 42 26 62 21 11 14 48 81 16 62 2月份产量 (千件)单位成本(元件)12345623434 57372717369 68
24、xy合计2121426426 2xxy4 4 9 9 16 16 9 9 16 16 2525146 146 216 216 284 284 219 219 276 276 3403407979 14811481解:解: 22xxnyxxynb(2 2)配合单位成本与产量的简单直线回归方程为:)配合单位成本与产量的简单直线回归方程为:. . nxbnyxbya7 77 7. .3 37 76 62 21 11 1. .8 82 26 64 42 26 6单位成本与产量的直线回归方程为:单位成本与产量的直线回归方程为:xy1 1. .8 82 27 77 7. .3 37 7b:回归系数。回归系
25、数。 它表示产量每增加它表示产量每增加10001000件,单位件,单位成本平均降低成本平均降低1.821.82元。元。(3 3)当产量为)当产量为60006000件时,则单位成本为:件时,则单位成本为:xy1 1. .8 82 27 77 7. .3 37 7元6 66 6. .4 45 56 61 1. .8 82 27 77 7. .3 37 7估计方程的求法估计方程的求法(例题分析例题分析)【例4】某公司11年来销售收入(万元)和广告费(万元)进行调查,得到资料如下,试拟和销售收入与广告费的回归方程。年销售收入年销售收入4040585833336565808080805656303033
26、3390907272广告费用广告费用13131414121220202828262618181212121230302222广告费1009080706050403020销售收入40302010估计方程的求法估计方程的求法(例题分析例题分析)年销售收入年销售收入y y40405858333365658080808056563030333390907272广告费用广告费用x x13131414121220202828262618181212121230302222bxay00. 343652 22 20 07 71 11 12 20 07 76 63 37 71 13 33 39 96 61 11
27、 1 22xxnyxxynbnxbnyxbya46. 100. 31 11 12 20 07 71 11 16 63 37 7. . 广告费用与年销售收入的线性回归方程为:广告费用与年销售收入的线性回归方程为:xy00.346.1自变量的回归系数表示当广告费每增加自变量的回归系数表示当广告费每增加1 1万元,万元,年销售收入平均增加年销售收入平均增加3.003.00万元。万元。7.3.3 7.3.3 一元线性回归方程的检验一元线性回归方程的检验1 1、回归模型的拟合优度和标准误差、回归模型的拟合优度和标准误差变变 差差因变量因变量 y y 的取值是不同的,的取值是不同的,y y 取值的这种波动
28、称取值的这种波动称为为。变差来源于两个方面:。变差来源于两个方面:q由于自变量由于自变量 x x 的取值不同造成的;的取值不同造成的;q除除 x x 以外的其他因素以外的其他因素( (如如x x对对y y的非线性影的非线性影响、测量误差等响、测量误差等) )的影响。的影响。对一个具体的观测值来说,变差的大小可以通过对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差该实际观测值与其均值之差 来表示。来表示。误差的分解误差的分解(图示图示) y误差平方和的分解误差平方和的分解 (三个平方和的关三个平方和的关系系) 误差平方和的分解误差平方和的分解 (三个平方和的意义三个平方和的意义
29、)q反映因变量的反映因变量的 n 个观察值与其均值的总离差平个观察值与其均值的总离差平方和。方和。q反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影取值变化的影响,或者说,是由于响,或者说,是由于 x 与与 y 之间的线性关系引之间的线性关系引起的起的 y 的取值变化,也称为可解释的平方和的取值变化,也称为可解释的平方和q反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也取值的影响,也称为不可解释的平方和或剩余平方和称为不可解释的平方和或剩余平方和判定系数(拟和优度)判定系数(拟和优度)R2 回归平方和回归平方和占总离差平方和的比例占总离差平方和的比
30、例反映回归直线的拟合程度反映回归直线的拟合程度取值范围在取值范围在 0 , 1 0 , 1 之间之间 R R2 2 1 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R R2 20 0,说明回,说明回归方程拟合的越差归方程拟合的越差判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即判定系数判定系数 (例题分析例题分析)q【例【例5】计算产量对成本回归的判定系数,并解释计算产量对成本回归的判定系数,并解释其意义其意义 q 是:在成本取值的变差中,是:在成本取值的变差中,有有82.64%82.64%可以由产量与成本之间的线性关系来解可以由产量与成本之间的线性关系来解释,或者说,在
31、成本取值的变动中,有释,或者说,在成本取值的变动中,有82.64%82.64%是是由产量所决定的。由产量所决定的。判定系数判定系数 (例题分析例题分析)q【例【例6】计算不良贷款对贷款余额回归的判定系数,计算不良贷款对贷款余额回归的判定系数,并解释其意义并解释其意义 q 是:在不良贷款取值的变是:在不良贷款取值的变差中,有差中,有71.16%71.16%可以由不良贷款与贷款余额之间可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的的线性关系来解释,或者说,在不良贷款取值的变动中,有变动中,有71.16%71.16%是由贷款余额所决定的。是由贷款余额所决定的。估计标准误差估计
32、标准误差实际观察值与回归估计值误差平方和的均方根实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况反映实际观察值在回归直线周围的分散状况对对误差项误差项 的标准差的标准差 的估计,是在排除了的估计,是在排除了x对对y的线性影响后,的线性影响后,y随机波动大小的一个估计量随机波动大小的一个估计量反反映用估计的回归方程预测映用估计的回归方程预测y时预测误差的大小时预测误差的大小 计算公式为计算公式为注:例题的计算结果为注:例题的计算结果为1.97992、回归方程显著性的检验、回归方程显著性的检验检验自变量与因变量之间的线性关系是否显著检验自变量与因变量之间的线性关系是否
33、显著将回归均方将回归均方( (MSRMSR) )同残差均方同残差均方( (MSEMSE) )加以比较,应加以比较,应用用F F检验来分析二者之间的差别是否显著检验来分析二者之间的差别是否显著均方回归:回归平方和均方回归:回归平方和SSRSSR除以相应的自由度除以相应的自由度( (自变量的个数自变量的个数k k) ) 均方残差:残差平方和均方残差:残差平方和SSESSE除以相应的自由除以相应的自由度度( (n n- -k k-1)-1)线性关系的检验线性关系的检验 (检验的步骤检验的步骤) 提出提出假设假设qH0: 1=0 H1 1: 1 1 0 0 2. 2. 计算检验统计量计算检验统计量F
34、F确定显著性水平确定显著性水平 ,并根据分子自由度,并根据分子自由度1 1和分母和分母自由度自由度n n-2 -2找出临界值找出临界值F F 作出决策:若作出决策:若F F F F , ,拒绝拒绝H H0 0;若若F F F F , ,拒绝拒绝H H0 0,线性关系显著,线性关系显著线性关系的检验线性关系的检验 (方差分析表方差分析表) 3 3、回归系数显著性的检验、回归系数显著性的检验在一元线性回归中,等价于线性关系的显著在一元线性回归中,等价于线性关系的显著性检验性检验采用采用t t检验检验检验检验 x x 与与 y y 之间是否具有线性关系,或者说,之间是否具有线性关系,或者说,检验自变
35、量检验自变量 x x 对因变量对因变量 y y 的线性影响是否显著的线性影响是否显著理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布回归系数显著性的检验回归系数显著性的检验(样本统计量样本统计量 的分布的分布) 是根据最小二乘法求出的样本统计量,它有自是根据最小二乘法求出的样本统计量,它有自己的分布己的分布 的的分布具有如下性质分布具有如下性质分布形式:正态分布分布形式:正态分布数学期望:数学期望:标准差:标准差:由于由于 未知,需用其估计量未知,需用其估计量s se e来代替得到来代替得到 的估计的的估计的标准差标准差回归系数显著性的检验回归系数显著性的检验 (检验步骤检验步骤)
36、提出假设提出假设qH0 0: : 1 1 = 0 (= 0 (没有线性关系没有线性关系) ) qH1 1: : 1 1 0 (0 (有线性关系有线性关系) ) 计算检验的统计量计算检验的统计量 确定显著性水平确定显著性水平 ,并进行决策,并进行决策 t t,拒绝,拒绝H0; t t,不拒绝,不拒绝H0回归系数显著性的检验回归系数显著性的检验 (例题分析例题分析)对例题对例题3 3的回归系数进行显著性检验的回归系数进行显著性检验( 0.050.05)提出假设提出假设qH0 0: 1 1 = 0 = 0 qH1 1: 1 1 0 0 1. 1.计算检验的统计量计算检验的统计量 t t=-4.37-
37、=-4.37=7.533515t t=2.201=2.201,拒绝,拒绝H H0 0,表明,表明不良贷款不良贷款与贷款余额之间有显著的线性关系与贷款余额之间有显著的线性关系回归系数显著性的检验回归系数显著性的检验 (例题分析例题分析)P P=0.000000=0.000000=10.1t t=2.201=2.201,拒绝,拒绝H H0 0,表明,表明销售收入与广销售收入与广告费用之间有显著的线性关系。告费用之间有显著的线性关系。3、判定系数、判定系数 q计算广告费用对销售收入回归的判定系数,并解计算广告费用对销售收入回归的判定系数,并解释其意义释其意义 q 是:在销售收入的变差中,是:在销售收
38、入的变差中,有有91.9%91.9%可以由广告费用与销售收入之间的线性关可以由广告费用与销售收入之间的线性关系来解释,或者说,在销售收入变动中,有系来解释,或者说,在销售收入变动中,有91.9%91.9%是由广告费用所决定的。所以模型拟和较好。是由广告费用所决定的。所以模型拟和较好。4 4、估计并预测、估计并预测万元46.461500. 346. 100. 346. 1xy可以估计,当投入可以估计,当投入1515万元的广告费用,销售万元的广告费用,销售收入为收入为46.4646.46万元。万元。7.3.4 7.3.4 利用回归方程进行预测利用回归方程进行预测点估计点估计2. 2. 点估计值有点
39、估计值有ny y 的的平均值平均值的点估计的点估计ny y 的的个别值个别值的点估计的点估计在点估计条件下,平均值的点估计和个别值的在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同的点估计是一样的,但在区间估计中则不同对于自变量对于自变量 x x 的一个给定值的一个给定值x x0 0 ,根据回归方,根据回归方程得到因变量程得到因变量 y y 的一个估计值的一个估计值 y 的平均值的点估计的平均值的点估计n在前面的例子中,假如我们要估计贷款余额为在前面的例子中,假如我们要估计贷款余额为100100亿元时,所有分行不良贷款的平均值,就是平亿元时,所有分行不良贷款的平均
40、值,就是平均值的点估计均值的点估计 。根据估计的回归方程得。根据估计的回归方程得7.4 多元线性回归分析多元线性回归分析多元回归模型多元回归模型一个因变量与两个及两个以上自变量的回归一个因变量与两个及两个以上自变量的回归描述因描述因变量变量 y 如何依赖于自变量如何依赖于自变量 x1 , x2 , xk 和和误差项误差项 的方程,称为多元回归模型的方程,称为多元回归模型涉涉及及 k 个自变量的多元回归模型可表示为个自变量的多元回归模型可表示为 0 0 , 1 1, 2 2 , k k是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x x1, 1,,x x2 2 ,
41、,x xk k 的线性函数加上误差项的线性函数加上误差项 包含在包含在y y里面但不能被里面但不能被k k个自变量的线性关系个自变量的线性关系 所解释的变异性所解释的变异性多元回归模型多元回归模型(基本假定基本假定) 误误差项差项是一个期望值为是一个期望值为0的随机变量,的随机变量,即即E( ( )=0)=0对于对于自变量自变量x1,x2,xk的所有值,的所有值, 的方差的方差 2都相同都相同误误差项差项是一个服从正态分布的随机变量,即是一个服从正态分布的随机变量,即N(0,2),且相互独立且相互独立自变量见不存在较强的相关性自变量见不存在较强的相关性多元回归方程多元回归方程描描述因变量述因变
42、量 y 的平均值或期望值如何依赖于自的平均值或期望值如何依赖于自变量变量 x1, x2 ,xk的方程的方程多多元线性回归方程的形式为元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + k xk 1 1, 2 2, k k称为偏回归系数称为偏回归系数 i i 表示表示,当,当 x xi i 每变动一每变动一个单位时,个单位时,y y 的平均变动值的平均变动值估计的多元回的方程估计的多元回的方程 是是 估计值估计值 是是 y 的估计值的估计值用样本统计量用样本统计量 估计回归方程中的估计回归方程中的 参数参数 时得到的方程时得到的方程由最小二乘法求得由最小二乘法求得一般形式
43、为一般形式为参数的最小二乘法参数的最小二乘法(例题分析例题分析)【例【例8 8】某公司老板认为每周总收入(千元)与】某公司老板认为每周总收入(千元)与广告费用(千元)有关,并想对总收入进行预广告费用(千元)有关,并想对总收入进行预测,现有由测,现有由8 8周数据组成的一个样本,根据数周数据组成的一个样本,根据数据进行分析,你能得出哪些有用的结论?据进行分析,你能得出哪些有用的结论?周总收入电视广告费用报纸广告费用周总收入电视广告费用报纸广告费用9651.59533.390229442.39541.59434.29232.59432.5多元线性回归的主要内容多元线性回归的主要内容q参数估计(最小
44、二乘法)参数估计(最小二乘法)q判定系数(修正的判定系数)判定系数(修正的判定系数)q回归方程显著性的检验回归方程显著性的检验q回归系数显著性的检验回归系数显著性的检验判定系数判定系数回归平方和占总平方和的比例回归平方和占总平方和的比例计算公式为计算公式为因变量取值的变差中,能被估计的多元回归方程因变量取值的变差中,能被估计的多元回归方程所解释的比例所解释的比例 修正的判定系数修正的判定系数用样本量用样本量n n和自变量的个数和自变量的个数k k去修正去修正R R2 2得到得到 计算公式为计算公式为避免增加自变量而高估避免增加自变量而高估 R R2 2意义与意义与 R R2 2类似类似数值小于
45、数值小于R R2 2线性关系检验线性关系检验检验因变量与所有自变量之间的线性关系是否显检验因变量与所有自变量之间的线性关系是否显著,也被称为著,也被称为总体的显著性检验总体的显著性检验检验方法是将回归均方检验方法是将回归均方( (MSRMSR) )同残差均方同残差均方( (MSEMSE) )加加以比较,以比较,应用应用 F F 检验检验来分析二者之间的差别是否来分析二者之间的差别是否显著显著q 如果是显著的,因变量与自变量之间存在线性关如果是显著的,因变量与自变量之间存在线性关系,即至少有一个自变量对系,即至少有一个自变量对y y线性影响是显著的。线性影响是显著的。q 如果不显著,因变量与自变
46、量之间不存在线性关如果不显著,因变量与自变量之间不存在线性关系系线性关系检验线性关系检验提出提出假设假设q H0: 1 2 k=0 线性关系不显著线性关系不显著q H1: 1, 2, k至少有一个不等于至少有一个不等于02. 2. 计算检验统计量计算检验统计量F F确定显著性水平确定显著性水平 和分子自由度和分子自由度k k、分母自由度、分母自由度n-kn-k- -1 1找出临界值找出临界值F F 4. 4. 作出决策:若作出决策:若F F F F ,拒绝,拒绝H H0 0回归系数的检验回归系数的检验线性关系检验通过后,对每一个自变量都线性关系检验通过后,对每一个自变量都要单独进行检验要单独进
47、行检验应用应用 t t 检验统计量检验统计量回归系数的检验回归系数的检验(步骤步骤)提出假设提出假设q H0 0: i i = 0 (= 0 (自变量自变量 xi 与与 因变量因变量 y 没有线性关系没有线性关系) ) q H1 1: i i 0 (0 (自变量自变量 xi 与与 因变量因变量 y有线性关系有线性关系) ) 计算检验的统计量计算检验的统计量 t t 确定显著性水平确定显著性水平 ,并进行决策,并进行决策 t t t t ,拒绝,拒绝H H0 0; t t t t ,不拒绝,不拒绝H H0 0本章小结本章小结相关关系的概念和分析方法。相关关系的概念和分析方法。简单线性相关方法(散点图和相关系数);简单线性相关方法(散点图和相关系数);回归模型、回归方程与估计的回归方程回归模型、回归方程与估计的回归方程利用最小二乘法估计回归系数利用最小二乘法估计回归系数回归分析中的显著性检验(回归分析中的显著性检验(F F检验和检验和t t检验)检验)6. 6. 回归方程的评价回归方程的评价( (判定系数和标准误差)判定系数和标准误差)7. 7. 估计和预测估计和预测结结 束束此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢