第九章-相关与回归分析课件.ppt

上传人(卖家):晟晟文业 文档编号:4907560 上传时间:2023-01-24 格式:PPT 页数:116 大小:1.70MB
下载 相关 举报
第九章-相关与回归分析课件.ppt_第1页
第1页 / 共116页
第九章-相关与回归分析课件.ppt_第2页
第2页 / 共116页
第九章-相关与回归分析课件.ppt_第3页
第3页 / 共116页
第九章-相关与回归分析课件.ppt_第4页
第4页 / 共116页
第九章-相关与回归分析课件.ppt_第5页
第5页 / 共116页
点击查看更多>>
资源描述

1、第第9 9章章 相关与一元线性回归相关与一元线性回归9.1 变量间关系的度量变量间关系的度量 9.2 一元线性回归一元线性回归9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 残差分析残差分析学习目标1.相关系数的分析方法相关系数的分析方法2.一元线性回归的基本原理和参数的最小一元线性回归的基本原理和参数的最小二乘估计二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测6.用用 SPSS 进行回归进行回归9.1 9.1 变量间关系的度量变量间关系的度量9.1.1 9.1.1 变量间

2、的关系变量间的关系9.1.2 9.1.2 相关关系的分类相关关系的分类9.1.3 9.1.3 相关关系的描述与测度相关关系的描述与测度9.1.4 9.1.4 相关系数的显著性检验相关系数的显著性检验函数关系与相关关系函数关系与相关关系 当一个变量取一定数值时,另一个变量有当一个变量取一定数值时,另一个变量有确确定值定值与之相对应,这种关系称为与之相对应,这种关系称为函数关系函数关系。当一个变量取一定数值时,与之相对应的另当一个变量取一定数值时,与之相对应的另一变量的数值虽然一变量的数值虽然不确定不确定,但它仍按某种规,但它仍按某种规律在一定的范围内变化,这种关系称为律在一定的范围内变化,这种关

3、系称为相关相关关系关系。对相关关系的分析是统计学的重要研究内容。对相关关系的分析是统计学的重要研究内容。主要研究方法:相关分析和与回归分析。主要研究方法:相关分析和与回归分析。9.1.19.1.1变量间的关系变量间的关系函数关系1.1.是一一对应的确定关系是一一对应的确定关系2.2.设有两个变量设有两个变量 x x 和和 y y,变量,变量 y y 随变量随变量 x x 一起变化,并完全一起变化,并完全依赖于依赖于 x x,当变量,当变量 x x 取某个取某个数值时,数值时,y y 依确定的关系取相依确定的关系取相应的值,则称应的值,则称 y y 是是 x x 的函数,的函数,记为记为 y y

4、=f f(x x),其中,其中 x x 称为称为自变量,自变量,y y 称为因变量称为因变量函数关系(几个例子)相关关系(correlation)1.变量间关系不能用函数关变量间关系不能用函数关系精确表达系精确表达2.一个变量的取值不能由另一个变量的取值不能由另一个变量唯一确定一个变量唯一确定3.当变量当变量 x 取某个值时,变取某个值时,变量量 y 的取值可能有几个的取值可能有几个4.各观测各观测点分布在直线周围点分布在直线周围 相关关系(几个例子)相关分析与回归分析 相关分析(相关分析(Correlation AnalysisCorrelation Analysis)研究变量之研究变量之间

5、相关的方向和相关的程度,但无法给出变量间间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测相互关系的具体形式,因而无法从一个变量推测另一个变量。另一个变量。回归分析(回归分析(Regression)Regression)可以确定变量之间相互可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预另一个变量的影响程度,并根据回归方程进行预测。测。1.1.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为:单相关和复相关。单相关和复相关。在实际工作中,

6、如存在多个自变量,可抓住在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为一些因素不变,这时复相关可转化为偏相关偏相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉,即只涉及一个自变量和一个因变量。及一个自变量和一个因变量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或多元相关,即涉及二个或二个以上的自变量和或多元相关,即涉及二个或二个以上的自变量和因变量。因变量。9.1.29.1.2相关关系的分类相关关系的分类 2.2.按按相关关系的性质来

7、分,可分为相关关系的性质来分,可分为:正相关和负相关正相关和负相关正相关正相关是指两相关现象变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变化的方向是相反的。是指两相关现象变化的方向是相反的。正相关负相关3.3.按按相关关系的形式来分,可分为:相关关系的形式来分,可分为:直线相关和曲线相关直线相关和曲线相关 直线相关直线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y随之发生近似于固定比随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,例的变动,在相关图上的散点近似地

8、表现为直线形式,因此称其为直线相关关系。因此称其为直线相关关系。曲线相关曲线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y也随之发生变动,但这也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。为曲线相关关系。曲线相关直线相关4.4.按按相关程度分,可分为:相关程度分,可分为:完全相关、不完全相关和不相关完全相关、不完全相关和不相关 完全相关完全相关就

9、是相关现象之间的关系是完全确定就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。的关系,因而完全相关关系就是函数关系。不相关不相关是指两现象之间在数量上的变化上各自是指两现象之间在数量上的变化上各自独立,互不影响。独立,互不影响。不完全相关不完全相关就是介于完全相关和不相关之间的就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关一种相关关系。相关分析的对象主要是不完全相关关系。关系。9.1.39.1.3相关关系的描述与测度相关关系的描述与测度(散点图散点图)散点图 Scatter Diagram 散点图是观察两个变量之间的相关程度和类型最直观的方法。

10、散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。自变量和因变量 如果两个变量中一个变量是另一个变量变化的结果,那么 代表原因的变量称为自变量 Independent (Explanatory)Variable,代表结果的变量称为因变量 Dependent(Response)Variable。在散点图中习惯上把因变量绘制在纵轴上。散点图(scatter diagram)散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项其业务主要是进行基础设施建设、国家重点项目建设、

11、固定资产投资等项目的贷款。近年来,目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属找出控制不良贷款的办法。下面是该银行所属的的25家分行家分行2002年的有关业务数据年的有关业务数据 散点图(例题分析)散点图(例题分析)不良贷款与贷款余额的散点图

12、不良贷款与贷款余额的散点图024681012140100200300400贷款余额不良贷款 不良贷款与累计应收贷款不良贷款与累计应收贷款的散点图的散点图02468101214051015202530累计应收贷款不良贷款 不良贷款与贷款项目个数 不良贷款与贷款项目个数的散点图的散点图0 02 24 46 68 81010121214140 020204040贷款项目个数贷款项目个数不良贷款不良贷款 不良贷款与固定资产投资额不良贷款与固定资产投资额的散点图的散点图02468101214050100150200固定资产投资额不良贷款9.1.39.1.3相关关系的描述与测度相关关系的描述与测度(相关系

13、数相关系数)相关系数相关系数(correlation coefficient)(correlation coefficient)1.1.对变量之间关系密切程度的度量对变量之间关系密切程度的度量2.2.衡量两个定量变量之间线性相关程度的常衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(用指标是皮尔逊(PearsonPearson)相关系数。)相关系数。也称为简单相关系数也称为简单相关系数3.3.若相关系数是根据总体全部数据计算的,若相关系数是根据总体全部数据计算的,称为总体相关系数,记为称为总体相关系数,记为 4.4.若是根据样本数据计算的,则称为样本相若是根据样本数据计算的,则称为样本相关

14、系数,记为关系数,记为 r r相关系数相关系数(计算公式计算公式)样本相关系数的计算公式相关系数相关系数(取值及其意义取值及其意义)相关系数的性质性质性质1:r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关 r=0,不存在线性线性相关相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱相关系数的性质性质性质2:r具有对称性。即具有对称性。即x与与y之间的相关系数和之间的相关系数和y与与x之间之间的相关系数相等,即的相关系数相等,即rxy=ryx性质性质3:r数值大小与数值大小与x和和y原点及尺度无关,即改变原

15、点及尺度无关,即改变x和和y的的 数据原点及计量尺度,并不改变数据原点及计量尺度,并不改变r数值大小数值大小性质性质4:仅仅是:仅仅是x与与y之间线性关系的一个度量,它不能用之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,于描述非线性关系。这意为着,r=0只表示两个变只表示两个变 量之间不存在线性相关关系,并不说明变量之间没量之间不存在线性相关关系,并不说明变量之间没 有任何关系有任何关系性质性质5:r虽然是两个变量之间线性关系的一个度量,却不虽然是两个变量之间线性关系的一个度量,却不 一定意味着一定意味着x与与y一定有因果关系一定有因果关系相关系数的经验解释1.|r|0.8时,

16、可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|t,拒绝,拒绝H0 若若tt(25-2)=2.0687,拒绝,拒绝H0,不良贷,不良贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 相关系数的显著性检验(例题分析)各相关系数检验的统计量各相关系数检验的统计量例题 1985-20071985-2007年北京市城镇居民人均年消费性支出年北京市城镇居民人均年消费性支出(变量(变量Y Y)和人均年可支配收入(变量)和人均年可支配收入(变量X X)的有关)的有关资料见资料见9.1.sav9.1.sav

17、,请对,请对X X和和Y Y变量进行相关分析变量进行相关分析 。消费支出消费支出可支配收入可支配收入消费支出消费支出1 1可支配收入可支配收入0.99680.99681 1 计算结果:t检验值为临界值t(21)2.08,故拒绝H0,认为相关系数显著。消费支出和可支配收入的相关系数显著性检验消费支出和可支配收入的相关系数显著性检验消费支出可支配收入消费支出1可支配收入0.99681注意:相关关系注意:相关关系因果关系!因果关系!典型的错误推断:典型的错误推断:统计分析表明,庆祝生日次数越统计分析表明,庆祝生日次数越多的人越长寿。因此,庆祝生日有利于健康。多的人越长寿。因此,庆祝生日有利于健康。调

18、查表明,世界各国人均电视机拥有量与预期调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。量越高,预期寿命越长。对小学各年级学生的抽样调查表明,学生的识对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。学生穿的鞋越大,他的识字水平就越高。9.2 一元线性回归9.2.1 一元线性回归模型一元线性回归模型9.2.2 参数的最小二乘估计参数的最小二乘估计9.2.3 回归直线的拟合优度回归直线的拟合优度9.2

19、.4 显著性检验显著性检验关于F.GaltonGaltonGalton(1822-19111822-1911)是一位人类学家,著名生物)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如展产生了深远影响,如“回归回归”、“双变量正态双变量正态分布分布”的概念等。他没有子女,但一生写了的概念等。他没有子女,但一生写了9 9部书,部书,发表了近发表了近20

20、0200篇论文。篇论文。18601860年当选英国皇家学会会年当选英国皇家学会会员,员,19091909年被封为爵士。年被封为爵士。为什么叫”回归“?“回归回归”这个词是由英国统计学家这个词是由英国统计学家F.GaltonF.Galton创立创立的。他在研究父子身高(的。他在研究父子身高(10781078对数据)关系时发对数据)关系时发现,高个子的父亲常生高个子的儿子,但儿子身现,高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于低于父亲的概率;同样高超过父亲的概率要小于低于父亲的概率;同样矮个子的父亲常生矮个子的儿子,但儿子身高比矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的

21、概率要小于比父亲高的概率。也就是父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回归的趋势;离开矮。后代的高度有向平均高度回归的趋势;离开均值越远,所受到回归的压力也越大。均值越远,所受到回归的压力也越大。“回归回归”这个词就由此而来。这个词就由此而来。F.GaltonRegression 的原始释义什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关从一组样本数据出发,确定变量之间的数学关系式系式2.对这些关系式的可信程度进行各种统计检验,对这些关系式的可信

22、程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度出这种预测或控制的精确程度回归分析与相关分析的区别回归分析与相关分析的区别1.相关相关分析中,变量分析中,变量 x 变量变量 y 处于平等的地位;回处于平等的地位;回归分析中,变量归分析中,变量 y 称为因变量,处在被解释的地称为因变量,处在被解释的地位,

23、位,x 称为自变量,用于预测因变量的变化称为自变量,用于预测因变量的变化2.相相关分析中所涉及的变量关分析中所涉及的变量 x 和和 y 都是随机变量;都是随机变量;回归分析中,因变量回归分析中,因变量 y 是随机变量,自变量是随机变量,自变量 x 可可以是随机变量,也可以是非随机的确定变量以是随机变量,也可以是非随机的确定变量3.相相关分析主要是描述两个变量之间线性关系的密关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量切程度;回归分析不仅可以揭示变量 x 对变量对变量 y 的影响大小,还可以由回归方程进行预测和控制的影响大小,还可以由回归方程进行预测和控制 回归模型的

24、类型线线 性性 回回 归归非非 线线 性性 回回 归归一一 元元 回回 归归线线 性性 回回 归归非非 线线 性性 回回 归归多多 元元 回回 归归回回 归归 模模 型型9.2.1一元线性回归模型一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型一元线性回归模型1.描述因变量描述因变量 y 如何依赖

25、于自变量如何依赖于自变量 x 和和误差项误差项的方的方程称为程称为回归模型回归模型2.一元线性一元线性回归模型可表示为回归模型可表示为 y=+b b x+y 是是 x 的线性函数的线性函数(部分部分)加上误差项加上误差项线性部分反映了由于线性部分反映了由于 x 的变化而引起的的变化而引起的 y 的变化的变化误差项误差项 是随机变量是随机变量反映了除反映了除 x 和和 y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y 的的影响影响是不能由是不能由 x 和和 y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性 和和 b b 称为模型的参数称为模型的参数一元线性回归模型

26、一元线性回归模型(基本假定基本假定5 5个个)1.因变量因变量x与自变量与自变量y之间具有线性关系之间具有线性关系2.在重复抽样中,自变量在重复抽样中,自变量x的取值是固定的,即假定的取值是固定的,即假定x是是非随机的非随机的3.误差误差项项是一个期望值为是一个期望值为0的随机变量,即的随机变量,即E()=0。对。对于一个给定的于一个给定的 x 值,值,y 的期望值为的期望值为E(y)=+b b x4.对对于所有的于所有的 x 值,值,的方差的方差2 都相同都相同5.误差误差项项是一个服从正态分布的随机变量,且相互独立。是一个服从正态分布的随机变量,且相互独立。即即N(0,2)独立性意味着对于

27、一个特定的独立性意味着对于一个特定的 x 值,它所对应的值,它所对应的与其他与其他 x 值所对应的值所对应的不相关不相关对于一个特定的对于一个特定的 x 值,它所对应的值,它所对应的 y 值与其他值与其他 x 所对应的所对应的 y 值也不相关值也不相关一元线性回归模型一元线性回归模型(基本假定基本假定)y总体回归方程(总体回归函数)(regression equation)1.描描述述 y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x 的方的方程称为回归方程程称为回归方程2.一元一元线性回归方程的形式如下线性回归方程的形式如下3.E(y)=+b b x方程的图示是一条直线,也称为直

28、线回归方程方程的图示是一条直线,也称为直线回归方程是回归直线在是回归直线在 y 轴上的截距,是当轴上的截距,是当 x=0 时时 y 的期望值的期望值b b是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当 x 每变动一个每变动一个单位时,单位时,y 的平均变动值的平均变动值估计的回归方程(样本回归函数)(estimated regression equation)1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2、总体回归函数中的 和b b 是未知的参数,表现为常数。而样本回归函数中的 和 是随机变量,其具体数值随所

29、抽取的样本观测值不同而变动。b3、总体回归函数中的ei是i与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的i是i与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出i的具体数值。9.2.2参数的最小二乘估计(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi最小二乘估计b最小二乘估计(图示)2iymin)(iy若要使 最小,只需:)(10 xy2x222yiiii2+bbe)(20 xxyx2x2x2y2x2iiii2iiii2+bbbe2e最小二乘法(和 的计算公式)b估计方程的求法(例题分析)【例【例】求不良贷款对贷款余额

30、的回归方程xy037859.08259.0+0.037895b估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示不良贷款对贷款余额的回归直线不良贷款对贷款余额的回归直线-2024681012140100200300400贷款余额不良贷款一元线性回归的计算机实现一元线性回归的计算机实现 Spss:analyzeregressionlinear;Eviews:quickestimate equation。根据表9.1的数据,建立北京市城镇居民消费模型,以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)为自变量,建立一元线性回归模型。例题9.2 结果分析 上式中,0.7246

31、是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加0.7246千元;0.5628是自主性消费,即与收入无关的最基本人均消费为0.5628千元。ttXY7246.05658.0+一元线性回归方程的评价和检验一元线性回归方程的评价和检验 拟合优度 1、决定系数 2、估计标准误差 显著性检验 3、t检验 4、F检验9.2.3回归直线的拟合优度1、决定系数 回归直线与各观测数据的接近程度称为回归直线的拟合优度(goodness of fit)。度量回归直线的拟合优度最常用的指标是决定系数(coefficient of determination,又称可决系数、判定系数)。该指标是建立在

32、对总离差平方和进行分解的基础之上的。变差1.因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波动称取值的这种波动称为为变差。变差。变差来源于两个方面变差来源于两个方面由于自变量由于自变量 x 的取值不同造成的的取值不同造成的除除 x 以外的其他因素以外的其他因素(如如x对对y的非线性影响、测量误的非线性影响、测量误差等差等)的影响的影响2.对一个对一个具体的观测值来说,变差的大小可以通具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差过该实际观测值与其均值之差 来表示来表示yy 变差的分解(图示)y离差平方和的分解(三个平方和的关系)离差平方和的分解(三个平方和的意义

33、)1.总平方和总平方和(SST)(sum of squares for total)反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)(sum of squares for regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)(sum of squares for error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2 (coefficient of determination)

34、1.回归平方和占总离差平方和的比例判定系数R2 (例题分析)【例【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 估计标准误差估计标准误差(standard error of estimate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项

35、的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为9.2.4显著性检验线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)线性关系的检验线性关系的检验(检验的步骤检验的步骤)1.提出假设H0:b=0 线性关系不显著H1:b0线性关系的检验线性关系的检验 (例题分析例题分析)1.1.提出假设提出假设H

36、H0 0:b b=0=0 不良贷款与贷款余额之间的线性关系不显著不良贷款与贷款余额之间的线性关系不显著H H1 1:b b002.2.计算检验统计量计算检验统计量F F线性关系的检验(方差分析表)回归系数的检验b回归系数的检验(样本统计量 的分布)bb回归系数的检验(检验步骤)1.提出假设H0:b=0(没有线性关系)H1:b 0(有线性关系)2.计算检验的统计量几点说明几点说明 为什么要检验回归系数是否等于为什么要检验回归系数是否等于0 0?如果总体中的回归系数等于零,说明相应的自变量如果总体中的回归系数等于零,说明相应的自变量对对y y缺乏解释能力,在这种情况下我们可能需要中回缺乏解释能力,

37、在这种情况下我们可能需要中回归方程中去掉这个自变量。归方程中去掉这个自变量。我们也可以对常数项进行我们也可以对常数项进行t t检验,但大部分情检验,但大部分情况下我们并不关心常数项的检验结果。况下我们并不关心常数项的检验结果。通常情况下即使常数项在模型中不显著,我们也会通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会对模型带在模型中保留常数项,去掉常数项可能会对模型带来不利影响。来不利影响。回归系数的检验(例题分析)对例题的回归系数进行显著性检验(0.05)1.提出假设H0:b=0 H1:b 0 2.计算检验的统计量回归系数的检验(例题分析)P 值的应用值的应用

38、回归分析结果的评价回归分析结果的评价l建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手1.所估计的回归系数 的符号是否与理论或事先预期相一致在不良贷款与贷款余额的回归中,可以预期贷款余额越多,不良贷款也可能会越多,也就是说,回归系数的值应该是正的,在上面建立的回归方程中,我们得到的回归系数 为正值,2.如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此在不良贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系数的t检验结果表明而这之间的线性关系是统计上显著的3.回归模型在多大程度上解释了因变量y取值

39、的差异?可以用判定系数R2来回答这一问题在不良贷款与贷款余额的回归中,得到的R2=71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错4.考察关于误差项e的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项e服从正态分布,否则,我们所用的检验程序将是无效的。e正态性的简单方法是画出残差的直方图或正态概率图回归分析结果的评价回归分析结果的评价1.1.根据自变量根据自变量 x x 的取值估计或预测因变量的取值估计或预测因变量 y y的取值的取值2.2.估计或预测的类型估计或预测的类型 点估计点估计y y 的平均值的点估计的平均值的点估计y y 的

40、个别值的点估计的个别值的点估计 区间估计区间估计y y 的平均值的的平均值的置信区间置信区间估计估计y y 的个别值的的个别值的预测区间预测区间估计估计9.3利用回归方程进行估计和预测利用回归方程进行估计和预测点估计点估计 y 的平均值的点估计n 利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量,求出因变量 y y 的平的平均值的一个估计值均值的一个估计值E E(y y0 0),就是平均值,就是平均值的点估计的点估计 在前面的例子中,假如我们要估计贷款余在前面的例子中,假如我们要估计贷款余额为额为100100亿元时,所有

41、分行不良贷款的平亿元时,所有分行不良贷款的平均值,就是平均值的点估计均值,就是平均值的点估计 。根据估计。根据估计的回归方程得的回归方程得y 的个别值的点估计 利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给定值的一个给定值 x x0 0 ,求出因变量,求出因变量 y y 的一的一个个别值的估计值个个别值的估计值 ,就是个别值的点,就是个别值的点估计估计例如,如果我们只是想知道贷款余额为例如,如果我们只是想知道贷款余额为72.872.8亿元的那个分行亿元的那个分行(这里是编号为这里是编号为1010的那个分行的那个分行)的不良贷款是多少,则属于个别值的点估计的不良贷

42、款是多少,则属于个别值的点估计 。根据估计的回归方程得根据估计的回归方程得区间估计区间估计1.1.点估计不能给出估计的精度,点估计值与实际值点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计之间是有误差的,因此需要进行区间估计2.2.对于自变量对于自变量 x x 的一个给定值的一个给定值 x x0 0,根据回归方程,根据回归方程得到因变量得到因变量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型 置信区间估计置信区间估计(confidence interval estimate)(confidence interval estima

43、te)预测区间估计预测区间估计(prediction interval estimate)(prediction interval estimate)置信区间估计1.1.利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给的一个给定值定值 x x0 0 ,求出因变量,求出因变量 y y 的平均值的估计区间的平均值的估计区间 ,这一估计区间称为这一估计区间称为置信区间置信区间(confidence(confidence interval)interval)2.2.E E(y y0 0)在在1-1-置信水平下的置信区间为置信水平下的置信区间为置信区间估计(例题分析)【例】

44、求出贷款余额为【例】求出贷款余额为100100亿元时,不良贷款亿元时,不良贷款95%95%置信水平下的置信区间置信水平下的置信区间解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25,s se e=1.97991.9799,t t (25-2)=2.0687 (25-2)=2.0687 置信区间为置信区间为对于 一个给定的x值 x0,y 的一个个别值的估计区间。这一区间常称为预测区间(prediction interval)。y0在1-置信水平下的预测区间为 个别值预测的置信区间(预测区间)个别值预测的置信区间(预测区间)预测区间估计(例题分析)【例【例】求出贷款余额为1

45、00亿元时,不良贷款95%置信水平下的预测区间解:根据前面的计算结果,已知n=25,se=1.9799,t(25-2)=2.0687 置信区间为置信区间和预测区间(例题分析)预测区间与置信区间预测区间与置信区间需要预测的值越接近需要预测的值越接近x x的均值,预测误差越小。用回归的均值,预测误差越小。用回归模型进行外推预测可能会有较大的误差,因此必须小心模型进行外推预测可能会有较大的误差,因此必须小心使用!使用!XYX0Y0预测下限预测上限置信上限置信下限X影响区间宽度的因素1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度s区间宽度随离散程度的增大而增大3.样本容量区间宽度

46、随样本容量的增大而减小4.用于预测的 xf与x的差异程度区间宽度随 xf与x 的差异程度的增大而增大应用回归分析时应注意:应用回归分析时应注意:要注意与定性分析相结合。要注意与定性分析相结合。利用回归方程进行预测时,自变量取值若超出了利用回归方程进行预测时,自变量取值若超出了样本数据范围,预测结果是不可靠的。样本数据范围,预测结果是不可靠的。回归分析最适合于研究变量之间的因果关系,将回归分析最适合于研究变量之间的因果关系,将原因作为自变量,结果作为因变量。但回归分析原因作为自变量,结果作为因变量。但回归分析不一定要求变量之间必须具备直接的因果关系。不一定要求变量之间必须具备直接的因果关系。如:

47、脚长和身高的关系如:脚长和身高的关系 只要变量之间存在内在的真实的数量依存关系,只要变量之间存在内在的真实的数量依存关系,就可以建立回归方程来分析和估计。就可以建立回归方程来分析和估计。9.4 残差分析9.4.1 残差残差9.4.2 标准化残差标准化残差残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2.反映了用估计的回归方程去预测而引起的误差 3.确定有关误差项的假定是否成立 用残差证实模型的假定残差图(residual plot)1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的假定是否成立 残差图(形态及判别)残差图(例题

48、分析)不良贷款对贷款余额回归的残差图不良贷款对贷款余额回归的残差图-4-2024680100200300400贷款余额(x)残差标准化残差(standardized residual)残差除以它的标准差后得到的数值。计算公式为 Sei的计算公式为 标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间 标准化残差图(例题分析)不良贷款对贷款余额回归的不良贷款对贷款余额回归的标准化残差图标准化残差图-2-1012340100200300400贷款余额标准化残差本章小结1.变量间关系的度量变量间关系的度量2.回归模型、回归方程与估计的回归方程回归模型、回归方程与估计的回归方程3.回归直线的拟合优度回归直线的拟合优度4.回归分析中的显著性检验回归分析中的显著性检验5.估计和预测估计和预测6.用用SPSS 进行回归分析进行回归分析结结 束束

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第九章-相关与回归分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|