第十一章统计学一元线性回归课件.ppt_163文库

资源描述

1、第11章一元线性回归11.1 变量间关系的度量11.2 一元线性回归11.3 利用回归方程进行估计和预测11.4 残差分析学习目标学习目标1.相关关系的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用 Excel 进行回归重点1.一元线性回归分析2.用软件进行回归分析难点最小二乘法的原理并用它解决实际问题本章教学重点与难点11.1 变量间关系的度量变量间关系的度量11.1.1 变量间的关系11.1.2 相关关系的描述与测度11.1.3 相关系数的显著性检验变量间的关系变量间的关系函数关系1.是一一对应的确定

2、关系2.设有两个变量x和y，变量y随变量x一起变化，并完全依赖于x，当变量x取某个数值时，y依确定的关系取相应的值，则称y是x的函数，记为y=f(x)，其中x称为自变量，y称为因变量3.各观测点落在一条线上?xy函数关系(几个例子)?某种商品的销售额y与销售量x之间的关系可表示为y=px(p为单价)?圆的面积S与半径R之间的关系可表示为S=?R2?企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为示为y=x1x2x3相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时，变量y的取值

3、可能有几个4.各观测点分布在直线周围?xy相关关系(几个例子)?父亲身高y与子女身高x之间的关系?收入水平y与受教育程度x之间的关系?粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系?商品的消费量y与居民收入x之间的关系?商品销售额y与广告费支出x之间的关系相关关系相关关系(类型类型)正相关负相关线性相关非线性相关正相关负相关完全相关不相关相关关系相关关系的描述与测度(散点图)相关分析及其假定1.相关分析要解决的问题?变量之间是否存在关系？?如果存在关系，它们之间是什么样的关系？?变量之间的关系强度如何？?样本所反映的变量之间

4、的关系能否代表总体变量之间的关系？2.为解决这些问题，在进行相关分析时，对总体有以下两个主要假定?两个变量之间是线性关系?两个变量都是随机变量两个变量都是随机变量散点图(scatter diagram)?不相关?负线性相关?正线性相关?非线性相关?完全负线性相关完全正线性相关?散点图散点图(例题分析例题分析)?【例】一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的增长，这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因，管理者希望利用银行业务的有关数据做些定量分析，以

5、便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据年的有关业务数据散点图(例题分析)散点图(不良贷款对其他变量的散点图)不良贷款与贷款余额的散点图024681012140100200300400贷款余额不良贷款不良贷款与贷款项目个数的散点图02468101214010203040贷款项目个数不良贷款不良贷款与固定资产投资额的散点图02468101214050100150200固定资产投资额不良贷款不良贷款与累计应收贷款的散点图024681012140102030累计应收贷款不良贷款相关关系的描述与测度(相关系数)相关系数(correlation coefficie

6、nt)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的，称为总体相关系数，记为?4.若是根据样本数据计算的，则称为样本相关系数，简称为相关系数，记为r?也称为线性相关系数(linearcorrelationcoefficient)?或称为Pearson 相关系数(Pearsonscorrelationcoefficient)相关系数(计算公式)?样本相关系数的计算公式样本相关系数的计算公式?22)()()(yyxxyyxxr或化简为?2222?yynxxnyxxynr相关系数的性质?性质1：r的取值范

7、围是-1,1?|r|=1，为完全相关?r=1，为完全正相关?r=-1，为完全负正相关?r=0，不存在线性相关关系?-1?r0，为负相关?0r?1，为正相关?|r|越趋于1表示关系越强；|r|越趋于0表示关系越弱相关系数的性质?性质2：r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等，即rxy=ry?性质3：r数值大小与x和y原点及尺度无关，即改变x和y的数据原点及计量尺度，并不改变r数值大小?性质4：仅仅是x与y之间线性关系的一个度量，它不能用于描述非线性关系。这意为着，r=0只表示两个变量之间不存在线性相关关系，并不说明变量之间没有任何关系?性质5：r虽然是两个变量之间线性关系

8、的一个度量，却不一定意味着x与y一定有因果关系相关系数的经验解释相关系数的经验解释1.|r|?0.8时，可视为两个变量之间高度相关2.0.5?|r|0.8时，可视为中度相关3.0.3?|r|0.5时，视为低度相关4.|r|t?，拒绝H0?若?t?t?(25-2)=2.069，拒绝H0，不良贷款与贷款余额之间存在着显著的正线性相关关系相关系数的显著性检验(例题分析)?各相关系数检验的统计量各相关系数检验的统计量11.2 一元线性回归一元线性回归11.2.1 一元线性回归模型11.2.2 参数的最小二乘估计11.2.3 回归直线的拟合优度11.2.4 显著性检验什么是回归分析？(Regressio

9、n)1.从一组样本数据出发，确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著3.利用所求的关系式，根据一个或几个变量的取值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确程度回归模型的类型线性回归非线性回归一元回归线性回归非线性回归多元回归回归模型一元线性回归模型一元线性回归模型一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系?被预测或被解释的变量称为因变量(dependent variable)，用

10、y表示?用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable)，用x表示3.因变量与自变量之间的关系用一个线性方程来表示回归模型(regression model)1.回答“变量之间是什么样的关系？”2.方程中运用?1 个数值型因变量(响应变量)?被预测的变量?1 个或多个数值型或分类型自变量(解释变量)?用于预测的变量用于预测的变量3.主要用于预测和估计一元线性回归模型1.描述因变量y如何依赖于自变量x和误差项?的方程称为回归模型2.一元线性回归模型可表示为?y=b?+b1x+?y是x的线性函数(部分)加上误差项?线性部分反映了由于x的变化而引起的y的变

11、化?误差项?是随机变量?反映了除x和y之间的线性关系之外的随机因素对y的影响?是不能由x和y之间的线性关系所解释的变异性?b0和b1称为模型的参数一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中，自变量x的取值是固定的，即假定x是非随机的3.误差项是一个期望值为0的随机变量，即E()=0。对于一个给定的x 值，y 的期望值为E(y)=b0+b1 x4.对于所有的x值，的方差2都相同5.误差项是一个服从正态分布的随机变量，且相互独立。即 N(0,2)?独立性意味着对于一个特定的x值，它所对应的与其他x值所对应的不相关?对于一个特定的x值，它所对应的y值与其他x所

12、对应的y值也不相关一元线性回归模型(基本假定)x=x3时的E(y)x=x2时y的分布x=x1时y的分布x=x2时的E(y)x3x2x1x=x1时的E(y)b0 xyx=x3时y的分布b0+b1x回归方程(regression equation)1.描述y的平均值或期望值如何依赖于x的方程称为回归方程2.一元线性回归方程的形式如下3.E(y)=b0+b1x?方程的图示是一条直线，也称为直线回归方程?b0是回归直线在y轴上的截距，是当x=0时y的期望值?b1是直线的斜率，称为回归系数，表示当x每变动一个单位时，y的平均变动值估计的回归方程估计的回归方程(estimated regression e

13、quation)3.一元线性回归中估计的回归方程为2.用样本统计量和代替回归方程中的未知参数和，就得到了估计的回归方程0?b1?b0b1b1.总体回归参数和是未知的，必须利用样本数据去估计0b1bxy10?bb+?其中：是估计的回归直线在y轴上的截距，是直线的斜率，它表示对于一个给定的x的值，是y的估计值，也表示x每变动一个单位时，y的平均变动值0?b1?by?参数的最小二乘估计参数的最小二乘估计最小二乘估计(method of least squares)最小?niiiniixyyy121012)?()?(bb1.德国科学家Karl Gauss(1777 1855)提出用最小化图中垂直方向的

14、误差平方和来估计参数2.使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小0?b1?bKarl Gauss 的最小化图的最小化图xy(xn,yn)(x1,y1)?(x2,y2)(xi,yi)ei=yi-yixy10?bb+?相关分析中x与y对等，回归分析中x与y要确定自变量和因变量；?相关分析中x、y均为随机变量，回归分析中只有y为随机变量；?相关分析测定相关程度和方向，回归分相关分析测定相关程度和方向，回归分析用回归模型进行预测和控制。回归分析与相关分析区别：总体一元线性回归模型：?bb+?XY

15、10?模型参数误差项假定：E(?)=0总体一元线性回归方程：XY10?bb+?一元线性回归方程的几何意义一元线性回归方程的几何意义)(YEXXYb?+?截距斜率一元线性回归方程的可能形态b为正b为负b为0回归直线的拟合?BXAYEY+?总体一元线性回归方程:样本一元线性回归方程：bxay+?以样本统计量估计总体参数斜率（回归系数）截距截距a 表示在没有自变量x的影响时，其它各种因素对因变量y的平均影响；回归系数b 表明自变量x每变动一个单位，因变量y平均变动b个单位。(估计的回归方程)iiiiybxayyyxbxay?+?+?+?)(?值应为的实际而变量之间的平均变动关系，变量与是理论模型，表

16、明随机干扰：各种偶然因素、观察误差和其他被忽视因素的影响X对对y的线性影响而形的线性影响而形成的系统部分，反映两变量的平均变动关系，即本质特征。一元线性回归方程中参数a、b的确定：bxay+?最小平方法基本数学要求?min)?(0?2yyyy?02012min,min)?(22xbxaybxaybabxayyy，有求偏导数，并令其为零、分别对函数中，有由整理得到由两个关于a、b的二元一次方程组成的方程组：?+?+?2xbxaxyxbnay?xbynxbnyaxxnyxxynb22)(进一步整理，有：10名学生的身高与体重散点图4045505560657075158160162164166168

17、170172174176178身高（X）体重（Y）学生身高x体重yx2y2xy估计值?残差y-?ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.

18、709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.709?16705702792203303295546-01596.1231670788.1570788.1167027922010570167095546102?abxy0788.11596.123?+?571670788.11596.123?167?+?yx估计方程的求法估计方程的求法(例题分析)?【例】求不良贷款对贷款余额的回归方程?8295.0268.120037895.0728.3037895.07.300637.516543252.937.300614.17080252ab

19、回归方程为：回归方程为：y=-0.8295+0.037895x回归系数=0.037895 表示，贷款余额每增加1亿元，不良贷款平均增加 0.037895亿元1?b估计方程的求法(例题分析)?不良贷款对贷款余额回归方程的图示不良贷款对贷款余额的回归直线-2024681012140100200300400贷款余额不良贷款用用Excel进行回归分析进行回归分析?第1步：选择【工具】下拉菜单?第2步：选择【数据分析】选项?第3步：在分析工具中选择【回归】，选择【确定】?第4步：当对话框出现时?在【Y值输入区域】设置框内键入Y的数据区域?在【X值输入区域】设置框内键入X的数据区域?在【置信度】选项中给出

20、所需的数值?在【输出选项】中选择输出区域?在【残差】分析选项中选择所需的选项估计方程的求法（Excel的输出结果）SUMMARY OUTPUT回归统计Multiple R0.995024R Square0.990073Adjusted R S0.989309标准误差6.435265观测值15Coefficients标准误差 t Stat P-valueLower 95%Upper 95%Intercept 22.595953.9274455.7533446.67E-0514.1112231.08067X Variable 10.5300770.01472136.007312.08E-140.4

21、982740.561881ab回归直线的拟合优度回归直线的拟合优度变差1.因变量y的取值是不同的，y取值的这种波动称为变差。变差来源于两个方面?由于自变量x的取值不同造成的?除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差来表示yy?误差的分解误差的分解(图示图示)xyyxy10?bb+?yy?yy?yy?),(iiyx误差平方和的分解(三个平方和的关系)SST=SSR+SSE?+?niiiniiniiyyyyyy121212?总平方和(SST)回归平方和(SSR)残差平方和(SSE)误差平方和的分解(三个平方和

22、的意义)1.总平方和(SSTtotal sum of squares)?反映因变量的n个观察值与其均值的总误差2.回归平方和(SSRsumofsquaresofregression)?反映自变量x的变化对因变量y取值变化的影响，或者说，是由于x与y之间的线性关系引起的y的取值变化，也称为可解释的平方和3.残差平方和(SSEsum of squares of error)?反映除x以外的其他因素对y取值的影响，也称为不可解释的平方和或剩余平方和判定系数判定系数R2(coefficient of determination)1.回归平方和占总误差平方和的比例?niiniiniiniiyyy

23、yyyyySSTSSRR121212122?1?2.反映回归直线的拟合程度3.取值范围在 0,1 之间4.R2?1，说明回归方程拟合的越好；R2?0，说明回归方程拟合的越差5.判定系数等于相关系数的平方，即R2r2判定系数判定系数(例题分析例题分析)?【例】计算不良贷款对贷款余额回归的判定系数，并解释其意义?判定系数的实际意义是：在不良贷款取值的变差中，有71.16%可以由不良贷款与贷款余额之间的线性关系来解释，或者说，在不良贷款取值的变动中，有71.16%是由贷款余额所决定的。也就是说，不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系%16.717

24、116.06504.3124860.2222?SSTSSRR估计标准误差(standard error of estimate)1.实际观察值与回归估计值误差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项?的标准差?的估计，是在排除了x对y的线性影响后，y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小5.计算公式为?MSEnSSEnyysniiie?22?12注：例题的计算结果为1.9799显著性检验显著性检验线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较，应用 F检验来分析二者之间的

25、差别是否显著?回归均方：回归平方和 SSR除以相应的自由度(自变量的个数k)?残差均方：残差平方和 SSE除以相应的自由度(n-k-1)线性关系的检验(检验的步骤)1.提出假设?H0：b1=0线性关系不显著)2,1()2(1?nFMSEMSRnSSESSRF2.计算检验统计量F3.确定显著性水平?，并根据分子自由度1和分母自由度n-2找出临界值F?4.作出决策：若FF?,拒绝H0；若FF?,拒绝H0，线性关系显著线性关系的检验(方差分析表方差分析表)Excel 输出的方差分析表回归系数的检验3.在一元线性回归中，等价于线性关系的显著性检验4.采用t检验1.检验x与y之间是否具有线性关系，或者说

26、，检验自变量x对因变量y的影响是否显著2.理论基础是回归系数的抽样分布1?b回归系数的检验(检验步骤)1.提出假设?H0:b1=0(没有线性关系)?H1:b1?0(有线性关系)2.计算检验的统计量3.确定显著性水平?，并进行决策?t?t?，拒绝H0；?t?t?=2.201，拒绝H0，表明不良贷款与贷款余额之间有显著的线性关系533515.7005030.0037895.0?t回归系数的检验(例题分析)?P 值的应用P=0.000000?=0.05，拒绝原假设，不良贷款与贷款余额之间有显著的线性关系回归分析结果的评价?建立的模型是否合适？或者说，这个拟合的模型有多“好”？要回答这些问题，可以从以

27、下几个方面入手1.所估计的回归系数的符号是否与理论或事先预期相一致?在不良贷款与贷款余额的回归中，可以预期贷款余额越多，不良贷款也可能会越多，也就是说，回归系数的值应该是正的，在上面建立的回归方程中，我们得到的回归系数为正值，2.如果理论上认为x与y之间的关系不仅是正的，而且是统计上显著的，那么所建立的回归方程也应该如此?在不良贷款与贷款余额的回归中，二者之间为正的线性关系，而且，对回归系数的t检验结果表明而这之间的线性关系是统计上显著的1?b037895.0?1?b3.回归模型在多大程度上解释了因变量y取值的差异？可以用判定系数R2来回答这一问题?在不良贷款与贷款余额的回归中，得到的R2=7

28、1.16%，解释了不良贷款变差的 2/3以上，说明拟合的效果还算不错4.考察关于误差项?的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时，都要求误差项?服从正态分布，否则，我们所用的检验程序将是无效的。?正态性的简单方法是画出残差的直方图或正态概率图回归分析结果的评价11.3 利用回归方程进行估计和预测利用回归方程进行估计和预测11.3.1 点估计11.3.2 区间估计利用回归方程进行估计和预测1.根据自变量x的取值估计或预测因变量y的取值2.估计或预测的类型?点估计?y 的平均值的点估计?y 的个别值的点估计?区间估计?y 的平均值的置信区间估计?y 的个别值的预测

29、区间估计点估计点估计点估计2.点估计值有?y 的平均值的点估计?y 的个别值的点估计3.在点估计条件下，平均值的点估计和个别值的的点估计是一样的，但在区间估计中则不同1.对于自变量x的一个给定值x0，根据回归方程得到因变量y的一个估计值0?yy 的平均值的点估计的平均值的点估计?利用估计的回归方程，对于自变量x的一个给定值x0，求出因变量y的平均值的一个估计值E(y0)，就是平均值的点估计?在前面的例子中，假如我们要估计贷款余额为100亿元时，所有分行不良贷款的平均值，就是平均值的点估计。根据估计的回归方程得)(96.2100037895.08295.0)(0亿?+?yEy 的个别值的点估计0

30、?y?利用估计的回归方程，对于自变量x的一个给定值x0，求出因变量y的一个个别值的估计值，就是个别值的点估计?例如，如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为 10的那个分行)的不良贷款是多少，则属于个别值的点估计。根据估计的回归方程得)(93.18.72037895.08295.0?0亿元?+?y区间估计区间估计区间估计1.点估计不能给出估计的精度，点估计值与实际值之间是有误差的，因此需要进行区间估计2.对于自变量x的一个给定值x0，根据回归方程得到因变量y的一个估计区间3.区间估计有两种类型?置信区间估计(confidenceintervalestimate

31、)?预测区间估计(predictionintervalestimate)置信区间估计1.利用估计的回归方程，对于自变量x 的一个给定值x0，求出因变量y的平均值的估计区间，这一估计区间称为置信区间(confidence interval)2.E(y0)在1-?置信水平下的置信区间为?+?niiexxxxnsnty1220201)2(?式中：se为估计标准误差置信区间估计置信区间估计(例题分析例题分析)?【例】求出贷款余额为 100亿元时，不良贷款95%置信水平下的置信区间（根据前面计算点估计值2.96）?解：根据前面的计算结果，已知n=25，?se=1.9799，t?(25-2)=2.069?

32、置信区间为当贷款余额为 100亿元时，不良贷款的平均值在2.1141亿元到3.8059亿元之间96.2?0?y5744.154933)268.120100(2519799.1069.296.22?+?805.3)(1141.20?yE预测区间估计1.利用估计的回归方程，对于自变量x 的一个给定值x0，求出因变量y的一个个别值的估计区间，这一区间称为预测区间(predictioninterval)2.y0在1-?置信水平下的预测区间为?+?niiexxxxnSnty12202011)2(?注意！预测区间估计预测区间估计(例题分析例题分析)?【例】求出贷款余额为 72.8亿元的那个分行，不良贷款9

33、5%的预测区间?解：根据前面的计算结果，已知n=25，?se=1.9799，t?(25-2)=2.069?预测区间为预测区间为贷款余额为72.8亿元的那个分行，其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间93.1?0?y5744.154933)268.1208.72(25119799.10687.293.12?+?136.6?2766.20?y置信区间和预测区间(例题分析)置信区间、预测区间、回归方程xpxy10?bb+?yx?x本章小结1.变量间关系的度量2.回归模型、回归方程与估计的回归方程3.回归直线的拟合优度4.回归分析中的显著性检验5.估计和预测6.用Excel 进行回归分析本章作业?P330?1.思考题：1、7、10?2.练习题：5、7、9

展开阅读全文