1、2023-2-151 第八章第八章 相关与回归分析相关与回归分析 Correlation Correlation Regression Analysis Regression Analysis章前导语:章前导语:1、有其父,必有其子。-古人和现代人都这么说 2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说物以类聚。”“但芥末并不是鸟。”Alice说。“是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!”-Alice漫游奇境记2023-2-152消费者应该留下多少小费?消费者应该留下多少小费?在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮在西方国家餐饮等服务行业有一
2、条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都等服务项目消费时,必须给服务员一定数额的小费,许多人都听说小费应该是账单的听说小费应该是账单的16%左右,是否真的如此呢?让我们来左右,是否真的如此呢?让我们来考察表考察表8-1,表中的数据是经过调查所得的样本数据,通过对这,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。几组数据的分析与观察,我们能发现两者之间的数量关系。2023-2-1531、是否有足够的证据断定:在账单与小费数额之间存在某种、是否有足够的证据断定:在账单与小费数额之间存在某种联系?联系?2、如果
3、存在某种联系,怎样使用这种联系来确定应该留下多、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?少小费?基于成对出现的样本数据做出一些推论基于成对出现的样本数据做出一些推论。如上。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:小费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;)犯罪率与偷窃率;(2)香烟消费与患癌症率)香烟消费与患癌症率;(3)个人收
4、入水平与受教育年限;()个人收入水平与受教育年限;(4)血压与年龄;)血压与年龄;(5)父母身高与子女身高;)父母身高与子女身高;(6)薪金与酒价等等。)薪金与酒价等等。2023-2-1548.1 相关关系概述相关关系概述8.2 线性相关关系的测定线性相关关系的测定8.3 回归分析回归分析2023-2-1558.1 相关关系概述相关关系概述一、变量间的相互关系一、变量间的相互关系(一)函数关系函数关系 定义:确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应的关系;例计件工资(y)与产量(x)y=f(x)=10 x;x0=1件件,y0=10元;元;x1=2件件,y1=20元元
5、圆的面积SR2,R=10,S=100(2)表述:y=f(x)。(二)相关关系相关关系、定义、定义:确定的关系。(1)某一(组)变量与另一变量间有关系,但并非一一对应;2023-2-156例身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+。影响身高的因素:体重、遗传、锻炼、睡眠质量2、成因、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。例某种水果P元/斤:购买额 y=Px 购买量 x=2斤斤 y=2P+=21.9+0.23、数量关系的形式、
6、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。2023-2-157二、相关关系的种类二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致();2、负相关:变量的变动方向相反()。(三)按相关的形式分1、线性相关;2、非线性相关。2023-2-158 相关程度密切相关程度密切相关程度不密切相关程度不密切2023-2-159(四)按影响因素的多少分(四)按影响因素的多少分1、单(简单)相关单(简单)相关:只有一个自变量;例学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(
7、多元)相关复(多元)相关:两个或两个以上的自变量;例经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、食欲、睡眠时间之间的关系。3、偏相关偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。例就y=ax1+bx2+,研究y与x1之间的关系,假定x2不变。2023-2-15101.相关分析要解决的问题相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有为解决这些问题,在进行相关分析时,对总体有以下两个主要假定以
8、下两个主要假定两个变量之间是线性关系两个变量都是随机变量三、相关分析的内容及其假定三、相关分析的内容及其假定2023-2-15118.2 线性相关关系的测定线性相关关系的测定目的测定变量间的相关方向相关方向与密切程度密切程度。一、相关图表一、相关图表(一)相关表(一)相关表1、:自变量分组且计算次数,因变量只计算平均数。30 家同类企业的有关资料家同类企业的有关资料产量产量(件)(件)x x企业数企业数平均单位成本平均单位成本(元)(元)y y202030304040505080809 95 55 56 65 516.816.815.615.615.015.014.814.814.214.22
9、023-2-15122、:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。30 家同类企业的有关资料家同类企业的有关资料产量产量 x x(件)(件)单位成本单位成本 y y(元元/件件)20203030404050508080合合计计18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合计合计9 95 55 56 65 530302023-2-1513正正 相相 关关负负 相相 关关曲线相关曲线相关不不 相相 关关xyxyxyxy又称又称,用直角坐标系的,用直角坐标系的x轴代表自变量,轴代表自变量,y轴
10、代轴代表因变量,将两个变量间相对应的变量值用坐标点的表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。形式描绘出来,用以表明相关点分布状况的图形。不足不足难以精确反映相关的密切程度。(二)相关图(二)相关图2023-2-1514二、相关系数二、相关系数(一)积差法计算公式积差法计算公式则的一组样本观察值是设,),(),(YXyxii2222()()()()1()()()()11xxyyxxyynrxxyyxxyynn(,),(,),xyxyCov x yx yCov x yrxyssx ys s的协方差为 与 的相关系数的标准差yyxxxyLLL在在的条
11、件下的条件下,用来反映变量之间用来反映变量之间方向及程度的统计指标方向及程度的统计指标,用用r()表示。表示。2023-2-1515注解注解1 协方差协方差Cov(x,y)的作用的作用1、显示、显示x与与y之间的相关方向。之间的相关方向。XYyy xx)(一)(二)(三)(四),(11yx),(nnyx()()()()()(,)00()xxyyxxCov x yryy一三正相关(,)xyCov x yrs s()()(,)1x xy yCov x yn正相关正相关2023-2-1516负相关负相关XYyy xx)(一)(二)(三)(四),(11yx),(nnyx()()()()()(,)00(
12、)xxyyxxCov x yryy二四负相关()()(,)1xxyyCov x ynyxxyr2023-2-15172、显示、显示x与与y之间的相关程度。之间的相关程度。)()()()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxx正相关正相关2023-2-1518负相关负相关)()()()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxx2023-2-1519无线性相关无线性相关:0()()0(,)0AxxxxyyCov x y 图 图A图BXYXYxx yy:0()()0(,)0ByyxxyyCov
13、x y 图之间无直线相关与yx2023-2-1520归纳归纳 Cov(x,y)的作用的作用第一、显示第一、显示x与与y之间的相关方向之间的相关方向(,)00(,)(,)00(,)00 xyCov x yrCov x yrCov x yrs sCov x yr无直线相关正相关负相关(,)(,)Cov x yxyCov x yxy越大与 之间的相关程度越高越小与 之间的相关程度越低第二、显示第二、显示x与与y之间的相关密切程度之间的相关密切程度2023-2-1521注解注解2 sx、sy的作用的作用1、使不同变量的协方差标准化、使不同变量的协方差标准化直接对比直接对比。()()(,)1xyxyxx
14、yyCov x ynrs ss s1xxyyxxyyssssn1xyxxyyssn()()(1)xyxxyyns s()()1xxyyn标准化的协方差11xyxys ss s2023-2-15222、使、使111rr 221xyxxyyssrn1xyxxyyssrn22211xyxyxxyyxxyynssss211 11xyxxyynss 222221()()1(1)(1)xyxyxxyyxxyynssnsns1:1022rrr同理可证21221xyxxyyrnss22()11yyyns2023-2-1523(二)积差法相关系数的简捷计算公式积差法相关系数的简捷计算公式2222()()(,)(
15、)()1()()()()11xyxxyyCov x yxxyynrs sxxyyxxyynnnyxxy)()(yxyxyxxyyyxxyxyxxyxynynxnnyxnyxxyyxnynxxnyxy):(x yxxyyxyn 结论2023-2-1524r的简捷计算公式222xxxx)2()(222xxxxxx222)(2nxnnxxnxx22)(222()():xxxxn 结论222()()yyyyn 222xnxnxx2023-2-1525r的简捷计算公式22(,)()()()()xyCov x yxxyyrs sxxyynyynxxnyxxy2222)()(2222()()n xyx yn
16、 xxn yy 2222yyxxyxxynyynxxnnyxxyn2222)()(1)(12023-2-1526(三)线性相关的经验判断准则线性相关的经验判断准则0.30.30.5rr微弱相关 低度相关例为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:高度相关显著相关18.08.05.0rr但可能有其他关系无线性关系与,0yxr函数关系有完全线性关系与:1yxr2023-2-1527例计算过程。2023-2-1528解225.12959.1987109.88323.87703105.1299.88318.13031102222()()n
17、xyx yrn xxn yy 92.09.323409.9575375.15846答:账单消费额与小费之间存在着高度的正相关关系。10,18.13031,59.1987,23.87703,8.5.129,9.88322nxyyxyx2023-2-1529 问:若令账单消费额为y,小费为x,则r的取值是否改变?2023-2-1530(四)样本相关系数的特点样本相关系数的特点1、两变量均为随机变量;2、两变量的地位是平等的 rxy=ryx;3、取值范围-1,1,其接近于1的程度与样本容量n有关。n小,r 1。特例:当n=2时,r=1。例样本(x,y)为(6,12.6),(1,3.0),n=2。14
18、84816.922548)()(2222yynxxnyxxynr2023-2-1531(五)关于相关的普遍错误关于相关的普遍错误在解释关于相关的结果中会出现以下三种普遍的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。2023-2-1532(六)线性相关的假设检验线性相
19、关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。t检验法检验法r检验法检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。01:0,:0HH2(2)12rttnrn2023-2-1533(六)线性相关的假设检验(两种方法两种方法)如袭前例:账单与小费之间的r=0.92,若用t检验法检验法:r检验法检验法:N=10,r=0.92,r=0.632,r r 拒绝原假设,则认为两者存在显著的线性相关。0:,0:10HH2288220.925.8
20、4011 0.9221020.05t2.306trtrnt()()若,则,拒绝原假设,即认为账单消费与小费之间存在显著的线性相关关系。2023-2-1534一些人相信他们手掌生命线的长度可以用来预测他们的寿命。M.E.Wilson和L.E.Mather在美国医学协会学报上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放得下了。2023-2-15358.3 回归分析回归分析一、回归分析概述一、回归分析概述(一)概念(一)概念1、回顾线性相关分析线性相关分析:计算线性相关系数
21、 r 确定两变量之间的相关方向与密切程度。不足无法表明两变量之间的因果关系 无法从一个或几无法从一个或几个变量(个变量(xi)的变化来推测另一个变量()的变化来推测另一个变量(y)的变化情况)的变化情况。10名用餐顾客消费金额与所付小费数据如下:r=0.922023-2-15362、回归分析回归分析:通过一个(些)变量的变化解释另一变量的变化 y=a+bx、y=a+b1x1+bx2、y=0+1x1+2x2+nxn 回归回归 英国生物学家 F Galton 首次提出。父辈身高 子辈身高 x y y=f(x)+人类的平均身高。目的目的 在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y
22、是被预测或被解释的变量,称为因变量(Dependent Variable)或被解释变量(Explained Variable)变量X是用来预测或解释因变量的变量,称为自变量(Independent Variable)或解释变量(Explanatory Variable)2023-2-1537(二)回归分析的种类(二)回归分析的种类1、按自变量的多少分、按自变量的多少分(1)简单(一元)回归:自变量只有一个。例 y=a+bx 一元回归方程(2)复(多元)回归:自变量为两个或两个以上。例 y=0+1x1+2x2+nxn2、按回归方程式的特征分、按回归方程式的特征分(1):因变量为自变量的线性函数。
23、例 y=a+bx 一元线性回归方程一元线性回归方程(2):因变量为自变量的非线性函数。例 lnyabx 对数函数回归方程 幂函数回归方程baxy指数函数回归方程bxaey2023-2-15381.定义:描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型。回归模型。2.一元线性回归模型可表示为 y=0 0 1 1 x y 是 x 的线性函数(0 0 1 1 x部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映除了x 和 y 之间的线性关系以外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数(
24、三)(三)一元线性回归模型一元线性回归模型 .回归模型回归模型(regression model)2023-2-15393.一元线性回归模型的基本假定(1)误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=0+1 x(2)对于所有的 x 值,的方差2 都相同,即Var(i)=E(i2)=2(3)误差项之间不存在自相关关系,其协方差为0,即Cov(i,j)=E(ij)=0(i j)(4)误差项是一个服从正态分布的随机变量,即N(0,2)(5)自变量是给定的变量,与随机误差项线性无关。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典
25、假定。2023-2-1540.回归方程回归方程(regression equation)1.定义:描述 因变量y 的期望值如何依赖于自变量 x 的方程,称为回归方程回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x2023-2-1541.估计的回归方程估计的回归方程(estimated regression equation)2023-2-1542(四)回归分析的步骤(四)回归分析的步骤1、确定自变量和因变量确定自变量和因变量;例粮食产量(y)施肥量(x);消费支出(y)国民收入(x);火灾损失额(y)火灾发生地与最近一个消防站之间的距离(x)。2、确定样本回归方程确定样本回归方程;
26、3、参数估计与模型检验参数估计与模型检验;4、预测或控制预测或控制。例 消费与收入的回归方程:y=a+bx=200+0.15x 已知x,确定y:估计或预测 已知y,确定x:控制2023-2-1543q相关分析中相关分析中x与与y对等,回归分析中对等,回归分析中x与与y要确定自变量和因变量;要确定自变量和因变量;q相关分析中相关分析中x、y均为随机变量,回归分均为随机变量,回归分析中只有析中只有y为随机变量;为随机变量;q相关分析测定相关程度和方向,回归分相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。析用回归模型进行预测和控制。2023-2-1544q理论和方法具有一致性;理论和
27、方法具有一致性;q相关分析是回归分析的基础和前提,无相相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好;关就无回归,相关程度越高,回归越好;q回归分析是相关分析的继续和深化;回归分析是相关分析的继续和深化;q相关系数和回归系数方向一致,可以互相相关系数和回归系数方向一致,可以互相推算。推算。2023-2-1545二、一元线性回归方程的拟合二、一元线性回归方程的拟合(一)总体回归方程总体回归方程例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 312
28、0120X X4 4140140X X5 5160160X X6 6180180X X7 7200200X X8 8220220第第 1 1 组:组:Y Y1 1第第 2 2 组:组:Y Y2 2第第 3 3 组:组:Y Y3 3第第 4 4 组:组:Y Y4 4第第 5 5 组:组:Y Y5 55555606065657070757565657070747480808585797984849090949498988080939395951031031081081021021071071101101161161181181101101151151201201301301351351201201
29、36136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144.2条件概率:条件概率:Py=55/x=80=1/5 条件均值:条件均值:E(y/x=80)=652023-2-1546 Yi/Xi=条件均值+i=0+1Xi+i5010015020080100120140160180200iXiY总体回归直线01(/)ii
30、iE YXX 总体回归直线iiXY/i01160i分布80y分布100y分布200y2023-2-1547(二)样本回归方程样本回归方程 从总体中随机取样,获取一组样本观察值样本观察值。例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 3120120X X4 4140140X X5 5160160X X6 6180180X X7 7200200X X8 8220220Y Y1 1Y Y2 2Y Y3 3Y Y4 4Y Y5 55555606065657070757565
31、65707074748080858579798484909094949898808093939595103103108108102102107107110110116116118118110110115115120120130130135135120120136136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144
32、.2N=40n=82023-2-1548图示501001502008010012014016018020001(/)iiiE YXX 总体回归方程 未知iXiY样本回归直线01()yx 样本回归方程 直线1e2e回归值观察值残差iiiyye:01iiiiiyyexe0011样本总体回归方程样本总体2023-2-1549(三)样本回归方程的拟合方法样本回归方程的拟合方法1、01(/)E YXX01 yxmin11最优直线的直线使niiiniiyyeniieQ122、(OLS法)基本思路:使残差平方和最小的直线“最优直线”。niiiyy12)(2011()minniiiyx01,寻找最优直线寻找最
33、优2023-2-1550 总可以设法找到一对 的取值,使Q为最小值。2201()()minQyyyx 01(1)nyx 由式0100112()(1)02()()0QyxQyxx 01201(1)(2)ynxxyxx 整理得011yxyxnn01,2023-2-1551将上式代入(2)式,得12222()()x yxyn xyx ynxn xxxn 211yxxyxxnn 221():x yxxyxnn 整理2211()x yxxnn 2023-2-1552计算公式011yxyxnnnyxxyyyxx)(:已知12()()()xxyyxx122()x yxynxxn 22()n xyx yn x
34、x nxxxx222)()(2()()1()1xxyynxxn2(,)xCov x ys2023-2-1553r12(,)(,)xyxCov x yCov x yrs ss21(,)(),xxxyyyxsCov x yCov x ysssssrs12(,)(,)yxyyxxxsCov x yCov x ys ssssrs(1)两者是同向的两者是同向的;(2)r反映变量的相关方向与密切程度反映变量的相关方向与密切程度;反映自变量每变动一个单位时因变量的平均变动量反映自变量每变动一个单位时因变量的平均变动量。01 yx112023-2-15541.线性特征线性特征 是是 的线性函数的线性函数 2.
35、无偏特性无偏特性 3.最小方差特性最小方差特性 在所有的线性无偏估计中,在所有的线性无偏估计中,OLS估计估计 具有最小方差具有最小方差 结论:结论:在经典假定条件下,在经典假定条件下,OLSOLS估计量是最佳线性无估计量是最佳线性无 偏估计量(偏估计量(best linear unbiased estimatorbest linear unbiased estimator,BLUE,BLUE)。)。k(四)OLSOLS估计量的性质估计量的性质(高斯高斯马尔柯夫定理马尔柯夫定理)kkE)(122()()()iiiiiiiixxyyX YK YxxX2iiiXKXkY2023-2-1555例为研
36、究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:请拟合小费依消费的直线回归方程请拟合小费依消费的直线回归方程样本的相关系数r=0.922023-2-1556例为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用Excel软件生成的折线图)请拟合样本回归方程请拟合样本回归方程2023-2-1557解:通过散点图可近似看出小费与用餐消费之间呈线性关系,故设两者之间关系为01 yx18.13031,59.198723.87703,5.129,9.883,1022xyyxyxn122210 13031.18883.9 129.515846.750.1655
37、()10 87703.23 883.995753.09n xyx yn xx 01112.950.1655 88.391.6785yxyxnn 01:1.67850.1655yxx 回归方程经济意义:餐费每增加经济意义:餐费每增加100100元,小费支出平均增加元,小费支出平均增加16.5516.55元。元。132.610.1660.925.87xysrs高度正相关2023-2-1558三、回归方程的方差分析三、回归方程的方差分析01:(),yxyy问题的提出 样本关心的大小 即拟合优度xy)(yy bxay)(yy)(yy yy)()()(yyyyyy(一)总离差平方和的分解总离差平方和的分
38、解0101yxeyx回归离差残差总离差0101yxyx残差eyy1()yyxx回归离差2023-2-1559由:22()()()yyyyyy)(2)()()(222yyyyyyyyyy010101 yxyxyx010101()()()()yyyyyxxx 111()()yyxxxx 211()()()0 xxyyxx2112()()()()()()xxyyxxyyxxxx 注22()()()yyyyyy 两边加总,得)()()(yyyyyy11()()()yyxxxx1111()()yyxxxx 2023-2-1560离差分析222()()()yyyyyy 2()()yy由残差的原因造成的误差
39、 剩余变差()()()SSTSSESSR总离差平方和残差平方和回归平方和2220101(2):()()SSEyyxexe 分析拟合程度越差越远离越大误差拟合程度越好越接近越小误差yyeyye2()()yyx由 的变动造成的离差 可解释的变差222201011(1):()()()SSRyyxxxx 分析2023-2-1561yy yy yyyy2)(yySST2)(yySSE2)(yySSR残差平方和残差平方和回归离差回归离差平方和平方和总离差平方和总离差平方和2023-2-1562(二)判定系数判定系数222)()()(yyyyyy2222()()RyyyyRyyyy 越大越小对 的拟合效果好
40、越小越大对 的拟合效果差222222()()()()()()yyyyyyyyyyyy22222()()1()()yyyyRyyyy 判定系数222()1()yyRyy 22()()SSRSSyySSRSSTyyT占的比例SSRSSR占占SSTSST的的比例,比例,用用 表示;表示;用来衡用来衡量回归量回归方程对方程对y的解的解释程度。释程度。2R2023-2-1563 判定系数的作用判定系数的作用 21S S RS S ERS S TS S T总离差平方和SST回归平方和SSR残差平方和SSE来自样本回归线来自残差回归线上的点与样本均值离差的平方和判定系数判定系数(coefficient of
41、 determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在SST中占的比重越大,因此回归直线的拟合优拟合优度度可用下面的判定系数(可决系数)判定系数(可决系数)测度:实际观测点与回归线上的点的离差的平方和2023-2-1564(三)判定系数判定系数R2与相关系数与相关系数r的关系的关系222()()yyRyy回归离差平方和SSR总离差平方和SST0101:yxyx且222201011()()()yyxxxx 222()()yyRyy2221222(,)(,)xxyxyxyssCov
42、x yCov x yssss sRr2212()()xxyy2212()1()1xxnyyn2212xyss2023-2-1565判定系数与相关系数的区别判定系数与相关系数的区别q判定系数无方向性,相关系数则有方向,判定系数无方向性,相关系数则有方向,其方向与样本回归系数其方向与样本回归系数1相同;相同;q判定系数说明变量值的总离差平方和中判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;只说明两变量间关联程度及方向;q相关系数有夸大变量间相关程度的倾向,相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度
43、量值。因而判定系数是更好的度量值。2023-2-1566(四)估计标准误差估计标准误差1、定义:观察值与回归值之间的平均误差。2、公式0101:()yxE YX样本回归分析总体2)(22eyySSESMSEynyn 与 的平均误差eS越大平均离差越大拟合效果越差越小平均离差越小拟合效果越好平方和观察值与回归值的离差:)(2yy 2023-2-1567图示5010015020080100120140160180200iXiY总体回归直线22()()2eyyYYSnN2222()eeE SS为的无偏估计量2012eyyxySn 简捷计算式2023-2-1568 线性回归模型的检验检验分二大类分二大
44、类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性从基本假设是否成立这一角度检验最小二乘估计法的适用性及其改进拟合优度检验显著性检验四、一元线性回归模型的检验四、一元线性回归模型的检验 本课程只学习本课程只学习统计检验:统计检验:1、拟合优度检验、拟合优度检验 拟合优度拟合优度检验主要用来检验检验主要用来检验样本回归函数与实际观测点的样本回归函数与实际观测点的“接近接近”程度程度,可用,可用判定系数判定系数(或或相关系数相关系数、估计标准误差估计标准误差)测)测度。度。2023-2-1569(1)线性关系的检验线性关系的检验1.检验自变量与因变量之间的线性关系是否显著,即各
45、解各解释变量前的参数是否不全为零释变量前的参数是否不全为零。2.如果总体上线性关系成立如果总体上线性关系成立,则Y的总离差平方和中,可由该线性回归函数解释的部分(系统性因素系统性因素)所占比重较大,残差平方和(随机性因素随机性因素)所占比重较小,从而使得回归平方和与残差平方和的比值较大。3.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著/(1)(1,)/()SSRkMSRFF knkSSEnkMSE其中,k表示模型中回归参数的个数表示模型中回归参数的个数,n为样本容量为样本容量。2、显著性检验、显著性检验2023-2-1570线性关系检验的线性关系检验
46、的步骤步骤 1.提出假设提出假设H0:1=0 线性关系不显著计算计算检验统计量检验统计量F3.确定确定显著性水平显著性水平,并根据分子自由度,并根据分子自由度1和分和分母自由度母自由度n-2找出找出临界值临界值F 4.作作出决策:若出决策:若FF (P),拒绝),拒绝H0;若若F),不拒绝),不拒绝H02023-2-1571(2)回归系数的检验)回归系数的检验4.采用采用t检验检验5.在一元线性回归中,等价于线性关系的显著性检验在一元线性回归中,等价于线性关系的显著性检验11.对各回归系数的对各回归系数的显著性检验显著性检验主要是通过样本考察总体回归系数的“可能取值可能取值”。2.回归分析中,
47、主要是针对总体参数是否为某一值(一总体参数是否为某一值(一般设为般设为零零)来检验自变量 x 对因变量 y 的影响是否显著的(为什么?)(为什么?)2023-2-1572样本统计量样本统计量 的抽样分布的抽样分布2023-2-1573回归系数检验的回归系数检验的步骤步骤1.提出假设nH0:1=0(没有线性关系)nH1:1 0(有线性关系)2.计算检验的统计量2023-2-1574五、对回归分析结果的评价五、对回归分析结果的评价建立的模型是否合适?建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手:1.所估计的回归系数 的符号是否与理论或事先预期相一致2
48、.如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此3.回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题4.考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图2023-2-1575六、多元线性回归分析六、多元线性回归分析1、多元线性回归模型、多元线性回归模型多元线性回归模型:是指在线性相关的条件下,研究2个或2个以上自变量与因变量之间的数量关系。其模型为:y=0+1X1 2X2
49、+nXn+ei2、多元线性回归模型参数的估计:、多元线性回归模型参数的估计:最小平方法最小平方法。求解回归系数的估计值,通常用统计软件。其方程用矩阵表示为:nnnnnknnkkneeeeByyyYBuuuUxxxxxxXyyyY2121212121222212121,111,2023-2-1576一、变量间关系的种类;一、变量间关系的种类;二、相关系数的计算、评价及检验二、相关系数的计算、评价及检验三、回归模型、回归方程、估计回三、回归模型、回归方程、估计回归方程的概念,回归方程参数的最归方程的概念,回归方程参数的最小二乘估计;小二乘估计;四、判定系数、估计标准误差的计四、判定系数、估计标准误差的计算,及线性关系检验及回归系数的算,及线性关系检验及回归系数的检验检验