1、中央财经大学统计学院第七章 相关与回归分析 相关分析相关分析一元线性回归一元线性回归多元线性回归多元线性回归回归分析的其他问题回归分析的其他问题中央财经大学统计学院 2学习目标学习目标l掌握两个或多个变量之间相关关系的分析方法。l能够根据收集到的数据估计一元和多元回归方程,并对结果进行解释。l掌握回归分析模型的各类检验方法。中央财经大学统计学院 37.1 相关分析相关分析l函数关系与相关关系函数关系与相关关系l相关分析与回归分析l散点图l相关系数中央财经大学统计学院 4函数关系与相关关系l当一个变量取一定数值时,另一个变量有确定值与之相对应,这种关系称为函数关系。l当一个变量取一定数值时,与之
2、相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化,这种关系称为相关关系。l对相关关系的分析是统计学的重要研究内容。l主要研究方法:相关分析和与回归分析。中央财经大学统计学院 5相关分析与回归分析相关分析与回归分析 l相关分析(Correlation Analysis)研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测另一个变量。l回归分析(Regression)可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预测。中央财经大学统计学院 6相关分析的类型相关分析的类型l根据相关关
3、系的类型和程度可以有以下分根据相关关系的类型和程度可以有以下分类:类:相关关系相关关系非线性相关非线性相关线性相关线性相关完全相关完全相关不相关不相关不完全相关不完全相关中央财经大学统计学院 7散点图散点图 Scatter Diagram l散点图是观察两个变量之间的相关程度和类型最直观的方法。l散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。中央财经大学统计学院 8自变量和因变量自变量和因变量l如果两个变量中一个变量是另一个变量变化的结果,那么l代表原因的变量称为自变量 Independent (Explanatory)Variable,l代表结果的变
4、量称为因变量 Dependent(Response)Variable。l在散点图中习惯上把因变量绘制在纵轴上。中央财经大学统计学院 9用散点图观察变量之间的相关关系不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关中央财经大学统计学院 10例题例题7.1l教材中的表教材中的表7.1是是 1985-2019年北京市城镇年北京市城镇居民人均年消费性支出(变量居民人均年消费性支出(变量Y)和人均年)和人均年可支配收入(变量可支配收入(变量X)的有关资料,请对)的有关资料,请对X和和Y变量进行相关分析变量进行相关分析。中央财经大学统计学院 11散点图散点图人均可支配收入人均可支配收入25
5、.0020.0015.0010.005.000.00人人均均消消费费支支出出20.0015.0010.005.000.00中央财经大学统计学院 12 相关系数的计算及其检验相关系数的计算及其检验 l相关系数(Coefficient of Correlation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。l衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数。l通常以表示总体的相关系数,以r表示样本的相关系数。中央财经大学统计学院 13l总体相关系数的定义式是:l样本相关系数的定义公式是:)()(),(YVarXVarYXCov 相关
6、系数的计算及其检验相关系数的计算及其检验 22)()()(yyxxyyxxr中央财经大学统计学院 14相关系数的计算相关系数的计算00yyxx00yyxx00yyxx00yyxxxx yy 中央财经大学统计学院 15相关系数相关系数r 的特征的特征l当当r0时,时,X与与Y为正相关;当为正相关;当r0时,时,X与与Y为负相关。为负相关。l没有单位,取值介于没有单位,取值介于1与与1之间。之间。l绝对值越接近绝对值越接近1说明关系越密切。说明关系越密切。r1为完为完全正相关,而全正相关,而r1为完全负相关。为完全负相关。l注意注意:当:当r=0时,只是表明两个变量之间不时,只是表明两个变量之间不
7、存在存在线性关系线性关系,它并不意味着,它并不意味着X与与Y之间不之间不存在其他类型的相关关系。存在其他类型的相关关系。中央财经大学统计学院 16相关系数的显著性检验l样本相关系数r受到抽样波动的影响,是一个随机变量。l相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。中央财经大学统计学院 17样本能代表总体吗?样本能代表总体吗?l如果红色的点碰巧为你的样本,则样本相关系数为0.907,总体相关系数为0.00005中央财经大学统计学院 18相关系数的显著性检验1、提出假设:、提出假设:H0:;H1:0)2(122ntrnrt2、计算检验的统计量:3
8、、确定显著性水平,并作出决策 若 t t,拒绝H0 或者:若p值t时拒绝H0;l或者p值F时拒绝H0;l或者p值 时拒绝H0,l如果不能拒绝零假设,则说明所有自变量作为一个整体对因变量都没有解释能力。l注意这里F检验是右侧检验!中央财经大学统计学院 63F检验:例题检验:例题7.2l收入收入-消费模型的消费模型的F检验结果。很多统计软件的检验结果。很多统计软件的F检检验都是以一个方差分析表的形式给出的。验都是以一个方差分析表的形式给出的。)2,1()2/(1/nFMSEMSRnSSESSRF中央财经大学统计学院 64利用回归模型进行预测*(本小节不做考试要求)l均值预测与个值预测l均值预测(m
9、ean prediction):对于给定的X值,预测Y的平均值。例如,对于所有年收入=3万的居民,其平均消费等于多少?l个值预测(individual prediction):张三的年收入=3万,其消费=?l均值和个值预测的点估计值相同:对于 x 的一个给定值x0,预测值都等于根据回归方程得到 y 的估计值 。0y中央财经大学统计学院 65均值预测的置信区间均值预测的置信区间niiyxxxxnsnty1220201)2(l对于对于 一个给定的一个给定的x 值值 x0,y 的均值的均值E(y0)的置信区间的置信区间。这一区间有时简称为置信。这一区间有时简称为置信区间。区间。(confidence
10、 interval)。l E(y0)在在1-置信水平下的置信区间为置信水平下的置信区间为中央财经大学统计学院 66l对于 一个给定的x值 x0,y 的一个个别值的估计区间。这一区间常称为预测区间(prediction interval)。y0在1-置信水平下的预测区间为 手工计算置信区间和预测区间几乎是不可能的,但统计软件可以直接给出计算结果。个值预测的置信区间(预测区间)niiyxxxxnsnty12202011)2(中央财经大学统计学院 67预测区间与置信区间XYX-barX0Y0预测下限预测上限置信上限置信下限xy10需要预测的值越接近需要预测的值越接近x x的均值,预测误差越小。用回归
11、的均值,预测误差越小。用回归模型进行外推预测可能会有较大的误差,因此必须小心模型进行外推预测可能会有较大的误差,因此必须小心使用!使用!中央财经大学统计学院 6873 多元线性回归多元线性回归 l多元线性回归模型 l多元线性回归方程的参数估计 l回归方程的拟合优度和复相关系数 l显著性检验l逐步回归中央财经大学统计学院 69多元线性回归模型多元线性回归模型l总体回归函数:总体回归函数:l样本回归方程:样本回归方程:uXXYpp110ppxxy110中央财经大学统计学院 70多元线性回归模型的基本假设l在多元回归中除了要求一元回归中的基本假设条件外,还需要假设自变量之间不存在完全的多重共线性,否
12、则无法估计回归模型。l完全的多重共线性:一个自变量可以表示为其他自变量和常数项的线性函数,例如x1=2x2+x3+5。中央财经大学统计学院 71多元线性回归方程的参数估计l利用与一元回归类似的最小二乘法可以得到总体参数的估计量和估计值。虽然计算过程要复杂一些,但用计算机很容易得到计算结果。l在多元回归中对回归系数的解释有所不同。l例如变量x1的回归系数应解释为:当x2,x3,xp不变时,x1每变动一个单位因变量y的平均变动量。中央财经大学统计学院 72l根据表71的数据,建立北京市城镇居民消费模型,要求以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)和家庭恩格尔系数(变量Z)
13、为自变量,建立二元线性回归模型。例题例题7.3中央财经大学统计学院 73用用SPSS进行二元线性回归进行二元线性回归l用SPSS进行二元线性回归的具体步骤,与上一节介绍的估计一元线性回归模型非常相似:前3步完全相同,只是在第4步,在弹出的“Linear Regression”对话框中,将Y变量选入“Dependent”栏后,需要将变量X和变量Z同时选入“Independent(s)”栏,最后点击“确定”。中央财经大学统计学院 74SPSS回归结果回归结果中央财经大学统计学院 75结果分析结果分析l二元线性回归方程为:l变量X的回归系数为0.602,其统计含义:在居民家庭恩格尔系数不变的条件下,
14、居民可支配收入每上升1个单位(千元),居民消费“平均”上升0.602个单位(千元);变量Z的回归系数为0.097,说明在居民可支配收入不变的条件下,居民恩格尔系数每降低1个单位(即降低1%),居民消费水平就会“平均”上升0.097个单位(千元)。tttZXY097.0602.0755.5中央财经大学统计学院 76多元回归方程的检验多元回归方程的检验 l拟合优度拟合优度 修正的多重决定系数修正的多重决定系数 估计标准误差估计标准误差l显著性检验显著性检验 F检验检验 t检验检验中央财经大学统计学院 77多元回归模型的决定系数 l我们同样可以用决定系数来衡量多元回归我们同样可以用决定系数来衡量多元
15、回归模型的拟合效果,在多元回归中也称为多模型的拟合效果,在多元回归中也称为多重决定系数(重决定系数(multiple coefficient of determination)。)。lR2的的正正的平方根称为的平方根称为复相关系数复相关系数,它度量,它度量了因变量同了因变量同p个自变量的相关程度。个自变量的相关程度。222)(11yyeSSTSSESSTSSRRii中央财经大学统计学院 78l在样本容量一定的条件下,不断向模型中增加自变量,即使新增的变量与Y不相关,模型的R2也可能上升,至少不会下降。l在实际应用中,研究人员更欢迎简单的模型,这样的模型更简单和易于解释。如果根据R2来选择模型,
16、显然会倾向于复杂的模型。l更常用的指标是“修正后的Ra2”。修正的判定系数中央财经大学统计学院 79修正的判定系数l在多元回归中,比较自变量个数不在多元回归中,比较自变量个数不同的方程的拟合效果时多使用同的方程的拟合效果时多使用修正修正的判定系数的判定系数(adjusted multiple coefficient of determination):):11)1(1)1/()1/(122pnnRnTSSpnESSRa中央财经大学统计学院 80Ra2特点:特点:ln-1和n-p-1实际分别是总离差平方和与残差 平方和的自由度。l由各自定义知:lRa2小于1,但未必都大于0,在拟合极差的情况下,
17、Ra2有可能为负值。22RRa中央财经大学统计学院 81多元线性回归模型的估计标准误MSEpnSSEpnyysiiy11)(2l多元线性回归中的估计标准误差也是对误差项的标准差的一个估计值l含义:根据自变量x1,x2,xP来预测因变量y时的平均预测误差。中央财经大学统计学院 82例题例题7.3的结果的结果中央财经大学统计学院 83结果分析结果分析l可决系数为0.997。这个指标可用于计算“复相关系数”(正的平方根)。l修正的可决系数为0.997。l回归标准误差为0.27276,其统计含义为,根据该回归方程对城镇居民消费水平进行拟合时,平均的估计误差为272.76元。中央财经大学统计学院 84l
18、多元回归中多元回归中t检验和检验和F检验的步骤与一检验的步骤与一元回归类似,相应元回归类似,相应t的检验统计量为的检验统计量为多元回归中的t检验)1(pntstii中央财经大学统计学院 85SPSS回归结果回归结果中央财经大学统计学院 86lF检验的统计量为l注意这里F检验与t检验不再等价,其零假设和备择假设分别为lH0:12p=0lH1:1,2,p至少有一个不等于0多元回归中的F检验)1,(1/pnpFpnSSEpSSRF中央财经大学统计学院 87F检验:检验:例题例题7.3的结果的结果)1,()1/(/pnpFMSEMSRpnSSEpSSRF中央财经大学统计学院 88多元回归中的变量筛选多
19、元回归中的变量筛选l在多元回归中,预先选定的自变量不一定都对Y有显著的影响。有一些统计方法可以帮助我们从众多可能的自变量中筛选出重要的自变量。SPSS软件提供了多种筛选自变量的方法:l“向前引入法(Forward)”l“向后剔除法(Backward)”l“逐步引入剔除法(Stepwise)”中央财经大学统计学院 89逐步回归的思想逐步回归的思想l将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,。l在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了
20、,就要将它剔除。l这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作。l可以设定引入和删除变量的条件。中央财经大学统计学院 90逐步回归举例:澳大利亚的啤酒需求l为了研究澳大利亚啤酒需求的影响因素,为了研究澳大利亚啤酒需求的影响因素,研究人员收集了研究人员收集了1955-2019如下资料:如下资料:lConsBeer:人均啤酒消费量(升):人均啤酒消费量(升)lPbeer:啤酒的价格(澳元升)啤酒的价格(澳元升)lPwine:葡萄酒的价格(澳元升)葡萄酒的价格(澳元升)lPsprits:白酒的价格(澳元升):白酒的价格(澳元升)lIncome:人均收
21、入,澳元人均收入,澳元l根据数据拟合多元线性回归模型。根据数据拟合多元线性回归模型。中央财经大学统计学院 91多元线性回归:澳大利亚的啤酒需求l部分数据:部分数据:YearConsBeerPbeerPwinePspiritsIncome1955105.980.320.743.96750.561956100.450.370.793.96783.071957100.660.370.833.96803.82199299.53.556.6943.0614406.291993983.676.9944.1914901.15199496.93.787.3545.6715840.58201995.33.997
22、.7346.9216728.52201994.74.17.8748.6217184.01中央财经大学统计学院 92回归结果ConsBeer 89.2811-68.2395 Pbeer +41.9225Pwine +2.6519 Pspirits -0.0100 IncomeCoefficients标准误差标准误差t StatP-valueIntercept89.2811 3.4201 26.1050 0.00000 Pbeer-68.2395 13.0868-5.2144 0.00001 Pwine41.9225 2.6852 15.6126 0.00000 Pspirits2.6519 0.
23、9761 2.7167 0.00997 Income-0.0100 0.0039-2.6053 0.01315 中央财经大学统计学院 93回归结果中央财经大学统计学院 94逐步回归结果逐步回归结果中央财经大学统计学院 95使用默认设置,逐步回归得到的使用默认设置,逐步回归得到的最终模型最终模型中央财经大学统计学院 9674 回归分析的其他问题回归分析的其他问题 l非线性回归非线性回归 l违背回归模型统计假设的后果违背回归模型统计假设的后果和补救方法和补救方法 中央财经大学统计学院 97非线性回归分析 l如果如果y y 与与 x x 之间不是线性关系,通常之间不是线性关系,通常也可以可通过变量代
24、换使其转换成线性也可以可通过变量代换使其转换成线性模型,然后再对线性模型进行估计。模型,然后再对线性模型进行估计。l但并非所有的非线性模型都可以化为线但并非所有的非线性模型都可以化为线性模型。性模型。中央财经大学统计学院 98l在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:l方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。l方程有较高的拟合程度。l方程的数学形式要尽可能简单。非线性函数形式的确定非线性函数形式的确定中央财经大学统计学院 99几种常见的非线性模型几种常见
25、的非线性模型l指数函数线性化方法线性化方法两端取对数得:两端取对数得:lny=ln +x令:令:y=lny,则有,则有y=ln +xxey基本形式基本形式图像图像中央财经大学统计学院 100几种常见的非线性模型几种常见的非线性模型l幂函数 线性化方法线性化方法两端取对数得:两端取对数得:lg y=lg +lg x令:令:y=lgy,x=lg x,则则y=lg +xxy 基本形式:基本形式:图像图像中央财经大学统计学院 101几种常见的非线性模型几种常见的非线性模型l 双曲线函数线性化方法线性化方法令:令:y=1/y,x=1/x,则有则有y=+xxxy基本形式:基本形式:图像图像 0中央财经大学
26、统计学院 102几种常见的非线性模型几种常见的非线性模型l 对数函数 线性化方法线性化方法x=lgx,则有则有y=+xxylg基本形式:基本形式:中央财经大学统计学院 103几种常见的非线性模型几种常见的非线性模型lS 型曲线 线性化方法线性化方法令:令:y=1/y,x=e-x,则有则有y=+xxey1基本形式:基本形式:图像图像中央财经大学统计学院 104lOLS估计需要一系列的假设条件;l在实际应用中这些假设条件能够同时得到满足的情况不多见。对这些假设条件的检验以及采取相应的补救措施就成为回归分析的重要任务之一。l通过模型理论方法的发展,可以克服违背基本假设带来的问题。违背回归模型统计假设
27、的几种违背回归模型统计假设的几种情况和后果情况和后果中央财经大学统计学院 105l异方差问题(违背同方差假设)l序列相关问题(违背序列不相关假设)l多重共线性问题(违背解释变量不相关假设)违背回归模型统计假设的常见违背回归模型统计假设的常见情况情况 中央财经大学统计学院 106(1)异方差)异方差l当回归模型随机误差项t的方差不为常数时,即为异方差(Heteroscedasticity)现象:l当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,我们此前介绍的t检验也失效,无法对回归系数的显著性进行检验。2)var(tt中央财经大学统计学院 107同方差同方差x1
28、 x2XY随着x变化随机扰动项的方差不变iiiYX中央财经大学统计学院 108异方差异方差x1 x2X随着x增加随机扰动项方差增大YiiiYX中央财经大学统计学院 109(2)序列相关)序列相关l随机误差项之间的协方差不为零时,即存在序列相关序列相关(Serial Correlation),又称自相关。l序列相关的后果:l尽管普通最小二乘估计量仍为无偏估计量,但不再具有最小方差的性质,即不是“最优线性无偏估计量”;l回归系数的显著性检验失效。0),cov(st中央财经大学统计学院 110(3)多重共线性)多重共线性l完全多重共线性:一个自变量可以表示为其他自变量(包括常数项)的线性函数。l后果
29、:违背基本假设,模型的参数无法估计。需要去掉一个自变量。l例如:在以下回归模型中,存在完全多重共线性:因变量:消费自变量:第一产业增加值;第二产业增加 值;第三产业增加值;GDP。中央财经大学统计学院 111(3)多重共线性)多重共线性l高度多重共线性:如果某两个或多个解释变量之间出现了高度的相关性,则称为高度多重共线性。例如:在以下回归模型中,应该会有高例如:在以下回归模型中,应该会有高度的多重共线性:度的多重共线性:因变量:消费;因变量:消费;自变量:收入、自变量:收入、财富。财富。中央财经大学统计学院 112高度多重共线性的后果高度多重共线性的后果l并不违背OLS的基本假设,存在高度多重
30、共线性时,正规方程仍有唯一解。因此 OLS仍然是BLUE(Best Linear Unbiased Estimate)的。lt检验值会减小、系数的显著性下降。l对于一组存在高度多重共线性的自变量,很难对单个系数进行解释。l有可能导致各回归系数的符号同我们的预期相反。中央财经大学统计学院 113多重共线性的检测多重共线性的检测l不是有无的问题,而是一个程度的问题。l计算模型中自变量之间的相关系数,若有很大的相关系数,就表示模型存在高度的多重共线性l出现下列情况,有可能存在高度多重共线性lF检验显著,但所有回归系数的t检验却不显著 l回归系数的符号与其经济意义相反中央财经大学统计学院 114l关于
31、违背回归模型统计假设的检验方法和补救措施在本门课程中不做进一步的介绍,感兴趣的同学请参考计量经济学中的内容。关于违背回归模型统计假设的关于违背回归模型统计假设的检验方法和补救措施检验方法和补救措施中央财经大学统计学院 115小结(小结(1)l相关分析研究变量之间相关的方向和相关相关分析研究变量之间相关的方向和相关的程度。相关系数及其检验。散点图。的程度。相关系数及其检验。散点图。l回归分析则是研究变量之间相互关系的具回归分析则是研究变量之间相互关系的具体形式,包括线性回归分析(具体包括一体形式,包括线性回归分析(具体包括一元线性回归方程和多元线性回归方程)和元线性回归方程和多元线性回归方程)和
32、非线性回归分析。非线性回归分析。l最小二乘估计;回归方程的拟合优度;回最小二乘估计;回归方程的拟合优度;回归分析中的归分析中的t检验和检验和F 检验。检验。中央财经大学统计学院 116小结(小结(2)l多元回归的特殊问题:修正的多元回归的特殊问题:修正的R2;F检验;检验;逐步回归。逐步回归。l非线性回归:变量代换的几种情况非线性回归:变量代换的几种情况l异方差、自相关、多重共线性的概念和后异方差、自相关、多重共线性的概念和后果。果。l在相关与回归分析中,在相关与回归分析中,SPSS主要有以下主要有以下几个方面的应用:绘制散点图;计算相关几个方面的应用:绘制散点图;计算相关系数;对一元或多元线性回归模型进行估系数;对一元或多元线性回归模型进行估计和检验;统计预测。计和检验;统计预测。