1、第八章第八章 相关与回归分析相关与回归分析 学习目的:1.理解现象之间存在的相关关系;2.能利用相关系数对相关关系进行测定分析;3.明确相关分析与回归分析的主要内容以及它们各自的特点;4.掌握一元线性回归的基本原理和参数的最小二乘估计;5.能够对回归方程的显著性进行检验,并利用回归方程进行估计和预测。8-1第一节第一节 相关分析相关分析一、变量间的关系一、变量间的关系l 函数关系 是变量之间一种完全确定的关系。如,圆的面积与圆半径之间的关系 即函数关系。l 相关关系(correlation)指变量之间的数量变化受随机因素的影响而不能惟一确定的相互依存关系,其一般数学表达式为 ,其中 代表随机因
2、素。如,居民受教育程度与收入的关系及相关关系。由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。而在研究相关关系时,为了找出变量之间数量关系的内在联系和表现形式,又常常需要借助函数关系的形式加以描述。8-22rs xfy互动地带第一节第一节 相关分析相关分析二、相关关系的种类二、相关关系的种类l 根据相关变量之间的密切程度不同,可分为不相关、完全相关和不完全相关。l 根据相关变量的变化方向划分,可分为正相关和负相关l 根据相关变量的多少划分,可分为单相关和复相关。l 根据变量间依存关系的形式划分,可分为直线相关和曲线相关。三、相关关系的描述与测度三、相关
3、关系的描述与测度l 散点图(scatter diagram)用直角坐标的横轴表示变量x的值,纵轴表示变量y的值,每组数据在直角坐标系中用一个点表示,n组数据在直角坐标系中形成的n个数据点称为散布点或散点,由坐标及其散点形成的二维数据图。8-3第一节第一节 相关分析相关分析l 散点图与相关的类型8-4互动地带第一节第一节 相关分析相关分析l 相关系数(correlation coefficient)是测度变量之间相关关系密切程度和相关方向的代表性指标。对两个变量之间线性相关程度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;若是根据样本数据计算的,则称为样本
4、相关系数,记为 。两个变量的线性相关系数 或8-5r 2222yynxxnyxxynr22)(11)(11)(11yynxxnyyxxnsssryxxy例8.1第一节第一节 相关分析相关分析 相关系数的取值范围在-1和+1之间,即:1 1。若0 1,表明和之间存在正线性相关关系;若-1 0,表明和之间存在负线性相关关系;若 =1,表明和之间是完全正线性相关关系;若 =-1,表明和之间是完全负线性相关关系。=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。通常认为,当n较大时:00.3为微弱相关;0.30.5为低度相关;0.50.8为显著
5、相关;0.81为高度相关。相关系数的显著性检验 ;统计量 服从自由度为n-2的t分布8-6rrrrrrrrrr0:0H0:1H212rnrt互动地带 例8.2 根据对25家银行的调查数据计算不良贷款额与贷款余额的相关系数为0.8436。试检验不良贷款额与贷款余额之间的相关系数是否显著。解:(1)提出原假设和备择假设 ;(2)取显著性水平 =0.05,根据自由度 ,查 分布表得:临界值 (3)计算检验的统计量 (4)由于 ,所以拒绝 ,表明不良贷款与贷款余额之间存在显著的正线性相关关系。0:0H0:1H232252ndft069.223,025.02,2/ttn5344.78436.012258
6、436.01222rnrtt2,2/nt0H8-7互动地带附表6第二节第二节 一元线性回归分析一元线性回归分析l 自变量与因变量 在回归分析中,通常把被解释(预测)变量称为因变量(dependent variable),也叫响应变量(response variable),一般假设为随机变量;把 用 来 解 释(预 测)的 一 个 或 多 个 变 量 称 为 自 变 量(independent variable),也称为回归变量(regressor),它可以是随机变量,也可以是非随机变量。回归的类型 如果回归分析时只有一个自变量,则称为一元回归;含有两个或两个以上回归变量时称为多元回归。若响应变
7、量与回归变量之间为线性关系就称为线性回归分析,否则称为非线性回归分析。回归模型(regression model)描述响应变量与回归变量和误差项之间的因果关系的数学表达式称为回归模型。8-8第二节第二节 一元线性回归分析一元线性回归分析一、一元线性回归模型一、一元线性回归模型l 理论回归模型 式中A和B是未知常数,称作回归系数(coefficient);回归变量可以是随机变量,也可以是可以控制其取值的非随机的普通变量;是不可观测的随机变量,表示 和 的关系中不确定因素的影响,我们称之为随机误差;响应变量 为随机变量。l 模型的三个假定 1.随机误差 的期望值为0,即 2.对于所有的 值,的方差
8、都相同;3.随机误差 是一个服从正态分布的随机变量,且各次观测的随机误差 相互独立。l 回归方程 8-9eBxAyxxyye0)(eEeeexneee,21BxAyE)(第二节第二节 一元线性回归分析一元线性回归分析l 估计的回归方程 总体回归参数A和B是未知的,我们必须利用样本数据去估计它们。用样本统计量 和 代替回归方程中的未知参数A和B,可以得出估计的一元线性回归方程式:式中,是估计的回归直线在 轴上的截距;是直线的斜率;是 的 估计值,也称 为 的回归值(regressand value)或拟合值(fitted value)。为 每变动一个单位时,的平均变动值。二、参数的最小二乘估计二
9、、参数的最小二乘估计 在根据散布点去拟合回归直线时,应使得直线 所代表的估计值 和与其对应的实际观测值 之间的差为最小,即残差(residual)最小。即:8-10abbxayayyyy y bbxybxayyy 最小值2)(),(bxaybaQ互动地带第二节第二节 一元线性回归分析一元线性回归分析 利用数学求极值的方法,由条件 且 可得关于参数和的方程组(称为标准方程组或正规方程组):解得:8-110aQ0bQ2xbxaxyxbnayxbynxbnyaxxnyxxynb22 例8.3 根据表的数据,求不良贷款对贷款余额的回归方程。分行编号 各项贷款余额(观测值)不良贷款额(观测值)不良贷款额
10、(估计值)残差 -1234567891011121314151617181920212223242567.3111.3173.080.8199.716.2107.4185.496.172.864.2132.258.6174.6263.579.314.873.524.7139.4368.295.7109.6196.2102.20.91.14.83.27.82.71.612.51.02.60.34.00.83.510.23.00.20.41.06.811.61.61.27.23.21.7208 3.3882 5.7263 2.2324 6.7381-0.2156 3.2404 6.1962 2.8
11、122 1.9292 1.6033 4.1802 1.3911 5.7869 9.1557 2.1755-0.2687 1.9557 0.1065 4.4530 13.1233 2.7970 3.3237 6.6054 3.0433-0.8208-2.2882-0.9263 0.9676 1.0619 2.9156-1.6404 6.3038-1.8122 0.6708-1.3033-0.1802-0.5911-2.2869 1.0443 0.8245 0.4687-1.5557 0.8935 2.3470-1.5233-1.1970-2.1237 0.5946 0.1567 xyy yy 8
12、-12 解:作散点图判断回归类型为直线回归。代入公式求回归系数 其回归方程为:这表明:银行贷款余额越多,则不良贷款额越高;贷款余额每增加1亿元,不良贷款平均增加0.0378947亿元。0378947.07.300637.516543252.937.300614.1708025222 xxnyxxynb82952.0257.30060378947.0252.93xbyaxy0378947.082952.08-13互动地带第二节第二节 一元线性回归分析一元线性回归分析三、一元线性回归模型的检验三、一元线性回归模型的检验l 离差平方和的分解离差平方和的分解 总平方和等于回归平方和与残差平方和之和。即
13、:SST=SSR+SSE 式中,l 回归效果的显著性检验 1、判定系数 对于一元回归,越接近于 1,表明回归直线与各观测点越接近,回归直线的拟合程度就越好;越接近于 0,表明回归方程的拟合程度越差。8-14222)(ynyyySST2222)()()(xxbyyyySSR2222)()()(xxbyyyySSE222221yyyyyyyySSESSRR22rR 2R2R第二节第二节 一元线性回归分析一元线性回归分析 2.估计标准误差(standard error of estimate)估计标准误差 越小,说明各观测点越靠近直线,回归直线对各观测点的代表性就越好,用于预测的可靠性越高。3、回归
14、系数的显著性检验(t检验)检验提出的假设:检验使用的统计量:其中,若 ,则拒绝H0,回归系数等于零的可能性小于,说明两个变量之间存在显著的线性关系;若 ,则不拒绝H0,回归系数有可能为零,不能证明两个变量之间存在显著的线性关系。8-1522222.nSSEnxybyaynyySxyxyS.0:0BH0:1BH222.22.)(xnxSxxSSxyxyb20nbbbtSbSbSBbttt)2(2/nt)2(2/nt互动地带互动地带第二节第二节 一元线性回归分析一元线性回归分析4、回归方程的显著性检验(F检验)检验提出的假设:两个变量间的线性关系不显著 两个变量间的线性关系显著 检验所用的统计量:
15、若 ,则拒绝H0,说明两个变量之间的线性关系是显著的;若 ,则不拒绝H0,不能证明两个变量之间存在显著的线性关系。l 例8.4 根据例8.1的数据,求利润总额对销售收入回归的判定系数,并对回归系数进行检验。解:由于 ,均说明了不良贷款与贷款余额之间的线性关系是显著的。8-16:0H:1H2,122)2()()(21nFnyyyyMSEMSRnSSESSRFF)2,1(nF)2,1(nFF%15.73731464.09.12465585.911812222yyyyR533513.700503015.00378947.0bSbt753844.56920192232.34859787.222)2()
16、(1/)(22nyyyyF533513.7t0687.2)23(025.0)2(2/ttn753844.56F28.4)23,1(05.0F互动地带第二节第二节 一元线性回归分析一元线性回归分析 四、一元线性回归模型预测四、一元线性回归模型预测 l 点预测 利用估计的回归模型 ,对于给定的变量 的任一值,用回归值 作为变量 的预测(估计)值 。l 区间预测 1、的平均值的置信区间估计 对于给定的 ,在给定置信水平 条件下的预测区间为:2、的个别值的预测区间估计 当给定置信水平 时,值的预测区间为:8-17bxay0 x0 yy0yy0 x)(0yE1)()()(10220.)2(2/0yExx
17、xxnStyxyn220.)2(2/0)()(1xxxxnStyxyny10y220.)2(2/0)()(11xxxxnStyxyn0220.)2(2/0)()(11yxxxxnStyxyn 例8.7 根据例8.3的估计回归方程,求出(1)贷款余额为100亿元时,不良贷款95%的置信区间;(2)贷款余额为80.8亿元那个分行不良贷款的预测区间。解:已知:,查表得 (1)当 时,不良贷款的点估计值为:的置信区间为:(2)贷款余额为80.8亿元那个分行不良贷款的预测区间 为:25n9799475.1.xyS.0687.2)225(025.0)2(2/ttn1000 x亿元95995.278947.
18、382952.00378947.082952.000 xy)(0yE5744.154933)268.120100(2519799475.10687.295995.2)(20yE5744.154933)268.120100(2519799475.10687.295995.2)(20yE80585.3)(11405.20yE23722.15744.154933)268.1208.80(25119799475.10687.295995.220y15712.75744.154933)268.1208.80(25119799475.10687.295995.220y15712.723722.10y8-1
19、8第三节第三节 多元线性回归分析多元线性回归分析l 多元线性回归分析是研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间相依关系的统计分析方法。一、多元线性回归模型一、多元线性回归模型l 多元回归模型(多元回归模型(multiple regression model)其中,随即误差 相应满足:(1)随机误差的期望值为0,即 (观测无系统误差);(2)对于解释变量 的所有值,的方差都相同;(3)各次观测的随机误差 相互独立,因而 也相互独立。l 估计(样本)回归方程 其中的 称为偏回归系数。表示当 不变时,每变动一个单位因变量 的平均变动量。8-19exBxBxBAypp2211
20、0)(eEepxxx,21eneee,21nyyy,21ppxbxbxbay2211pbbb,211bpxxx,321x第三节第三节 多元线性回归分析多元线性回归分析二、多元参数的最小二乘估计二、多元参数的最小二乘估计 设 对其求极值得:解此方程组即得各偏回归系数。l 多元回归系数一般使用计算机软件求得。三、多元线性回归模型的检验三、多元线性回归模型的检验 1、多重判定系数。越接近1,说明回归效果越显著。为避免增加自变量 被高估,可计算修正的多重判定系数:的平方根 称为复相关系数,也称多重相关系数。8-20211221),(ppiiipexbxbayyybbbaQQpibQaQi,2,100S
21、STSSESSTSSRR122R11)1(122pnnRRa2Rr2R第三节第三节 多元线性回归分析多元线性回归分析 2、估计标准误差l 回归系数的显著性检验 1.F检验 检验的假设:;:至少有一个回归参数不为零 检验使用的统计量:若 ,则认为模型的总体回归效果显著;若 ,则认为模型总体的回归效果不显著。2.t检验 :;:若 ,则拒绝 ,回归系数 等于零的可能性小于,得出的结论,说明变量 的作用显著;若 ,则不拒绝 。说明变量 的作用不显著,可从模型中剔除。8-21112.pnSSEpnyySiixy0H021 pBBB1H1,)1(pnpFpnSSEpSSRFF)1,(pnpF)1,(pnp
22、FF0H0iB1H0iB1pnbiitSbtiit)1(2/pntiB0H0Hit)1(2/pntixix 例8.9 某地区管理部门,为了分析商业零售企业利润额与商品销售额、流通费用额的相关关系,随机抽取了10个商业零售企业,调查某月的商品销售额、流通费用额和利润额情况,其数据资料如表8.3所示。表8.3 利润额与商品销售额、流通费用额数据资料单位:万元求利润额以商品销售额和流通费用率的回归方程,并对其进行统计检验。序号 利润额 商品销售额 流通费用额 123456789103.64.04.23.83.84.24.44.85.05.2404348424145475052564.8 4.9 5.
23、7 5.0 4.8 5.0 5.7 5.7 6.1 6.5 合计43.046454.2y1x2x8-22 解:通过经济理论和散点图分析,利润额与商品销售额、流通费用额之间大致为线性关系。因此,可建立二元线性回归模型。用最小二乘法求回归系数,得到的方程组为:解方程组,得:,。由此得出,利润额与商品销售额、流通费用额二元线性回归方程为:t 检验:在显著性水平=0.05和自由度 10-2-1=7时,得 2.3646。由 ,说明变量 有显著作用;由 ,可知变量 没有通过检验。2211xbxbay8.23502.2972.25422.5420202.254221772464432.5446410212121bbabbabba3879.0a1374.01b3116.02b213116.01374.03879.0 xxy06.4033837.01374.0111bSbt067.1291958.03116.0222bSbt)7(025.0t1t)7(025.0t1x2t)7(025.0t2x8-23互动地带过关斩将l选填空题l复习思考题l计算分析题8-24