1、第八章第八章 相关与回归相关与回归第一节第一节 相关关系的概念与种类相关关系的概念与种类 一、变量之间的关系1.函数关系(也称确定性关系)即变量之间存在着确定的依存关系。其特点是对于一个或一组变量的每一确定的值,另一个变量都有惟一确定的值与之对应,这种关系能用函数来表达。例如对于商品的销售额,当价格P不变时,销售额Y由销售量X惟一确定,X与Y具有一一对应的确定性关系,可以用 这种函数来表达,这种关系就是函数关系。2.相关关系(也称非确定性关系)即变量之间显然存在着密切的关系,但不是确定的依存关系。其特点是对于一个(或一组)变量的每一个确定的值,另一个变量有多个值与之对应,这种关系不能用普通函数
2、来表达。例如单位面积上的粮食产量与施肥量有关,即在一定范围内,随着施肥量的增加,粮食产量也相应有所提高。二、相关关系的分类二、相关关系的分类1.单相关和复相关 从变量的多少来看,相关可以分为单相关和复相关。单相关也称一元相关,是指两个变量间的相关关系;复相关也称多元相关,是指三个或三个以上变量间的相关关系。(二)线性相关和非线性相关 从变量之间相互关系的表现形式来看,相关可以分为线性相关和非线性相关。线性相关也称直线相关,是指当一个变量每增(减)1个单位,另一相关变量按一个近似固定的增(减)量变化。从散点图上看,其观测点的分布近似地表现为一条直线形式,见图8-1(a)与(b)所示;非线性相关也
3、称曲线相关,是指当一个变量每增(减)1个单位,另一相关变量按不固定的增(减)量变化。从散点的分布近似地表现为某种曲线形式。见图8-2所示。(a)正线性相关 (b)负线性相关图8-1 线性相关关系图8-2 非线性相关 (三)正相关和负相关 从变量之间变化的方向来看,线性相关可以分为正相关和负相关。正相关是指相关变量按同一方向变化,即当一个变量的值增加时,另一个变量的值也相应地增加,见图8-1(a)所示;负相关是指相关变量按反方向变化,即当一个变量的值增加时,另一个变量的值却相应地减少,见图8-1(b)所示。(a)正线性相关 (b)负线性相关图8-1 线性相关关系图8-2 非线性相关 (四)完全相
4、关、不相关和不完全相关 从变量之间关系的密切程度来看,相关可以分为完全相关、不相关和不完全相关。完全相关是指变量之间的关系是函数关系,见图8-3所示。不相关是指变量之间不存在关系,相互独立,见图8-4所示。不完全相关是指变量之间的关系介于完全相关和不相关之间,见图8-1和图8-2所示。相关分析和回归分析研究的主要是不完全相关的问题。图图8-3 完全相关完全相关 图图8-4 不相关不相关第二节第二节 相关分析的内容与方法相关分析的内容与方法 一、相关分析的主要内容一、相关分析的主要内容 (1)研究现象之间有无依存关系存在,以及依存关系的表现形式。这是相关分析的出发点。有相互依存关系才能用相关分析
5、方法进行分析研究,没有关系而当作有关系会导致错误的结果。关系表现为什么样的形式,就需要使用什么样的分析方法。把曲线相关当作直线相关来进行分析,也会使认识发生偏差。(2)研究相关关系的密切程度。相关关系是一种数量关系不严格的相互依存关系,相关分析的一个目的就是从这种不严格的关系中想办法来判断它们之间关系的密切程度。判断相关关系密切程度的主要方法是计算相关系数和绘制相关图。二、相关分析的主要方法二、相关分析的主要方法(一)相关表与相关图(一)相关表与相关图 1相关表 相关表是统计表的一种表现形式。根据资料是否分组,相关表可分为简单相关表和分组相关表。(1)简单相关表是资料未经分组的相关表。这是把影
6、响因素(称自变量)的标志值与被影响因素(称因变量)的标志值按着从小到大一一对应平行排列起来的统计表。例如,某厂的机床使用年限与维修费用资料如表 8-1所示。机床编号12345678910使用年限3344556677维修费用(元)400540520620600740700760700820表 8-l机床使用年限与维修费用相关表 (2)分组相关表。如果原始资料很多,绘制相关图、编制简单相关表都不方便,可以编制分组相关表。分组相关表是将原始资料进行分组而编制的相关表。按分组的情况不同,分为单变量分组表与双变量分组表两种。1)单变量分组表,是具有相关关系的两个变量中,只根据一个变量进行分组,计算出变量
7、组和平均数的相关表。例如为研究某县 40 块耕地每亩施肥量与小麦亩产量的相依关系,编制单变量分组表见表 8-2。按施肥量分组(kg/亩)亩 数/亩产量(kg)平均亩产量(kg/亩)75以下659098.375-10091125125.0100-12571140162.9125-15061100183.3150-17571395199.3175以上51055211.0表 8-2 40 块耕地每亩施肥量与小麦亩产量分组相关表双变量分组表,是对自变量和因变量都进行分组编制的相关表。双变量分组表也叫棋盘式相关表。如果将上述40块耕地每亩施肥量与小麦亩产量的资料编制成双变量分组表如表 8-3。按每亩施肥
8、量分组/kg按亩产量分组/kg合计110以下110-145145-180180-215215-250175以上 325150-l75 7 7125-150 24 6100-125 61 775-100 81 950-7542 6合 计410915240表 8-3 40块耕地每亩施肥量与小麦亩产量相关表 2相关图 相关图是根据原始数据或分组表将对应数值在坐标图上用点画出来,以表明相关点的分布状况。一般地说,把自变量(x)置于横轴上,因变量(y)置于纵轴上。通过相关图,可以大致看出两个现象之间有没有关系,是什么样的关系,密切程度如何。根据表 8-2 的资料,可绘制施肥量与小麦亩产量的相关图,如图
9、8-5 所示。图 8-5 小麦亩产量与施肥量相关图其中 y 表示小麦平均亩产量,x 表示每亩施肥量,单位为(公斤/亩)。(二)相关系数 相关表和相关图只能反映相关关系的方向和形态,却不能说明相关关系的密切程度,为此,需要计算相关系数。相关系数是描述两个现象之间线性相关关系密切程度的数字指标。计算相关系数的方法很多,以英国统计学家皮尔生的积差法为基本方法,其公式为:2xyxyr (8.1)式中 r 称为相关系数。其中:,称为 x 与 y 的协方差。nyyxxxy)(22()xxxnnyyy2)(,是x 的标准差。,是y 的标准差。所以相关系数可表示为22)()()(yyxxyyxxr(8.1)【
10、例8-1】以某厂机床使用年限与维修费的资料为例说明相关系数的计算。计算按下列步骤进行:(1)计算两个数列的平均值。机床平均使用年限:51050nxx(年)平均每台机床维修费:640106400nyy(元)(2)计算表8-4上第(3)到(7)各栏数值,并得出合计数。3.计算自变量数列标准差4142.120101)(12xxnx 4.计算因变量数列标准差6553.121148000101)(12yyny 5.计算相关系数8602.06553.12141412.1101480)(yxnyyxxr用积差法计算相关系数,需计算离差,计算过程较繁杂,实际工作中一般采用简算公式:2222()()()()n
11、xyxyrn xxn yy (8.3)将表85的数据代入公式(8.23)可得22)6400(42440010)50(270106400503348010r=0.8602计算结果与按式(8.2)计算结果完全相同。表8-5 相关系数简算公式计算表相关系数简算公式计算表公式(8.2)和(8.3)都是在相关表为简单表的情形下计算相关系数的公式。如果从单变量分组表计算相关系数则需要进行加权,若用积差法计算,其公式为:fyyfxxfyyxxr22)()()((8.4)如果用简算公式计算则公式为:2222)()()(yffyfxffxfyfxfxyffr(8.5)(三)相关密切程度的判断(三)相关密切程度的
12、判断 根据相关系数 r 数值的大小判断两变量的密切程度如下:(1)当|r|=1时,x与y完全线性相关,即x与y之间存在着确定的函数关系。(2)当0|r|1 时,表示x与y之间存在着一定的线性相关关系。|r|的数值愈大,愈接近于 1,表示x与y的直线相关程度愈高;反之,|r|的数值愈小,愈接近于0,表示x与y的直线相关程度愈低。通常,判断电标准是:|r|0.3,称为微弱相关;0.3|r|0.5,称为低度相关;0.5|r|0.8,称为显著相关0.8|r|1,称为高度相关。(3)当r0 时,表示x与y为正相关;当 r0 时,表示x与y为负相关。(4)当|r|=0时,表示y的变化与x 无关,即x与y完
13、全没有直线相关关系。第三节第三节 回归分析回归分析 一、回归分析的主要内容一、回归分析的主要内容(1)确定相关关系的数学表达式。(2)检验所建立数学模型的可靠性。二、回归分析与相关分析的区别与联系二、回归分析与相关分析的区别与联系 回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析,表明现象的数量变化具有密切的相关关系后,进行回归分析才有意义。三、回归分析的种类三、回归分析的种类(一)一元线性回归 根据实测值绘制散点图时,如果图中反映两变量之间的关系呈直线趋势,则可以初步判定两者之间存在线性关系,其关
14、系式为:yabx上式中 a、b 的值确定后,直线也就确定了。在回归分析中,a、b的值确定后,则估计直线的方程可以写作:yabx(8.6)式中,表示自变量;y表示因变量的估计值。式(8.6)称为 对 的直线回归方程或线性回归模型,该直线称为回归直线,b 称为回归系数。拟合回归直线的主要问题就在于估计待定参数a和b的值。常用的方法是最小二乘法,用这种方法求出的回归直线是实测资料的“最佳”拟合直线。这和最小二乘法求直线趋势方程一样,只要将(5.9)式中时间变量的符号 t 改为自变量x,即可得如下方程组:2xbxaxyxbnay解方程组得:22()()()nxyxybnxxaybx(8.7)【例8-2
15、】某产品的产量与单位成本的资料与有关计算结果见表 8-6。从表中可大致地看出,单位成本 和产量 间具有线性负相关关系,即随着产量的增加,单位成本不断下降。设两者的关系式为:yabx 按公式(8.7)计算a、b的值为:22)()(xxnyxxynb82.1)21(79642621148162=xbya37.7762182.16426所以回归方程为:(8.8)xxbay82.137.77此回归方程表示产量每增加1000 件,单位成本平均下降1.82 元。我们知道当回归系数 b 的符号为正时,自变量和因变量按相同方向变动;当 b 的符号为负时,自变量和因变量按相反方向变动。这里 b=-1.82,说明
16、产量与单位成本成反比例变化,即产量越大,成本越低。当给定自变量一个值时,我们可以根据回归方程来估计或预测因变量的平均可能值。例如,若产量为 6000 件,代入回归方程可算得平均单位成本为:45.66682.137.77y(元)(二)回归效果检验nyySyx2)((8.9)用8-2中的资料来说明回归标准差的计算方法。中间数据的计算见表 8-7表 87 估计标准误差计算表估计标准误差计算表8.068182.3)(2nyySyx 把计算结果代人公式(8.9),即得:(元/件)当实际观察值甚多,且数值较大时,根据上面公式计算估计标准误差十分麻烦,此时可采用以下的简化公式计算:nxybyaySyx2(8
17、.10)nxybyaySyx23026877.37 426 1.82 14810.86(元)(三)回归系数、回归标准差与相关系数的关系 1.回归系数与相关系数的关系由相关系数简算公式可推得2222()()()()n xyxyrn xxn yy 2222()()xyx yxxyy xyxyx y (8.11)又由回归系数公式22()()()n xyxybn xx 22()xyx yxx 2xxyx y (8.12)将式(8.11)代入(8.12)并整理便得 xyrb g(8.13)式(8.13)反映了相关系数 r 与回归系数 b 之间的数量关系。相关系数r值是有正、负之分的,它反映两个变量相关的
18、方向。由(8.13)我们看到r 的正、负号要由回归系数 b 的符号来确定,b 的正、负号与 r 的符号是一致的,因为在回归直线y=a+bx中,当回归系数 b 为正值时,y会随着x的增大而增加,此时 r 必然为正值,反之,当 b 为负值时,y将随着x的增大而减少,所以 r 必然为负值。2.相关系数和回归标准差之间的关系因为22()()()yyyyyy22()()2()()yyyyyy yy 而2()()0yyyy所以222)()()(yyyyyy即 222)()()(yyyyyy22)()(xbabxayy222)()(xxbyy 除以n便得到nxxbnyynyy2222)()()(此即2222
19、xyyxbS上式两边同时除以 得2y2221rSyyx或2221yyxSr于是得到221yyxSr(8.14)(四)多元线性回归多元线性回归描述一个因变量与两个或两个以上自变量之间的数量关系。其回归方程的一般表达式为:1 122nnyb xb xb x 多元线性回归是一元线性回归的推广,在计算上较复杂,但其基本原理与一元线性回归分析类似,这里仅以二元线性回归为例来加以说明。其线性回归方程为:2211xbxby上式中,a为常数项,b1表示自变量x2一定时,由于自变量x1变化一个单位而使y 平均改变的数值;b2表示自变量x1一定时,由于自变量x2变化一个单位而使 y 平均改变的数值,因此,b1和b
20、2称为偏回归系数。a、b1和b2的求解方法仍用最小二乘法便得如下正规方程组:22221122212211112211xbxxbxayxxxbxbxayxxbxbnay【例8-3】,消费者对某种商品的需求量主要取决于消费者的收入和该商品的价格,假设已知资料如表 8-8 所示。将表中算出的数值代人正规方程组得:21212118016250401475162502347500445019025040445010400bbabbabba解此方程组,得 a=57.15,b1=0.01,b2 =-5.44于是二元线性回归方程为:2144.501.015.57xxy上式表明,当商品价格(x2)不变时,需求量将随着消费者收入的增加而有所增加(b1正值);当消费者车平均收入(x1)不变时,需求量随着价格的上涨而减少(b1是负值)。