1、第八章 相关与回归n第一节 相关与回归的基本问题n第二节 直线相关与简单直线回归分析n第三节 应用相关与回归分析应注意的问题第一节 相关与回归的基本问题n一、相关的概念与种类n(一)函数关系n 是指现象之间存在着严格的依存关系。n在这种关系中,对于某一个数值,都有另一变量的确定值与之相对应,并且这种关系可用一个数学表达式反映出来。n例如,在价格为一定的条件下,商品销售额与销售量的依存关系。(二)相关关系n 是指现象之间存在着非严格的、不确定的依存关系。n这种依存关系的特点是:n 某一现象在数量上发生变化会影响另一现象数量上的变化,而且这种变化在数量上具有一定的随机性。即当给定某一现象以一个数值
2、时,另一现象会有若干个数值与之对应,并且总是遵循一定规律,围绕这些数值的平均数上下波动。n其原因是影响现象发生变化的因素不止一个。n例如:n 影响工业总产值的因素除了职工人数外,还有固定资产原值、流动资金和能源供应状况等因素。相关关系与函数关系的区别与联系两者的区别在于:函数关系所反映的现象之间的具体关系值固定,自变量与因变量在数量上一一对应;而相关关系所反映的现象之间的具体关系值不固定,有关现象变动在数量上不是一一对应的,具有一定的随机性。两者的联系是:函数关系中有些自变量与因变量由于观测和实验出现误差,其关系值也不可能绝对固定,有时也通过相关关系来反映;相关关系分析也可用函数表达式来近似的
3、反映现象之间的数量依存关系。当随机因素不存在时,相关关系就变为函数关系。因此,函数关系是相关关系的特殊形式。(三)相关关系的种类(1)相关关系按变量的多少,可以分为单相关和复相关。单相关是指两个变量之间的相关关系。例如,耐用消费品销售量与居民货币收入之间的关系。复相关是指三个以及三个以上变量之间的相关关系。例如,消费基金与国民收入使用额及平均人口的相关关系。(2)相关关系按相关形式的不同,可以分为线性相关和非线性相关。若相关的两个变量对应值的散布点在直角坐标图上围绕直线波动,则称为线性相关或直线相关。例如,耐用消费品销售量与居民货币收入之间的关系。若相关的两个变量对应值的散布点在直角坐标图上围
4、绕曲线波动,则称为非线性相关或曲线相关。例如,农作物亩产量与施肥量之间的关系。(3)相关关系按相关方向的不同,可以分为正相关和负相关。正相关是指两个变量之间的变化方向一致,呈一致增长或一致下降趋势。例如,耐用消费品销售量与居民货币收入之间的关系。负相关是指两个变量之间的变化相反,即一个呈下降(上升)而另一个呈上升(下降)趋势。例如,某商品的商品流通费用率与销售额之间的关系。(4)相关关系按相关程度的高低,可以分为完全相关、不完全相关和不相关。如果一个变量的变量值完全由另一个或一组变量值所决定,这种相关关系称为完全相关。因此,完全相关也就是变量之间的一种确定的函数关系。如果一变量的变量值不但与另
5、一个或一组变量值相关,而且受随机因素的影响,则变量之间的相关关系表现为不完全相关。如果一变量的变量值不受另一个或一组变量值影响,彼此独立,则变量之间没有相关关系,即为不相关。由于社会经济现象的数量表现多数具有随机性质,因此它们之间的关系通常表现为不完全相关。此外,相关关系按变量之间的依存关系,还可以分为单向因果关系、互为因果关系和分不清因果关系。单向因果关系是指两变量之间因果分明,不能互相转化的相关关系。例如,农作物亩产量与施肥量之间的关系。互为因果关系是指两变量之间互相影响、能互相转化的相关关系。例如,身高和体重之间的关系。分不清因果的依存关系是指两变量之间只存在互相联系而并不存在明显的因果
6、关系。例如,工业总产值与耗电量之间的关系。二、回归的概念与种类(一)回归的概念回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔登首先提出来的.他在研究人类的身高时,发现高个子父母的子女身高有低于其父母身高的趋势;而矮个子父母的子女身高往往有高于其父母身高的趋势.从整个发展趋势看,高个子回归人口的平均身高,而矮个子则从另一方向回归于人口的平均身高.回归这一名词,从此便一直为生物学和统计学所沿用.回归的现代概念与过去大不相同.一般来说,回归是研究自变量与因变量之间的关系形式的分析方法.其目的在于根据已知自变量来估计和预测因变量的总平均值.例如,农作物亩产量对施肥量、降雨量和气温有着依存
7、的关系。通过对这一依存关系的分析,在已知有关施肥量、降雨量和气温信息的条件下,可以预测农作物的平均亩产量。(二)、回归的种类(1)回归按变量的多少,可以分为一元回归方程和多元回归方程。一元回归是根据某一因变量与一个自变量之间相互关系建立的方程。例如,根据耐用消费品销售量与居民货币收入的相关关系建立的回归方程。多元回归方程是根据某一因变量与两个或两个以上自变量之间的相关关系建立的回归方程。例如,根据农作物亩产量与施肥量、降雨量、气温的相关关系建立的回归方程。(2)回归按是否线性,可以分为线性回归方程和非线性回归方程。在线性回归方程中,因变量与自变量的关系是呈直线型的。例如,耐用消费品销售量与居民
8、货币收入的关系。在非线性回归方程中,因变量与自变量的关系是呈曲线型的。例如,某商店的商品流通费用率与销售额的关系。(3)回归按是否有滞后关系,可以分为自身回归方程和无自身回归现象的回归方程。自身回归方程是指一个变量自身随时间的不同,其值在前后期(前一期或前几期)之间表现出一定的依存关系。如某些水果有大小年之分,本年的产量与前年的产量有关。此外,回归按是否带虚拟变量,可分为普通回归方程和带虚拟变量回归方程。三、相关分析与回归分析的区别与联系相关分析与回归分析均为研究及测度两个或两个以上变量之间关系的方法。相关分析是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系
9、数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。回归分析是研究某一因变量与一个或几个自变量之间数量关系变动趋势的方法。由回归分析求出的关系称为回归方程。这两种分析的区别是:相关分析研究的都是随机变量,并且不分自变量与因变量;回归分析研究的变量要定出自变量与因变量,并且自变量是确定的普通变量,因变量是随机变量。这两种分析的联系是:它们是研究现象之间相互依存关系的两个不可分割的方面。n在实际工作中,一般先进行定性的相关分析;然后计算相关系数,拟合适当的回归方程,进行显著性检验;最后用回归方程进行推算或预测四、相关分析与回归分析的作用相关与回归既可用来分析同一时期的变量数列(静态分析),也
10、可用来分析不同时期的时间数列(动态分析),在社会经济分析中具有重要作用。(1)可以研究经济现象之间的相关形式、相关方向和密切程度,认识其数量变化的规律性;(2)可以对经济现象进行推测和预测,为科学地制订经济政策和管理决策提供科学依据;(3)可以用于补充缺少的资料。五、相关分析与回归分析的步骤相关与回归分析的步骤一般有以下几步:(1)进行相关关系的定性分析(2)确定回归方程;(3)计算相关系数或相关指数,对回归方程变量之间的相关性进行显著性检验(4)利用回归方程式进行推算与预测(5)对推算和预测作出置信区间估计。第二节 直线相关与简单直线回归分析一、相关图是将具有相关关系的两列成对的变量值,在直
11、角坐标图上标出每对变量值的散布点(坐标点),以其散布点的分布状况来判别相关形式、相关方向和密切程度的方法。先用相关图对数列进行分析,可以为正确选择回归分析的数学表达式提供依据。例如,两变量之间的几种相关图形及差别方法如图(1)直线正相关 (2)直线负相关.(3)直线完全正相关 .(4)零相关(5)指数曲线相关二 简单直线回归分析在相关图分析的基础上,可以选择一定的回归方程式进行定量分析。对两个具有线性关系的变量,配合线性回归方程,并根据自变量的变动来测定因变量平均发展趋势的分析方法,称为简单直线回归分析。它是回归分析中最基本最常用的方法。(一)简单直线回归分析的特点(1)两个变量的地位不是对等
12、关系。在进行回归分析时,必须根据研究目的,确定哪个变量是自变量,哪个是因变量。(2)因变量为随机变量,而自变量为非随机变量,即可以预先给定或控制的变量。(3)回归方程可据以利用自变量的给定值来推算因变量的相应值。它反映的是自变量与因变量之间的具体变动关系。(4)回归系数可正可负。正号说明两变量为正相关;负号说明两变量为负相关。一(二)简单直线回归方程设x为自变量,y为因变量,y与x之间存在某种线性关系,其简单直线回归方程为:yabx式中,a和b是两个待定参数,其中a是直线y在y轴上的截距 当x时,yab是直线y的斜率,也称回归系数,它表明自变量增加(或减少)一个单位,因变量相应增加(或减少)多少当b时,x与y为正相关,当b时,x与y为负相关估计回归方程的参数有许多方法,其中使用最广泛的是最小平方法第三节应用相关与回归分析应注意的问题一、相关与否要以定性分析为前提二、回归分析要正确确定自变量和因变量三、要选用正确的数学表达式四、要注意回归分析应用的范围和条件。