1、第五章第五章 相关分析与回归分析 第一节第一节 变量间的相关关系变量间的相关关系一、相关关系的概念一、相关关系的概念( (注意相关关系与函数关系的区别注意相关关系与函数关系的区别) ) ( (一一) ) 函数关系函数关系 它它反映着现象之间存在着严格的依存关系,反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。个数学表达式反映出来。 例例如某种商品的销售额和销售量之间,由于如某种商品的销售额和销售量之间,由于价格因素,所以两者可表现为严格的依存关系。价格因素,所以两者可表现为严格的依存关系。(函数关系)
2、(1)是一一对应的确定关系(2)设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y y = = f f ( (x x) ),其中 x 称为自变量,y 称为因变量(3)各观测点落在一条线上 (函数关系) 函数关系的例子函数关系的例子某种商品的销售额某种商品的销售额( (y y) )与销售量与销售量( (x x) )之间的之间的关系可表示为关系可表示为 y y = = p x p x ( (p p 为单价为单价) )圆的面积圆的面积(S)(S)与半径之间的关系可表示为与半径之间的
3、关系可表示为S S = = r r2 2 企业的原材料消耗额企业的原材料消耗额( (y y) )与产量与产量( (x x1 1) ) 、单位、单位产量消耗产量消耗( (x x2 2) ) 、原材料价格、原材料价格( (x x3 3) )之间的关之间的关系可表示为系可表示为y y = = x x1 1 x x2 2 x x3 3 ( (二二) ) 相关关系相关关系 它它反映着现象之间的数量上不严格的依存关系,反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:系有二个明显特点:1.1.现现象之间确实
4、存在数量上的依存关系,即某一社象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;会经济现象变化要引起另一社会经济现象的变化;2.2.现现象之间的这种依存关系是不严格的,即无法用象之间的这种依存关系是不严格的,即无法用数学公式表示。数学公式表示。( (二二) ) 相关关系的情况相关关系的情况1.1.受干扰的因果关系受干扰的因果关系,如:汽车的行驶里程与耗油量,二者成正比,但受道如:汽车的行驶里程与耗油量,二者成正比,但受道路、风速、驾驶特点等因素影响,使这一明显的因果路、风速、驾驶特点等因素影响,使这一明显的因果关系产生了波动,从而体现出非决定性的关系;关系产生
5、了波动,从而体现出非决定性的关系;2.2.同一原因的诸多结果之间的关系同一原因的诸多结果之间的关系如:人的体重与裤长,它们都基本取决于身高,呈如:人的体重与裤长,它们都基本取决于身高,呈正相关关系,但二者直接不存在因果关系;正相关关系,但二者直接不存在因果关系;3.3.因果关系不同而局部出现相同走势因果关系不同而局部出现相同走势,如:我国近年来的如:我国近年来的“吸烟人数吸烟人数”与与GDPGDP成正相关关系,成正相关关系,这两个变量基本上互相独立,在一段时间出现相同的这两个变量基本上互相独立,在一段时间出现相同的走向,只能形成局部的解释,而无法找出因果关系。走向,只能形成局部的解释,而无法找
6、出因果关系。 在在具有相互依存关系的两个变量中,作为具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用根据的变量称自变量,一般用X X表示;发生对表示;发生对应变化的变量称因变量,一般用应变化的变量称因变量,一般用y y表示。表示。 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)(y)与居民收入与居民收入(x)(x)之间的关系之间的关系商品的消费量商品的消费量(y)(y)与物价与物价(x)(x)之间的关系之间的关系商品销售额商品销售额(y)(y)与广告费支出与广告费支出(x)(x)之间的关系之间的关系粮食亩产量粮食亩产量(y)(y)与施肥量与施肥量(x(x1 1) ) 、
7、降雨量、降雨量(x(x2 2) ) 、温度温度(x(x3 3) )之间的关系之间的关系收入水平收入水平(y)(y)与受教育程度与受教育程度(x)(x)之间的关系之间的关系父亲身高父亲身高(y)(y)与子女身高与子女身高(x)(x)之间的关系之间的关系(相关关系)(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在直线周围。二、相关关系的种类二、相关关系的种类 1.1.按按相关关系的性质来分,可分为相关关系的性质来分,可分为: : 正相关和负相关正相关和负相关正相关正相关是指两相关现象
8、变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变化的方向是相反的。是指两相关现象变化的方向是相反的。2. 2. 按按相关关系的形式来分,可分为:相关关系的形式来分,可分为: 线性相关和非线性相关线性相关和非线性相关 线性相关线性相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值的数值发生变动时,因变量发生变动时,因变量y y随之发生近似于固定比例的变随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。称其为直线相关关系。非线性相关非线性相关是指两个相
9、关现象之间,当自变量是指两个相关现象之间,当自变量X X的数的数值发生变动时,因变量值发生变动时,因变量y y也随之发生变动,但这种变也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。线相关关系。3.3.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为:单相关、复相关和偏相关单相关、复相关和偏相关。 在实际工作中,如存在多个自变量,可抓住其在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其
10、相关关系,而保持另一些中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为因素不变,这时复相关可转化为偏相关偏相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉及,即只涉及一个自变量和一个因变量一个自变量和一个因变量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或,或多元相关,即涉及二个或二个以上的自变量和因变多元相关,即涉及二个或二个以上的自变量和因变量量。第二节第二节 简单线性相关分析简单线性相关分析 一、相关表和相关图一、相关表和相关图 简简单单相相关关表表根根据据总总体体单单位位的的原原始始资资料料汇汇编编的的相相关
11、关表表分分组组相相关关表表将将原原始始资资料料进进行行分分组组而而编编制制的的相相关关表表单单变变量量分分组组表表按按自自变变量量分分组组 双双变变量量分分组组表表按按自自变变量量和和因因变变量量均均分分组组某市某市19981998年年 2005 2005年的工资性现金支出与城镇储蓄存年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。款余额的资料,说明简单相关表和相关图的编制方法。 序号年份工资性现金支出(万元)x城镇储蓄存款余额(万元)y11998 50012021999 54014032000 62015042001 73020052002 9002806200
12、3 97035072004 105045082005 1170510例例1 150100150200250300350400450500550400500600700800900100011001200工资性现金支出( 万元)城镇储蓄存款余额(万元)企业按销售额分组(万元)流通费用率(%)4以下9.65 4 87.68 8 127.2512 167.0016 206.8620 246.7324 286.6428 326.6032 366.5866.577.588.599.51004812162024283236销售额(万元)流通费用率(%)例例2 2( 二)相关图:又称散点图。将x置于横轴上,
13、y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。广告费(万元)3033334056586572808090年销售收入(百万元)1212121314142022262630二、相关系数二、相关系数 相相关系数是在直线相关条件下,表明两关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综个现象之间相关关系的方向和密切程度的综合性指标。一般用符号合性指标。一般用符号r r表示。表示。r r的测定方法:的测定方法:2222221 ()()11 () ()()() ()()1.xyxyxyxyrxxyynxxyynnxxyyrxxyy 积积差差法法:仍以上例1
14、资料计算:序号年份x(万元)y(万元)11998 500120-310-155 96100 240254805021999 540140-270-135 72900 182253645032000 620150-190-125 36100 156252375042001 730200 -80 -75 6400 5625 600052002 900280 90 5 8100 25 45062003 970350 160 75 25600 562512000720041050450 240175 57600 3062542000820051170510 360235129600 552258460
15、0合计6480 2200-432400155000 253300yyxx2yy 2xxyy xx经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。98. 0155000432400253300)()()()(27582200 ),(8108648022yyxxyyxxrnyynxx万元万元r rr rr rr r0.30.3时时,没没有有关关系系;0.30.3 0.50.5时时,称称低低度度相相关关;0.50.5 0.80b0,x x与与y y为正相关为正相关 b0b0,x x与与y y为负相关为负相关 a a、b b的确定:的确定:在在简单直线回归方程中,简单直线回归方
16、程中,a a、b b为待定系数,常用为待定系数,常用最小平方法来确定,即最小平方法来确定,即(y-y(y-yc c) )2= =最小值。最小值。2ynabxxyaxbx 即即22()nxyxybnxxyxabnn 简单直线回归方程建立的步骤为:简单直线回归方程建立的步骤为: 确确定自变量定自变量x x和因变量和因变量y y; 计计算算x x2、xyxy、xx、yy、xx2、xyxy; 代代入公式,先求入公式,先求b b,再求,再求a a。仍用上例1资料得到: yc = -199.5 + 0.5858x表明该市工资性现金支出每增加1万元,储蓄存款余额就增加0.5858万元。举例说明举例说明b(b
17、(回归系数回归系数) )在经济管理中的作用:在经济管理中的作用: 某企业的某种产品月产量与单位成本的关系呈某企业的某种产品月产量与单位成本的关系呈直线关系,用直线回归方程表示是:直线关系,用直线回归方程表示是: y yc c=77.36-1.818x=77.36-1.818x,其中,其中, x x表示月产量表示月产量( (千件千件) ) y y表示单位成本表示单位成本( (元元);); a=77.36( a=77.36(元元) ),表示生产这种产品在单位,表示生产这种产品在单位成本方面的条件;成本方面的条件; b=-1.818b=-1.818,表示月产品每增加,表示月产品每增加10001000
18、件,件,单位成本平均降低单位成本平均降低1.8181.818元。元。 简单直线回归分析的主要特点:简单直线回归分析的主要特点: 1.1.直直线回归分析时,要根据研究目的,在两线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。个变量之间确定哪个是自变量,哪个是因变量。 2.2.在在两个现象互为根据的情况下,可以有两两个现象互为根据的情况下,可以有两个回归方程:个回归方程: y yc c=a+bx=a+bx 称称y y倚倚x x回归直线回归直线 x xc c=c+dy=c+dy 称称x x倚倚y y回归直线回归直线三、三、 估计标准误差估计标准误差 (一)、估计标准误差的
19、概念和作用(一)、估计标准误差的概念和作用估计标准误差估计标准误差就是用来说明回归方程就是用来说明回归方程推算结果的准确程度的统计分析指标。以绝推算结果的准确程度的统计分析指标。以绝对值表示,其数值越小,说明推算结果的准对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。确程度越高,回归直线的代表性也越大。用用S Syxyx表示,也可用表示,也可用S Sy y表示。表示。(二)、估计标准误差的计算方法(二)、估计标准误差的计算方法 2yS . 22 yaybxyn 捷捷法法公公式式:简简1. 定定义公式义公式:22 nyyScy)(S Sy y和和r r的异同点:的异同点
20、:相同点相同点:都具有说明相关关系密切程度的作用;:都具有说明相关关系密切程度的作用;不同点不同点: (1): (1)r r越大越好,而越大越好,而S Sy y越小越好;越小越好; (2)r(2)r用相对数表现,密切程度的概念比较明确用相对数表现,密切程度的概念比较明确 SySy用绝对数表现,关系密切的程度表示得用绝对数表现,关系密切的程度表示得 不那么明显;不那么明显; (3)r(3)r能说明正、负相关,能说明正、负相关,S Sy y不能说明。不能说明。四、可化为线性回归的非线性回归四、可化为线性回归的非线性回归 拟合方法拟合方法:统计上通常采用变量代换法把:统计上通常采用变量代换法把非线性
21、形式转换为线性形式处理,使线性非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问回归分析的方法也能适用于非线性回归问题的研究。题的研究。几种常见的非线性模型 指数函数2. 线性化方法线性化方法两端取对数得:两端取对数得:lny = ln + x令:令:y = lny,则有,则有y = ln + x1. 基本形式基本形式3. 图图 像像几种常见的非线性模型 幂函数2. 线性化方法线性化方法两端取对数得:两端取对数得:lg y = lg + lg x令:令:y = lgy,x= lg x,则则y = lg + x1. 基本形式:基本形式:3. 图图 像像几种常见的非线性模型
22、双曲线函数2. 线性化方法线性化方法令:令:y = 1/y,x= 1/x, 则有则有y = + x1. 基本形式:基本形式:3. 图像图像 0几种常见的非线性模型 对数函数2. 线性化方法线性化方法x= lgx , 则有则有y = + x1. 基本形式:基本形式:几种常见的非线性模型 S 型曲线2. 线性化方法线性化方法令:令:y = 1/y,x= e-x, 则有则有y = + x1. 基本形式:基本形式:3. 图图 像像五、相关分析与回归分析的特点 (区别) 1.在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能
23、从因变量去推断自变量。 2.相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。 3.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。五、相关分析与回归分析的特点(联系) 相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。 简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。End of Chapter 5