1、相关分析和回归分析相关分析和回归分析 学习目标学习目标掌握掌握相关分析相关分析及及回归分析回归分析的相关概念和的相关概念和思想;思想;会计算会计算相关系数相关系数;能解决一元回归分析的能解决一元回归分析的参数估计问题。参数估计问题。重重 难难 点点重点:重点:相关分析相关分析及及回归分析回归分析的相关概念和思想的相关概念和思想一元线性回归分析一元线性回归分析最小二乘法最小二乘法难点:难点:回归系数的参数估计回归系数的参数估计 利用利用相关与回归分析技术相关与回归分析技术改进民航改进民航服务质量降低服务成本服务质量降低服务成本 引入 据网友爆料,据网友爆料,4月月11日上午浦东机场有旅客擅自闯入
2、机场滑日上午浦东机场有旅客擅自闯入机场滑行道行道 造成多架外航飞机堵在后面不能移动。红圈中为浦东造成多架外航飞机堵在后面不能移动。红圈中为浦东机场上的拦机者。机场上的拦机者。航空公司航空公司编号编号航班正点率()航班正点率()x投诉次数(次)投诉次数(次)y181.821276.656376.685475.768573.874672.293771.272870.8122991.4181068.512510家航空公司航班正点率与顾客投诉次数数据家航空公司航班正点率与顾客投诉次数数据相关分析相关分析一、相关关系和函数关系一、相关关系和函数关系函数关系是指现象之间存在着函数关系是指现象之间存在着确定
3、性确定性的严的严格的格的依存依存关系。在这种关系下,关系。在这种关系下,当个或一当个或一一组变量取一定的数值时,另一个变量就一组变量取一定的数值时,另一个变量就有一个确定的数值与之相对应,这种关系有一个确定的数值与之相对应,这种关系可以用一个数学表达式反映出来可以用一个数学表达式反映出来。函数关系 相关关系是指现象之间确实存在着的,相关关系是指现象之间确实存在着的,但其数量表现又是但其数量表现又是不确定、不规则不确定、不规则的一的一种种相互依存相互依存关系。在这种关系下,当一关系。在这种关系下,当一个或一组变量取一定的数值时,与之相个或一组变量取一定的数值时,与之相对应的另一个变量的数值是不能
4、确定的,对应的另一个变量的数值是不能确定的,只是按照某种规律在一定范围内变化。只是按照某种规律在一定范围内变化。这种关系不能用严格的函数式来表示。这种关系不能用严格的函数式来表示。相关关系二、相关关系的种类二、相关关系的种类1.按照相关关系涉及的变量(或因素)的多少,可按照相关关系涉及的变量(或因素)的多少,可以分为以分为单相关、复相关和偏相关。单相关、复相关和偏相关。2.按照变量之间相互关系的表现形式的不同,可以按照变量之间相互关系的表现形式的不同,可以分为分为线性相关和非线性相关线性相关和非线性相关。3.按照变量之间的相互关系的方向不同,可以分为按照变量之间的相互关系的方向不同,可以分为正
5、相关和负相关正相关和负相关。4.按照变量之间的相关程度、可以分为按照变量之间的相关程度、可以分为完全相关、完全相关、不完全相关和不相关。不完全相关和不相关。三、相关分析的主要内容三、相关分析的主要内容1.确定现象之间有无相关关系,以及相关关确定现象之间有无相关关系,以及相关关系的表现形式系的表现形式2.确定相关关系的密切程度确定相关关系的密切程度常见的相关分析工具:常见的相关分析工具:l相关表相关表l相关图:相关图:散点图散点图l相关系数相关系数 四、相关分析的测定四、相关分析的测定年份年份2000201920192019201920192019全员劳动全员劳动生产率生产率(元(元/人)人)X
6、381345825524816192741029110812平均工资平均工资(元(元/人)人)y77983010301261147315921942表表8-5:某企业劳动生产率与平均工资情况:某企业劳动生产率与平均工资情况相关表相关图10.008.006.004.002.000.00 x x10.008.006.004.002.000.00y y相关图相关图15.0012.009.006.003.000.00 x x8.007.006.005.004.003.002.001.00y y完全正相关完全正相关 不完全正相关不完全正相关 不相关不相关 完全负相关完全负相关 不完全负相关不完全负相关
7、曲线相关曲线相关 相关系数相关系数 我们虽然可以通过相关表和相关图,定性我们虽然可以通过相关表和相关图,定性给出两个变量之间相关关系,但是对于相关关给出两个变量之间相关关系,但是对于相关关系的具体的密切程度则无法度量,为此我们给系的具体的密切程度则无法度量,为此我们给出了相关系数,出了相关系数,定量研究定量研究这两个变量之间的相这两个变量之间的相关关系。关关系。相关系数相关系数X X和和Y Y之间的相关系数公式:之间的相关系数公式:2,22()()()()xyxyiiX YxyxxyyiiLxxyyrL Lxxyy 2xy xy的协方差的协方差x x的标准差的标准差y y的标准差的标准差xyL
8、xxLxy的协方差的协方差x的方差的方差yyLy的方差的方差积差法积差法,2222iiiiX Yiiiinx yxyrnxxnyy 化简的公式化简的公式:相关系数的特点相关系数的特点相关系数的取值在相关系数的取值在-1-1与与1 1之间。之间。|r|r|越大,表越大,表明变量间线性相关关系越强。明变量间线性相关关系越强。当当r r=0=0时,表明时,表明X X与与Y Y没有没有线性相关关系。线性相关关系。当当0|r|10|r|0 r0 表明表明X X与与Y Y 为为正相关正相关;若若 r0 r0 表明表明X X与与Y Y 为为负相关负相关。当当|r|=1|r|=1 时,表明时,表明X X与与Y
9、 Y完全线性相关完全线性相关:若若r=1r=1,称,称X X与与Y Y完全正线性完全正线性相关;相关;若若r=-1r=-1,称,称X X与与Y Y完全负线性完全负线性相关。相关。密切程度的判断密切程度的判断相关系数一般的判断标准是:相关系数一般的判断标准是:|r|0.3称为称为微弱相关微弱相关;0.3|r|0.5称为称为低度相关低度相关;0.5|r|0.8称为称为显著相关显著相关;0.8|r|1称为称为高度相关高度相关;|r|=1称为称为完全相关完全相关。-1 0 1完全负相关完全负相关 不相关不相关 完全正相关完全正相关 不完全负相关不完全负相关 不完全正相关不完全正相关微弱相关微弱相关低度
10、低度相关相关低度低度相关相关显著相关显著相关显著相关显著相关高度高度相关相关高度高度相关相关-1 -0.8 -0.5 -0.3 0.3 0.5 0.8 1相关系数分类图相关系数分类图年份年份x xy yx x2 2y y2 2xyxy200020003813381377977914538969145389696068416068412970327297032720192019458245828308302099472420994724688900688900380306038030602019201955245524103010303051457630514576 10609001060900
11、 568972056897202019201981618161126112616660192166601921 15901211590121 10291021102910212019201992749274147314738600707686007076 21697292169729 136606021366060220192019102911029115921592105904681105904681 25344642534464 163832721638327220192019108121081219421942116899344116899344 37713643771364 20996
12、90420996904合计合计52457524578907890744146129144146129112422319124223197379490673794906例子:例子:P192表表8-7x:全员劳动生产率:全员劳动生产率y:平均工资:平均工资,2222227 7379490652457 89077 441461291 524577 1242231989070.971iiiiX Yiiiinx yxyrnxxnyy 答:劳动生产率与平均工资之间存在着高度正线答:劳动生产率与平均工资之间存在着高度正线性相关。性相关。练习题练习题企业编号企业编号固定资产价值固定资产价值x总产值总产值y13
13、1852429101019320063844098155415913650292873146058121015169102212191012251624下表给出了某局各企业固定资产价值和总产值的相关数据,请计算固下表给出了某局各企业固定资产价值和总产值的相关数据,请计算固定资产价值和总产值之间的关系。定资产价值和总产值之间的关系。例:某局各企业固定资产和总产值统计表例:某局各企业固定资产和总产值统计表企业编号企业编号固定资产固定资产价值价值x总产值总产值y1318524101124274576166632291010198281001038361927903200638400004070041
14、276004409815167281664225333335541591317222583356937889565029282520198611844658567314605985963660251899708121015161464100229825619343609102212191044484148596112458181012251624150052526373761989400合计合计6525980156685391086657776591562x2yxy解:根据上表资料可得:解:根据上表资料可得:7659156xy 25668539x 210866577y 6525652.510
15、xxn 980980.110yyn 765915610652.5980.11264003.5xyLxynxy 222566853910 652.51410976.5xxLxnx 2221086657710 980.11260616.9yyLyny 126400.50.9481410976.5 1260616.9xyxxyyLrL L两者呈高度正相关。两者呈高度正相关。使用相关系数的注意事项:使用相关系数的注意事项:X X和和Y Y 是相互对称的随机变量,所以是相互对称的随机变量,所以相关系数相关系数只反映只反映变量间的线性相关程度,变量间的线性相关程度,不能说明非线性相关关系。不能说明非线性相
16、关关系。相关系数相关系数不能不能确定变量的确定变量的因果关系因果关系,也,也不能不能说明相关关系具体接近于哪条直线。说明相关关系具体接近于哪条直线。线性回归线性回归想一想想一想相关系数能确定变量的因果关系吗?能说明相关系数能确定变量的因果关系吗?能说明相关关系具体接近于哪条直线吗相关关系具体接近于哪条直线吗?答:不能,为明确变量间联系的具体数量规律,需答:不能,为明确变量间联系的具体数量规律,需要进行回归分析。要进行回归分析。只有两个变量的回归称为只有两个变量的回归称为简单回归分析简单回归分析或者或者一元回归分析一元回归分析。简单回归分析将变量。简单回归分析将变量X X和和Y Y区区分为分为自
17、变量自变量和和因变量因变量。一、一、“回归回归”的概念的概念回归的回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的趋势都有向人的平均身高回归的趋势 回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研一个因变量对若干解释变量依存关系的研究究回归的目的回归的目的(实质)(实质):由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值估计因估计因变量平变量平均值均值 二、一元线性回归模型二、一元线性回归模型回归数学模型:回归数学
18、模型:该模型表明当该模型表明当x取某个数值时,取某个数值时,y并不必然表现并不必然表现为一个确定的值,而是在为一个确定的值,而是在f(x)附近波动,但其附近波动,但其平均数在大量观察下趋向于确定的值平均数在大量观察下趋向于确定的值f(x)。f(x)Y一元线性回归一元线性回归真实值:真实值:yi=a+bxi+i预测值:预测值:i=a+bxi散点图散点图一元线性回归模型:一元线性回归模型:iiiyabx yabx其中:其中:a为为截距截距,b为直线斜率,也叫做为直线斜率,也叫做y对对x的的回归系数回归系数。它表。它表示每变动一个单位所引起的的边际变动量;示每变动一个单位所引起的的边际变动量;i称称
19、残差残差(也称为回归误差或预测误差),表(也称为回归误差或预测误差),表示除示除x外的其它次要因素形成的随机扰动。当外的其它次要因素形成的随机扰动。当样本容量较大时,正负干扰可相互抵消,所样本容量较大时,正负干扰可相互抵消,所以可认为以可认为i的均值为的均值为0。()iiiiiyyyabx回归分析的主要任务是:回归分析的主要任务是:1、确定回归系数、确定回归系数a,b2、判断回归方程是否、判断回归方程是否合理合理 回归系数的最小二乘估计回归系数的最小二乘估计最小二乘法最小二乘法的基本思想:的基本思想:想一想:为想一想:为什么不可以什么不可以取取i或或|i|?希望所估计希望所估计 的偏离实际观察
20、值的偏离实际观察值 的残差的残差 越小越好。越小越好。可以取残差平方和可以取残差平方和 作为衡量作为衡量 与与 偏离程偏离程度的指标。度的指标。iYiYi 2i iYiY222miniiiiiQyyyabx 即选择即选择a、b使得使得经过推导可得:经过推导可得:22 iiiiXYXXiiiinx yxyLbLnxxyxabnn注:注:一般先求一般先求b,再求,再求a回归直线经过点回归直线经过点e ei i与与x xi i、y yi i之间无相关关系之间无相关关系0ie),(yxixiyiyiiiiiie=y-ye=y-y yabxxyxyyi iy y-y yi iy-yy-y回归直线回归直线
21、L经过重心经过重心()x x,y y则有则有:y=a+bxy=a+bxTSS=RSS+ESS【例例8-5】根据例根据例8-3资料:资料:2227 7379490652457 89070.14577 441461291 52457180.3183iiiiiiiinx yxybnxxyxabnn 则直线回归方程:则直线回归方程:180.3180.1457cyx请解释一下回归系数请解释一下回归系数a,b的经济学含义的经济学含义练习题练习题企业编号固定资产价值x总产值y1318524291010193200638440981554159136502928731460581210151691022121
22、91012251624以总产值以总产值y为因变量,固定资产价值为因变量,固定资产价值x为自变量,建立回归直线方程为自变量,建立回归直线方程y=a+bx。请进行参数估计。请进行参数估计。1264003.50.891416976.5980.1 0.89 652.5399.325xyxxLbLaybx399.3250.89cyx9.2.49.2.4估计标准误差估计标准误差(standard error of the standard error of the estimateestimate)因变量实际值与理论值因变量实际值与理论值离差的平均值离差的平均值 计算原理与能够反映平均数代表性大计算原理与
23、能够反映平均数代表性大小的标准差基本相同小的标准差基本相同 定义公式为:定义公式为:22nyyScyx计算公式:计算公式:=S=S=9.2.59.2.5判定系数判定系数(coefficient of determination)(coefficient of determination)用用 表示表示 2r用来测定回归方程拟合数据的好坏程度用来测定回归方程拟合数据的好坏程度 范围在范围在0 0与与1 1之间之间 越大,越大,线性回归效果就越好线性回归效果就越好 2r21 rSyyxr r越大越大 回归直线回归直线代表性大代表性大 r r越小越小 回归直回归直线代表线代表性小性小 yxS小小yxS大大