1、问题的提出:问题的提出:世界上的任何事物都是相互联系的,绝大多数真实世界上的任何事物都是相互联系的,绝大多数真实数据都包含有许多变量的观测值,这些变量大都是数据都包含有许多变量的观测值,这些变量大都是以各种方式相关联的。以各种方式相关联的。统计的主要内容是研究变量统计的主要内容是研究变量之间的关系的。之间的关系的。如:医疗卫生部门不能只知道某种流行病的发病率,如:医疗卫生部门不能只知道某种流行病的发病率,还想知道什么变量影响发病率,如何影响的?还想知道什么变量影响发病率,如何影响的?统计实践的最终目的就是发现变量之间的统计关系,统计实践的最终目的就是发现变量之间的统计关系,并且用总结出来的规律
2、帮助人们进行决策。并且用总结出来的规律帮助人们进行决策。蝴蝶效应蝴蝶效应(The Butterfly Effect)是指在一个动力系统中,初始条件下微小的变是指在一个动力系统中,初始条件下微小的变化能带动整个系统的长期的巨大的连锁反应。化能带动整个系统的长期的巨大的连锁反应。一只南美洲亚马孙河流域热带雨林中的蝴蝶,一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可能在两周后在美国偶尔扇动几下翅膀,可能在两周后在美国德克德克萨斯萨斯引起一场龙卷风。引起一场龙卷风。第七章第七章 相关与回归分析相关与回归分析 第一节第一节 相关分析的意义和种类相关分析的意义和种类第二节第二节 简单线性相关
3、分析简单线性相关分析 第三节第三节 回归分析回归分析说明:相关分析和回归分析的关系说明:相关分析和回归分析的关系回归分析是要对所研究的变量建立描述它们关系的回归分析是要对所研究的变量建立描述它们关系的模型。但如果要研究的变量间有没有关系,就谈不模型。但如果要研究的变量间有没有关系,就谈不上建立模型,而发现变量间有无关系的最简单、直上建立模型,而发现变量间有无关系的最简单、直观的方法就是进行相关分析。观的方法就是进行相关分析。第一节第一节 相关分析的意义和种类相关分析的意义和种类 一、相关分析的概念一、相关分析的概念 二、相关分析的种类二、相关分析的种类 返回本章首页一、相关分析的概念一、相关分
4、析的概念(一)变量间关系的形态(一)变量间关系的形态 有两种:函数关系和相关关系有两种:函数关系和相关关系1、函数关系:、函数关系:现象间存在着严格的数量依存关系。现象间存在着严格的数量依存关系。即某一变量取某值时,另一变量有确定值与之对应即某一变量取某值时,另一变量有确定值与之对应2、相关关系:、相关关系:两个变量的关系确实存在,但关系两个变量的关系确实存在,但关系数值不确定,即当自变量数值不确定,即当自变量x取某个值时,因变量取某个值时,因变量y的取值可能有几个。的取值可能有几个。自变量自变量 x因变量因变量 y 函数:函数:S=RS=R2 2相关:相关:父母的身高与子女身高的关系父母的身
5、高与子女身高的关系 施肥量与产量的关系施肥量与产量的关系 居民储蓄和家庭收入的关系等居民储蓄和家庭收入的关系等 家庭编号家庭编号 月收入月收入x 月储蓄月储蓄y 1 2 3 4 5 6 7 8 9 10 9 13 15 17 18 22 26 28 28 28 3 5 4 6 7 8 9 10 12 13居民储蓄和家庭收入的关系等居民储蓄和家庭收入的关系等3、相关关系与函数关系的关系、相关关系与函数关系的关系 (1)(1)区别:区别:第一第一、函数关系是变量之间的一种完全确定性函数关系是变量之间的一种完全确定性的关系;相关关系一般是不完全确定的关系。的关系;相关关系一般是不完全确定的关系。第二
6、第二、函数关系通常可以用数学公式准确的表函数关系通常可以用数学公式准确的表示出来;示出来;相关关系则不能。相关关系则不能。(2)(2)联系:联系:两种关系之间没有严格的界限:两种关系之间没有严格的界限:由于测量误差的存在,确定性的函数关系往由于测量误差的存在,确定性的函数关系往往通过相关的形式表现出来。往通过相关的形式表现出来。而实际中对相关关系的研究需要借助于函数而实际中对相关关系的研究需要借助于函数关系的形式来近似描述。关系的形式来近似描述。(二)相关分析(二)相关分析是对具有相关关系的两个或两个以上的变量是对具有相关关系的两个或两个以上的变量之间相互关系所做的统计分析。之间相互关系所做的
7、统计分析。分析的内容包括:分析的内容包括:关系的密切程度、关系的关系的密切程度、关系的具体形式、关系的方向等等。具体形式、关系的方向等等。相关分析的结果可以用统计指标显示(如相关系数)相关分析的结果可以用统计指标显示(如相关系数)也可以通过画图或做表的方法显示出来。也可以通过画图或做表的方法显示出来。二、相关分析的种类二、相关分析的种类完全相关:完全相关:两个变量之间呈函数关系两个变量之间呈函数关系不相关:不相关:两个变量彼此互不影响,其数量的变化两个变量彼此互不影响,其数量的变化 各自独立,如学习成绩和身高的关系各自独立,如学习成绩和身高的关系不完全相关:不完全相关:介于完全相关和不相关之间
8、介于完全相关和不相关之间 1、根据相关的程度、根据相关的程度本文研究的内容本文研究的内容2、根据相关的方向、根据相关的方向 正相关:正相关:两个变量间的变化方向一致,都是增两个变量间的变化方向一致,都是增 长趋势或下降趋势长趋势或下降趋势 负相关:负相关:两个变量变化方向相反两个变量变化方向相反3、根据相关的形式不同、根据相关的形式不同线性相关:线性相关:当一个变量变动时,另一个变量也相当一个变量变动时,另一个变量也相应发生大致均等的变动(各期的逐期增长量大应发生大致均等的变动(各期的逐期增长量大体相同)体相同)非线性相关:非线性相关:当一个变量变动时,另一个变量也当一个变量变动时,另一个变量
9、也相应发生变动,但这种变动是不均等的。相应发生变动,但这种变动是不均等的。4、根据变量的多少、根据变量的多少单相关:单相关:研究两个变量相关关系的研究两个变量相关关系的复相关和偏相关复相关和偏相关:研究多个变量间相关关系的:研究多个变量间相关关系的返回本节首页复相关复相关:测定一个因变量和多个自变量之间相关关系测定一个因变量和多个自变量之间相关关系偏相关偏相关:在多个变量中,假定其它变量不变,只测定:在多个变量中,假定其它变量不变,只测定 任意两个变量之间的相关关系。任意两个变量之间的相关关系。第二节第二节 简单线性相关分析简单线性相关分析 返回本章首页对变量之间相关关系的判断,有多种对变量之
10、间相关关系的判断,有多种方法,如:方法,如:定性分析:定性分析:157页例题页例题 画相关图画相关图 做相关表做相关表 计算相关系数计算相关系数 本节内容本节内容 一、相关图和相关表一、相关图和相关表 二、相关系数二、相关系数三、关于相关分析的说明三、关于相关分析的说明 返回本章首页一、相关图和相关表一、相关图和相关表 利用相关图和相关表可直观的判断出现象之利用相关图和相关表可直观的判断出现象之间有无相关关系,相关的形态和相关的方向间有无相关关系,相关的形态和相关的方向 1、相关图(散点图)、相关图(散点图)举例:举例:返回本节首页2、相关表、相关表自变量从小到大排列,因变量与之一一对应自变量
11、从小到大排列,因变量与之一一对应家庭编号家庭编号 1 2 3 4 5 6 7 8 9 10月收入月收入x9 13 15 17 18 22 26 28 28 28月储蓄月储蓄y3 5 4 6 7 8 9 9 10 11 反映变量之间相关关系的统计表。反映变量之间相关关系的统计表。有多种形式:有多种形式:产量产量(千件千件)企业数企业数(个个)单位成本单位成本(元元/件件)10 5 20 14 8 18 16 20 16 17 12 14 19 9 12 20 5 10自变量分组并计算次数,因变量只计算自变量分组并计算次数,因变量只计算平均数。平均数。二、相关系数二、相关系数说明:说明:返回本节首
12、页相关系数相关系数则能从数量上准确的判断现象之间关则能从数量上准确的判断现象之间关系的密切程度。系的密切程度。相关图和相关表不能相关图和相关表不能准确准确的反映变量之间关系的反映变量之间关系的密切程度。的密切程度。1、相关系数含义:、相关系数含义:测定变量间相关关系密切程度的统计分析指标测定变量间相关关系密切程度的统计分析指标返回本节首页相关系数分:相关系数分:单相关系数单相关系数、复相关系数、偏、复相关系数、偏相关系数等相关系数等单相关系数:单相关系数:测定两个变量之间线性相关关测定两个变量之间线性相关关 系密切程度的统计分析指标系密切程度的统计分析指标注意:注意:如果计算的简单相关系数很小
13、,说明两变量如果计算的简单相关系数很小,说明两变量间无线性相关关系。不排除还可能有曲线相关关系。间无线性相关关系。不排除还可能有曲线相关关系。前者前者测定一个因变量和多个自变量之间相关程测定一个因变量和多个自变量之间相关程度的指标。度的指标。后者后者是在多个变量中,假定其它变量不变,只是在多个变量中,假定其它变量不变,只测定任意两个变量之间的相关程度的指标。测定任意两个变量之间的相关程度的指标。返回本节首页复相关系数和偏相关系数都是测定多个变量间关复相关系数和偏相关系数都是测定多个变量间关系的,不同在于:系的,不同在于:2、相关系数计算相关系数计算可依据总体数据计算,也可依据样本数可依据总体数
14、据计算,也可依据样本数据计算,以大小写区分。据计算,以大小写区分。返回本节首页总体相关系数公式:总体相关系数公式:NYYNXXNYYXXyxxy222X、Y的标准差的标准差X和和Y的协方差的协方差22YYXXYYXX样本相关系数公式:样本相关系数公式:nyynxxnyyxxSSSryxxy22222yyxxyyxxr样本的协方差样本的协方差 x 和和 y的标准差的标准差222yyxxyyxxryxxyyyxxnnyxxynr2222返回本节首页将上式分子分母同乘以将上式分子分母同乘以 得:得:yyxxnnyxnxyr2222111yyxxxyLLLr 或:或:1n返回本节首页 2222xyxy
15、rxxyy返回本节首页举例:用计算器计算相关系数:举例:用计算器计算相关系数:返回本节首页序号xy11.262228633.18043.81105511566.113277.2135881606.4544,880,10421454.207,4.36,822xyyxnyx9697.0104214854.20788804.366.454488804.36222222yyxxnnyxxynr3、相关系数取值的说明、相关系数取值的说明(159页页)返回本节首页r=1 完全正相关,完全正相关,r=-1 完全负相关,完全负相关,r=0 不存在线性相关关系不存在线性相关关系r的绝对值:的绝对值:0.3-0.
16、5是低度相关;是低度相关;0.5-0.8是显著相关;是显著相关;0.8以上是高度相关。以上是高度相关。在(在(-1+1)之间:)之间:大于大于0为正相关;为正相关;小于小于0为负相关为负相关 r 取正还是取负取决于分子。取正还是取负取决于分子。三、相关分析的说明三、相关分析的说明1、两个变量的关系是对等的,即相关系数只、两个变量的关系是对等的,即相关系数只有一个有一个,改变自变量和因变量的位置,相,改变自变量和因变量的位置,相关系数的大小和正负不变关系数的大小和正负不变返回本节首页2、两个变量都是随机、两个变量都是随机的的 3、相关分析的不足、相关分析的不足 相关关系说明现象间有关系,但它不能
17、说明一相关关系说明现象间有关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会个现象发生一定量的变化时,另一个变量将会发生多大的变化。发生多大的变化。即:它不能说明两个变量之间的一般关系值,即:它不能说明两个变量之间的一般关系值,这需要由回归分析来解决。这需要由回归分析来解决。相关分析和回归分析的目的相关分析和回归分析的目的相关分析的目的相关分析的目的在于测定变量间关系的密切程度在于测定变量间关系的密切程度和变化方向。和变化方向。回归分析回归分析侧重于考查变量之间的数量伴随关系,侧重于考查变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来。并通过一定的数学表达式将这种关系
18、描述出来。第三节第三节 回归分析回归分析 一、回归分析的概念及分类一、回归分析的概念及分类 二、一元线性回归分析二、一元线性回归分析 返回本章首页一、回归分析的概念及分类一、回归分析的概念及分类 1、回归分析的含义、回归分析的含义 在相关分析的基础上,对变量之间数量变化的一在相关分析的基础上,对变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,般关系进行测定,确立一个相应的数学表达式,以便从一个已知的量估计另外一个未知的量。以便从一个已知的量估计另外一个未知的量。返回本节首页注意:注意:“回归回归”的含义的含义说明:说明:回归分析是将相关现象间不确定的数量关系回归分析是将相关现象间
19、不确定的数量关系确定化。采用的方法是配合一个方程式,以此代表确定化。采用的方法是配合一个方程式,以此代表现象间的一般数量关系,这个方程被称为现象间的一般数量关系,这个方程被称为回归方程回归方程。或:什么是回归分析或:什么是回归分析 从一组数据出发,确定变量之间的数学关从一组数据出发,确定变量之间的数学关系式系式 利用所求的关系式,根据一个或几个变量利用所求的关系式,根据一个或几个变量的取值来预测另一个特定变量的取值。的取值来预测另一个特定变量的取值。返回本节首页3、回归分析的种类、回归分析的种类(1)按自变量)按自变量 x 的多少,分为一元回归和的多少,分为一元回归和多元回归。多元回归。(2)
20、按自变量与因变量关系的形式,分为)按自变量与因变量关系的形式,分为线性回归和非线性回归。线性回归和非线性回归。返回本节首页图示图示:线性回归非线性回归一元回归线性回归非线性回归多元回归回归分析返回本节首页二、一元线性回归分析二、一元线性回归分析(一)总体一元线性回归模型的基本形式:(一)总体一元线性回归模型的基本形式:反映一个自变量与一个因变量之间的线性回归问题。反映一个自变量与一个因变量之间的线性回归问题。分总体和样本两种。分总体和样本两种。XY自变量自变量因变量因变量模型参数模型参数该模型假定该模型假定X是引起是引起Y的变化的唯一原因的变化的唯一原因这是为了理论分析而使用的一种抽象的分析模
21、型这是为了理论分析而使用的一种抽象的分析模型返回本节首页则总体一元线性回归模型的变为:则总体一元线性回归模型的变为:uXY实际中实际中 Y 除了受除了受 X 的影响外,还受其它因素的影响的影响外,还受其它因素的影响如将其它因素设定为随机误差项,并引入回归方程:如将其它因素设定为随机误差项,并引入回归方程:自变量自变量因变量因变量模型参数模型参数随机误差项,反映未随机误差项,反映未列入方程式的其它各列入方程式的其它各因素对因素对Y的影响。的影响。uXY由两部分构成由两部分构成:X的线性函数和随机误差项的线性函数和随机误差项 XYY或截距,即截距,即X 等等于于0时时 Y 的值的值 斜率,或回归系
22、数,代表斜率,或回归系数,代表 X 每每变化一个单位变化一个单位 Y 的平均变化值的平均变化值方程:方程:注:假定随机误差项的期望是注:假定随机误差项的期望是 0 X的线性函数部分:是的线性函数部分:是Y的数学期望,即当的数学期望,即当X取某一值时,取某一值时,Y的平均值,即:的平均值,即:求数学期望如果对方程uXY XuXEYE则得:这里使用了一个假设条件,即随机误差项的期望是这里使用了一个假设条件,即随机误差项的期望是 0为什么为什么X的线性函数部分是的线性函数部分是Y的数学期望:的数学期望:随机误差项随机误差项 u 代表由各种偶然因素所带来代表由各种偶然因素所带来 的误差。它是的误差。它
23、是 ,即:,即:的离差与YY YYYYXYuu 越小,说明自变量越小,说明自变量 X对因变量对因变量Y的影响越显的影响越显著,即在著,即在y 的变化中能由的变化中能由 x 解释的部分就越解释的部分就越多。这样利用方程进行预测时效果会更好。多。这样利用方程进行预测时效果会更好。(二)样本一元线性函数(二)样本一元线性函数总体回归函数是未知的,需要利用样本的信息进总体回归函数是未知的,需要利用样本的信息进行估计。行估计。根据样本数据拟合的直线,称为样本回归直线根据样本数据拟合的直线,称为样本回归直线根据样本数据拟合的曲线,称为样本回归曲线根据样本数据拟合的曲线,称为样本回归曲线样本回归线的函数形式
24、应与总体回归线的函数样本回归线的函数形式应与总体回归线的函数形式一致。形式一致。需需 拟合直线还是曲线需利用散点图判断拟合直线还是曲线需利用散点图判断bxay为为 样本实际观测值样本实际观测值 y 的估计值的估计值、代表值、平均值、代表值、平均值 a、b是两个未知参数。是两个未知参数。a为截距为截距,b为斜率。为斜率。两者分别是对总体参数两者分别是对总体参数样本一元回归直线理论上可表示为:样本一元回归直线理论上可表示为:返回本节首页的估计值和y 即:即:返回本节首页)(bxayyyeebxaeyy 此式即为样本回归函数此式即为样本回归函数残差残差实际观测到的各个因变量实际观测到的各个因变量 y
25、 值值 并不完全等于并不完全等于两者之间会有离差,如用两者之间会有离差,如用 e 表示两者之差,表示两者之差,则有:则有:y 知道了样本回归函数的一般形式知道了样本回归函数的一般形式ebxay需要将需要将a、b的值估计出来,用以作为总体回归参数的值估计出来,用以作为总体回归参数的估计值。的估计值。对于对于a、b的估计,实际中采用最小二乘法的估计,实际中采用最小二乘法返回本节首页残差残差e 越小,估计值和实际值的离差就越小,越小,估计值和实际值的离差就越小,代表回归方程的代表性就越好。代表回归方程的代表性就越好。返回本节首页)(bxayyye2e因因 e 值有正有负,简单的代数和会相互抵消:值有
26、正有负,简单的代数和会相互抵消:0e所以实际中会采用残差平方和作为衡量残差的尺度所以实际中会采用残差平方和作为衡量残差的尺度 具体操作时,是让具体操作时,是让 达到最小来估计回归系达到最小来估计回归系数。这就是最小二乘法。数。这就是最小二乘法。最小二乘法的思路:最小二乘法的思路:因为残差因为残差即:即:的离差总量越小越好与它的估计值使实际观测值cyy最小值y y因为离差有正有负,简单的代数和会相互抵消,因为离差有正有负,简单的代数和会相互抵消,为了数学上便于处理,通常采用为了数学上便于处理,通常采用最小值22yy越小,说明样本方程的代表性越好越小,说明样本方程的代表性越好将将bxay带入到上述
27、方程,则得:带入到上述方程,则得:最小值222bxayyye返回本节首页最小值22ycy如果:如果:最小22bxayeQ令:令:求偏导数并令其等于求偏导数并令其等于0:02012xbxaybQbxayaQ返回本节首页 解上述方程可得到两个标准方程:解上述方程可得到两个标准方程:2xbxaxyxbnay返回本节首页xbyanxyyxnbxx22解标准方程可求得解标准方程可求得a、b的计算公式:的计算公式:求出方程后,可进行分析与预测求出方程后,可进行分析与预测xxnxynyxb2211将上述将上述 b 的公式分子分母同乘以的公式分子分母同乘以1/n,则得:,则得:返回本节首页 22xyxybxx
28、返回本节首页各个实际观测点与回归线的离差越小,说明回各个实际观测点与回归线的离差越小,说明回归方程的代表性越好。归方程的代表性越好。返回本节首页试确定直线回归方程,并估计产量为试确定直线回归方程,并估计产量为1万吨时,万吨时,生产费用是多少。生产费用是多少。设回归方程为:设回归方程为:bxay用最小二乘法求参数用最小二乘法求参数 a、b:返回本节首页110,55.4,6.4544,880,10421454.207,4.36,822yxxyyxnyx返回本节首页2228 4544.636.4 88012.98 207.5436.4110 12.9 4.5551.31nxyxybnaybxxx 回
29、归系数回归系数b的含义的含义:产量每增加:产量每增加1千吨,生产费用千吨,生产费用增加增加12.9万元。万元。返回本节首页xy9.1231.51 故直线方程为故直线方程为:预测:预测:产量为产量为1万吨时,生产费用为:万吨时,生产费用为:)(31.180109.1231.51万元y返回本节首页1、在两个变量之间,必须确定哪个是自变量,、在两个变量之间,必须确定哪个是自变量,哪个是因变量。如果自变量和因变量的位置哪个是因变量。如果自变量和因变量的位置发生变化,方程也会改变。发生变化,方程也会改变。bxay如果如果X为自变量,则为自变量,则:如果如果y为自变量,则为自变量,则:byax(三)简单线
30、性回归分析的特点(三)简单线性回归分析的特点2、回归方程的主要作用:、回归方程的主要作用:是用自变量来推算因变量而不能反推是用自变量来推算因变量而不能反推(四)相关分析和回归分析的关系(四)相关分析和回归分析的关系第一、相关分析是回归分析的基础和前提,回归第一、相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续分析是相关分析的深入和继续返回本节首页 第二、相关系数和回归系数可以相互推算第二、相关系数和回归系数可以相互推算xyrb1、联系:、联系:xyrxnxynyrxnxynyxnxynyyxnxyxnxxnxyxnxyxnxyxnxyb 222222222222222222111
31、1111111112221xnxnxxxxxL2221ynynyyyyyL有调查资料:某城市每户平均年收入为有调查资料:某城市每户平均年收入为900元,均元,均方差为方差为40元,每户平均年消费支出为元,每户平均年消费支出为700元,方差元,方差为为3600元,支出对于收入的回归系数为元,支出对于收入的回归系数为0.9,要求:,要求:(1)计算收入与支出的相关系数;计算收入与支出的相关系数;(2)拟合支出对于拟合支出对于收入的回归方程,并解释回归系数的含义。收入的回归方程,并解释回归系数的含义。6.060409.0:)1(yxbrxyxbyab9.0110:1109009.07009.0:所以
32、回归方程为因为bxay)2(设:2、区别、区别第一、两者分析目的不同:第一、两者分析目的不同:相关分析主要测定变量间关系的密切程度和变化相关分析主要测定变量间关系的密切程度和变化方向;方向;回归分析侧重考查变量间的数量伴随关系,是将回归分析侧重考查变量间的数量伴随关系,是将相关现象间不确定的数量关系确定化。相关现象间不确定的数量关系确定化。返回本节首页第二、对资料的要求不同第二、对资料的要求不同相关分析中两个变量必须是随机的;相关分析中两个变量必须是随机的;回归分析中自变量是给定的,因变量是随机的。回归分析中自变量是给定的,因变量是随机的。第三、第三、相关分析所研究的两个变量是对等的关系,相关
33、分析所研究的两个变量是对等的关系,相关系数只有一个;相关系数只有一个;回归分析所研究的两个变量不是对等的,必须根回归分析所研究的两个变量不是对等的,必须根据研究的目的,确定出自变量和因变量的位置。据研究的目的,确定出自变量和因变量的位置。返回本节首页附:估计标准误差附:估计标准误差(一)变差的含义:(一)变差的含义:给定自变量给定自变量x值时,因变量值时,因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波动称为取值的这种波动称为变差(总离差)变差(总离差)。来源于两个方面:来源于两个方面:由于自变量由于自变量 x 的取值不同造成的的取值不同造成的 除除 x 以外的其他因素影响以外的其
34、他因素影响对毎一个对毎一个具体的观测值来说,变差的大小可具体的观测值来说,变差的大小可通过该实际观测值与其均值之差通过该实际观测值与其均值之差 表示表示yy称为总变差、总离差,可分解为两部分称为总变差、总离差,可分解为两部分yy回归离差回归离差 残差残差yyyy能够由回归直线解释的离差能够由回归直线解释的离差不能由回归直线解释的离差不能由回归直线解释的离差y总离差分解图:总离差分解图:ccyyyyyy回归离差回归离差残差残差 ccyyyyyy回归离差回归离差残差残差即:即:总离差总离差可利用可利用回归离差或残差回归离差或残差的大小说明回归方程的代的大小说明回归方程的代表性。表性。对所有的实际观
35、测值而言对所有的实际观测值而言0yy具体操作时,是对具体操作时,是对 进行分解的进行分解的2yy将总离差两边平方,再整理得:将总离差两边平方,再整理得:222ccyyyyyy所占越大,回归方所占越大,回归方程的代表性越差,程的代表性越差,x对对y的影响越不显著的影响越不显著所占的比重越大,回所占的比重越大,回归方程的代表性越好归方程的代表性越好均可表明均可表明X和和y相关关系的密切程度相关关系的密切程度三个平方和的意义三个平方和的意义总平方和总平方和(SSTtotal sum of squares)反映因变量的反映因变量的 n 个观察值与其均值的总离差。个观察值与其均值的总离差。回归平方和回归
36、平方和(SSRsum of squares of regression)反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响取值变化的影响或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的的取值变化,也称为可解释的平方和。取值变化,也称为可解释的平方和。残差平方和残差平方和(SSEsum of squares of error)反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,取值的影响,也称为不可解释的平方和或剩余平方和。也称为不可解释的平方和或剩余平方和。(二)估计标准误差(二)估计标准误差该指标能反映回归方
37、程的代表性。该指标能反映回归方程的代表性。越小,说明回归方程的代表性越好。越小,说明回归方程的代表性越好。22nyysSceyx残差残差是是 残差平方和残差平方和 与自由度的比,即:与自由度的比,即:?具体计算时用:具体计算时用:22nxybyaySyx(三)判定系数(三)判定系数 R2 回归平方和回归平方和占总离差平方和的比例占总离差平方和的比例该比重越大,回归方程的代表性越好,该比重越大,回归方程的代表性越好,x和和y的相关的相关关系越密切。进行预测时产生的误差就越小。关系越密切。进行预测时产生的误差就越小。它和估计标准误差说明的问题一致它和估计标准误差说明的问题一致说明:说明:在计量经济学中,判定系数又称拟合在计量经济学中,判定系数又称拟合优度指标,用它可检验回归方程对样本观优度指标,用它可检验回归方程对样本观测值的拟合程度。测值的拟合程度。对判定系数的说明:对判定系数的说明: