1、2022-8-91第六章第六章 相关与回归分析相关与回归分析 2022-8-922022-8-93相关分析和回归分析有什么用?相关分析和回归分析有什么用?一个国家香烟的消费量与癌症的发病率有关系吗?一个国家香烟的消费量与癌症的发病率有关系吗?父母的身高是否影响其子女的身高?父母的身高是否影响其子女的身高?公司股票的市盈率与老总的薪酬有关联吗?公司股票的市盈率与老总的薪酬有关联吗?接受高学历教育的人是否比低学历的人有更高的薪水?接受高学历教育的人是否比低学历的人有更高的薪水?现实世界中存在着大量诸如此类的问题,用统计语言来概况,现实世界中存在着大量诸如此类的问题,用统计语言来概况,就是两个或者更
2、多个变量之间,是否存在相互关联?进而,就是两个或者更多个变量之间,是否存在相互关联?进而,存在相关关系的变量间又是如何相互影响的?存在相关关系的变量间又是如何相互影响的?相关分析和回归分析可以用来回答这类问题,它们是研究现相关分析和回归分析可以用来回答这类问题,它们是研究现象之间相互关系的两种基本方法。本章介绍这两种方法的理象之间相互关系的两种基本方法。本章介绍这两种方法的理论与应用。论与应用。2022-8-94实例实例1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么?妇女生育水平除了受计划生育政策影响以外,还可能与社会、妇女生育水平除了受计划生育政策影响以外,还可能与社会
3、、经济、文化等多种因素有关。经济、文化等多种因素有关。1.影响中国妇女生育率变动的因素有哪些?影响中国妇女生育率变动的因素有哪些?2.各种因素对生育率的作用方向和作用程度如何?各种因素对生育率的作用方向和作用程度如何?3.哪些因素是影响妇女生育率主要的决定性因素?哪些因素是影响妇女生育率主要的决定性因素?4.如何评价计划生育政策在生育水平变动中的作用?如何评价计划生育政策在生育水平变动中的作用?5.计划生育政策与经济因素比较计划生育政策与经济因素比较,什么是影响生育率的决定因素?什么是影响生育率的决定因素?6.如果某些地区的计划生育政策及社会、经济、文化等因素发如果某些地区的计划生育政策及社会
4、、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?影响?2022-8-95 据世界卫生组织统计,全球肥胖症患者达据世界卫生组织统计,全球肥胖症患者达3 3亿人,其中儿亿人,其中儿童占童占22002200万人,万人,1111亿人体重过重。肥胖症和体重超常早已不是发亿人体重过重。肥胖症和体重超常早已不是发达国家的达国家的“专利专利”,已遍及五大洲。目前,全球因,已遍及五大洲。目前,全球因”吃吃”致病乃致病乃至死亡的人数已高于因饥饿死亡的人数。至死亡的人数已高于因饥饿死亡的人数。(引自引自光明日报光明日报刘军刘军/文)文
5、)问题问题:肥胖症和体重超常与死亡人数真有显著的数量关系吗肥胖症和体重超常与死亡人数真有显著的数量关系吗?这些类型的问题可以运用相关分析与回归分析的方法去解决。这些类型的问题可以运用相关分析与回归分析的方法去解决。实例实例2:全球吃死的人比饿死的人多全球吃死的人比饿死的人多?2022-8-966.1 相关分析相关分析7.1.1 相关关系的概念相关关系的概念客观现象之间的数量依存关系,可以分为:客观现象之间的数量依存关系,可以分为:一种是函数关系一种是函数关系;一种是相关关系。一种是相关关系。1.函数关系与相关关系函数关系与相关关系7.1.1 相关关系的概念相关关系的概念7.1.1 相关关系的概
6、念相关关系的概念6.1.1 相关关系的概念相关关系的概念2022-8-971)函数关系)函数关系是一一对应的确定关系;是一一对应的确定关系;当一个或几个变量取一定的值时,另一个变量有确定值当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。与之相对应,我们称这种关系为确定性的函数关系。可以用数学分析的方法去研究可以用数学分析的方法去研究一般情况下确定性函数关系可表示为一般情况下确定性函数关系可表示为:y=f(x),其中其中 x 称为自变量,称为自变量,y 称为因变量称为因变量一个自变量,各观测点落在一条线上一个自变量,各观测点落在一条线上 2022-8
7、-982022-8-992)相关关系)相关关系(correlation)当一个或几个相互联系的变量取一定数值时,与之当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。称为具有不确定性的相关关系。用相关与回归分析方法研究用相关与回归分析方法研究 这种关系有二个明显特点:这种关系有二个明显特点:1 1)现现象之间确实存在数量上的依存关系,即某一社象之间确实存在数量上的依存关系,即某一社会经济现象变化
8、要引起另一社会经济现象的变化;会经济现象变化要引起另一社会经济现象的变化;2 2)现现象之间的这种依存关系是不严格的,即无法象之间的这种依存关系是不严格的,即无法用数学公式严格表示。用数学公式严格表示。2022-8-910一般可表示为一般可表示为 Y=f(X,u)(u为随机变量为随机变量)当变量当变量 x 取某个值时,变量取某个值时,变量 y 的取值可能有几个的取值可能有几个各观测点分布在直线周围各观测点分布在直线周围(一个自变量)(一个自变量)2022-8-9112022-8-912函数关系和相关关系,在一定条件下是可函数关系和相关关系,在一定条件下是可以互相转化的以互相转化的函数关系函数关
9、系存在观测误差存在观测误差相关关系相关关系规律性认识规律性认识2022-8-9132.相关关系的种类相关关系的种类(1)从涉及的变量数量看从涉及的变量数量看 简单相关:两个现象的相关简单相关:两个现象的相关 多重相关(复相关):三个或三个以上多重相关(复相关):三个或三个以上(2)从变量相关关系的表现形式看)从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线2022-8-914(3)从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关两个变量同方向变化两个变量同方向变化 同增同减同增同减 负相
10、关负相关两个变量反方向变化两个变量反方向变化 一增一减一增一减 2022-8-915(4)从变量相关的程度看)从变量相关的程度看 完全相关完全相关 不相关不相关 不完全相关不完全相关 2022-8-9163.相关关系的描述相关关系的描述对现象变量之间是否存在相关关系以及存对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进在怎样的相关关系进行分析、作出判断,这是进行相关分析的前提。通过编制相关表和相关图,行相关分析的前提。通过编制相关表和相关图,可以直观地、大致地判断现象变量之间是否存在可以直观地、大致地判断现象变量之间是否存在相关关系以及关系的类型。相关关系以及关系
11、的类型。2022-8-917 简简单单相相关关表表 根根据据总总体体单单位位的的原原始始资资料料汇汇编编的的相相关关表表分分组组相相关关表表 将将原原始始资资料料进进行行分分组组而而编编制制的的相相关关表表单单变变量量分分组组表表 按按自自变变量量分分组组 双双变变量量分分组组表表 按按自自变变量量和和因因变变量量均均分分组组相关表是表现现象变量之间相关关系的表格。相关表是表现现象变量之间相关关系的表格。是根据自变量大小的顺序进行排列所编制的表。是根据自变量大小的顺序进行排列所编制的表。(1)相关表)相关表2022-8-918编号编号人均月销售额人均月销售额(千元千元)利润率利润率()1234
12、567891013345667783.06.26.68.110.412.612.316.316.818.5例例1 1简单相关表:简单相关表:自变量的值从小到大顺序排列,因变自变量的值从小到大顺序排列,因变量的值一一对应平行排列编制。量的值一一对应平行排列编制。为研究商店人均月销售额为研究商店人均月销售额和利润率的关系,调查和利润率的关系,调查10家商店取得家商店取得10对数据,以人均销对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表售额为自变量,利润率为因变量,编制简单相关表2022-8-919所谓相关图,是把相关的两个变量之间的关系所谓相关图,是把相关的两个变量之间的关系在平面直
13、角坐标在平面直角坐标(第一象限第一象限)中反映出来。通常将自变中反映出来。通常将自变量量(x)置于横轴上,因变量置于横轴上,因变量(y)置于纵轴上,而将两个变置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布状况来描述相关关系的,所以又称是用相关点的分布状况来描述相关关系的,所以又称为为散点图散点图。根据相关图,可以直观地看出变量之间相。根据相关图,可以直观地看出变量之间相关关系的模式。关关系的模式。(2)相关图)相关图2022-8-920例如,前述人均月销售额与利润率的关系,例如,前述人均月销售额与利润率的关系,
14、可用相关图表示如下:可用相关图表示如下:利润率利润率(%)人均销售额人均销售额(千元千元)120人均销售额与利润率相关图人均销售额与利润率相关图5101523845672022-8-921 x与与y的一些可能关系的散点图的一些可能关系的散点图2022-8-922相关分析的作用相关分析的作用1.1.确定现象之间是否确有依存关系,这是相关分析的确定现象之间是否确有依存关系,这是相关分析的前提。前提。2.确定相关关系的表现形式。是直线相关,还是曲线确定相关关系的表现形式。是直线相关,还是曲线相关,这是相关分析的出发点;相关,这是相关分析的出发点;3.3.研究现象之间关系的密切程度和方向,并检验其有研
15、究现象之间关系的密切程度和方向,并检验其有效性。效性。2022-8-923 图表形式虽然能直观的展现变量之间的图表形式虽然能直观的展现变量之间的相关关系,但是对变量相关关系及相关程度相关关系,但是对变量相关关系及相关程度的描述不够精确。的描述不够精确。在统计学中,对不同类型的变量数据,在统计学中,对不同类型的变量数据,常采用各种相关系数来具体度量变量间相关常采用各种相关系数来具体度量变量间相关的程度。的程度。l简单线性相关系数;简单线性相关系数;lSpearman等级相关系数;等级相关系数;6.1.2 相关系数相关系数2022-8-924 简单线性相关系数是在直线相关条件简单线性相关系数是在直
16、线相关条件下,表明两个现象之间相关关系的方向和密下,表明两个现象之间相关关系的方向和密切程度的综合性指标。切程度的综合性指标。这种相关系数是最常用的,简称为相关这种相关系数是最常用的,简称为相关系数。系数。总体相关系数总体相关系数样本相关系数样本相关系数 r1.简单线性相关系数简单线性相关系数2022-8-925 (,)()()Cov X YVar X Var Y总体相关系数反映总体两个变量总体相关系数反映总体两个变量X 和和Y 的线性相关程度。的线性相关程度。对于所研究的总体,表示两个相互联系变量对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:相关程度的总体相关系数为:总体相
17、关系数总体相关系数2022-8-926特点:特点:p 对于特定的总体来说,对于特定的总体来说,X和和Y的数值是的数值是既定的,总体相关系数是客观存在的特既定的,总体相关系数是客观存在的特定数值。表现为一个常数。定数值。表现为一个常数。p 一般不可能直接观测总体的两个变量一般不可能直接观测总体的两个变量的全部数值,所以总体相关系数一般是的全部数值,所以总体相关系数一般是不知道的。不知道的。2022-8-927 样本相关系数样本相关系数 通过通过X和和Y 的样本观测值去计算样本相关系数。的样本观测值去计算样本相关系数。变量变量X和和Y 的样本相关系数通常表示用的样本相关系数通常表示用 :XYrXY
18、r两个变量的协方差。两个变量的协方差。与与因变量数列的标准差;因变量数列的标准差;自变量数列的标准差;自变量数列的标准差;资料项数资料项数相关系数;相关系数;式中:式中:YXNrYYNXXNYYXXNrXYYXYXXYXY 2222;)(1)(1)()(1 2022-8-928为便于计算,相关系数可用下式计算:为便于计算,相关系数可用下式计算:)()()(2222 iiiiiiiiYYnXXnYXYXnr代入公式计算代入公式计算相关系数相关系数:(做表格(做表格)编编号号XYXYX2Y21合合计计YX2YXY2X2022-8-929特点:特点:样本相关系数是根据从总体中抽取的随机样样本相关系数
19、是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。计,它是个随机变量。2022-8-930为研究美国软饮料公司的广告费用为研究美国软饮料公司的广告费用X和销售数量和销售数量Y的关系,的关系,分析分析7种主要品牌公司的有关数据种主要品牌公司的有关数据品牌名称品牌名称广告费用广告费用X/百万百万美元美元销售数量销售数量Y/百万百万箱箱Coca-Cola131.31929.2Pepsi-Cola92.41384.6Diet-Coke60.4811.4Sprite55.7541.5Dr.Pepper40.2546.9Mou
20、tain Dew29.0535.67-up11.6219.5例例2022-8-931编号编号广告费用广告费用x销售数量销售数量yXYX2Y21131.31929.2253303.9617239.693721812.64292.41384.6127937.048537.761917117.16360.4811.449008.563648.16658369.96455.7541.530161.553102.49293222.25540.2546.921985.381616.04299099.61629.0535.615532.4841286867.36711.6219.52546.2134.564
21、8180.25合计合计420.65968.7500475.0935119.77224669.23978148.07.596823.722466976.4207.3511977.59686.42009.5004757)()(222222 YYNXXNYXXYNr2022-8-932对相关系数对相关系数 r 的解释:的解释:(1)相关系数的取值在相关系数的取值在-1与与1之间。之间。(2)当当r=0时,表明时,表明X与与Y没有线性相关关系。没有线性相关关系。注意:注意:r是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。r=0只是表明两只是表明两个变量之间个变量之间不存在线性关系不存
22、在线性关系,它并不意味着,它并不意味着X 与与Y 之间不之间不存在其他类型的关系。可能存在非线性关系。存在其他类型的关系。可能存在非线性关系。2022-8-933(3)在大多数情况下,在大多数情况下,X与与Y 的样本观测值之间存在着一定的的样本观测值之间存在着一定的线性关系。即线性关系。即 0r 0 表明表明X与与Y 为正相关为正相关;若若 r 0 表明表明X与与Y 为负相关为负相关。2022-8-934(4)当当r=1 时,表明时,表明X与与Y完全线性相关完全线性相关:若若r=1,称,称X与与Y完全正相关;完全正相关;若若r=-1,称,称X与与Y完全负相关。完全负相关。一般标准:一般标准:0
23、.8 r 1,表示高度相关;,表示高度相关;0.5 r 0.8,表示中度相关;,表示中度相关;0.3 r 0.5,表示低度相关;,表示低度相关;0 r 0.3,表示相关关系很弱,基本可以认,表示相关关系很弱,基本可以认为没有线性相关关系。为没有线性相关关系。注:这样的说明必须建立在通过显著性检验的基础上。注:这样的说明必须建立在通过显著性检验的基础上。2022-8-935相关系数相关系数(取值及其意义取值及其意义)2022-8-936使用相关分析的注意事项使用相关分析的注意事项 X和和Y 都是相互对称的随机变量,所以都是相互对称的随机变量,所以 相关系数只反映变量间的线性相关程度,不能说相关系
24、数只反映变量间的线性相关程度,不能说明非线性相关关系。明非线性相关关系。相关系数不能确定变量的因果关系,也不能说明相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。不能从一个变量的相关关系具体接近于哪条直线。不能从一个变量的变化去推测另一个变量的具体变化。变化去推测另一个变量的具体变化。YXXYrr 进行相关分析要有实际意义。进行相关分析要有实际意义。2022-8-937注意:相关关系注意:相关关系因果关系!因果关系!典型的错误推断:典型的错误推断:统计分析表明,庆祝生日次数越多的人越长寿。因此,统计分析表明,庆祝生日次数越多的人越长寿。因此,庆祝生日有利于健康。庆祝生日有
25、利于健康。调查表明,世界各国人均电视机拥有量与预期寿命存在调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命很强的正相关性。因此,电视机拥有量越高,预期寿命越长。越长。对小学各年级学生的抽样调查表明,学生的识字水平与对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。他的识字水平就越高。2022-8-9382.相关系数的显著性检验相关系数的显著性检验 为什么要检验?为什么要检验?样本相关系数是随抽样而变动的随机变量样本相关系数是随抽样而变
26、动的随机变量,只是只是对总体相关系数的估计。由于从总体中每抽取一个对总体相关系数的估计。由于从总体中每抽取一个样本,都可以根据其观测值估计出一个样本相关系样本,都可以根据其观测值估计出一个样本相关系数。样本容量越小其可信度就越差。因此,相关系数。样本容量越小其可信度就越差。因此,相关系数的统计显著性还有待检验。数的统计显著性还有待检验。检验总体相关系数是否等于检验总体相关系数是否等于0;H0:=0 (原假设)(原假设)H1:0(备择假设)(备择假设)2022-8-939检验的依据:检验的依据:如果如果X和和Y都服从正态分布,在总体相关系都服从正态分布,在总体相关系数数=0的假设下,与样本相关系
27、数的假设下,与样本相关系数 r 有关的有关的 t 统计量服从自由度为统计量服从自由度为n-2的的 t 分布:分布:)2(122ntrnrtH0:=0 (原假设)(原假设)H1:0(备择假设)(备择假设)2022-8-94010,对于给定的正数对于给定的正数,称满足条件:,称满足条件:.)()(分分位位点点分分布布的的上上为为的的点点 ntnt )()()(ntdtthnttP nt02022-8-941显著性水平和拒绝域显著性水平和拒绝域(双侧检验双侧检验)H0:=0 (原假设)(原假设)H1:0(备择假设)(备择假设)a/2a/2/2 2022-8-942相关系数的检验方法相关系数的检验方法
28、1)提出原假设和备择假设)提出原假设和备择假设 H0:=0 (原假设)(原假设)H1:0(备择假设)(备择假设)2)计算)计算t 统计量统计量;3)给定显著性水平)给定显著性水平,查自由度为查自由度为 n-2 的临界值的临界值t/2;4)若若tt/2,表明相关系数,表明相关系数 r 在统计上是显著的,应否在统计上是显著的,应否 定定=0,而接受,而接受0 的假设;的假设;5)反之,若)反之,若t t/2 l l 所以拒绝所以拒绝H0,表明,表明r是显著的;总体相关系数是显著的;总体相关系数不为不为0,即广告费用和销售额高度正相关。,即广告费用和销售额高度正相关。假设检验假设检验 H0:=0 H
29、1:02022-8-946 当变量当变量不满足正态分布要求或不是数量不满足正态分布要求或不是数量型变量型变量时时,简单线性相关系数不宜使用简单线性相关系数不宜使用,可以用可以用Spearman等级相关系数作相关性分析。等级相关系数作相关性分析。id2261(1)isdrn n 6.1.3 Spearman等级相关系数等级相关系数2022-8-947 对于样本容量为对于样本容量为n的变量的变量x 和和y,如果取值都可以分,如果取值都可以分为为n个等级,而且样本的个等级,而且样本的n个单位分别不重复地属于个单位分别不重复地属于x和和y的不同等级,没有两个单位取相同等级的情况,并且用的不同等级,没有
30、两个单位取相同等级的情况,并且用 di表示样本单位属于表示样本单位属于x 的等级与的等级与 y 的等级的级差。的等级的级差。Spearman等级相关系数等级相关系数 为:为:)1(61212 nndrniis式中式中,iiyxiRRd 的名次的名次表示表示的名次,的名次,表示表示而而iyixyRxRii2022-8-948将广告费用将广告费用X和销售数量和销售数量Y用秩次表示,并计算等级级差用秩次表示,并计算等级级差品牌名称品牌名称广告费用广告费用X(百万美元)(百万美元)销售数量销售数量Y(百万箱)(百万箱)等级级差等级级差di2变量变量秩次秩次qi变量变量秩次秩次sidi=qi-siCoc
31、a-Cola131.311929.2100Pepsi-Cola92.421384.62007-up11.67219.5700Sprite55.74541.55-11Dr.Pepper40.25546.9411Moutain Dew29.06535.6600Diet-Coke60.43811.4300例例2022-8-949根据等级级差,计算等级相关系数根据等级级差,计算等级相关系数9643.0)17(7261)1(612212 nndrniis表明美国软饮料公司广告费用与销售数量等级正相关程度表明美国软饮料公司广告费用与销售数量等级正相关程度比较高。比较高。2022-8-9506.2 一元线性
32、回归分析一元线性回归分析 在两个变量间存在线性相关关系的情况下,在两个变量间存在线性相关关系的情况下,为了明确二者联系的具体数量规律,需要进行为了明确二者联系的具体数量规律,需要进行回归分析。回归分析。2022-8-9511.相关分析相关分析 就是用一个指标(相关系数)来表明现象间就是用一个指标(相关系数)来表明现象间相互依存关系的密切程度。相互依存关系的密切程度。(方向和程度方向和程度)但是相关分析不能说明变量间相关关系的具但是相关分析不能说明变量间相关关系的具体形式,也不能从一个变量的变化去推测另体形式,也不能从一个变量的变化去推测另一个变量的具体变化。一个变量的具体变化。如果要具体测定变
33、量之间相关关系的数量形如果要具体测定变量之间相关关系的数量形式,需要运用回归分析。式,需要运用回归分析。6.2.1 相关与回归分析的联系相关与回归分析的联系2022-8-952回归这个术语是由英国著名统计学家回归这个术语是由英国著名统计学家Francis Galton在在19世纪末期研究孩子及他们的父母的身高时提出来的。世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的
34、父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。称为回归分析。2.回归分析回归分析2022-8-953回归的回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女都无论高个子或低个子的子女都有向人的平均身高回归的趋势有向人的平均身高回归的趋
35、势2022-8-954 回归的现代意义回归的现代意义 在建立数学模型的基础上,一个因变量对若干自变量依存在建立数学模型的基础上,一个因变量对若干自变量依存关系的研究关系的研究回归的目的回归的目的(实质)(实质):由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值估计因变估计因变量平均值量平均值2022-8-9551.按自变量的多少分类按自变量的多少分类p 简单回归:研究一个自变量的回归分析;简单回归:研究一个自变量的回归分析;p 复回归:研究多个自变量的回归分析。(多元回归)复回归:研究多个自变量的回归分析。(多元回归)2.按回归的表现形式分类按回归的表现形式分类p 线性回归
36、:回归的规律在图形上表现为一条直线;线性回归:回归的规律在图形上表现为一条直线;p 非线性回归:回归的规律在图形上表现为形态各异的非线性回归:回归的规律在图形上表现为形态各异的各种曲线。各种曲线。回归分析的种类回归分析的种类2022-8-9563.相关分析与回归分析的联系相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析共同的研究对象:都是对变量间相关关系的分析在具体应用时,常常必须互相补充。相关分析需要依赖在具体应用时,常常必须互相补充。相关分析需要依赖回归分析来表明现象数量相关的具体形式,而回归分析回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象
37、数量变化的相关程度。则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量间存在高度相关时,用回归分析去寻求相关只有当变量间存在高度相关时,用回归分析去寻求相关的具体数学形式才有实际意义的具体数学形式才有实际意义,即即无相关就无回归,相无相关就无回归,相关程度越高,回归越好;关程度越高,回归越好;2022-8-9571)在研究目的上的区别在研究目的上的区别相关分析研究变量之间相关的方向和相关的程度。相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的具体形式,回归分析则是研究变量之间相互关系的具体形式,寻求相关的数学方程式,从己知量来推测未知量,寻求相关的数学方程
38、式,从己知量来推测未知量,从而为估算和预测提供了一个重要的方法。从而为估算和预测提供了一个重要的方法。4.相关与回归分析在研究目的和方法上是有明显区别相关与回归分析在研究目的和方法上是有明显区别2022-8-9582)在变量处理上的区别)在变量处理上的区别相关分析对称的对待相互联系的变量,可以不必确定相关分析对称的对待相互联系的变量,可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。量可以都是随机变量。回归分析则必须事先研究确定具有相关关系的变量中回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。
39、一般地说,哪个为自变量,哪个为因变量。一般地说,回归分析回归分析中因变量是随机的,而把自变量作为研究时给定的非中因变量是随机的,而把自变量作为研究时给定的非随机变量。随机变量。3)在结果上的区别:)在结果上的区别:现象之间相关关系分析,只能计算一个相关系数;现象之间相关关系分析,只能计算一个相关系数;回归分析时,回归方程可能有两个,即当现象互为因回归分析时,回归方程可能有两个,即当现象互为因果关系时。果关系时。2022-8-9596.2 一元线性回归模型一元线性回归模型 设设x为自变量,为自变量,y为因变量,为因变量,y与与x之间存在某种线性关之间存在某种线性关系,即一元线性回归模型为系,即一
40、元线性回归模型为 其中其中表示各随机因素对表示各随机因素对y的影响的总和,根据中心极限的影响的总和,根据中心极限定理,可以认为它服从正态分布,即定理,可以认为它服从正态分布,即 那么那么y就是一个以回归直线上的对应值为中心的正态随机就是一个以回归直线上的对应值为中心的正态随机变量变量(6.2.1)xyba 、一元线性回归模型、一元线性回归模型2022-8-9606.2 一元线性回归模型一元线性回归模型给定给定x,y的的n对观测值对观测值xi,yi,ni,2,1代入式(代入式(6.2.1)得)得 iiibxay(6.2.1)当当b0时,时,x与与y为正相关,当为正相关,当b0时,时,x与与y为负
41、相关。为负相关。、一元线性回归模型、一元线性回归模型称称(6.2.1)为一元线性回归模型)为一元线性回归模型 2022-8-961二、OLS(Ordinary Least Square)估计估计 OLS的中心思想的中心思想 最小二乘法的中心思想,是通过数学模型,配合一条较为最小二乘法的中心思想,是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列两点要求:理想的趋势线。这条趋势线必须满足下列两点要求:(1)原数列的观测值与模型估计值的离差平方和为最小;)原数列的观测值与模型估计值的离差平方和为最小;(2)原数列的观测值与模型估计值的离差总和为)原数列的观测值与模型估计值的离差总和为
42、0。6.2 一元线性回归模型一元线性回归模型2022-8-962二、二、OLS(Ordinary Least Square)估计估计2022-8-963二、二、OLS(Ordinary Least Square)估计估计2022-8-964二、二、OLS(Ordinary Least Square)估计估计2022-8-965OLS的特性的特性 最小二乘估计量最小二乘估计量 具有线性、无偏性和最小方具有线性、无偏性和最小方差性等良好的性质。差性等良好的性质。线性、无偏性和最小方差性统线性、无偏性和最小方差性统称称BLUE性质。性质。满足满足BLUE性质的估计量性质的估计量 称为称为BLUE估计
43、量。估计量。ba,ba,二、二、OLS(Ordinary Least Square)估计估计2022-8-966 回归方程的检验回归方程的检验 在一元线性回归模型中最常用的显著性在一元线性回归模型中最常用的显著性检验方法有:检验方法有:相关系数检验法相关系数检验法F检验法检验法t检验法检验法 6.3线性回归模型的检验线性回归模型的检验 2022-8-967三、离差平方和的分解与可决系数三、离差平方和的分解与可决系数 在一元线性回归模型中,观测值的数值会发生波动,这在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下:种波动称为变差。变差产生的原因如下:受自变量变动
44、的影响,即受自变量变动的影响,即x取值不同时的影响;取值不同时的影响;受其他因素(包括观测和实验中产生的误差)的影响。受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解为了分析这两方面的影响,需要对总变差进行分解。6.3 线性回归模型的检验线性回归模型的检验2022-8-968三、相关系数三、相关系数 离差平方和的分解离差平方和的分解 其中,其中,Q1成为残差平方和,成为残差平方和,Q2成为回归平方和成为回归平方和2022-8-969三、相关系数三、相关系数可决系数可决系数 总变差回归变差R22022-8-970可决系数的特点可决系数的特点(1)可决系
45、数是非负的统计量;可决系数是非负的统计量;(2)可决系数取值范围:可决系数取值范围:0R21 ;当所有的观测值都位于回归直线上时,残差平方和当所有的观测值都位于回归直线上时,残差平方和SSE=0,这时,这时R2=1,说明总离差可以完全由所估计的样本,说明总离差可以完全由所估计的样本回归直线来解释;回归直线来解释;SSTSSESSTSSRR 12yyi iiyy yyi 总离差总离差可可解解释释离离差差yyx2022-8-971三、相关系数三、相关系数 相关系数的取值范围为相关系数的取值范围为 当当R=0时,说明回归变差为时,说明回归变差为0,自变量,自变量x的变动对的变动对总变差毫无影响,这种
46、情况称总变差毫无影响,这种情况称y与与x不相关不相关。当当|R|=1时,时,说明回归变差等于总变差,总变差的变化完全说明回归变差等于总变差,总变差的变化完全由自变量由自变量x的变化所引起,这种情况成为完全相关。这时因变的变化所引起,这种情况成为完全相关。这时因变量量y是自变量是自变量x的线性函数的线性函数,二者之间呈函数关系。二者之间呈函数关系。当0|R|1时,说明自变量时,说明自变量x的变动对总变差有部的变动对总变差有部分影响,这种情况成为普通相关。分影响,这种情况成为普通相关。2022-8-972三、相关系数三、相关系数2022-8-973四、显著性检验四、显著性检验相关系数检验法相关系数
47、检验法 第一步,计算相关系数第一步,计算相关系数R;第二步,根据回归模型的自由度(第二步,根据回归模型的自由度(n-2)和给定的显)和给定的显著性水平值著性水平值,从相关系数临界值表中查出临界值;,从相关系数临界值表中查出临界值;第三步,判别。若第三步,判别。若|R|R(n-2),表明两变量之间线,表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预性相关关系显著,检验通过,这时回归模型可以用来预测;若测;若|R|30,式,式(6.2.31)可简化为)可简化为y 0stn02)2((6.2.31)2022-8-982六、应用举例六、应用举例 例例6.2.1 某省某省19781989
48、年国内生产总值和固定资产投资年国内生产总值和固定资产投资完成额资料如表完成额资料如表6.2.1所示。所示。2022-8-983六、应用举例六、应用举例 试配合适当的回归模型并进试配合适当的回归模型并进行显著性检验;若行显著性检验;若19991999年该省年该省固定资产投资完成额为固定资产投资完成额为249249亿亿元,当显著性水平元,当显著性水平0.050.05时,时,试估计试估计19901990年国内生产总值的年国内生产总值的预测区间。预测区间。解:解:.绘制散点图绘制散点图 2022-8-984六、应用举例六、应用举例2设一元线性回归模型为设一元线性回归模型为3计算回归系数计算回归系数20
49、22-8-985六、应用举例六、应用举例4检验线性关系的显著性检验线性关系的显著性 2022-8-986六、应用举例六、应用举例2022-8-987六、应用举例六、应用举例5预测预测(2)当显著性水平,自由度)当显著性水平,自由度nm12210时,查时,查t分布表得分布表得228.2)10(025.0t(1)计算估计值的标准误差)计算估计值的标准误差2022-8-988六、应用举例六、应用举例2022-8-989六、应用举例六、应用举例(excel计算计算)在在excel的工作表中输入如表的工作表中输入如表6.2.1所示的样本数据;所示的样本数据;点击点击“工具工具”“数据分析数据分析”“回归
50、回归”,在出现的数据分析对话框中选择,如图在出现的数据分析对话框中选择,如图6.2.2所示。所示。图图6.2.2 a)应用应用excel软件求回归分析相关参数软件求回归分析相关参数2022-8-990点击图点击图6.2.2 a)所示对话框中的确定,弹出所示对话框中的确定,弹出“回归回归”对话框,对话框,在在Y值输入区域,值输入区域,拖动鼠标选择拖动鼠标选择Y样本值样本值B2:B13,在,在X值输入区值输入区域,域,拖动鼠标选择拖动鼠标选择X样本值样本值A2:A13,如图,如图6.2.2 b)所示。所示。六、应用举例六、应用举例(excel计算计算)图图6.2.2 b)应用应用excel软件求回
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。