1、第七章第七章 相关与回归分析相关与回归分析 第一节第一节 相关与回归的基本概念相关与回归的基本概念 第二节第二节 一元线性回归分析一元线性回归分析v睡眠时间同学习成绩之间的关系v学习成绩同收入之间的关系v学历同收入之间的关系国内研究:学历、年龄、收入关系国内研究:学历、年龄、收入关系国外研究:学历、年龄、收入关系国外研究:学历、年龄、收入关系收入、学历、年龄相关分析012345672227323742475257年龄收入指数高中肄业高中毕业大学肄业大学毕业研究生毕业第一节第一节 相关与回归的基本概念相关与回归的基本概念v函数关系与相关关系函数关系与相关关系v相关关系的种类相关关系的种类v相关关
2、系的判断方法相关关系的判断方法1.1 函数关系与相关关系函数关系与相关关系(一一)函数关系函数关系1.定义定义当一个或几个变量取一定的值时,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数我们称这种关系为确定性的函数关系。关系。2.函数关系特点函数关系特点(1)是一一对应的确定关系;)是一一对应的确定关系;(2)设有两个变量)设有两个变量 x 和和 y,变量,变量 y 随变量随变量 x 一一起变化,并完全依赖起变化,并完全依赖于于 x,当变量,当变量 x 取某个取某个数值时,数值时,y 依确定的关系取相应的值,则称依确定的关
3、系取相应的值,则称 y 是是 x 的函数,记为的函数,记为 y=f(x),其中,其中 x 称为自称为自变量,变量,y 称为因变量称为因变量(3)各观测点)各观测点(x,y)落在一条线上落在一条线上 3.函数关系举例函数关系举例 函数关系的例子函数关系的例子 某种商品的销售额某种商品的销售额(y)与销售量与销售量(x)之间的关系之间的关系可表示为可表示为 y=p x(p 为单价为单价)圆的面积与半径之间的关系可表示为圆的面积与半径之间的关系可表示为S=r2 企业的原材料消耗额企业的原材料消耗额(y)与产量与产量(x1)、单位产、单位产量消耗量消耗(x2)、原材料价格、原材料价格(x3)之间的关系
4、可表之间的关系可表示为示为y=x1 x2 x3 1.定义:定义:当一个或几个相互联系的变量当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种关系一定的范围内变化。变量间的这种关系称为具有不确定性的相关关系。称为具有不确定性的相关关系。现象之间客观存在的不严格、不确现象之间客观存在的不严格、不确定的数量依存关系。定的数量依存关系。2.相关关系特点相关关系特点(1)变量间关系不能用函数关系精确表达;)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能
5、由另一个变量唯一确)一个变量的取值不能由另一个变量唯一确定;当变量定;当变量 x 取某个值的时候,变量取某个值的时候,变量 y 的取的取值可能有几个;值可能有几个;(3)各观测点()各观测点(x,y)分布在某条线的周围。)分布在某条线的周围。相关关系的例子相关关系的例子 商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系 商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系 商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系 粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1)、降雨量、降雨量(x2)、温、温度度(x3)之间的关
6、系之间的关系 收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系1.2相关关系的种类相关关系的种类(1)完全相关:当一种现象的数量变化完全)完全相关:当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两由另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。种现象间的关系为完全相关。(2)不相关:当两种现象互不影响,其数量)不相关:当两种现象互不影响,其数量变化各自独立时,称为不相关现象。变化各自独立时,称为不相关现象。(3)两种现象之间的关系介于完全相关和不)两种现象之间的关系介于完全相关和不相关之间,称为不完全相关。相关之间,称为不完全相关。(1)当
7、两种相关现象之间的关系大致呈现为)当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。线性关系时,称之为线性相关。(2)当两种相关现象之间的关系不表现为直)当两种相关现象之间的关系不表现为直线关系,而是近似于某种曲线方程的关系,线关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。则这种相关关系称为非线性相关。)1()2()3()4()为非线性相关。)、()为线性相关,()、(图中(4321(1)正相关:两个相关现象间,当一个变量的)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即
8、同方向变化。随之增加(或减少),即同方向变化。例如收入与消费的关系。例如收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。加)趋势变化,即反方向变化。例如物价与消费的关系。例如物价与消费的关系。(1)当只研究两个变量时,它们之间的相关,)当只研究两个变量时,它们之间的相关,称为称为单相关单相关。(2)当所研究的是一个变量对两个或两个以)当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为上其他变量的相关关系时,称为复相关复相关。
9、例如,某种商品的需求与其价格水平以及收入水平之例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。间的相关关系便是一种复相关。(3)在某一现象与多种现象相关的场合,假)在某一现象与多种现象相关的场合,假定其他变量不变,只考察其中两个变量的相定其他变量不变,只考察其中两个变量的相关关系称为关关系称为偏相关偏相关。例如,在假定人们的收入水平不变的条件下,某种商例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。品的需求与其价格水平的关系就是一种偏相关。相关关系的图示定性分析定性分析定量分析定量分析1.3 相关关系的判断相关关系的判断 相关表
10、是一种反映变量之间相关关系的统相关表是一种反映变量之间相关关系的统计表。计表。将自变量将自变量x的数值按照从小到大的顺序的数值按照从小到大的顺序排排列列,然后再将与其相关的然后再将与其相关的因变量因变量y的的对应对应数值数值平行排列,便可形成简单的相关表平行排列,便可形成简单的相关表。例:为了研究分析某种产品完成量与其单位产品成本例:为了研究分析某种产品完成量与其单位产品成本之间的关系,调查之间的关系,调查30个同类公司得到的原始数据如表。个同类公司得到的原始数据如表。完成量(小时)20 30 20 20 40 30 40 80 80 50 40 30 20 80 50单位成本(元/小时)18
11、 16 16 15 16 15 15 14 14 15 15 16 18 14 14完成量(小时)20 50 20 30 50 20 50 40 20 80 40 20 50 80 30单位成本(元/小时)16 16 18 16 15 18 15 14 16 14 15 16 14 15 15整理后有整理后有完 成 量(小 时)40 40 40 40 50 50 50 50 50 50 80 80 80 80 80单 位 成 本(元/小 时)15 15 15 16 14 14 15 15 15 16 14 14 14 14 15相关图也称散点图,是在平面直角坐标系相关图也称散点图,是在平面直角
12、坐标系中,以横轴表示变量中,以横轴表示变量 x,纵轴表示变量,纵轴表示变量y,将两者对应的数值形成的坐标点,将两者对应的数值形成的坐标点(x,y)在图中标出,即可看出变量之间)在图中标出,即可看出变量之间关系密切程度。如下图关系密切程度。如下图(销售收入与广告费相关图)(销售收入与广告费相关图)广 告 费(万 元)3033334056586572808090年 销 售 收 入(百 万 元)1212121314142022262630销售收入与广告费相关图销售收入与广告费相关图相关图的相关检定1.分别作x、y中值线 2.数各象限和中值线上的点3.计算 4.判定:将N和相关检定表界限值比较,判定相
13、关性,IIIIIIIVn nnnn线和N=nn线1.相关系数相关系数早在早在1890年,英国统计学家皮尔生(年,英国统计学家皮尔生(Pearson)便提出了一个测定两个变量线性关系的计算公便提出了一个测定两个变量线性关系的计算公式,通常称为积距相关系数。式,通常称为积距相关系数。计算公式:计算公式:式中:分子是两个变量式中:分子是两个变量x和和y的协方差;分母是两的协方差;分母是两个变量的标准差。个变量的标准差。xyxy2.相关关系的测度相关关系的测度(相关系数)(相关系数)v 22)()()(yyxxyyxxr yxnxyyyxx1)(222)(1)(xnxxx222)(1)(ynyyy计算
14、相关系数计算相关系数的的“积差法积差法”yyLxxLxyLr 1()()nLxyxyxy 122()nLxxxx122()nLyyyy224 7 5 45 3 24 2 8 1 67 06 4 0 x yxyxy22)()(1 1 2(2 6 0(1 2 26 0 03 4 00.6 3xyxyxyxyxyr 表表1 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460
15、.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148v解:解:根据样本相关系数的计算公式有根据样本相关系数的计算公式有 v人均国民收入与人均消费金额之间的相关系人均国民收入与人均消费金额之间的相关系 数为数为 0.99873.相关系数取值及其意义相关系数取值及其意义4.相关程度评价标准相关程度评价标准相关系数检定表第二节第二节 一元线性回归分析一元线性回归分析一、一元线性回归的基本问题一、一元线
16、性回归的基本问题(一)回归的来源(一)回归的来源 “回归回归”这个统计学术语,最早采用者是英这个统计学术语,最早采用者是英国遗传学家高尔登,他把这种统计分析方法应用国遗传学家高尔登,他把这种统计分析方法应用于研究生物学的遗传问题,指出生物后代有回复于研究生物学的遗传问题,指出生物后代有回复或回归到其上代原有特性的倾向。高尔登的学生或回归到其上代原有特性的倾向。高尔登的学生皮尔逊继续研究,把回归与数学方法联系起来,皮尔逊继续研究,把回归与数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。回归直线或回归曲线。(二)什么是回归分
17、析?(二)什么是回归分析?1.从一组样本数据出发,确定变量之间的从一组样本数据出发,确定变量之间的数数学关系式;学关系式;2.对这些关系式的可信程度进行各种统计检对这些关系式的可信程度进行各种统计检验验,并从影响某一特定变量的诸多变量中,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;找出哪些变量的影响显著,哪些不显著;3.利用所求的关系式,根据一个或几个变量利用所求的关系式,根据一个或几个变量的取值来的取值来预测或控制预测或控制另一个特定变量的取另一个特定变量的取值,并给出这种预测或控制的精确程度。值,并给出这种预测或控制的精确程度。回归模型回归模型多元回归多元回归一元回
18、归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归。(一)回归方程(一)回归方程1.描述描述 y 的平均值或期望值的平均值或期望值如何依赖于如何依赖于 x 的方程的方程称为回归方程。称为回归方程。2.简单线性回归方程的形式:简单线性回归方程的形式:最小二乘法最小二乘法(图示)(图示)(xn,yn)(x1,y1)(x2,y2)(xi,yi)123哪条线最能够表达哪条线最能够表达x和和y之间的关系?之间的关系?最小二乘法最小二乘法(图示)(图示)(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi2e1e2e3e4e6e7e8e9e53、回归系数
19、的估计的最小二乘法公式、回归系数的估计的最小二乘法公式 设设 将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,可得:v加以整理后有:加以整理后有:22()iiiQeYY2()iiYabX2()0iiQYabXa2()0iiiQX YabXb iinabXY 2iiiiaXbXX Y最小二乘法最小二乘法(a 和和 b 的计算公式的计算公式)解方程组解方程组可得求解可得求解 a 和和 b 的标准方程如下:的标准方程如下:例:某种食品的需求量与人口增长量之间关系,数据:例:某种食品的需求量与人口增长量之间关系,数据:22.5905 0.5301bayxx 所以上式中上式中b 表示人口增加量每增加表示人口增加量每增加(或减少)(或减少)1千人,该种食品的年需求量千人,该种食品的年需求量平均来说增加(或减少)平均来说增加(或减少)0.5301(吨)(吨)即即5.301吨。吨。v课后习题2、3