1、第六章第六章 相关与回归分析相关与回归分析统计学原理第一节第一节 简单线性相关简单线性相关一、相关关系及其表现形态一、相关关系及其表现形态二、相关关系的描述与测度二、相关关系的描述与测度1.1.函数关系函数关系例:某种商品的销售额(y)与销售量(x)之间的关系可表示为: y = p x y = p x (p 为单价)圆的面积(S)与半径之间的关系可表示为:企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为:一、相关关系及其表现形态一、相关关系及其表现形态是一一对应的确定关系2rS 321xxxy 函数关系的特点:函数关系的特点:xy(1)变量
2、之间是一一对应的确定关系;(2)设有两个变量x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称y 是 x 的函数,记为y y = = f f ( (x x) ),其中x 称为自变量,y 称为因变量;(3)各观测点落在一条线上 .5具有相关关系的某些现象可表现为因果关系。自变量:是引起某种结果变化的原因,它是可以控制、给定的值,常用x表示;因变量:是自变量变化的引起结果量,它是不确定的值,常用y表示。 它们的表现形式有多种:一种原因引起一种结果;多种原因引起一种结果;还有变量之间是互为因果的关系。相关分析时,一般不区分原因
3、和结果。一、相关关系及其表现形态一、相关关系及其表现形态2.2.相关关系相关关系指变量之间存在的不确定的数量关系。指变量之间存在的不确定的数量关系。一、相关关系及其表现形态一、相关关系及其表现形态(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在直线周围。相关相关关系关系(几个例子几个例子)子女的身高与其父母身高的关系子女的身高与其父母身高的关系u从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,
4、还有其他许多因素的影响一个人的收入水平同他受教育程度的关系一个人的收入水平同他受教育程度的关系u收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响农作物的单位面积产量与降雨量之间的关系农作物的单位面积产量与降雨量之间的关系u在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响3. 3. 相关相关关系的种类关系的种类 1. 1. 按相关的程度可分为完全相关、不完全相关和不相关按
5、相关的程度可分为完全相关、不完全相关和不相关完全相关完全相关:当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。不相关不相关:当两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关)。不完全相关不完全相关:当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,是相关分析的主要研究对象。一、相关关系及其表现形态一、相关关系及其表现形态2. 2. 按相关的方向可分为正相关和负相关按相关的方向可分为正相关和负相关正相关正相关:当一个变量随着另一个变量的增加(减少)而增加(减少),
6、即两者同向同向变化时,称为正相关。 如家庭收入与家庭支出之间的关系。负相关负相关:当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向反向变化时,称为负相关。 如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。3. 3. 相关相关关系的种类关系的种类 一、相关关系及其表现形态一、相关关系及其表现形态3. 按相关的形式可分为线性相关和非线性相关按相关的形式可分为线性相关和非线性相关线性相关线性相关:当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。非线性相关非线性相关:当变量间的关系不按固定比
7、例变化时,就称之为非线性相关。3. 3. 相关相关关系的种类关系的种类 一、相关关系及其表现形态一、相关关系及其表现形态二、相关关系的描述与测度二、相关关系的描述与测度(一)散点图(一)散点图 所谓散点图法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。散点图散点图(scatter diagram)完全负线性相关完全负线性相关完全正线性相关完全正线性相关不相关不相关负线性相关负线性相关正线性相关正线性相关非线性相关非线性相关 【例】在研究我国人均消费水平的问题时,把全国人均消费记为y,把
8、人均国内生产总值(人均GDP)记为x。 我国人均国内生产总值与人均消费金额数据 单位:元 年份人均国内生产总值X人均消费金额Y199519961997199819992000200120022003485455766054630865517086765182149101223626412834297231383397360938184089从上表可以看出从上表可以看出X X和和Y Y这两个变量之间存在什么样的相关关系?这两个变量之间存在什么样的相关关系?将上表资料绘制散点图如下:将上表资料绘制散点图如下:所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着一定的正相关关系,即随着人均
9、GDP的上升,人均消费金额也会增加。有时也可通过表格来直接观察变量之间是否存大相关关系。将上表资料绘制散点图如下:将上表资料绘制散点图如下:1.变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r样本相关系数的计算公式 :二、相关关系的描述与测度二、相关关系的描述与测度(二)相关系数(二)相关系数2222)()(yynxxnyxxynr简化计算公式: 【例】根据上述资料,计算人均消费与人均国内生产总值的直线相关系数。9938. 02873494547496961395433057667928
10、734613952022998529222222 yynxxnyxxynr将上表计算结果代入公式为:相关系数较大,这说明人均消费额与人均国内生产总值高度相关。 无线性相关无线性相关r相关系数的值介于1与+1之间,即1r+1。二、相关关系的描述与测度二、相关关系的描述与测度(三)相关系数取值范围及意义(三)相关系数取值范围及意义二、相关关系的描述与测度二、相关关系的描述与测度(三)相关系数取值范围及意义(三)相关系数取值范围及意义| |r r|=1|=1,为完全相关为完全相关lr r =1=1,为完全正相关,为完全正相关lr r =-1=-1,为完全负正相关,为完全负正相关r r = 0= 0,
11、不存在线性相关关系不存在线性相关关系-1-1 r r00,为负相关为负相关0 0 r r 1 1,为正相关为正相关| |r r| |越趋于越趋于1 1表示关系越强;表示关系越强;| |r r| |越趋于越趋于0 0表示关系越弱表示关系越弱相关系数的经验解释相关系数的经验解释1.1.| |r r| | 0.80.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关2.2.0.50.5 | |r r| |0.80.8时,可视为中度相关时,可视为中度相关3.3.0.30.3 | |r r| |0.50.5时,视为低度相关时,视为低度相关4.4.| |r r| |0.30.3时,说明两个变量
12、之间的相关程度极弱,时,说明两个变量之间的相关程度极弱,可视为不相关可视为不相关5.5.上述解释必须建立在对相关系数的显著性进行检上述解释必须建立在对相关系数的显著性进行检验的基础之上验的基础之上第二节第二节 一元线性回归分析一元线性回归分析一、回归模型与回归方程一、回归模型与回归方程二、最小二乘估计二、最小二乘估计三、回归直线的拟合程度三、回归直线的拟合程度四、利用回归方程进行估计和预测四、利用回归方程进行估计和预测 一、回归分析的概念一、回归分析的概念1 1、什么是、什么是回归分析回归分析回归分析通过一个变量或一些变量的变化解释另一变量的变化,即从一组样本数据出发,确定变量之间的数学关系式
13、。2 2、相关分析与回归分析的关系、相关分析与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。一、回归分析的概念一、回归分析的概念 (1) 相关分析中变量之间的关系是对等的;回归分析中,变量之间的关系是不对等的,将变量划分自变量和因变量。 (2) 相关分析中变量都必须是随机变量;回归分析中,自变量是给定的,因变量是随机的。 (3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,相关系数是惟一的。而在回归分析中,对于互为因果的两个变量 ,则有可能存在两个或多个回归方程。 一、回归分析的概念一、回归分析的概念3 3、相关分析与回归分析的区别、相关分析与回归分析的区别