1、2.3.1 变量之间的相关关系变量之间的相关关系1 在学校,老师经常对学生经常这样说:在学校,老师经常对学生经常这样说:“如果你的数学成绩好,那么你的物理学习如果你的数学成绩好,那么你的物理学习就不会有什么大问题。就不会有什么大问题。” 按照这种说法,似按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一乎学生的物理成绩与数学成绩之间存在着一种种相关关系相关关系。这种说法有没有依据呢?。这种说法有没有依据呢? 思考思考2 我们还可以举出现实生活中存在我们还可以举出现实生活中存在的许多相关关系的问题。例如:的许多相关关系的问题。例如:31商品销售收入与广告支出经费之间的关系。商品销售收入与广告
2、支出经费之间的关系。 商品销售收入与广告支出经费之间有着密商品销售收入与广告支出经费之间有着密切的联系,但商品收入不仅与广告支出多少切的联系,但商品收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关。有关,还与商品质量、居民收入等因素有关。4 在一定范围内,施肥量越大,粮食产量在一定范围内,施肥量越大,粮食产量就越高。但是,施肥量并不是决定粮食产量就越高。但是,施肥量并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤质的唯一因素,因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素的影响。量、降雨量、田间管理水平等因素的影响。2粮食产量与施肥量之间的关系。粮食产量与施肥量之间
3、的关系。5 在一定年龄段内,随着年龄的增长,在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关。关,可能还与个人的先天体质有关。3人体内脂肪含量与年龄之间的关系。人体内脂肪含量与年龄之间的关系。6 对于上述各种问题中的两个变量之间对于上述各种问题中的两个变量之间的的相关关系相关关系,我们都可以根据自己的生活、,我们都可以根据自己的生活、学习经验作出相应的判断,因为学习经验作出相应的判断,因为“经验当中经验当中有规律有规律”。但是,如果只凭经验办事,
4、还是。但是,如果只凭经验办事,还是很容易出错的。因此,在分析两个变量之间很容易出错的。因此,在分析两个变量之间的关系时,还需要一些有说服力的方法。的关系时,还需要一些有说服力的方法。 1商品销售收入与广告支出经费之间的关系。商品销售收入与广告支出经费之间的关系。2粮食产量与施肥量之间的关系。粮食产量与施肥量之间的关系。3人体内脂肪含量与年龄之间的关系。人体内脂肪含量与年龄之间的关系。7事物之间的相互关系1、确定性关系 现象间存在着一一对应的严格的数量依存关系。对于某一个变量的每一个数值,都有另一个变量的确定数值与之对应,又称为函数关系函数关系。8确定性关系:两变量间的函数关系 圆的周长与半径的
5、关系: C2R速度、时间与路程的关系: LSTX与Y的函数关系: Ya+bX 9事物之间的相互关系2、相关关系 现象间存在的不严格的数量依存关系。对于某一个变量的每一个数值可以有另一个变量的若干个数值与之对应,又称为相关关系,简称相关。1.1.变量间关系不能用函数关系精确表达变量间关系不能用函数关系精确表达2.2.一个变量的取值不能由另一个变量唯一确定一个变量的取值不能由另一个变量唯一确定3.3.当变量当变量 x x 取某个值时,变量取某个值时,变量 y y 的取值可能的取值可能有几个有几个4.4.各观测点分布在直线周围各观测点分布在直线周围10 相关关系的例子11 自变量取值一定时自变量取值
6、一定时,因变量的取值带有一定因变量的取值带有一定随机性。这两个变量之间的关系随机性。这两个变量之间的关系,叫做叫做相关关系相关关系.变量间相关关系的概念变量间相关关系的概念: 函数是研究两个变量之间的依存关系的一种函数是研究两个变量之间的依存关系的一种数量形式数量形式. .对于两个变量,如果当一个变量的取对于两个变量,如果当一个变量的取值一定时,另一个变量的取值被唯一确定,则这值一定时,另一个变量的取值被唯一确定,则这两个变量之间的关系就是一个函数关系两个变量之间的关系就是一个函数关系. .变量间函数关系的概念变量间函数关系的概念:相关关系与函数关系之间有什么异同点?相关关系与函数关系之间有什
7、么异同点?12相同点相同点:两者均是指两个变量间的关系两者均是指两个变量间的关系.不同点不同点:函数关系是一种函数关系是一种确定确定的关系的关系;相关关系相关关系是一种是一种非确定非确定的关系的关系.相关关系与函数关系的异同点相关关系与函数关系的异同点:13函数关系与相关关系的联系(1)由于测量误差存在,现实生活中函数关系常表现为相关关系;(2)由于现象间数量关系规律性,相关关系常借助函数关系近似描述。141.下列关系中下列关系中,是带有随机性相关关系的是是带有随机性相关关系的是 .正方形的边长与面积的关系正方形的边长与面积的关系;水稻产量与施肥量之间的关系水稻产量与施肥量之间的关系;人的身高
8、与年龄之间的关系人的身高与年龄之间的关系;降雪量与交通事故发生之间的关系降雪量与交通事故发生之间的关系.2. 下列两个变量之间的关系哪个不是函数关系(下列两个变量之间的关系哪个不是函数关系( )A角度和它的余弦值角度和它的余弦值B. 正方形边长和面积正方形边长和面积C正边形的边数和它的内角和正边形的边数和它的内角和 D. 人的年龄和身高人的年龄和身高D15【问题问题】在一次对人体脂肪含量和年龄在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样关系的研究中,研究人员获得了一组样本数据:本数据: 其中各年龄对应的脂肪数据是这个年龄其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数
9、人群脂肪含量的样本平均数. .年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.925.9 27.527.5 26.326.3 28.228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30.830.8 33.533.5 35.235.2 34.634.616思考思考1 1:对某一个人来说,他的体内脂对某一个人来说,他的体内脂肪含量不一定随年龄增长而增加或减肪含量不一定随年龄增长而增加或减少,但是如果把很多个体放在一起,少,但是
10、如果把很多个体放在一起,就可能表现出一定的规律性就可能表现出一定的规律性. .观察上表观察上表中的数据,大体上看,随着年龄的增中的数据,大体上看,随着年龄的增加,人体脂肪含量怎样变化?加,人体脂肪含量怎样变化?年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.925.9 27.527.5 26.326.3 28.228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30.830.8 33.533.5 35.235.2 34.634
11、.617思考思考2 2:为了确定年龄和人体脂肪含量之间为了确定年龄和人体脂肪含量之间的更明确的关系,我们需要对数据进行分的更明确的关系,我们需要对数据进行分析,通过作图可以对两个变量之间的关系析,通过作图可以对两个变量之间的关系有一个直观的印象有一个直观的印象. .以以x x轴表示年龄,轴表示年龄,y y轴表轴表示脂肪含量示脂肪含量,在直角坐标系中描出样本数,在直角坐标系中描出样本数据对应的图形据对应的图形. .年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.925.9 27.527.5 26.326.3 28.
12、228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30.830.8 33.533.5 35.235.2 34.634.618思考思考3 3:上图具有什么特点,可以怎么上图具有什么特点,可以怎么称呼?称呼? 由一群离散的点组成,称为由一群离散的点组成,称为散点图散点图 19 左下角到右上角左下角到右上角正相关正相关思考思考4 4:观察散点图的大致趋势,年龄观察散点图的大致趋势,年龄的与人体脂肪含量具有什么相关关系?的与人体脂肪含量具有什么相关关系? 20思考思考5 5:反过来,一般地,如果两个变量成反过来,
13、一般地,如果两个变量成正相关,那么这两个变量的变化趋势如何?正相关,那么这两个变量的变化趋势如何? 一个变量随另一个变量的变大而变大一个变量随另一个变量的变大而变大散点图中的点:左下角到右上角散点图中的点:左下角到右上角21思考思考6 6:如果两个变量成负相关,从整如果两个变量成负相关,从整体上看这两个变量的变化趋势如何?其体上看这两个变量的变化趋势如何?其散点图有什么特点?散点图有什么特点? 一个变量随另一个变量的变大而变小一个变量随另一个变量的变大而变小散点图中的点:左上角到右下角散点图中的点:左上角到右下角22思考思考7 7:进一步思考,当人的年龄增加进一步思考,当人的年龄增加时,体内脂
14、肪含量到底是以什么方式增时,体内脂肪含量到底是以什么方式增加的呢?加的呢? 23 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系线性相关关系,这条直线叫做回归直线回归直线,直线所对应的方程叫回归方程回归方程。高尔顿高尔顿( Francis Galton ) 弗朗西斯高尔顿,英国科学家和探险家。1889年,他在研究祖先和后代身高之间的关系时发现,后代的身高会靠近父母身高的平均值,并把这种趋势称为“回归现象”。后来,人们把由一个变量的变化去推测另一个变量变化的方法称为回归方法。24思考思考8 8:如何求回归方程?如何求回归方程? 25理论迁移理论迁移例例1
15、 1 在下列两个变量的关系中,哪些是在下列两个变量的关系中,哪些是相关关系?相关关系?正方形边长与面积之间的关系;正方形边长与面积之间的关系;作文水平与课外阅读量之间的关系;作文水平与课外阅读量之间的关系;人的身高与年龄之间的关系;人的身高与年龄之间的关系;降雪量与交通事故的发生率之间的关降雪量与交通事故的发生率之间的关系系. .26自主练习:自主练习:(1)两个变量中具有相关关系的是( ) A 喜鹊叫喜,乌鸦叫丧 B 人的身高和年龄 C 匀速行驶车辆的行驶距离与时间 D 球的体积与半径(2)两个变量之间关系是函数关系的是( ) A 正方形的面积与周长 B 物理成绩数学成绩 C 年降雨量与年平
16、均气温 D 圆上任意点的横、纵坐标BA27C(3)下列图形中具有线性相关关系的两个变量是281 1对于两个变量之间的关系,有函数关系和相对于两个变量之间的关系,有函数关系和相关关系两种,其中函数关系是一种确定性关系,关关系两种,其中函数关系是一种确定性关系,相关关系是一种非确定性关系相关关系是一种非确定性关系. .3.3.一般情况下两个变量之间的相关关系成正相关一般情况下两个变量之间的相关关系成正相关或负相关,类似于函数的单调性或负相关,类似于函数的单调性. .2 2散点图能直观反映两个相关变量之间的大致散点图能直观反映两个相关变量之间的大致变化趋势,利用计算机作散点图是简单可行的办变化趋势,
17、利用计算机作散点图是简单可行的办法,并根据趋势判断变量之间是否是线性相关法,并根据趋势判断变量之间是否是线性相关. .小结小结292.3.2 回归方程的求解回归方程的求解30思考思考8 8:如何求回归方程?如何求回归方程? 31整体上最接近整体上最接近 采用测量的方法:先画一条直线,测采用测量的方法:先画一条直线,测量出各点到它的距离,然后移动直线,到达一量出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程。斜率和截距,就得到回归方程。32 在图中选取两点画直线,使得直线在图中选取两点画直线,使得直线
18、两侧的点的个数基本相同。两侧的点的个数基本相同。脂肪010203040020406080脂肪三、如何具体的求出这个回归方程呢?三、如何具体的求出这个回归方程呢?33 在散点图中多取几组点,确定几条直线的在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的平均数,方程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率和截距。将这两个平均数作为回归方程的斜率和截距。脂肪010203040020406080脂肪三、如何具体的求出这个回归方程呢?三、如何具体的求出这个回归方程呢?34思考:思考:这么多设计的数据处理方案中,有没这么多设计的数据处理方案中,有没有
19、较好的评价标准?有较好的评价标准? l回归直线是过散点最多的直线回归直线是过散点最多的直线 ?l回归直线是使上下点基本平均分布的直线回归直线是使上下点基本平均分布的直线 ?l回归直线是过两个端点的直线回归直线是过两个端点的直线 ?l回归直线是经过样本中心的直线回归直线是经过样本中心的直线 ?l回归直线是回归直线是 -?35 求回归方程的关键:如何求回归方程的关键:如何用数学的方法来刻画用数学的方法来刻画“从整体上看,各点与直线的距离最小从整体上看,各点与直线的距离最小”。 如果散点图中点的分布如果散点图中点的分布从从整体整体上看上看大致在一大致在一条直线附近,我们就称这两个变量之间具有条直线附
20、近,我们就称这两个变量之间具有线性线性相关关系相关关系,这条直线就叫做,这条直线就叫做回归直线回归直线。思考思考6 6:对一组具有线性相关关系的样本数据:对一组具有线性相关关系的样本数据:(x(x1 1,y y1 1) ),(x(x2 2,y y2 2) ),(x(xn n,y yn n) ),设其回归,设其回归方程为方程为 可以用哪些数量关系来刻画各可以用哪些数量关系来刻画各样本点与回归直线的样本点与回归直线的接近程度接近程度? 36回归直线回归直线 实际上实际上,求回归直线的关键是如何用数学的方求回归直线的关键是如何用数学的方法来刻画法来刻画“从整体上看从整体上看,各点到此直线的距离最各点
21、到此直线的距离最小小”.3738人们经过长期的实践与研究,已经找到了人们经过长期的实践与研究,已经找到了计算回归方程的斜率与截距的一般公式计算回归方程的斜率与截距的一般公式:xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(1221121y=ax+b39xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(1221121y=ax+b原理原理:各点到该直线的距离的平方和最小:各点到该直线的距离的平方和最小这一方法叫这一方法叫最小二乘法最小二乘法回归直线回归直线特点特点:经过样本中心点:经过样本中心点),(yx40利用利用计算器计算器或计算机或计算机
22、可求得年龄和人体脂可求得年龄和人体脂肪含量的样本数据的回归方程为肪含量的样本数据的回归方程为 ,由此我们可以根据,由此我们可以根据一个人年龄预测其体内脂肪含量的百分比一个人年龄预测其体内脂肪含量的百分比的的回归值回归值. .若某人若某人6565岁,则其体内脂肪含量岁,则其体内脂肪含量的百分比的百分比约约为多少?为多少?0. 5770. 448yx=- 37.1(0.57765-0.448= 37.1)41若某人若某人6565岁,可预测他体内脂肪含量在岁,可预测他体内脂肪含量在37.137.1附近的可能性比较大。附近的可能性比较大。能说他体内脂肪含量一定是能说他体内脂肪含量一定是37.137.1
23、吗?吗?不能不能原因原因:线性回归方程中的截距和斜率都是通过样:线性回归方程中的截距和斜率都是通过样本本计算的计算的,存在随机误差,这种误差可以导致预,存在随机误差,这种误差可以导致预测结果的偏差,即使截距斜率没有误差,也不可测结果的偏差,即使截距斜率没有误差,也不可能百分百地保证对应于能百分百地保证对应于x x,预报值,预报值Y Y能等于实际值能等于实际值y y42例例1:观察两相关变量得如下表:观察两相关变量得如下表:x -1 -2 -3 -4 -5 53421y -9 -7 -5 -3 -1 15379求两变量间的回归方程求两变量间的回归方程xbyaxnxyxnxxxyyxxbniini
24、iiniiniiiy,)()(1221121解:设回归方程为y=bx+a43小结:求线性回归直线方程的步骤小结:求线性回归直线方程的步骤第一步:列表第一步:列表 ;第二步:计算第二步:计算 ;第三步:代入公式计算第三步:代入公式计算b,a的值;的值;第四步:写出直线方程。第四步:写出直线方程。yxyxiiii,yxxiniiniiyx112,44用用Excel求线性回归方程,步骤如下求线性回归方程,步骤如下:(1)进入)进入Excel作出散点图。作出散点图。(2)点击)点击“图表图表”中的中的“添加趋势线添加趋势线”,单击单击“类型类型”中的中的“线性线性”,单击单击“确定确定”,得到回归方程
25、。,得到回归方程。(选择数据,“插入”散点图,做好散点图后,点击图中任何一个点将选中图中散点,右键单击弹出快捷菜单,选择“添加趋势线”即可。) (3)双击回归直线,弹出)双击回归直线,弹出“趋势线格式趋势线格式”,单击单击“选选项项”,选定,选定“显示公式显示公式”,最后,最后单击单击“确定确定”。45A462、有关线性回归的说法,不正确的是、有关线性回归的说法,不正确的是( ) A. 相关关系的两个变量不是因果关系相关关系的两个变量不是因果关系B. 散点图能直观地反映数据的相关程度散点图能直观地反映数据的相关程度C. 回归直线最能代表线性相关的两个变回归直线最能代表线性相关的两个变量之间的关
26、系量之间的关系D. 任一组数据都有线性回归方程任一组数据都有线性回归方程D47(3)设有一个直线回归方程为)设有一个直线回归方程为 ,则则变量变量x 增增 加一个单位时加一个单位时( ) A. y 平均增加平均增加 1.5 个单位个单位 B. y 平均增加平均增加 2 个单位个单位 C. y 平均减少平均减少 1.5 个单位个单位 D. y 平均减少平均减少 2 个单位个单位xy5 . 12CA.5.75 1.75yxB.1.755.75yxC.1.755.75yxD.5.75 1.75yx(4)三点)三点(3,10),(7,20),(11,24)的线性回归方程是的线性回归方程是 ( )D48x1234y1/23/223(5)已知变量)已知变量x和变量和变量y有下列对应数据有下列对应数据则则y对对x的回归直线方程为什么?的回归直线方程为什么?49