1、2.3 变量间的相关关系2.3.1 变量之间的相关关系2.3.2 两个变量的线性相关1.1.理解两个变量的相关关系的概念理解两个变量的相关关系的概念.(重点)重点)2.2.会作散点图,并利用散点图判断线性相关关系会作散点图,并利用散点图判断线性相关关系.(难点)(难点)3.3.了解最小二乘法的思想及回归方程系数公式的推导了解最小二乘法的思想及回归方程系数公式的推导.4.4.通过实例加强回归直线方程含义的理解,能够对实际问题进行分析和预测通过实例加强回归直线方程含义的理解,能够对实际问题进行分析和预测.城门失火殃及池鱼城门失火殃及池鱼 世界是一个普遍联系的整体,任何事物都与其他事物相联系世界是一
2、个普遍联系的整体,任何事物都与其他事物相联系.我们曾经研究过两个变量之间的函数关系:一个自变量对应着惟一的一我们曾经研究过两个变量之间的函数关系:一个自变量对应着惟一的一个函数值,这两者之间是一种确定关系个函数值,这两者之间是一种确定关系.生活中的任何两个变量之间是不是生活中的任何两个变量之间是不是只有确定关系呢?请同学们举例说明只有确定关系呢?请同学们举例说明.数学学习与物理学习数学学习与物理学习商业销售收入与广告之间商业销售收入与广告之间粮食产量与施肥量之间粮食产量与施肥量之间人体脂肪含量与年龄之间人体脂肪含量与年龄之间生活中相关成语:生活中相关成语:“名师出高徒名师出高徒”,“瑞雪兆丰年
3、瑞雪兆丰年”“强将手下无弱兵强将手下无弱兵”“”“虎父无犬子虎父无犬子”当自变量一定时当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系称为相关关系.例例:(:(1 1)商品销售收入与广告支出经费之间的关系)商品销售收入与广告支出经费之间的关系;(2 2)粮食产量与施肥量之间的关系)粮食产量与施肥量之间的关系;(3 3)人体内脂肪含量与年龄之间的关系)人体内脂肪含量与年龄之间的关系.变量之间的相关关系变量之间的相关关系相关关系是一种非确相关关系是一种非确定关系定关系 在学校,老师经常对学生这样说:在学校,老师经常对学生这
4、样说:“如果你的数学成绩好,如果你的数学成绩好,那么你的物理学习就不会有什么大问题。那么你的物理学习就不会有什么大问题。”按照这种说法,按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系。似乎学生的物理成绩与数学成绩之间存在着一种相关关系。这种说法有没有依据呢?这种说法有没有依据呢?思考思考 凭我们的学习经验可知,物理成绩确实与数学成绩有一凭我们的学习经验可知,物理成绩确实与数学成绩有一定的关系,但除此以外,还存在其他影响物理成绩的因素。定的关系,但除此以外,还存在其他影响物理成绩的因素。例如,是否喜欢物理,用在物理学习上的时间等等。当我们例如,是否喜欢物理,用在物理学习上的时间
5、等等。当我们主要考虑数学成绩对物理成绩的影响时,就是主要考虑这两主要考虑数学成绩对物理成绩的影响时,就是主要考虑这两者之间的相关关系。者之间的相关关系。1商品销售收入与广告支出经费之间的关系。商品销售收入与广告支出经费之间的关系。商品销售收入与广告支出经费之间有着密切的联系,但商品收入不仅商品销售收入与广告支出经费之间有着密切的联系,但商品收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关。与广告支出多少有关,还与商品质量、居民收入等因素有关。我们还可以举出现实生活中存在的许多相关关系的问题。例我们还可以举出现实生活中存在的许多相关关系的问题。例如:如:在一定范围内,施肥量越大,粮食
6、产量就越高。但是,施肥量在一定范围内,施肥量越大,粮食产量就越高。但是,施肥量并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素的影响。质量、降雨量、田间管理水平等因素的影响。2粮食产量与施肥量之间的关系。粮食产量与施肥量之间的关系。在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关。可能还与个人的先天体质有关。3人体内脂肪
7、含量与年龄之间的关系。人体内脂肪含量与年龄之间的关系。应当说,对于上述各种问题中的两个变量之间的相关关系,应当说,对于上述各种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学习经验作出相应的判断,因为我们都可以根据自己的生活、学习经验作出相应的判断,因为“经验当中有规律经验当中有规律”。但是,不管你经验多么丰富如果只凭经验。但是,不管你经验多么丰富如果只凭经验办事,还是很容易出错的。因此,在分析两个变量之间的关系时,办事,还是很容易出错的。因此,在分析两个变量之间的关系时,我们还需要有一些有说服力的方法。我们还需要有一些有说服力的方法。自变量取值一定时自变量取值一定时,因变量的取因
8、变量的取值带有一定随机性的两个变量之间的关系值带有一定随机性的两个变量之间的关系,叫做相关关系叫做相关关系.变量间相关关系的概念变量间相关关系的概念:相同点相同点:两者均是指两个变量间的关系两者均是指两个变量间的关系.不同点不同点:函数关系是一种函数关系是一种确定确定的关系的关系;相关关系是一种相关关系是一种非确定非确定的关系的关系.事实上事实上,函数关系是两个非随机变量的关函数关系是两个非随机变量的关系系,而相关关系是随机变量与随机变量间的关系而相关关系是随机变量与随机变量间的关系.函数关系是一种因果关系函数关系是一种因果关系,而相关关系不一定是因果关而相关关系不一定是因果关系系,也可能是伴
9、随关系也可能是伴随关系.相关关系与函数关系的异同点相关关系与函数关系的异同点:请同学们回忆一下请同学们回忆一下,我们以前是否学过变量间的关系呢我们以前是否学过变量间的关系呢?两个变量间的函数关系两个变量间的函数关系.1.下列关系中下列关系中,是带有随机性相关关系的是是带有随机性相关关系的是 .正方形的边长与面积的关系正方形的边长与面积的关系;水稻产量与施肥量之间的关系水稻产量与施肥量之间的关系;人的身高与年龄之人的身高与年龄之间的关系间的关系;降雪量与交通事故发生之间的关系降雪量与交通事故发生之间的关系.2.下列两个变量之间的关系哪个不是函数关系()下列两个变量之间的关系哪个不是函数关系()A
10、角度和它的余弦值角度和它的余弦值B.正方形边长和面积正方形边长和面积C正边形的边数和它的内角和正边形的边数和它的内角和 D.人的年龄和身高人的年龄和身高D即学即用即学即用1.1.下列说法中正确的是下列说法中正确的是()()(A)(A)任何两个变量都具有相关关系任何两个变量都具有相关关系(B)(B)球的体积和球的半径具有相关关系球的体积和球的半径具有相关关系(C)(C)农作物的产量和施肥量之间是一种确定关系农作物的产量和施肥量之间是一种确定关系(D)(D)某商品的产量和该商品的价格之间是一种非确定关系某商品的产量和该商品的价格之间是一种非确定关系解:解:选选D.AD.A的说法是错误的;球的体积和
11、球的半径具有函数关系,故的说法是错误的;球的体积和球的半径具有函数关系,故B B错错误误;C;C中农作物的产量和施肥量之间是一种相关关系,故中农作物的产量和施肥量之间是一种相关关系,故C C错误错误;D;D是正确的是正确的.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.以以x x轴表示年龄,轴表示年龄,y y轴表示脂肪含量,你能在直角坐标系中描出样本数据对应的图形吗?轴表示脂肪含量,你能在
12、直角坐标系中描出样本数据对应的图形吗?年龄年龄2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2年龄年龄5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为散点图称为散点图.这些点散布在从左下角到右上角的区域,对于两个变量的这
13、种相关关系,这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关我们将它称为正相关.例例1 1 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:画出数据对应的散点图,并指出销售价格与房屋面积这两个变量是正相关还画出数据对应的散点图,并指出销售价格与房屋面积这两个变量是正相关还是负相关是负相关.房屋面积(平房屋面积(平方米)方米)616170701151151101108080135135105105销售价格销售价格(万元)(万元)12.212.215.315.324.824.821.621.618.418
14、.429.229.2222205101520253035020406080100120140面积售价/平方米售价/万元正相关正相关解:解:由散点图支持了我们从数据表中得出如下结论:由散点图支持了我们从数据表中得出如下结论:a.如果所有的样本点都落在如果所有的样本点都落在某一函数曲线上某一函数曲线上,就用,就用 该函数来描述变该函数来描述变量之间的关系。量之间的关系。b.如果所有的样本点都落在某一如果所有的样本点都落在某一函数曲线附近函数曲线附近,变量之间就有相关关,变量之间就有相关关系。系。c.如果所有的样本点都落在某一如果所有的样本点都落在某一直线附近直线附近,变量之间就有线性相关关,变量之
15、间就有线性相关关系。系。从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成从左下角到右上角的区域。称它们成正相关正相关。但有的两个变量的相关,如但有的两个变量的相关,如下图所示:下图所示:如高原含氧量与海拔高度的相关关如高原含氧量与海拔高度的相关关系,海平面以上,海拔高度越高,含氧系,海平面以上,海拔高度越高,含氧量越少。量越少。作出散点图发现,它们散布在从左作出散点图发现,它们散布在从左上角到右下角的区域内。又如汽车的载上角到右下角的区域内。又如汽车的载重和汽车每消耗重和汽车每消耗1升汽
16、油所行使的平均升汽油所行使的平均路程,称它们成路程,称它们成负相关负相关.O正、负相关、线性相关正、负相关、线性相关 概念探究请同学们观察这请同学们观察这4幅图,看有什么特点?幅图,看有什么特点?图1图 1010203040506070809010040506070809011000.20.40.60.811.2-0.200.20.40.60.811.22图图3图 4 正相关正相关:从散点图1可以看出因变量随自变量的增大而增大,图中的点分布在左下角到右上角的区域 负相关负相关:从散点图2可以看出因变量随自变量的增大而减小则称作负相关,负相关的散点图中的点分布在左上角到右下角的区域.无相关性无相
17、关性:从散点图3、4可以看出因变量与自变量不具备相关性小结小结:两个变量间的相关关系,可以借助散点图直观判断 年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?这些点大致分布在一条直线附近这些点大致分布在一条直线附近.051015202530354020253035404550556065年龄脂肪含量回归直线回归直线我们再观察它的图象发现这些点大致分布在一条直线附近我们再观察它的图象发现这些点大致分布在一条直线附近,像这样,如果散像这样,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间点图中点的分布从
18、整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系具有线性相关关系,这条直线叫做这条直线叫做回归直线,回归直线,该直线所对应的方程叫做回归该直线所对应的方程叫做回归方程方程.那么,我们该怎样求出这个回归方程呢?那么,我们该怎样求出这个回归方程呢?请同学们展开讨论,能得出哪些具体的方案?请同学们展开讨论,能得出哪些具体的方案?202530354045 50 5560 65年龄脂肪含量0510152025303540方案方案1 1先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小的位置时,测出它的斜率
19、和截距,得到回归方程距离的和最小的位置时,测出它的斜率和截距,得到回归方程.如图:如图:20253035404550556065年龄脂肪含量0510152025303540方案方案2 2在图中选两点作直线,使直线两侧的点的个数基本相同在图中选两点作直线,使直线两侧的点的个数基本相同.20253035404550556065年龄脂肪含量0510152025303540方案方案3 3如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距而得到回归方程作为回归直线的斜率和截距而得到回归方程.如图如图:回
20、归直线回归直线 实际上实际上,求回归直线的关键是如何用数学的方法来刻画求回归直线的关键是如何用数学的方法来刻画“从整从整体上看体上看,各点到此直线的距离小各点到此直线的距离小”。人们经过实践与研究,已经找到了计算回归方程的斜率与截距的一人们经过实践与研究,已经找到了计算回归方程的斜率与截距的一般公式般公式:以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫到该直线的距离的平方和最小,这一方法叫最小二乘法最小二乘法xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(
21、12211211211221()()()niiiniiniiiniixxyybxxxyn xyxn xayb x ybxa例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:统计,得到一个卖出的热饮杯数与当天气温的对比表:摄氏温度摄氏温度 -5 0 4 7 12 15 19 23 27 31 36热饮杯数热饮杯数 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;画出散点图;(2)从散点图中发现气温与热饮销售杯数之间关
22、系的一从散点图中发现气温与热饮销售杯数之间关系的一 般规律;般规律;(3)求回归方程;求回归方程;(4)如果某天的气温是如果某天的气温是2,预测这天卖出的热饮杯数预测这天卖出的热饮杯数.三、例题示范,精讲点拨三、例题示范,精讲点拨解解:(1)散点图散点图(2)气温与热饮杯数成负相关气温与热饮杯数成负相关,即气温越高,即气温越高,卖出去的卖出去的热饮杯数越少。热饮杯数越少。温度温度热饮杯数热饮杯数 列表y=-2.352x+147.767(4)当)当x=2时,时,y=143.063,因此,这天大约可以卖出因此,这天大约可以卖出143杯热饮。杯热饮。(3)=-2.352=143.767niiniii
23、xnxyxnxby1221xbya小结:求线性回归直线方程的步骤:小结:求线性回归直线方程的步骤:第一步:列表第一步:列表 ;第二步:计算第二步:计算 ;第三步:代入公式计算第三步:代入公式计算b,a的值;的值;第四步:写出直线方程,求解并预测实际第四步:写出直线方程,求解并预测实际 生活问题。生活问题。yxyxiiii,yxxiniiniiyx112,一组样本数据的平均数是样本数据的中心,那么散点图中样本点的中心如一组样本数据的平均数是样本数据的中心,那么散点图中样本点的中心如何确定?何确定?051015202530354020253035404550556065年龄脂肪含量(,)x y例例
24、2 2 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的饮料杯数与当天气温的对比表:经过统计,得到一个卖出的饮料杯数与当天气温的对比表:(1 1)画出散点图;)画出散点图;(2 2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;)从散点图中发现气温与热饮销售杯数之间关系的一般规律;(3 3)求回归方程;)求回归方程;(4 4)如果某天的气温是)如果某天的气温是2 2,预测这天卖出的热饮杯数,预测这天卖出的热饮杯数./130130128128132132150150156156热饮杯数热饮杯数1
25、2127 74 40 0-5 5摄氏温度摄氏温度13013012812813213215015015615612127 74 40 0-5 554547676939389891041041161163636313127272323191915155454767693938989104104116116363631312727232319191515020406080100120140160180-10010203040y=-2.3517x+147.767温度热饮杯数解解:(1 1)散点图如下:散点图如下:/(2 2)从散点图看到,各点散布在从左上角到右下角的)从散点图看到,各点散布在从左上角到
26、右下角的区域里,因此,气温与热饮销售杯数之间成负相关,即区域里,因此,气温与热饮销售杯数之间成负相关,即气温越高,卖出去的热饮杯数越少气温越高,卖出去的热饮杯数越少.(3)(3)从散点图可以看出,这些点大致分布在一条直线的附从散点图可以看出,这些点大致分布在一条直线的附近,因此利用公式求出回归方程的系数近,因此利用公式求出回归方程的系数.得回归方程得回归方程.=-2.352x+147.767 =-2.352x+147.767(4 4)当)当x=2x=2时,时,=143.063.=143.063.因此,某天的气温为因此,某天的气温为2 2 时,这天大约可以卖出时,这天大约可以卖出143143杯热
27、饮杯热饮.yyy2.2.已知回归直线的斜率的估计值是已知回归直线的斜率的估计值是1.23,1.23,样本点的中心样本点的中心为为(4,5)(4,5),则回归直线的方程是,则回归直线的方程是()()(A)=1.23x+4 (B)=1.23x+5(A)=1.23x+4 (B)=1.23x+5(C)=1.23x+0.08 (D)=0.08x+1.23(C)=1.23x+0.08 (D)=0.08x+1.23解:解:当当x=4x=4时时,y=1.23,y=1.234+0.08=5,4+0.08=5,故选故选C.C.yC Cyyy3.3.已知已知x,yx,y的取值如下表所示:的取值如下表所示:如果如果y
28、 y与与x x线性相关,且线性回归方程为线性相关,且线性回归方程为 ,则则 =()=()(A)(B)(C)(D)(A)(B)(C)(D)解:解:又又 ,7 ybx2b12121101 11 10 0234546x3,y5,337 a27153b,b.22B B【思路点拨思路点拨】本题可先利用公式求出回归直线方程,再求广告费用为本题可先利用公式求出回归直线方程,再求广告费用为6 6万元万元时的销售额时的销售额.5 5为分析初中升学的数学成绩对高一学生学习情况的影响,为分析初中升学的数学成绩对高一学生学习情况的影响,在高一年级学生中随机抽取了在高一年级学生中随机抽取了1010名学生,他们的入学成绩
29、与名学生,他们的入学成绩与期末考试成绩如下表:期末考试成绩如下表:(1)(1)若变量之间具有线性相关关系,求出回归直线的方程;若变量之间具有线性相关关系,求出回归直线的方程;(2)(2)若某学生的入学成绩为若某学生的入学成绩为8080分,试估计他的期末成绩分,试估计他的期末成绩学生编号学生编号1 12 23 34 45 56 67 78 89 91010入学成绩入学成绩x x6363676745458888818171715252999958587676期末成绩期末成绩y y65657878525282829292898973739898565675751(657852829289739856
30、75)7610y 12210.765 56niiiniix yn x ybxn x22.410 8ayb x1.1.在研究两个变量之间是否存在某种关系时,必须从散点图入手,对于散在研究两个变量之间是否存在某种关系时,必须从散点图入手,对于散点图,可以作如下判断:点图,可以作如下判断:(1 1)如果所有的样本点都落在某一函数曲线上,变量之间就是函数关系;)如果所有的样本点都落在某一函数曲线上,变量之间就是函数关系;(2 2)如果所有的样本点都落在某一函数曲线的附近,变量之间就有相关关)如果所有的样本点都落在某一函数曲线的附近,变量之间就有相关关系;系;(3 3)如果所有的样本点都落在某一直线的附
31、近,变量之间就有线性相关关)如果所有的样本点都落在某一直线的附近,变量之间就有线性相关关系;系;(4 4)如果散点图中的点的分布几乎没有什么规则,则这两个变量之间不具)如果散点图中的点的分布几乎没有什么规则,则这两个变量之间不具有相关关系,即两个变量之间是相互独立的有相关关系,即两个变量之间是相互独立的.2.2.对于任意一组样本数据,利用上述公式都可以求得对于任意一组样本数据,利用上述公式都可以求得“回归方程回归方程”,如果这,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程回归方程”是没有实际意义的是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归直线方程关系的前提下再求回归直线方程.3.3.求样本数据的线性回归方程,可按下列步骤进行:求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数第一步,计算平均数 ,;第二步,求和第二步,求和 ,;第三步,计算第三步,计算 第四步,写出回归方程第四步,写出回归方程.xy1niiix y21niix1122211()(),;()nniiiiiinniiiixxyyx ynx ybaybxxxxnx追赶时间的人,生活就会宠爱他;放弃时间的人,生活就会冷落他.