1、必修三第二章第三节必修三第二章第三节变量间的相关关系变量间的相关关系1.学习目标学习目标: : 1、知识与技能:、知识与技能:利用散点图判断线性相关关系,了解最小二乘法的思想及回归方程系利用散点图判断线性相关关系,了解最小二乘法的思想及回归方程系 数公式的推导过程,通过实例加强回归直线方程含义的理解,能够对实数公式的推导过程,通过实例加强回归直线方程含义的理解,能够对实际问题进行分析和预测。际问题进行分析和预测。2、过程与方法:、过程与方法:通过自主探究体会数形结合、类比、及最小二乘法的数学思想方法。通过自主探究体会数形结合、类比、及最小二乘法的数学思想方法。 通过动手操作培养学生观察、分析、
2、比较和归纳能力,引出利用计通过动手操作培养学生观察、分析、比较和归纳能力,引出利用计算机等现代化教学工具的必要性。算机等现代化教学工具的必要性。3、情感、态度与价值观:、情感、态度与价值观:类比函数的表示方法,使学生理解变量间的相关关系,增强应用回归直类比函数的表示方法,使学生理解变量间的相关关系,增强应用回归直线方程对实际问题进行分析和预测的意识线方程对实际问题进行分析和预测的意识,让学生动手操作,合作交流让学生动手操作,合作交流,激激发学生的学习兴趣。发学生的学习兴趣。 2.一、创设情境一、创设情境 导入新课导入新课 :世界是一个普遍联系的整世界是一个普遍联系的整 体,任何事体,任何事物都
3、与其它事物相联系。物都与其它事物相联系。生活中相关成语:生活中相关成语:“名师出高徒名师出高徒” , “瑞雪兆丰年瑞雪兆丰年” “强将手下无弱兵强将手下无弱兵” “虎父无犬子虎父无犬子” 我们曾经研究过两个变量之间的函数关系:我们曾经研究过两个变量之间的函数关系:一个自变量对应着唯一的一个函数值,这两一个自变量对应着唯一的一个函数值,这两者之间是一种确定关系。生活中的任何两个者之间是一种确定关系。生活中的任何两个变量之间是不是只有确定关系呢?请同学们变量之间是不是只有确定关系呢?请同学们举例说明举例说明3. 1商品销售收入与广告支出经费之间的关系。商品销售收入与广告支出经费之间的关系。商品销售
4、收入与广告支出经费之间有着密切的联系,商品销售收入与广告支出经费之间有着密切的联系,但商品收入不仅与广告支出多少有关,还与商品质但商品收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关。量、居民收入等因素有关。 我们可以举出现实生活中存在的许多相关关我们可以举出现实生活中存在的许多相关关系的问题。例如:系的问题。例如:4. 在一定范围内,施肥量越大,粮食产量就越高。在一定范围内,施肥量越大,粮食产量就越高。但是,施肥量并不是决定粮食产量的唯一因素,但是,施肥量并不是决定粮食产量的唯一因素,因为粮食产量还要受到土壤质量、降雨量、田因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素
5、的影响。间管理水平等因素的影响。2粮食产量与施肥量之间的关系。粮食产量与施肥量之间的关系。5. 在一定年龄段内,随着年龄的增长,人体内在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关。人的先天体质有关。3人体内脂肪含量与年龄之间的关系。人体内脂肪含量与年龄之间的关系。6. 应当说,对于上述各种问题中的两个变量之应当说,对于上述各种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学间的相关关系,我们都可以根据自己的生活、学习经验作
6、出相应的判断,因为习经验作出相应的判断,因为“经验当中有规经验当中有规律律”。但是,不管你经验多么丰富如果只凭经验。但是,不管你经验多么丰富如果只凭经验办事,还是很容易出错的。因此,在分析两个变办事,还是很容易出错的。因此,在分析两个变量之间的关系时,我们还需要有一些有说服力的量之间的关系时,我们还需要有一些有说服力的方法。方法。7.变量间相关关系的概念变量间相关关系的概念:自变量取值一定时自变量取值一定时,因变量的取值带有一定随因变量的取值带有一定随机性的两个变量之间的关系机性的两个变量之间的关系,叫做相关关系叫做相关关系请同学们回忆一下请同学们回忆一下, ,我们以前是否学过变量间的关系呢我
7、们以前是否学过变量间的关系呢? ?两个变量间的函数关系两个变量间的函数关系.相关关系与函数关系的异同点相关关系与函数关系的异同点:相同点相同点:两者均是指两个变量间的关系两者均是指两个变量间的关系.不同点不同点:函数关系是一种函数关系是一种确定确定的关系的关系;相关关系是一种相关关系是一种非确定非确定的关系的关系.事实上事实上,函数关系是两个非随机变量的关函数关系是两个非随机变量的关系系,而相关关系是随机变量与随机变量间的关系而相关关系是随机变量与随机变量间的关系.函数关系是一种因果关系函数关系是一种因果关系,而相关关系不一定是因果而相关关系不一定是因果关系关系,也可能是伴随关系也可能是伴随关
8、系.8.二、合作探索,直观感知 问题探究问题探究: 在一次对人体年龄关系的研究中在一次对人体年龄关系的研究中,研究人员获得了一研究人员获得了一组样本数据组样本数据: 根据数据根据数据,人体的脂肪含量与年龄之间人体的脂肪含量与年龄之间有怎样的关系?有怎样的关系?(同学们交流同学们交流) 年龄 23273941454950脂肪 9.517.8 21.2 25.9 27.5 26.3 28.2年龄 53545657586061脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.69. 从上表发现,对某个人不一定有此规从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现
9、出律,但对很多个体放在一起,就体现出 “人体脂肪随年龄增长而增加人体脂肪随年龄增长而增加”这一规律这一规律。而表中各年龄对应的脂肪数是这个年龄。而表中各年龄对应的脂肪数是这个年龄人群的样本平均数。我们也可以对它们作人群的样本平均数。我们也可以对它们作统计图、表,对这两个变量有一个直观上统计图、表,对这两个变量有一个直观上的印象和判断。的印象和判断。 10.下面我们以年龄为横轴,脂肪含量为纵轴,建下面我们以年龄为横轴,脂肪含量为纵轴,建立直角坐标系,作出各个点,称该图为立直角坐标系,作出各个点,称该图为散点图散点图图表11.散点图:散点图: 两个变量的两个变量的散点图散点图中点的分布的位置是从左
10、中点的分布的位置是从左下角到右上角的区域,即一个变量值由小变大,下角到右上角的区域,即一个变量值由小变大,另一个变量值也由小变大,我们称这种相关关系另一个变量值也由小变大,我们称这种相关关系为为正相关正相关。人体脂肪含量百分比与年龄散点图010203040010203040506070年龄脂肪含量12.思考:两个变量成负相关关系时,散点图有什思考:两个变量成负相关关系时,散点图有什么特点?么特点? 两个变量的散点图中点的分布的位置是两个变量的散点图中点的分布的位置是从左上角到右下角的区域,即一个变量值由小从左上角到右下角的区域,即一个变量值由小变大,而另一个变量值由大变小,我们称这种变大,而另
11、一个变量值由大变小,我们称这种相关关系为负相关。相关关系为负相关。如某小卖部如某小卖部6天天卖出热茶的杯卖出热茶的杯数与当天气温数与当天气温的关系的关系温度温度杯杯数数13.问题:观察下面这两幅图,看有什么特点?问题:观察下面这两幅图,看有什么特点?020406080100120020406080100人体脂肪含量百分比与年龄散点图010203040010203040506070年龄脂肪含量图(图(1)图(图(2)14.020406080100120020406080100图(图(1)两个变量散点图呈下图,它们之间是)两个变量散点图呈下图,它们之间是否具有相关关系?否具有相关关系?无相关性:从
12、散点无相关性:从散点图可以看出因变量图可以看出因变量与自变量不具备相与自变量不具备相关性关性15. 正相关正相关 :因变量随自变量的增大而增大,图中的点分布在左下角到右上角的区域 负相关负相关 :因变量随自变量的增大而减小,图中的点分布在左上角到右下角的区域. 无相关性无相关性:因变量与自变量不具备相关性小结小结:两个变量间的相关关系,可以借助散点图直观判断16.思考:思考:在各种各样的散点图中,有些散点图在各种各样的散点图中,有些散点图中的点是杂乱分布的,有些散点图中的点的中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量分布有一定的规律性,年龄和人体脂肪含量的样本
13、数据的散点图中的点的分布有什么特的样本数据的散点图中的点的分布有什么特点?点? 这些点大致分布在一条直线附近这些点大致分布在一条直线附近. .17.人体脂肪含量百分比与年龄散点图02040020406080年龄脂肪含量散散点点图图回归直线:如果散点图中点的分布回归直线:如果散点图中点的分布从从整体整体上看上看大致在大致在一条直线附近,我们就称这两个变量之间具有一条直线附近,我们就称这两个变量之间具有线性相线性相关关系关关系,这条直线就叫做,这条直线就叫做回归直线。回归直线。 这条回归直线的方程,简称为回归方程。这条回归直线的方程,简称为回归方程。18.思考:思考:对一组具有线性相关关系的样本对
14、一组具有线性相关关系的样本数据,你认为其回归直线是一条还是几数据,你认为其回归直线是一条还是几条?条?19.思考:思考:在样本数据的散点图中,能否用在样本数据的散点图中,能否用直尺准确画出回归直线?借助计算机怎直尺准确画出回归直线?借助计算机怎样画出回归直线?样画出回归直线?20.方案一:采用测量的方法:先画一条直线,测方案一:采用测量的方法:先画一条直线,测量出各点到它的距离,然后移动直线,到达一量出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程。斜率和截距,就得到回归方程。脂肪010203040
15、020406080脂肪21.方案二、在图中选取两点画直线,使得直线两方案二、在图中选取两点画直线,使得直线两侧的点的个数基本相同。侧的点的个数基本相同。脂肪010203040020406080脂肪22.方案三、在散点图中多取几组点,确定几条直方案三、在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的线的方程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率平均数,将这两个平均数作为回归方程的斜率和截距。和截距。脂肪010203040020406080脂肪23.模型一:模型一: 最小最小模型二:模型二: 最小最小模型三:模型三: 最小最小1()niii
16、yy1|niiiyy21()niiiyy比较前面三个模型,哪个模型比较可行?比较前面三个模型,哪个模型比较可行?24.回归直线回归直线 实际上实际上,求回归直线的关键是如何用数学的方法来刻画求回归直线的关键是如何用数学的方法来刻画“从整体上看从整体上看,各点到此直线的距离小各点到此直线的距离小”。25.设已经得到具有线性相关关系的变量的一组数据:设已经得到具有线性相关关系的变量的一组数据: (x1,y1),(),(x2,y2),),(,(xn,yn)设所求的回归直线方程为设所求的回归直线方程为Y=bx+a,其中其中a,b是待定的系数。当变是待定的系数。当变量量x取取x1,x2,xn时,可以得到
17、时,可以得到 Yi=bxi+a(i=1,2,n)它与实际收集得到的它与实际收集得到的yi之间偏差是之间偏差是 yi-Yi=yi-(bxi+a)(i=1,2,n)(x1,y1)(x2,y2)(xi ,yi )yi-Yiy x这样,用这这样,用这n个偏差的和来刻画个偏差的和来刻画“各各点与此直线的整体偏差点与此直线的整体偏差”是比较合适是比较合适的。的。26.(yi-Yi)的最小值的最小值ni=1|yi-Yi|的最小值的最小值ni=1(yi-Yi)2的最小值的最小值ni=1Q=(y1-bx1-a) 2+(y2-bx2-a) 2+(yn-bxn-a) 2当当a,b取什么值时,取什么值时,Q的值最小,
18、即总体偏差最小的值最小,即总体偏差最小1221,niiiniixyn x ybxn xayb x(xi-x)()(yi-y)ni=1b=(xi-x)ni=1a=y-bx 27.人们经过实践与研究,找到了计算回归方程的斜率与截距的一般公式人们经过实践与研究,找到了计算回归方程的斜率与截距的一般公式: 以上公式的推导较复杂,故不作推导,但它的原理以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一较为简单:即各点到该直线的距离的平方和最小,这一方法叫方法叫最小二乘法最小二乘法xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(1221
19、12128.我们可以用计算机来求我们可以用计算机来求回归方程回归方程。回归方程y = 0.5765x - 0.4478010203040020406080 人体脂肪含量与年龄之间的规律,由此人体脂肪含量与年龄之间的规律,由此回归直线来反映。回归直线来反映。计算机演示29. 将年龄作为将年龄作为x代入上述回归方程,看看得代入上述回归方程,看看得出数值与真实值之间有何关系?出数值与真实值之间有何关系?年龄年龄23273941454950脂肪脂肪9.517.821.225.927.526.328.2回归值回归值12.815.122.023.225.527.828.4年龄年龄5354565758606
20、1脂肪脂肪29.630.231.430.833.535.234.6回归值回归值30.130.731.832.433.034.134.730. 若某人若某人65岁,可预测他体内脂肪含量在岁,可预测他体内脂肪含量在37.1(0.577 65-0.448= 37.1)附近的可能)附近的可能性比较大。但不能说他体内脂肪含量一定是性比较大。但不能说他体内脂肪含量一定是37.1。回归方程y = 0.5765x - 0.447801020304002040608031.思考1.线性回归方程 为何不记为 ?你能说明对于确定的 ,根据计算出的 的 意义吗? ybxaybxaxybxay 只是的一个估计值y思考2
21、.这个公式不要求记忆,但要会运用这个公式进行运算,那么要求的 值,你会按怎样的顺序求呢?可以按照 、 、 、 、 、 顺序来求,再代入公式iix ynxy1niiix y21niix, b a32.小结小结1.1.求样本数据的线性回归方程,可按下列步骤进行:求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数第一步,计算平均数 , 第二步,求和第二步,求和 第三步,计算第三步,计算 第四步,写出回归方程第四步,写出回归方程 求解并预测实际求解并预测实际 生活问题。生活问题。 yxxiniinii112,yx ,xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()
22、(122112133. 2. 2.回归方程被样本数据惟一确定,各样本点大致分回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近布在回归直线附近. .对同一个总体,不同的样本数据对对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性应不同的回归直线,所以回归直线也具有随机性. . 3. 3.对于任意一组样本数据,利用上述公式都可求得对于任意一组样本数据,利用上述公式都可求得“回归方程回归方程”,如果这组数据不具有线性相关关系,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的即不存在回归直线,那么所得的“回归方程回归方程”是没有是没有实际意义的实际意义的.
23、.因此,对一组样本数据,应先作散点图,因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程在具有线性相关关系的前提下再求回归方程. .34.例:有一个同学家开了一个小卖部,他为了研究气温对例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:与当天气温的对比表:摄氏温度摄氏温度 -5 0 4 7 12 15 19 23 27 31 36热饮杯数热饮杯数 156 150 132 128 130 116 104 89 93 76 54 (1)画出散点图;画出散点图;(
24、2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;从散点图中发现气温与热饮销售杯数之间关系的一般规律;(3)求回归方程;求回归方程;(4)如果某天的气温是如果某天的气温是2,预测这天卖出的热饮杯数预测这天卖出的热饮杯数.三、例题示范,精讲点拨三、例题示范,精讲点拨35.解解: (1)散点图散点图(2)气温与热饮杯数成负相关气温与热饮杯数成负相关,即气温越高,即气温越高, 卖出去的热饮杯数越少。卖出去的热饮杯数越少。温温度度热饮杯数热饮杯数36.v列表37.y=-2.352x+147.767(4)当)当x=2时,时,y=143.063,因此,这天大因此,这天大约可以卖出约可以卖出143杯热饮。杯热饮。(3)=-2.352=143.767niiniiixnxyxnxby1221xbya38.预测抽样统计意义上的反映决定选取代表事件样本数据回归直线方程事件、样本数据、回归直线方程三者具有如下的关系:39.小结:小结:本节课我们学习了哪些知识,涉及到哪些数学思想方法?本节课我们学习了哪些知识,涉及到哪些数学思想方法?1.知识:知识:(1)求回归直线方程的方法求回归直线方程的方法(2)求回归直线方程的步骤:求回归直线方程的步骤:2.思想:思想: 数形结合、归纳、类比、最小二乘法和回归分析的思数形结合、归纳、类比、最小二乘法和回归分析的思想想40.