1、线性回归方程线性回归方程20222022年年5 5月月2626日星期四日星期四问题提出问题提出1.1.函数是研究两个变量之间的依存关函数是研究两个变量之间的依存关系的一种数量形式系的一种数量形式. .对于两个变量对于两个变量, ,如如果当一个变量的取值一定时,另一个果当一个变量的取值一定时,另一个变量的取值被惟一确定,则这两个变变量的取值被惟一确定,则这两个变量之间的关系就是一个函数关系量之间的关系就是一个函数关系. .2.2.在中学校园里,有这样一种说法:在中学校园里,有这样一种说法:“如果你的数学成绩好如果你的数学成绩好, ,那么你的物理那么你的物理学习就不会有什么大问题学习就不会有什么大
2、问题.”.”按照这种按照这种说法说法, ,似乎学生的物理成绩与数学成绩似乎学生的物理成绩与数学成绩之间存在着某种关系之间存在着某种关系, ,我们把数学成绩我们把数学成绩和物理成绩看成是两个变量和物理成绩看成是两个变量, ,那么这两那么这两个变量之间的关系是函数关系吗?个变量之间的关系是函数关系吗?3.3.我们不能通过一个人的数学成绩是我们不能通过一个人的数学成绩是多少就准确地断定其物理成绩能达到多少就准确地断定其物理成绩能达到多少多少, ,学习兴趣、学习时间、教学水平学习兴趣、学习时间、教学水平等等, ,也是影响物理成绩的一些因素也是影响物理成绩的一些因素, ,但但这两个变量是有一定关系的这两
3、个变量是有一定关系的, ,它们之间它们之间是一种不确定性的关系是一种不确定性的关系. .类似于这样的类似于这样的两个变量之间的关系两个变量之间的关系, ,有必要从理论上有必要从理论上作些探讨作些探讨, ,如果能通过数学成绩对物理如果能通过数学成绩对物理成绩进行合理估计成绩进行合理估计, ,将有着非常重要的将有着非常重要的现实意义现实意义. .知识探究(一):知识探究(一):变量之间的相关关系变量之间的相关关系思考思考1:1:考察下列问题中两个变量之间的考察下列问题中两个变量之间的关系关系: :(1 1)商品销售收入与广告支出经费;)商品销售收入与广告支出经费;(2 2)粮食产量与施肥量;)粮食
4、产量与施肥量;(3 3)人体内的脂肪含量与年龄)人体内的脂肪含量与年龄. . 这些问题中两个变量之间的关系是函这些问题中两个变量之间的关系是函数关系吗?数关系吗? 思考思考2 2:“名师出高徒名师出高徒”可以解释为教可以解释为教师的水平越高,学生的水平就越高,师的水平越高,学生的水平就越高,那么学生的学业成绩与教师的教学水那么学生的学业成绩与教师的教学水平之间的关系是函数关系吗?你能举平之间的关系是函数关系吗?你能举出类似的描述生活中两个变量之间的出类似的描述生活中两个变量之间的这种关系的成语吗?这种关系的成语吗?思考思考3:3:上述两个变量之间的关系是上述两个变量之间的关系是一种非确定性关系
5、一种非确定性关系, ,称之为称之为相关关系相关关系, ,那么相关关系的含义如何?那么相关关系的含义如何? 自变量取值一定时,因变量的取值带有自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫一定随机性的两个变量之间的关系,叫做相关关系做相关关系. .1 1、球的体积和球的半径具有(、球的体积和球的半径具有( ) A A 函数关系函数关系 B B 相关关系相关关系 C C 不确定关系不确定关系 D D 无任何关系无任何关系2 2、下列两个变量之间的关系不是、下列两个变量之间的关系不是 函数关系的是函数关系的是 ( ) A A 角的度数和正弦值角的度数和正弦值 B B 速度一定时
6、,距离和时间的关系速度一定时,距离和时间的关系 C C 正方体的棱长和体积正方体的棱长和体积 D D 日照时间和水稻的亩产量日照时间和水稻的亩产量AD练练:知识探究(二):散点图知识探究(二):散点图 【问题问题】在一次对人体脂肪含量和年龄关在一次对人体脂肪含量和年龄关系的研究中系的研究中,研究人员获得了一组样本数据研究人员获得了一组样本数据: 其中各年龄对应的脂肪数据是这个年其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数龄人群脂肪含量的样本平均数. .年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.
7、925.9 27.527.5 26.326.3 28.228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30.830.8 33.533.5 35.235.2 34.634.6思考思考1:1:对某一个人来说对某一个人来说, ,他的体内脂肪含他的体内脂肪含量不一定随年龄增长而增加或减少量不一定随年龄增长而增加或减少, ,但是但是如果把很多个体放在一起,就可能表现出如果把很多个体放在一起,就可能表现出一定的规律性一定的规律性. .观察上表中的数据观察上表中的数据, ,大体上大体上看看, ,随着年龄的增加,人体脂
8、肪含量怎样随着年龄的增加,人体脂肪含量怎样变化?变化?年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.925.9 27.527.5 26.326.3 28.228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30.830.8 33.533.5 35.235.2 34.634.6思考思考2:2:为了确定年龄和人体脂肪含量之间的更为了确定年龄和人体脂肪含量之间的更明确的关系明确的关系, ,我们需要对数据进行分析我们需要对数据进行分
9、析, ,通过作通过作图可以对两个变量之间的关系有一个直观的印图可以对两个变量之间的关系有一个直观的印象象. .以以x x轴表示年龄轴表示年龄,y,y轴表示脂肪含量轴表示脂肪含量, ,你能在直你能在直角坐标系中描出样本数据对应的图形吗?角坐标系中描出样本数据对应的图形吗? 年龄年龄 2323272739394141454549495050脂肪脂肪 9.59.517.817.8 21.221.2 25.925.9 27.527.5 26.326.3 28.228.2年龄年龄 5353545456565757585860606161脂肪脂肪 29.629.6 30.230.2 31.431.4 30
10、.830.8 33.533.5 35.235.2 34.634.6思考思考3 3:上图叫做上图叫做散点图散点图,你能描述一下散点,你能描述一下散点图的含义吗?图的含义吗? 在平面直角坐标系中,表示具有相关关系的在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为散点图两个变量的一组数据图形,称为散点图. . 思考思考4:4:观察散点图的大致趋势观察散点图的大致趋势, ,人的人的年龄的与人体脂肪含量具有什么相年龄的与人体脂肪含量具有什么相关关系?关关系? 思考思考5 5:在上面的散点图中在上面的散点图中, ,这些点散布在从这些点散布在从左下角到右上角的区域左下角到右上角的区域, ,
11、对于两个变量的这对于两个变量的这种相关关系种相关关系, ,我们将它称为我们将它称为正相关正相关. .一般地一般地, ,如果两个变量成正相关,那么这两个变量的如果两个变量成正相关,那么这两个变量的变化趋势如何?变化趋势如何? 思考思考6 6:如果两个变量成负相关,从整体如果两个变量成负相关,从整体上看这两个变量的变化趋势如何?其散上看这两个变量的变化趋势如何?其散点图有什么特点?点图有什么特点? 一个变量随另一个变量的变大而变小,散一个变量随另一个变量的变大而变小,散点图中的点散布在从左上角到右下角的区点图中的点散布在从左上角到右下角的区域域. .一般情况下两个变量之间的相关关系成一般情况下两个
12、变量之间的相关关系成正相关或负相关,类似于函数的单调性正相关或负相关,类似于函数的单调性. .知识探究(一):回归直线知识探究(一):回归直线 思考思考1:1:一组样本数据的平均数是样本数据一组样本数据的平均数是样本数据的中心的中心, ,那么散点图中样本点的中心如何那么散点图中样本点的中心如何确定?它一定是散点图中的点吗?确定?它一定是散点图中的点吗? ( , )x y思考思考2:2:在各种各样的散点图中在各种各样的散点图中, ,有些散点图中有些散点图中的点是杂乱分布的的点是杂乱分布的, ,有些散点图中的点的分布有些散点图中的点的分布有一定的规律性有一定的规律性, ,年龄和人体脂肪含量的样本年
13、龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?数据的散点图中的点的分布有什么特点? 这些点大致分布在一条直线附近这些点大致分布在一条直线附近. .思考思考3:3:如果散点图中的点的分布如果散点图中的点的分布, ,从整体上从整体上看大致在一条直线附近看大致在一条直线附近, ,则称这两个变量之则称这两个变量之间具有间具有线性相关关系线性相关关系, ,这条直线叫做这条直线叫做回归直回归直线线. .对具有线性相关关系的两个变量对具有线性相关关系的两个变量, ,其回归其回归直线一定通过样本点的中心吗?直线一定通过样本点的中心吗?思考思考4:4:对一组具有线性相关关系的样本数对一组具有线性相关
14、关系的样本数据据, ,你认为其回归直线是一条还是几条?你认为其回归直线是一条还是几条?思考思考5:5:在样本数据的散点图中,能否用在样本数据的散点图中,能否用直尺准确画出回归直线?借助计算机怎直尺准确画出回归直线?借助计算机怎样画出回归直线?样画出回归直线?知识探究(二):回归方程知识探究(二):回归方程 在直角坐标系中,任何一条直线都有相在直角坐标系中,任何一条直线都有相应的方程,回归直线的方程称为应的方程,回归直线的方程称为回归方回归方程程. .对一组具有线性相关关系的样本数对一组具有线性相关关系的样本数据,如果能够求出它的回归方程,那么据,如果能够求出它的回归方程,那么我们就可以比较具体
15、、清楚地了解两个我们就可以比较具体、清楚地了解两个相关变量的内在联系,并根据回归方程相关变量的内在联系,并根据回归方程对总体进行估计对总体进行估计. . 思考思考1 1:回归直线与散点图中各点的位置回归直线与散点图中各点的位置应具有怎样的关系?应具有怎样的关系? 整体上最接近整体上最接近 思考思考2:2:对于求回归直线方程,你有哪些想法?对于求回归直线方程,你有哪些想法? (x1, y1)(x2,y2)(xi,yi)(xn,yn)可以用可以用 或或 , 其中其中 . . |iiyy-2()iiyy-iiybxa=+思考思考3 3:对一组具有线性相关关系的样对一组具有线性相关关系的样本数据:本数
16、据:(x(x1 1,y y1 1) ),(x(x2 2,y y2 2) ),(x(xn n,y yn n) ),设其回归方程为,设其回归方程为 可以可以用哪些数量关系来刻画各样本点与回用哪些数量关系来刻画各样本点与回归直线的接近程度?归直线的接近程度? ybxa=+思考思考4 4:为了从整体上反映为了从整体上反映n n个样本数个样本数据与回归直线的接近程度,你认为选据与回归直线的接近程度,你认为选用哪个数量关系来刻画比较合适?用哪个数量关系来刻画比较合适? 21()niiiQyy2221122()()()nnybxaybxaybxa(x1, y1)(x2,y2)(xi,yi)(xn,yn)思考
17、思考5 5:根据有关数学原理分析,当根据有关数学原理分析,当 时,总体偏差时,总体偏差 为最小,这样为最小,这样就得到了回归方程,这种求回归方程的就得到了回归方程,这种求回归方程的方法叫做方法叫做最小二乘法最小二乘法. .回归方程回归方程中,中,a a,b b的几何意义分别是什么?的几何意义分别是什么?1122211()(),()nniiiiiinniiiixxyyx ynx ybaybxxxxnx21()niiiQyyybxa=+思考思考6 6:利用计算器或计算机可求得年龄和利用计算器或计算机可求得年龄和人体脂肪含量的样本数据的回归方程为人体脂肪含量的样本数据的回归方程为 ,由此我们可以根据
18、,由此我们可以根据一个人个年龄预测其体内脂肪含量的百分一个人个年龄预测其体内脂肪含量的百分比的比的回归值回归值. .若某人若某人3737岁,则其体内脂肪含岁,则其体内脂肪含量的百分比约为多少?量的百分比约为多少?0. 5770. 448yx=-20.9%20.9% 某小卖部为了了解热茶销售量与气温某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某之间的关系,随机统计并制作了某6天天卖出热茶的杯数与当天气温的对照表:卖出热茶的杯数与当天气温的对照表:气温气温/0C261813104 -1杯数杯数202434385064如果某天的气温是如果某天的气温是-50C,你能根据这些,你能根据这
19、些数据预测这天小卖部卖出热茶的杯数吗数据预测这天小卖部卖出热茶的杯数吗?实例探究实例探究 为了了解热茶销量与为了了解热茶销量与气温的大致关系气温的大致关系, ,我们我们以横坐标以横坐标x x表示气温,表示气温,纵坐标纵坐标y y表示热茶销量,表示热茶销量,建立直角坐标系建立直角坐标系. .将表将表中数据构成的中数据构成的6 6个数对个数对表示的点在坐标系内表示的点在坐标系内标出,得到下图。标出,得到下图。你发现这你发现这些点有什些点有什么规律?么规律?ABCDEF0 xy1020304050605152535-5今后我们称这样的图为今后我们称这样的图为散点图散点图(scatterplot).
20、选择怎样的直线近似地表示热茶销量与气选择怎样的直线近似地表示热茶销量与气温之间的关系温之间的关系? ? 我们有多种思考方案我们有多种思考方案: :(1)选择能反映直线变化的两个点选择能反映直线变化的两个点,例如取例如取(4,50),(18,24) (2)取一条直线)取一条直线,使得位于该直线一侧和使得位于该直线一侧和 另一侧的点的个数基本相同;另一侧的点的个数基本相同; (3)多取几组点)多取几组点,确定几条直线方程确定几条直线方程,再分再分 别算出各条直线斜率、截距的平均值别算出各条直线斜率、截距的平均值,作为作为 所求直线的斜率、截距;所求直线的斜率、截距; (4)尽可能使这些点都分布在一
21、条直线的附近。尽可能使这些点都分布在一条直线的附近。 怎样的直线最好呢怎样的直线最好呢?这两点的直线;这两点的直线;建构数学建构数学 ybxa ybxa1.最小平方法:最小平方法: 用方程为用方程为的点,应使得该直线与散点图中的点最接近。的点,应使得该直线与散点图中的点最接近。那么,怎样衡量直线那么,怎样衡量直线 与图中六与图中六个点的接近程度呢?个点的接近程度呢? 的直线拟合散点图中的直线拟合散点图中 yx26,18,13,10,4,babababababa 我们将表中给出的自变量我们将表中给出的自变量 带入直线方程带入直线方程, ,得到相应的六个值:得到相应的六个值:的的六个六个值值 它们
22、与表中相应的实际值应该越接近越好它们与表中相应的实际值应该越接近越好. 22222222( , )(2620)(1824)(1334)(1038)(450)(64)12866140382046010172Q a bbababababababaabba 所以所以, ,我们用类似于估计平均数时的我们用类似于估计平均数时的思想思想, ,考虑考虑离差离差的平方和的平方和 把把a看作常数,那么看作常数,那么Q是关于是关于b的二次的二次函数,当函数,当 Q取最小值取最小值128623820140ab同理把同理把b看作常数,那么看作常数,那么Q是关于是关于a的的二次函数,当二次函数,当 Q取最小值取最小值1
23、2460140 ba解得解得5568.57,6477. 1ab当当x=-5时,热茶销量约为时,热茶销量约为66杯杯线性相关关系线性相关关系: 像这样能用直线方程像这样能用直线方程 ybxa近似表示的相关关系叫做近似表示的相关关系叫做线性相关关系线性相关关系.线性回归方程:线性回归方程:一般地一般地,设有设有n个观察数据如下:个观察数据如下:2221122()().()nnQybxaybxaybxa当当a,b使使xy1x1y2x2y3x3ynxny 就称为就称为 拟合拟合这这n对数据的对数据的线性回归方程线性回归方程.方程所表示的直线称为方程所表示的直线称为回归直线回归直线,a,ba,b称为称为
24、回归系数回归系数 ybxa取得最小值时取得最小值时, x x1 x2 x3 xn y y1 y2 y3 ynxbyanxyxnyxbniiniiix1221仿照前面的算法仿照前面的算法, ,可得线性回归方程可得线性回归方程 的回归系数的回归系数a,ba,b为为abxy(yi-Yi)的最小值)的最小值ni=1|yi-Yi|的最小值的最小值ni=1 xbyaxnxyxnyxbniiniii,1221 的最小值的最小值1(2iiy -Y )ni当当a,b取什么值时,取什么值时,Q的值最小,即总体偏差最小的值最小,即总体偏差最小.2221122nnQ=(y -bx -a)(y -bx -a)(y -b
25、x -a)121() ()()niiiniixxyybxxayb x22,xyxyxx._y25x81. 05x. 0y. 1的估计值为时,则已知回归方程A.5.75 1.75yxB.1.755.75yxC.1.755.75yxD.5.75 1.75yx2.2.三点三点(3,10),(7,20),(11,24)(3,10),(7,20),(11,24)的的线性回归方程是线性回归方程是 ( )( )D11.69xbyanxyxnyxbniiniiix1221二、求线性回归方程二、求线性回归方程例例2:观察两相关变量得如下表:观察两相关变量得如下表:x-1-2-3-4-553421y-9-7-5-
26、3-115379求两变量间的回归方程求两变量间的回归方程解解1: 列表:列表:i12345678910-1-2-3-4-553421-9-7-5-3-1153799141512551512149xiyixiyi计算得计算得:0, 0yx110,1101011012yxxiiiii1010110010110101010122101iiiiixxyxyxb000bxbya所求回归直线方程为所求回归直线方程为 y=x小结:求线性回归直线方程的步骤:小结:求线性回归直线方程的步骤:第一步:列表第一步:列表 ;第二步:计算第二步:计算 ;第三步:代入公式计算第三步:代入公式计算b,a的值;的值;第四步:
27、写出直线方程。第四步:写出直线方程。yxyxiiii,yxxiniiniiyx112,阅读课本阅读课本P73例例1EXCEL作散点图作散点图利用线性回归方程解题步骤:利用线性回归方程解题步骤:1、先画出所给数据对应的散点图;、先画出所给数据对应的散点图;2、观察散点,如果在一条直线附近,、观察散点,如果在一条直线附近,则说明所给量具有线性相关关系则说明所给量具有线性相关关系3、根据公式求出线性回归方程,、根据公式求出线性回归方程,并解决其他问题。并解决其他问题。练习:第练习:第75页练习页练习2散点图散点图2()如果()如果x=3,e=1,x=3,e=1,分别求两个模型中分别求两个模型中y y
28、的值;的值;()分别说明以上两个模型是确定性()分别说明以上两个模型是确定性模型还是随机模型模型还是随机模型3.3.我们考虑两个表示变量我们考虑两个表示变量x x与与y y之间的关系之间的关系的模型,的模型, 为误差项,模型如下:为误差项,模型如下:e模型:模型:y=6+4x;模型:模型:y=6+4x+e.解解 (1)模型:模型:y=6+4x=6+4y=6+4x=6+43=18;模型:模型:y=6+4x+e=6+4y=6+4x+e=6+43+1=19.(2)(2)模型中相同的模型中相同的x x值一定得到相同的值一定得到相同的y y值值. .所以是确定性模型;模型中相同所以是确定性模型;模型中相
29、同的的x值,因值,因 不同,且不同,且 为误差项是随为误差项是随机的,所以模型机的,所以模型2是随机性模型是随机性模型.D.Cyx.Byx.A性关系相关关系是一种非确定;变量之间有无相关关系点图,可判断由两个变量所对应的散唯一确定;不能由么确定关系,那变量之间的关系若是非都是变量;和在线性回归分析中,)下列说法不正确的是(C线性相关与线性回归方程线性相关与线性回归方程45写在最后写在最后成功的基础在于好的学习习惯成功的基础在于好的学习习惯The foundation of success lies in good habits谢谢聆听 学习就是为了达到一定目的而努力去干, 是为一个目标去战胜各种困难的过程,这个过程会充满压力、痛苦和挫折Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficulties For A Goal