1、3.1.1 回归分析回归分析回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用1、两个变量的关系、两个变量的关系不相关不相关相关关系相关关系函数关系函数关系线性相关线性相关非线性相关非线性相关问题问题1:现实生活中两个变量间的关系有哪些呢?:现实生活中两个变量间的关系有哪些呢?相关关系:相关关系:对于两个变量,当自变量取值一定对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量时,因变量的取值带有一定随机性的两个变量之间的关系。之间的关系。回顾复习回顾复习思考:相关关系与函数关系有怎样的不同?函数关系中的两个变量间是一种确定性关系相关关系是一种非确定性关系 函数关系
2、是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况问题问题2:对于线性相关的两个变量用什么方法:对于线性相关的两个变量用什么方法来刻划之间的关系呢?来刻划之间的关系呢?2、最小二乘估计、最小二乘估计最小二乘估计下的线性回归方程:最小二乘估计下的线性回归方程:ybx a1122211()()()( )nniiiiiinniiiixxyyx ynx ybxxxn xaybx11niixxn11niiyyn其中其中,ybx a最小二乘估计下的线性回归方程:最小二乘估计下的线性回归方程:回归直线必过样本点的中心回归直线必过样本点的中心),(yx3、解、解线性相关问题线性相关问题的基本步
3、骤的基本步骤:画散点图画散点图求线性相关方程求线性相关方程预报、决策预报、决策例某医院用光电比色计检验尿汞时,得尿汞含量例某医院用光电比色计检验尿汞时,得尿汞含量(毫克毫克/ 升升)与消光系数如下表:与消光系数如下表:汞含量汞含量x246810消光系数消光系数y64138205285360(1)作散点图;作散点图;(2)如果如果y与与x之间具有线性相关关系,求线性回归方程之间具有线性相关关系,求线性回归方程解:解:(1)散点图如图散点图如图1(2011辽宁高考辽宁高考)调查了某地若干户家庭的年收入调查了某地若干户家庭的年收入x(单位:单位:万元万元)和年饮食支出和年饮食支出y(单位:万元单位:
4、万元),调查显示年收入,调查显示年收入x与年与年饮食支出饮食支出y具有线性相关关系,并由调查数据得到具有线性相关关系,并由调查数据得到y对对x的线的线性回归方程:性回归方程:y0.254x0.321.由线性回归方程可知,家庭由线性回归方程可知,家庭年收入每增加年收入每增加1万元,年饮食支出平均增加万元,年饮食支出平均增加_万元万元解析:解析:以以x1代代x,得,得y0.254(x1)0.321,与,与y0.254x0.321相减可得,年饮食支出平均增加相减可得,年饮食支出平均增加0.254万元万元答案:答案:0.2542(2011江西高考江西高考)为了解儿子身高与其父亲身高的关系,为了解儿子身
5、高与其父亲身高的关系,随机抽取随机抽取5对父子的身高数据如下:对父子的身高数据如下: 父亲身高父亲身高x(cm)174176176176178儿子身高儿子身高y(cm)175175176177177答案:答案:C,176x176y复习回顾复习回顾 用线性回归方程进行回归分析:用线性回归方程进行回归分析: (1)画散点图;)画散点图;(2)求回归系数)求回归系数 :ba, (3)写回归直线方程)写回归直线方程 ,并用方程进,并用方程进行预测说明行预测说明.bxayxbyaxnxyxnyxxxyyxxbniiniiiniiniii1221121)()( 任何数据,不管它们的线性相关关系如何,都任何
6、数据,不管它们的线性相关关系如何,都可以用最小二乘法求出线性回归方程,为使建立的可以用最小二乘法求出线性回归方程,为使建立的线性回归方程有意义,在利用最小二乘法求线性回线性回归方程有意义,在利用最小二乘法求线性回归方程之前,先要对变量间的线性相关关系作个判归方程之前,先要对变量间的线性相关关系作个判断,通常可以作散点图。但在某些情况下,从散点断,通常可以作散点图。但在某些情况下,从散点图中图中不容易判断变量间的线性关系不容易判断变量间的线性关系,另外,如果,另外,如果数数据量较大时,画散点图比较麻烦,据量较大时,画散点图比较麻烦,此时我们此时我们有没有有没有其他方法其他方法来刻画变量之间的线性
7、相关关系呢?来刻画变量之间的线性相关关系呢?新课探究 为解决这个问题,我们可通过计算线性相关系数为解决这个问题,我们可通过计算线性相关系数r,来判断变量间相关程度的大小,计算公式为:,来判断变量间相关程度的大小,计算公式为:112222221111()()()()nniiiixyiinnnnxx yyiiiiiiiixxyyx ynxylrl lxxyyxnxyny新课探究21222( , )()()()niiixyxyyyxxxxxxQ a byabxllln yabxlbll(参看课本P74)的最小值为:的最小值为:222( , )(1)(1)xyxyyyyyyyxxxx yyllQ a
8、blllrll l据前面的分析,回归系数据前面的分析,回归系数 使得误差使得误差ba,由由 知知 ,即,即 ,则,则0Q12r11r新课探究 值越大,误差值越大,误差 越小,则变量的线性相关程度越小,则变量的线性相关程度就越高;就越高; 值越接近于值越接近于0, 越大,线性相关程度就越大,线性相关程度就越低。越低。rrQQ 当当 时,时, ,两变量的值总体上呈现同,两变量的值总体上呈现同时增加的趋势,则称两变量时增加的趋势,则称两变量正相关正相关; 当当 时,时, ,一变量增加,另一变量有,一变量增加,另一变量有减小的趋势,则称两变量减小的趋势,则称两变量负相关负相关; 当当 时,则称两变量时
9、,则称两变量线性不相关线性不相关。0r0b0r0b0r相关系数相关系数r的性质的性质新课探究相关系数相关系数1.1.计算公式计算公式2 2相关系数的性质相关系数的性质(1)|r|1(1)|r|1;(2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r|r|越接近越接近于于0 0,相关程度越小,相关程度越小问题:达到怎样程度,问题:达到怎样程度,x x、y y线性相关呢?它们线性相关呢?它们的相关程度怎样呢?的相关程度怎样呢?1222211niiinniiiix ynxyxnxynyn ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1
10、 1i i= =1 1( (x x - - x x) )( (y y - - y y) )r r = =( (x x - - x x) )( (y y - - y y) )负相关负相关正相关正相关思考交流思考交流 对于课本对于课本P73给出的例题,变量的线性相关系数给出的例题,变量的线性相关系数r如何求?如何求?我们知道,相关系数的计算公式为:我们知道,相关系数的计算公式为:要求要求r,只需求出相关的量:,只需求出相关的量:niiiyx1, , ,niix12niiy12和和 。xyniiniiniiiynyxnxyxnyxr1221221, ,可得,可得, , ,20040niiiyx117
11、633niix1222790niiy122585291.x665330y由数据表,经过计算,可知(由数据表,经过计算,可知(P77):):9941. 0665227902 .58517633662 .5852004022r这能说明什么?这能说明什么?这说明肱骨这说明肱骨 和股骨和股骨 有较强的线性相关程度。有较强的线性相关程度。yx 计算下表变量的线性相关系数计算下表变量的线性相关系数r。并观察,通过计算可以发现什么?并观察,通过计算可以发现什么?根据数据列表计算如下:根据数据列表计算如下:解析(解析(P78):1-5025002-43169-123-34916-124050250534916
12、12643169127502500019100750iixiy2ix2iyiiyx由表可知:由表可知:, ,则可得,则可得0 x71. 2y00121niix5127niiy0niiiyx1, , ,071. 27750710071. 207022r你发现什么了?你发现什么了? r=0,则变量间并不存在线性相关关系。即此时,则变量间并不存在线性相关关系。即此时建立线性回归方程是没有意义的。建立线性回归方程是没有意义的。实际上,从散点图上我们也可以验证这一点:实际上,从散点图上我们也可以验证这一点: 易看出,几个样本点都落在同一个半圆上,而不易看出,几个样本点都落在同一个半圆上,而不是条状分布,
13、此时建立线性回归方程无任何意义,这是条状分布,此时建立线性回归方程无任何意义,这与相关系数与相关系数r的计算结果相一致。的计算结果相一致。许多先进国家对驾驶员的培训,大多采用室内模拟教学和许多先进国家对驾驶员的培训,大多采用室内模拟教学和训练,而后再进行实地训练并考试,这种方法可以大大节训练,而后再进行实地训练并考试,这种方法可以大大节约训练的费用。问题是这种方法有效吗?下表是约训练的费用。问题是这种方法有效吗?下表是12名学员名学员的模拟驾驶成绩的模拟驾驶成绩x与实际考试成绩与实际考试成绩y的记录(单位:分):的记录(单位:分):试问:两者的相关性如何?请画出散点图,并求出试问:两者的相关性
14、如何?请画出散点图,并求出y与与x间的线性相关系数间的线性相关系数.动手做一做动手做一做 x 98 55 50 87 77 89 y 95 60 45 85 75 87 x 79 98 94 83 74 73 y 75 97 92 80 71 72解答:解答:可求出可求出r=0.9871,说明实际考试成绩,说明实际考试成绩y与模拟驾与模拟驾驶成绩驶成绩x有较强的线性相关程度有较强的线性相关程度.拓展思考拓展思考 相关系数相关系数r越大,变量间的线性关系就越越大,变量间的线性关系就越强,那么强,那么r的值究竟大到什么程度就认为线性的值究竟大到什么程度就认为线性关系较强?关系较强?n n(x -x
15、)(y -y)(x -x)(y -y)iiiii=1i=1r=r=nnnn2222(x -x) (y -y)(x -x) (y -y)iiiii=1i=1i=1i=1相关系数相关系数正相关;负相关通常,正相关;负相关通常, rr-1,-0.75-1,-0.75负相关很强负相关很强; ; rr0.75,10.75,1正相关很强正相关很强; ; rr-0.75,-0.3-0.75,-0.3负相关一般负相关一般; ; rr0.3, 0.750.3, 0.75正相关一般正相关一般; ; rr-0.25, 0.25-0.25, 0.25相关性较弱相关性较弱; ; 相关关系的测度相关关系的测度(相关系数取
16、值及其意义)小结小结 线性相关系数线性相关系数r: 值越大,误差值越大,误差 越小,则变量的线性相关程度越小,则变量的线性相关程度就越高;就越高; 值越接近于值越接近于0, 越大,线性相关程度就越大,线性相关程度就越低。越低。rrQQ,其中,其中 。niiniiniiiynyxnxyxnyxr122122111r 当当 时,两变量时,两变量正相关正相关;当;当 时,两变量时,两变量负相关负相关;当;当 时,两变量时,两变量线性不相关线性不相关。0r0r0r4对四对变量对四对变量y和和x进行线性相关检验,已知进行线性相关检验,已知n是观测值组是观测值组数,数,r是相关系数,且已知:是相关系数,且
17、已知:n7,r0.953 3;n15,r0.301 2;n17,r0.499 1;n3,r0.995 0.则变量则变量y和和x线性相关程度最高的两组是线性相关程度最高的两组是 ()A和和 B和和C和和 D和和解析:解析:相关系数相关系数r的绝对值越大,变量的绝对值越大,变量x,y的线性相关的线性相关程度越高,故选程度越高,故选B.答案:答案:B5某厂的生产原料耗费某厂的生产原料耗费x(单位:百万元单位:百万元)与销售额与销售额y(单位:单位:百万元百万元)之间有如下的对应关系:之间有如下的对应关系: ()x2468y30405070判断判断x与与y之间是否存在线性相关关系之间是否存在线性相关关
18、系解:解:画出画出(x,y)的散点图,如图所示,由图可知的散点图,如图所示,由图可知x,y呈现呈现线性相关关系线性相关关系复习回顾复习回顾 线性相关系数线性相关系数r及性质:及性质: 值越大,变量的线性相关程度就越高;值越大,变量的线性相关程度就越高; 值越接近于值越接近于0,线性相关程度就越低。,线性相关程度就越低。rr,其中,其中 。niiniiniiiynyxnxyxnyxr122122111r 当当 时,两变量时,两变量正相关正相关; 当当 时,两变量时,两变量负相关负相关; 当当 时,两变量时,两变量线性不相关线性不相关。0r0r0r1 1、下表是随机抽取的、下表是随机抽取的8 8对
19、母女的身高数据对母女的身高数据, ,试试根据这些数据探讨根据这些数据探讨y y与与x x之间的关系之间的关系母亲身高母亲身高女儿身高女儿身高 cm154 157 158 159 160 161 162 163 cm155 156 159 162 161 164 165 166练习练习154 1571638159.25x 155 1561668161y 82222218( )1541638 159.2559.5iixx 82222218( )1551668 161116iiyy 818154 155163 1668 159.25 16180iiix yxy 解解:,963.01165.5980r
20、, 所以:所以: xy, a b所以可以认为所以可以认为与与之间具有较强的线性相关之间具有较强的线性相关的的 关系线性回归模型关系线性回归模型y=a+bx中中 81822181.345,8iiiiix yxybxx53.191aybx xy345. 1191.53线性回归方程为线性回归方程为新课讲解新课讲解 下表按年份给出了下表按年份给出了19812001年我国出口贸易年我国出口贸易量(亿美元)的数据,根据此表你能预测量(亿美元)的数据,根据此表你能预测2008年我年我国的出口贸易量么?国的出口贸易量么? 从散点图中观察,数据与直线的拟合性不好,从散点图中观察,数据与直线的拟合性不好,若用直线
21、来预测,误差将会很大。若用直线来预测,误差将会很大。而图像近似指数函数,呈现出非线性相关性。而图像近似指数函数,呈现出非线性相关性。分析:分析: 考虑函数考虑函数 来拟合数据的变化关系,将其转来拟合数据的变化关系,将其转化成线性函数,两边取对数:化成线性函数,两边取对数: bxaey bxay lnln 即线性回归方程,记即线性回归方程,记1981年为年为x=1,1982年为年为x=2,变换后的数据如下表:变换后的数据如下表:设设 ,则上式变为,则上式变为 ,acyuln,lnbxcu对上表数据求线性回归方程得:对上表数据求线性回归方程得: 即:即:,138. 0,056. 5bcxu138.
22、 0056. 5xueeey138. 0056. 5由此可得:由此可得: ,曲线如图:,曲线如图:xueeey138. 0056. 5这样一来,预测这样一来,预测2008年的出口贸易量就容易多了。年的出口贸易量就容易多了。将下列常见的非线性回归模型转化为线性回归模型。将下列常见的非线性回归模型转化为线性回归模型。作变换作变换,ln,ln,lnacxvyu得线形函数得线形函数 。 bvcu)0, 1(ba)0, 1(ba1.幂函数:幂函数:baxy 2. 指数曲线:指数曲线:bxaey 作变换作变换,ln,lnacyu得线形函数得线形函数 。 bxcu)0,(ba0)0,(ba0)0,(ba0)
23、0,(ba0作怎样的变换,得到线形函数的方程如何?作怎样的变换,得到线形函数的方程如何? 思考交流思考交流3. 倒指数曲线:倒指数曲线:xbaey 4. 对数曲线:对数曲线:xbayln0b0b作怎样的变换,得到线形函数的方程如何?作怎样的变换,得到线形函数的方程如何? 小结小结 非线性回归方程:非线性回归方程: 对某些特殊的非线性关系,可以通过变换,将非对某些特殊的非线性关系,可以通过变换,将非线性回归转化为线性回归,然后用线性回归的方法进线性回归转化为线性回归,然后用线性回归的方法进行研究,最后再转换为非线性回归方程。行研究,最后再转换为非线性回归方程。 常见非线性回归模型:常见非线性回归
24、模型:1.幂函数:幂函数:baxy 2. 指数曲线:指数曲线:bxaey 3. 倒指数曲线:倒指数曲线:xbaxy 4. 对数曲线:对数曲线:xbayln 例例3(12分分)为了研究某种细菌随时间为了研究某种细菌随时间x变化繁殖个变化繁殖个数数y的变化,收集数据如下:的变化,收集数据如下: 时间时间x/天天123456繁殖个数繁殖个数y612254995190 (1)作出这些数据的散点图;作出这些数据的散点图; (2)求求y与与x之间的回归方程之间的回归方程 思路点拨思路点拨作出数据的散点图,选择合适的函数模作出数据的散点图,选择合适的函数模型转化为线性模型型转化为线性模型精解详析精解详析(1
25、)散点图如图所示:散点图如图所示:(4分分) (2)由散点图看出样本点分布在一条指数函数由散点图看出样本点分布在一条指数函数yc1ec2x图像的周围,于是令图像的周围,于是令zln y,则,则 (6分分)x123456z1.792.483.223.894.555.25由计算器算得由计算器算得z0.69x1.112,则有则有ye0.69x1.112. (12分分) 一点通一点通非线性回归问题一般不给出经验公式,这非线性回归问题一般不给出经验公式,这时,应先画出已知数据的散点图,把它与所学过的各种函时,应先画出已知数据的散点图,把它与所学过的各种函数图像作比较,挑选一种跟这些散点图拟合得最好的函数
26、,数图像作比较,挑选一种跟这些散点图拟合得最好的函数,采用适当的变量置换,把问题化为线性回归分析问题,使采用适当的变量置换,把问题化为线性回归分析问题,使问题得以解决问题得以解决6下列数据下列数据x,y符合哪一种函数模型符合哪一种函数模型 ()x12345678910y22.6933.383.63.844.084.24.3 解析:解析:选项选项A中当中当x8,9,10时,函数值与所给数值偏时,函数值与所给数值偏差较大,不合题意;选项差较大,不合题意;选项B中当中当x10时,时,y2e10,远远大,远远大于于4.3,不合题意;选项,不合题意;选项C中的函数在中的函数在(0,)上为减函数,上为减函
27、数,不合题意故选不合题意故选D. 答案:答案:D7在一次抽样调查中测得样本的在一次抽样调查中测得样本的5个样本点,数值如下表:个样本点,数值如下表:x0.250.5124y1612521试建立试建立y与与x之间的回归方程之间的回归方程解:解:由数值表可作散点图如下由数值表可作散点图如下根据散点图可知根据散点图可知y与与x近似地呈反比例函数关系,近似地呈反比例函数关系,t4210.50.25y1612521由置换后的数值表作散点图如下:由置换后的数值表作散点图如下:由散点图可以看出由散点图可以看出y与与t呈近似的线性相关关系列表如下呈近似的线性相关关系列表如下itiyitiyity1416641
28、62562212244144315512540.5210.25450.2510.250.062517.753694.2521.312 5430 1判断变量之间的线性相关关系,一般用散点图,但判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断有线性相关关系,此时就必须利用线性相关系数来判断 2相关系数相关系数r可以定量地反映出变量间的相关程度,可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的线性回归方程明确的给出有无必要建立两变量间的线性回归方程