1、1.1回归分析的基本思想及其初步应用(一)回归分析的基本思想及其初步应用(一)回归直线方程回归直线方程高二数学高二数学 选修选修1-2对于两个变量,当对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的自变量取值一定时,因变量的取值带有一定随机性的 两个变量之间的关系叫做两个变量之间的关系叫做相关关系相关关系。2、相关关系的相关关系的定义定义:一一.回顾复习回顾复习1、两个变量的关系、两个变量的关系不确定性关系不确定性关系确定性关系确定性关系函数关系函数关系线性相关线性相关非线性相关非线性相关相关关系相关关系不相关关系不相关关系正相关(增)正相关(增)负相关(减)负相关(减)注:1)
2、对具有相关关系的两个变量进行统计分析的方法叫对具有相关关系的两个变量进行统计分析的方法叫回归分析回归分析。2)函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况 问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y=x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间是否有一个确之间是否有一个确 定性的关系?定性的关系?例如:在例如:在 7 块并排、形状大小相同的试验田上进行施肥量对水块并排、形状大小相同的试验田
3、上进行施肥量对水 稻产量影响的试验,得到如下所示的一组数据:稻产量影响的试验,得到如下所示的一组数据:施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455一一.回顾复习回顾复习10 20 30 40 50500450400350300施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy施化肥量施化肥量水稻产量水稻产量10 20 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。发现:图中各点,
4、大致分布在某条直线附近。探索探索2:在这些点附近可画直线不止一条,哪条直线最能代表:在这些点附近可画直线不止一条,哪条直线最能代表 x与与y之间的关系呢?之间的关系呢?施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy散点图散点图施化肥量施化肥量水稻产量水稻产量探索探索1:水稻产量:水稻产量y与施肥量与施肥量x之间大致有何规律?之间大致有何规律?对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据1122(,),(,),.,(,),nnx yxyxy其回归直线方程为其回归直线方程为 此直线叫做此直线
5、叫做回归直线回归直线。其回归方程的其回归方程的截距和斜率截距和斜率的最小二乘估计公式分别为:的最小二乘估计公式分别为:ybxa2)、对两个变量进行的线性分析叫做)、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1122211()(),()nniiiiiinniiiixx yyxnxybxxxnxay bxy 3.线性回归直线方程:线性回归直线方程:ybxa最小二乘估计最小二乘估计(,)xy注:注:1)回归直线方程)回归直线方程 恒过恒过样本中心样本中心点点ybxa)其中niiniiynyxnx111,1(4.求回归直线方程的步骤:求回归直线方程的步骤:1111(1),nniiiixxy
6、ynn求211(2),.nniiiiixx y求(3)代入公式)代入公式1122211()(),(),.(1)nniiiiiinniiiixx yyxnxybxxxnxa y bxy(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。5.回归分析的基本步骤回归分析的基本步骤:画散点图画散点图求回归方程求回归方程预报、决策预报、决策练习练习1:下表提供了某厂节油降耗技术发行后生产甲产品过程下表提供了某厂节油降耗技术发行后生产甲产品过程中记录的产量中记录的产量x(吨吨)与相应的生产能耗与相应的生产能耗y(吨标准煤吨标准煤)的几组对应数的几组对应数据据.
7、(1)请画出上表数据的散点图;请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出请根据上表提供的数据,用最小二乘法求出y关于关于x的线性的线性回归方程回归方程(3)已知该厂技改前已知该厂技改前100吨甲产品的生产能耗为吨甲产品的生产能耗为90吨标准煤,试吨标准煤,试根据根据(2)求出的线性回归方程,预测生产求出的线性回归方程,预测生产100吨甲产品的生产能吨甲产品的生产能耗比技改前降低多少吨标准煤?耗比技改前降低多少吨标准煤?(参考数值:(参考数值:32.5+43+54+64.566.5)x3456y2.5344.5ybxa例例1 1、某大学中随机选取某大学中随机选取8 8名
8、女大学生,其身高和体重数据如名女大学生,其身高和体重数据如下表所示下表所示.编号编号1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165157157170170175175165165155155170170体重体重/kg/kg48485757505054546464616143435959(1)画出散点图)画出散点图(2)根据女大学生的身高预报体重的回归方程,)根据女大学生的身高预报体重的回归方程,(3)预报一名身高为)预报一名身高为172cm的女大学生的体重的女大学生的体重.解:解:1.确定变量:确定变量:由于问题中要求根据身高预报体重,因此选取身高
9、为自变由于问题中要求根据身高预报体重,因此选取身高为自变量量x,体重为因变量,体重为因变量y2.2.作散点图;作散点图;3.设回归方程:设回归方程:由散点图可知,样本点呈由散点图可知,样本点呈条状分布条状分布,身高和体重有,身高和体重有较好的线性相关关系,因此可以用线性回归方程来较好的线性相关关系,因此可以用线性回归方程来近似的近似的刻画它们之刻画它们之间的关系间的关系.故设回归直线方程为故设回归直线方程为ybxa0.84985.712yx因此,对于身高因此,对于身高172cm的女大学生,由线性回归方程可以预报其的女大学生,由线性回归方程可以预报其体重为:体重为:0.849 17285.712
10、60.316()ykg0.849b 是斜率的估计值,说明身高是斜率的估计值,说明身高x每增加每增加1个单位时,个单位时,体重体重y就增加就增加0.849个单位,这表明体重与身高具个单位,这表明体重与身高具有正的线性相关关系有正的线性相关关系.4.4.求回归方程:求回归方程:5.根据回归方程作出预报根据回归方程作出预报.有故所求线性回归方程为:故所求线性回归方程为:n nn ni ii ii ii ii i=1 1i i=1 1n nn n2 22 22 2i ii ii i=1 1i i=1 1(x x-x x)(y y-y y)x x y y-n nx xy yb b=0 0.8 84 49
11、 9,(x x-x x)x x-n nx xa a=y y-b bx x=-8 85 5.7 71 12 2思考思考1:如何描述两个变量之间线性相关关系的强弱?如何描述两个变量之间线性相关关系的强弱?1)用相关系数用相关系数r来衡量两个变量之间线性相关关系的强弱来衡量两个变量之间线性相关关系的强弱相关系数相关系数 2)相关系数的性质相关系数的性质:(1)|r|1 (2)正相关;负相关)正相关;负相关(3)|r|越接近于越接近于1,x与与y相关程度越强;相关程度越强;|r|越接近于越接近于0,x与与y相关程度越弱相关程度越弱问题:问题:达到怎样程度,达到怎样程度,x、y线性相关呢?它们的相关程度
12、怎样呢?线性相关呢?它们的相关程度怎样呢?n ni ii ii i=1 1n nn n2 22 2i ii ii i=1 1i i=1 1(x x-x x)(y y-y y)r r=(x x-x x)(y y-y y)2 2_ _n n1 1i i2 2i i2 2_ _n n1 1i i2 2i in n1 1i i_ _ _i ii iy yn ny yx xn nx xy yx xn ny yx x通常:通常:r r-1,-1,-0.75-0.75-负相关很强负相关很强;r r0.75,10.75,1正相关很强正相关很强;r r-0.75,-0.3-0.75,-0.3-负相关一般负相关一
13、般;r r0.3,0.750.3,0.75正相关一般正相关一般;r r-0.25,-0.25,0.25-0.25-相关性较弱相关性较弱;注注:通常,通常,r0.75,认为两个变量有很强的相关性,认为两个变量有很强的相关性相关关系的测度相关关系的测度(相关系数取值及其意义)本例中本例中,由上面公式可求得由上面公式可求得r=0.7980.75表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型 有意义的有意义的.、当、当 时,时,x x与与y y为完全线性相关,它们之间存在确定的函数关系。为完全线性相关,它们之间存在确定的函数关系
14、。、当、当 时,表示时,表示x x与与y y存在着一定的线性相关,存在着一定的线性相关,r r的绝对值越大,越接近于的绝对值越大,越接近于1 1,表示,表示x x与与y y直线相关程度越高,反之越低。直线相关程度越高,反之越低。1r10r练习练习2:某种产品的零件数某种产品的零件数x与加工时间与加工时间y之间有如表所示数据之间有如表所示数据:零件数零件数X24568加工时间加工时间y(分分钟钟)3040605070(2)6.517.5yx(1)求线性回归方程求线性回归方程;思考思考2:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原
15、因吗?吗?如果不是,你能解析一下原因吗?答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可以认,但一般可以认为她的体重接近于为她的体重接近于60.316kg或在或在60.316kg 左右。即,用这个回归方程不即,用这个回归方程不能给出每个身高为能给出每个身高为172cm的女大学生的体重的预测值,只能给出她们平的女大学生的体重的预测值,只能给出她们平均体重的值。均体重的值。从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上,从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数所以不能用一次函数y=bx
16、+a描述它们关系。描述它们关系。我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:来表示:y=bx+a+e,(其中(其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差)称为随机误差)。思考思考3:产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e e的来源的来源(可以推广到一般):可以推广到一般):1、其它因素的影响:影响体重y 的因素不只是身高x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高 y 的观测误差。以上三项误差越小,说明我们的回归模型的拟合效果越好。以上三项误差越小,说明我们的
17、回归模型的拟合效果越好。函数模型:abxy回归模型:eabxy 函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定 线性回归模型线性回归模型y=bx+a+e增加了随机误差项增加了随机误差项e,因变量因变量y的值由自变量的值由自变量x和和随机误差项随机误差项e共同确定,共同确定,即即自变量自变量x只能解析部分只能解析部分y的变化的变化。在统计中,我们也把自变量在统计中,我们也把自变量x称为称为解析变量解析变量,因变量,因变量y称为称为预报变量预报变量。因此,因此,一次函数模型是线性回归模型的特殊形式,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式线性
18、回归模型是一次函数模型的一般形式.思考思考4:函数模型与回归模型之间的差别?函数模型与回归模型之间的差别?1.确定变量;确定变量;2.作散点图,判断相关关系;作散点图,判断相关关系;3.设回归方程;设回归方程;4.求回归方程;求回归方程;5.根据回归方程作出预报根据回归方程作出预报.小结:线性回归分析的基本步骤:小结:线性回归分析的基本步骤:1.1回归分析的基本思想及其初步应用(二)回归分析的基本思想及其初步应用(二)随机误差与线性回归模型随机误差与线性回归模型高二数学高二数学 选修选修1-2一一.复习回顾复习回顾1、线性回归模型:、线性回归模型:y=bx+a+e (其中(其中a和和b为模型的
19、未知参数,为模型的未知参数,e称为随机误差)称为随机误差)。1)确定变量;)确定变量;2)作散点图,判断相关关系;)作散点图,判断相关关系;3)设回归方程;)设回归方程;4)求回归方程;)求回归方程;5)根据回归方程作出预报)根据回归方程作出预报.2.2.线性回归分析的基本步骤:线性回归分析的基本步骤:3 3、线性相关关系强弱的判断:、线性相关关系强弱的判断:相关系数相关系数r 1)1)相关系数相关系数r r12211()().()()niiinniiiixxyyxxyy2)相关系数相关系数r的性质的性质:(1)|r|1(2)正相关;负相关)正相关;负相关(3)|r|越接近于越接近于1,x与与
20、y相关程度越强;相关程度越强;|r|越接近于越接近于0,x与与y相关程度越弱相关程度越弱例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高/cm165165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重解:解:1、选取身高为自
21、变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:2、由散点图知道身高和体重有比较、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。回归方程刻画它们之间的关系。3、从散点图还看到,样本点散布在、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条某一条直线的附近,而不是在一条直线上,所以不能用一次函数直线上,所以不能用一次函数y=bx+a描述它们关系。描述它们关系。思考:思考:有些时候,样本数据中难免混有错误数据,通过何有些时候,样本数据中难免混有错误数据,通过何 种方法把它剔除?种方法把
22、它剔除?1.残差分析与残差图的定义:残差分析与残差图的定义:然后,我们可以通过残差然后,我们可以通过残差 来判断模型拟合的效果,判断原始来判断模型拟合的效果,判断原始数据中是否存在可疑数据,数据中是否存在可疑数据,这方面的分析工作称为残差分析这方面的分析工作称为残差分析。12,ne ee 我们可以利用图形来分析残差特性,作图时纵我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等编号,或身高数据,或体重估计值等,这样作出的图形称为,这样作出的图形称为残差图残差图。数据点和它在回归直线上相应位置的差异数据点和它在回归
23、直线上相应位置的差异 是随机误差的效应,称是随机误差的效应,称 为为残差残差。)iiyy(iiieyy=注意:注意:1 1)残差分析步骤:)残差分析步骤:1 1)计算每组数据的残差,即样本值减预测值)计算每组数据的残差,即样本值减预测值2 2)画残差图。纵坐标为残差,横坐标为自变量。)画残差图。纵坐标为残差,横坐标为自变量。3 3)分析残差图)分析残差图4 4)找异常值)找异常值)iiyy(2)残差图的制作:)残差图的制作:坐标纵轴为残差变量,横轴可以有不同的选择坐标纵轴为残差变量,横轴可以有不同的选择.横轴为编号:可以考察残差与编号次序之间的关系,常用于调查横轴为编号:可以考察残差与编号次序
24、之间的关系,常用于调查数据错误数据错误.横轴为解释变量:可以考察残差与解释变量的关系,常用于研究横轴为解释变量:可以考察残差与解释变量的关系,常用于研究模型是否模型是否 有改进的余地有改进的余地.下表列出了女大学生身高和体重的原始数据以及相应的残差数据。下表列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382残残差差图图问题数据问题数据越窄越好越窄越好注意:残差图的作用
25、:注意:残差图的作用:1)发现原始数据中的可疑数据发现原始数据中的可疑数据,问题数据 2)判断模型的适用性,若模型选择的正确,残差图中的点应该判断模型的适用性,若模型选择的正确,残差图中的点应该比较均匀地落在比较均匀地落在 以横轴为中心的以横轴为中心的水平的带状区域中水平的带状区域中 带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高,带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高,说明选用的模型较合适。说明选用的模型较合适。2.用相关指数用相关指数R2来刻画回归的效果:来刻画回归的效果:niiniiyyyyR12122)()(1残差平方和残差平方和总体偏差平方
26、和总体偏差平方和注意:注意:1)0 R2 1 2)在线性回归模型中,在线性回归模型中,相关指数相关指数R2表示解析变量表示解析变量x对预报变量对预报变量y变化的贡献率。变化的贡献率。代表自变量刻画预报变量的能力。代表自变量刻画预报变量的能力。R2,是度量模型拟合效果的一种指标。,是度量模型拟合效果的一种指标。3)R2的值越大,说明残差平方和越小,模型拟合效果越好的值越大,说明残差平方和越小,模型拟合效果越好 R2的值越小,说明残差平方和越大,模型拟合效果越好的值越小,说明残差平方和越大,模型拟合效果越好 4)表示解析变量表示解析变量x和预报变量和预报变量y的线性相的线性相 关性越强关性越强。5
27、)如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过 比较比较R2的值来做出选择,的值来做出选择,即选取即选取R2较大的模型作为这组数据的模型。较大的模型作为这组数据的模型。注:本例中注:本例中R2=0.64,表示解析变量,表示解析变量x对预报变量对预报变量y约贡献了约贡献了64%,即,可以叙述为,即,可以叙述为 “身高解析了身高解析了64%的体重变化的体重变化”,而随机误差贡献了剩余的,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多。所以,身高对体重的效应比随机误差的效应大得多。练习:关于练习:
28、关于x x与与y y有如下数据:有如下数据:x x2 24 45 56 68 8y y30304040606050507070为了对为了对x x、y y两个变量进行统计分析,现有以下两种线性模两个变量进行统计分析,现有以下两种线性模型:型:y=6.5x+17.5y=6.5x+17.5,y=7x+17y=7x+17,试比较哪一个模型拟合的效,试比较哪一个模型拟合的效果更好果更好.一一.用身高预报体重时,需要注意下列问题:用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的、回归方程只适用于我们所研究的样本的总体总体;2、我们所建立的回归方程一般都有、我们所建立的回归方程一般
29、都有时间性时间性;3、样本采集的、样本采集的范围范围会影响回归方程的适用范围;会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精确值。、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的事实上,它是预报变量的可能取值的平均值。平均值。这些问题也使用于其他问题。这些问题也使用于其他问题。涉及到统计的一些思想:涉及到统计的一些思想:模型适用的总体;模型适用的总体;模型的时间性;模型的时间性;样本的取值范围对模型的影响;样本的取值范围对模型的影响;模型预报结果的正确理解。模型预报结果的正确理解。小结小结二二.建立回归模型的基本步骤为:建立回归模
30、型的基本步骤为:1.确定变量确定变量2.制作散点图,观察是否相关制作散点图,观察是否相关3.确定回归方程的类型确定回归方程的类型(线性回归、指数回归、对数回归等线性回归、指数回归、对数回归等)4.利用公式确定回归参数利用公式确定回归参数5.利用残差分析回归是否合理或模型是否合适利用残差分析回归是否合理或模型是否合适三三.回归分析的一般方法:回归分析的一般方法:1).利用散点图观察两个变量是否线性相关利用散点图观察两个变量是否线性相关2).利用残差来判断模型拟合的效果利用残差来判断模型拟合的效果(残差分析残差分析)利用利用残差图残差图来分析数据,对来分析数据,对可疑数据可疑数据(残差较大的数据残
31、差较大的数据)进行重新调查,有错误进行重新调查,有错误就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。1.1回归分析的基本思想及其初步应用(三)回归分析的基本思想及其初步应用(三)非线性回归模型非线性回归模型高二数学高二数学 选修选修1-2复习回顾复习回顾1、线性回归模型:、线性回归模型:y=bx+a+e (其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差)。2、数据点和它在回归直线上相应位置的差异、数据点和它在回归直线上相应位置的差异 是随机误差的效应,称是随机误差的效应,称 为
32、为残差残差。)iiyy(iiieyy=3、对每名女大学生计算这个差异,然后分别将所得、对每名女大学生计算这个差异,然后分别将所得 的值平方后加起来,用数学符号表示为:的值平方后加起来,用数学符号表示为:称为称为残差平方和残差平方和,它代表了随机误差的效应。它代表了随机误差的效应。21()niiiyy 4、我们可以用我们可以用相关指数相关指数R2来刻画回归的效果,其计算公式是:来刻画回归的效果,其计算公式是:222112211()()1()()nniiiiinniiiiyyyyRyyyy6.建立回归模型的基本步骤建立回归模型的基本步骤1)1)确定解释变量确定解释变量x x和预报变量和预报变量y;
33、y;2)2)画出散点图画出散点图;3)3)确定回归方程类型确定回归方程类型;4)4)求出回归方程求出回归方程;5)5)利用相关指数或残差进行分析利用相关指数或残差进行分析.5.回归分析的一般方法:回归分析的一般方法:1).利用散点图观察两个变量是否线性相关利用散点图观察两个变量是否线性相关2).利用残差来判断模型拟合的效果利用残差来判断模型拟合的效果(残差分析残差分析)利用利用残差图残差图来分析数据,对来分析数据,对可疑数据可疑数据(残差较大的数据残差较大的数据)进行重新调查,有错误进行重新调查,有错误就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。就更正,然后重新利用回归模
34、型拟合,如果没有错误,则需要找其他原因。练习练习;关于关于x与与y有如下数据:有如下数据:有如下的两个线性模型:有如下的两个线性模型:(1);(;(2)试比较哪一个拟合效果更好。试比较哪一个拟合效果更好。x24568y30406050706.517.5yx717.yx例例2:一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收集了有关。现收集了7组观组观测数据列于表中:测数据列于表中:(1 1)试建立产卵数)试建立产卵数y y与温度与温度x x之间的回归方程;并预测温度为之间的回归方程;并预测温度为 2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度
35、上解释了产卵数的变化?)你所建立的模型中温度在多大程度上解释了产卵数的变化?温度温度xoC21232527293235产卵数产卵数y/个个711212466115325问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)例例2:一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收集了有关。现收集了7组观测数组观测数据列于表中,据列于表中,试建立试建立y与与x之间的回归方程之间的回归方程 解解:作散点图作散点图;从散点图中可以看出产卵数和温度之间的关系并不能用从散点图中可以看出产卵数和温度之间的关系并不能用 线性回归模型来
36、很好地近似。线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。这些散点更像是集中在一条指数曲线或二次曲线的附近。问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)选变量选变量 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。画散点图画散点图假设线性回归方程为假设线性回归方程为:=bx+a选选 模模 型型分析和预测分析和预测当当x=28时,时,y=19.8728-463.73 93估计参数估计参数由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=1
37、9.8719.87x x-463.73-463.73 相关指数相关指数R R2 2=r r2 20.8640.8642 2=0.7464=0.7464所以,一次函数模型中温度解释了所以,一次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。050100150200250300350036912151821242730333639当当x=28时,时,y=19.8728-463.73 93方法一:一元函数模型方法一:一元函数模型问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)奇怪?奇怪?思考:思考:9366?模型不好?模
38、型不好?问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2) y=c1 x2+c2 变换变换 y=c1 t+c2 非线性关系非线性关系 线性关系线性关系问题问题选用选用y=c1x2+c2,还是,还是y=c1x2+cx+c2?问题问题3 产卵数产卵数气温气温问题问题2如何求如何求c1、c2?令 t=x2方法二,二元函数模型方法二,二元函数模型问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)平方变换平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x
39、x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作散点图,并由计算器得:作散点图,并由计算器得:y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.54-202.54,相关指数,相关指数R R2 2=r r2 20.8960.8962 2=0.802=0.802
40、将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得:y=y=0.3670.367x x2 2-202.54-202.54当当x x=28=28时时,y y=0.367=0.36728282 2-202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)问题问题 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系21c xyce问题问
41、题如何选取指数函数的底如何选取指数函数的底?产卵数产卵数气温气温两边取对数两边取对数问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)方法三:指数函数模型温度温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数产卵数y/个个711212466115325xz当当x=28x=28o oC C 时,时,y 44 y 44,指数回归,指数回归模型中温度解释了模型中温度解释了98%98%的产卵数的变的产卵数的变化化由计算器得:由计算器得:z z关于关于x x的线性回归方程的线性回
42、归方程为为z=0.272z=0.272x x-3.849-3.849,相关指数相关指数R R2 2=r r2 20.99250.99252 2=0.98=0.980.272x-3.849 ye 对数变换:在对数变换:在 中两边取自然对数得中两边取自然对数得令令 ,则,则 就转换为就转换为z z=bx+a=bx+a44333434lnln()lnlnlnlnlnc xc xycececc xec xc43c xyc e34ln,ln,zy acbc43c xyc e问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)函数模型函数模型
43、相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.802指数函数模型指数函数模型0.98(1)由上表显而易见由上表显而易见,指数函数模型最好!,指数函数模型最好!问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)思考:最好的思考:最好的模型是哪个模型是哪个?-200-1000100200300400-40-30-20-10010203040 产卵数产卵数气温气温-50050100150200250300350400450-10-50510152025303540产卵数产卵数气温气温线性模型线性模
44、型二次函数模型二次函数模型指数函数模型指数函数模型(1)0.2723.849(2)2y,y0.367202.543.xex则回归方程的残差计算公式分别为:则回归方程的残差计算公式分别为:(2)另外由计算可得:)另外由计算可得:(1)(1)0.2723.849(2)(2)2,1,2,.,7;0.367202.543,1,2,.,7.xiiiiiiiieyyyeieyyyxix21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.000-40.104-58.26577.
45、968(1)e(2)e(1)(2)1550.538,15448.431.QQ问题四:问题四:若两个变量呈现若两个变量呈现非线性回归关系非线性回归关系,如何解决?(分析例,如何解决?(分析例2)故指数函数模型的拟合效果比二次函数的模拟效果好故指数函数模型的拟合效果比二次函数的模拟效果好.解解:令令 则则z=bx+a,(az=bx+a,(a=lnc=lnc1 1,b=c,b=c2 2),),列出变换后数据表并画列出变换后数据表并画 出出x x与与z z 的散点图的散点图 z=lnyz=lnyx和z之间的关系可以用线性回归模型来拟合z=ax+b+ez=ax+b+e2 2c xc x1 1用用y=c
46、e模y=c e模型型;1)x x2121232325252727292932323535z z1.9461.946 2.3982.398 3.0453.045 3.1783.1784.194.194.7454.745 5.7845.784 注:应用统计方法解决实际问题需要注意的问题:注:应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。我们要用最有效的方法分析数据。可以利用直观(散点直观(散点 图和残差图)、相关指数图和残差图)、相关指数来确定哪一个模型的拟合效果更好。如本例中现在有三个不同
47、的回归模型可供选择来拟合红铃虫的产卵数与温度如本例中现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度 数据,他们分别是:数据,他们分别是:.,212exyecyebaxyexcebxcz2ety 我们可以利用我们可以利用直观(散点图和残差图)、相关指数直观(散点图和残差图)、相关指数来确定哪一个模型的拟来确定哪一个模型的拟 合效果更好。合效果更好。小结:小结:1122(,),(,),.,(,),nnx yxyxy1.对于给定的样本点对于给定的样本点 两个含有未知参数的模型:两个含有未知参数的模型:(1)(2)(,)(,),yf x ayg x b和其中其中a和和b都是未知参数。都是未
48、知参数。用残差法对拟合效果比较的步骤为:用残差法对拟合效果比较的步骤为:(1)分别建立对应于两个模型的回归方程分别建立对应于两个模型的回归方程 与与 其中其中 和和 分别是参数分别是参数a和和b的估计值;的估计值;(2)分别计算两个回归方程的残差平方和分别计算两个回归方程的残差平方和(3)对)对两个回归方程的残差平方和比大小,残差平方和越两个回归方程的残差平方和比大小,残差平方和越 小的拟合效果越好,残差平方和越大的拟合效果越差。小的拟合效果越好,残差平方和越大的拟合效果越差。(1)(,)yf x a(2)(,),yg x b ab注:当回归方程不是形如注:当回归方程不是形如y=bx+a时,我
49、们称之为非线性回归方程时,我们称之为非线性回归方程.2.在散点图中,若样本点没有分布在某个带状区域内,则两个变量不呈现线在散点图中,若样本点没有分布在某个带状区域内,则两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.所所以需要设非线性回归方程,进而通过一系列转化,将其转化为线性回归模型以需要设非线性回归方程,进而通过一系列转化,将其转化为线性回归模型区解决。区解决。用线性回归模型解决非线性相关问题思路:用线性回归模型解决非线性相关问题思路:(1)对数型非线性模型通过两边取对数可以转化为线性模型。)
50、对数型非线性模型通过两边取对数可以转化为线性模型。(2)二次函数型非线性模型通过两边设元法可以转化为线性模型。)二次函数型非线性模型通过两边设元法可以转化为线性模型。小结:小结:进而利用线性回归模型建立了进而利用线性回归模型建立了y和和x之间的非线性回归方程之间的非线性回归方程.令令z=lny,则变换后样本点应该分布在直线,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的的周围周围.如本例中,根据已有的函数知识,可以发现样本点分布在某一条如本例中,根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线指数函数曲线 的周围,其中的周围,其中c1和和c2是待定参数是待定参数
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。