1、通通过过对对必必修修的的学学习习,我我们们知知道道,变变量量之之间间存存在在关关系系时时,有有两两种种关关系系:确确定定性性关关系系非非确确定定性性关关系系函函数数关关系系相相关关关关系系函函数数关关系系是是非非常常明明确确的的关关系系,相相关关关关系系却却是是一一种种变变化化的的,通通过过数数学学3的的学学习习我我们们知知道道,回回归归分分析析(regressionanalysis)是是相相关关关关系系的的一一种种分分析析方方法法,它它是是对对具具有有相相关关关关系系的的两两个个变变量量进进行行统统计计分分析析一一般般步步骤骤为为:散散点点图图求求回回归归方方程程利利用用回回归归方方程程预预
2、报报下下面面我我们们通通过过实实际际案案例例。进进一一步步学学习习回回归归分分析析的的基基本本思思想想及及其其应应用用例例1.从从某某大大学学中中随随机机选选取取8名名女女大大学学生生。其其身身高高和和体体重重数数据据如如表表所所示示:编号12345678身高cm165 165 157 170 175 165 155 170体重kg4857505464614359求求根根据据一一名名大大学学生生的的身身高高预预报报她她的的体体重重的的回回归归方方程程,并并预预报报一一名名172cm的的女女大大学学生生的的体体重重。解解利利用用前前面面的的知知识识我我们们首首先先作作身身高高x和和体体重重y的的
3、散散点点图图:从从图图可可以以看看出出,样样本本点点的的分分布布有有比比较较好好的的线线性性关关系系,因因此此可可以以用用线线性性回回归归来来刻刻画画它它们们之之间间的的关关系系.会会求求它它们们的的方方程程吗吗?事事实实上上,从从散散点点图图可可以以看看出出,样样本本点点并并不不是是分分布布在在这这条条直直线线上上,而而是是分分布布在在它它的的两两边边,所所以以严严格格来来说说:y=bx+a不不是是真真正正的的表表示示它它们们之之间间的的关关系系,这这时时我我们们把把身身高高和和体体重重的的关关系系做做一一下下调调整整来来模模拟拟回回归归关关系系:Y=bx+a+e其其中中a和和b为为模模型型
4、的的未未知知参参数数,e称称为为随随机机误误差差如如何何产产生生的的?身身高高X(cm)体体重重y(kg)饮饮食食习习惯惯运运动动习习惯惯质质量量误误差差线线性性回回归归模模型型y=bx+a+e与与我我们们了了的的一一次次函函数数模模型型不不同同之之处处在在于于多多了了一一个个随随机机误误差差e,y的的值值有有它它们们一一起起决决定定解解释释变变量量x预预报报变变量量y随随机机误误差差e1.a,b的的估估计计:a,b的的估估计计和和最最小小二二乘乘法法估估计计一一样样 yxynyxnxniinii,1,111其其中中称称为为样样本本的的中中心心2.e的的估估计计y=0.849x-85.712通
5、通过过数数学学3的的学学习习我我们们知知道道,它它们们之之间间是是正正相相关关的的,我我们们用用它它们们的的相相关关系系数数r来来衡衡量量它它们们之之间间的的相相关关性性的的强强弱弱在在上上面面的的例例子子中中我我们们假假设设体体重重与与身身高高没没有有关关系系即即:体体重重都都为为:kgy5.45则则,她她们们身身高高体体重重的的散散点点图图应应该该在在一一条条水水平平直直线线上上:事事实实上上,并并非非如如此此,它它们们和和45.5之之间间存存在在差差别别,这这时时我我们们就就引引入入随随机机误误差差,利利用用随随机机误误差差和和解解释释变变量量共共同同来来预预报报变变量量y21)(nii
6、yy把把所所有有的的这这种种效效应应利利用用总总体体偏偏差差平平方方和和合合并并成成一一个个数数总总体体偏偏差差平平方方和和解解释释变变量量随随机机误误差差?我我们们现现在在要要弄弄清清楚楚这这个个总总的的效效应应中中,有有多多少少来来自自解解释释变变量量,有有多多少少来来自自随随机机误误差差,即即:哪哪一一个个效效应应起起决决定定性性作作用用?根根据据我我们们在在数数学学3总总的的知知识识,我我们们知知道道:每每个个点点与与回回归归方方程程的的差差异异我我们们可可以以用用来来表表示示,记记作作:(残残差差(residual)它它刚刚好好可可以以表表示示随随机机误误差差的的效效应应。i iy
7、y i i iy y e 为为了了回回归归的的准准确确和和计计算算的的方方便便我我们们引引入入残残差差平平方方和和(residualsumofsquares)它它代代表表随随机机误误差差的的效效应应21)(niiiyy求求出出了了随随机机误误差差的的效效应应后后,我我们们就就比比较较容容易易得得到到解解释释变变量量的的效效应应了了。同同学学们们知知道道怎怎样样求求吗吗?解解释释变变量量的的效效应应总总体体偏偏差差平平方方和和残残差差平平方方和和回回归归平平方方和和(regressionsunofsquares)你你会会计计算算上上面面的的总总体体偏偏差差平平方方和和、残残差差平平方方和和、回回
8、归归平平方方和和吗吗?354128.361225.639有有了了这这些些评评估估效效应应的的方方法法,我我们们就就可可以以利利用用它它们们来来刻刻画画总总体体效效应应,事事实实上上,为为了了将将我我们们的的计计算算简简化化,我我们们又又引引入入相相关关指指数数R2来来刻刻画画回回归归的的效效果果:niiniiyyyyR12122)()(1残残差差平平方方和和总总体体偏偏差差平平方方和和显显然然,当当R2的的值值越越大大,说说明明残残差差所所占占的的比比例例越越小小,回回归归效效果果约约好好;反反之之,回回归归效效果果越越差差。一一般般的的,当当R2越越接接近近于于1,说说明明解解释释变变量量和
9、和预预报报变变量量之之间间的的相相关关性性越越强强,如如果果同同一一个个问问题题,采采用用不不同同的的回回归归方方法法分分析析,我我们们可可以以通通过过选选择择R2大大的的来来作作为为回回归归模模型型一一般般方方法法:1.利利用用散散点点图图观观察察两两个个变变量量是是否否线线性性相相关关2.利利用用残残差差来来判判断断模模型型拟拟合合的的效效果果(残残差差分分析析)利利用用残残差差图图来来分分析析数数据据,对对可可疑疑数数据据(残残差差较较大大的的数数据据)进进行行重重新新调调查查,有有错错误误就就更更正正,然然后后重重新新利利用用回回归归模模型型拟拟合合,如如果果没没有有错错误误,则则需需
10、要要找找其其他他原原因因。残残差差图图:编号12345678身高cm165165157170175165155170体重kg4857505464614359残差-6.3732.6272.419-4.618 1.1376.627-2.8830.382问问题题数数据据越越窄窄越越好好说说明明1.回回归归方方程程只只适适合合对对所所研研究究总总体体的的估估计计2.回回归归方方程程是是对对数数据据的的模模拟拟,数数据据的的改改变变,可可能能会会导导致致回回归归方方程程的的变变化化3.不不同同的的回回归归样样本本数数据据,有有不不同同的的回回归归方方程程,也也适适合合不不同同的的回回归归总总体体,4.回
11、回归归方方程程是是预预报报变变量量的的平平均均值值,而而不不是是精精确确值值5.回回归归的的好好坏坏可可以以由由相相关关指指数数来来评评价价建建立立回回归归方方程程的的一一般般步步骤骤:1.确确定定变变量量2.制制作作散散点点图图,观观察察是是否否相相关关3.确确定定回回归归方方程程的的类类型型(线线性性回回归归、指指数数回回归归、对对数数回回归归等等)4.利利用用公公式式确确定定回回归归参参数数5.利利用用残残差差分分析析回回归归是是否否合合理理或或模模型型是是否否合合适适例例2一一只只红红蛉蛉虫虫的的产产卵卵数数y与与温温度度x有有关关,现现收收集集了了7组组数数据据,请请建建立立y与与x
12、建建德德回回归归方方程程温度x21232527293235产卵数y/个711212466115325解解1.制制作作散散点点图图2.观观察察模模拟拟样样本本点点不不能能直直接接利利用用线线性性回回归归,根根据据我我们们的的函函数数知知识识,它它应应该该是是一一个个指指数数模模型型:y=c1ec2x其其中中c1c2为为参参数数或或二二次次函函数数模模型型,根根据据对对数数回回归归知知识识我我们们知知道道:令令z=lny将将其其变变换换到到样样本本点点的的分分布布直直线线z=a+bxx21232527293235z1.9462.3983.0453.1784.1904.7455.784z=0272x
13、-3.843则则:y=e0.272x-3.8432.我我们们认认为为样样本本点点集集中中在在某某二二次次函函数数y=c3x2+c4附附近近,c3c4为为参参数数,则则,令令tx2则则:y=c5t+c6其其中中c5c6为为参参数数t4415296257298411024 1225y711212466115325y=0.367t-202.54不不适适合合利利用用线线性性回回归归为为什什么么这这样样说说?4.残残差差分分析析:X21232527293235合合计计(残残差差平平方方和和)R2Y711212466115329e(1)0.518-0.1671.760-9.1498.889-14.15332.9281450.6730.98e(2)47.69319.397-5.835-41.003-40.107-58.26877.96515448.4320.80由由图图的的对对比比可可以以看看出出,指指数数模模拟拟优优于于线线性性模模拟拟回回归归分分析析基基本本思思想想及及其其初初步步应应用用基基本本思思想想实实际际应应用用回回归归分分析析相相关关性性方方法法分分析析回回归归优优劣劣分分析析总总偏偏差差平平方方和和残残差差平平方方和和回回归归平平方方和和