1、(金戈铁骑(金戈铁骑 整理制作)整理制作)第第一一章章统统计计案案例例1.1回回归归分分析析的的基基本本思思想想及及其其初初步步应应用用(第第二二课课时时)a a.比比数数学学3 3中中“回回归归”增增加加的的内内容容数学统计1.1.画画散散点点图图2.2.了了解解最最小小二二乘乘法法的的思思想想3.3.求求回回归归直直线线方方程程y yb bx xa a4.4.用用回回归归直直线线方方程程解解决决应应用用问问题题选修-统计案例5.5.引引入入线线性性回回归归模模型型y yb bx xa ae e6.6.了了解解模模型型中中随随机机误误差差项项e e产产生生的的原原因因7.7.了了解解相相关关
2、指指数数R R2 2和和模模型型拟拟合合的的效效果果之之间间的的关关系系8.8.了了解解残残差差图图的的作作用用9.9.利利用用线线性性回回归归模模型型解解决决一一类类非非线线性性回回归归问问题题10.10.正正确确理理解解分分析析方方法法与与结结果果什什么么是是回回归归分分析析:“回回归归”一一词词是是由由英英国国生生物物学学家家F.Galton在在研研究究人人体体身身高高的的遗遗传传问问题题时时首首先先提提出出的的。根根据据遗遗传传学学的的观观点点,子子辈辈的的身身高高受受父父辈辈影影响响,以以X记记父父辈辈身身高高,Y记记子子辈辈身身高高。虽虽然然子子辈辈身身高高一一般般受受父父辈辈影影
3、响响,但但同同样样身身高高的的父父亲亲,其其子子身身高高并并不不一一致致,因因此此,X和和Y之之间间存存在在一一种种相相关关关关系系。一一般般而而言言,父父辈辈身身高高者者,其其子子辈辈身身高高也也高高,依依此此推推论论,祖祖祖祖辈辈辈辈遗遗传传下下来来,身身高高必必然然向向两两极极分分化化,而而事事实实上上并并非非如如此此,显显然然有有一一种种力力量量将将身身高高拉拉向向中中心心,即即子子辈辈的的身身高高有有向向中中心心回回归归的的特特点点。“回回归归”一一词词即即源源于于此此。虽虽然然这这种种向向中中心心回回归归的的现现象象只只是是特特定定领领域域里里的的结结论论,并并不不具具有有普普遍遍
4、性性,但但从从它它所所描描述述的的关关于于X为为自自变变量量,Y为为不不确确定定的的因因变变量量这这种种变变量量间间的的关关系系看看,和和我我们们现现在在的的回回归归含含义义是是相相同同的的。不不过过,现现代代回回归归分分析析虽虽然然沿沿用用了了“回回归归”一一词词,但但内内容容已已有有很很大大变变化化,它它是是一一种种应应用用于于许许多多领领域域的的广广泛泛的的分分析析研研究究方方法法,在在经经济济理理论论研研究究和和实实证证研研究究中中也也发发挥挥着着重重要要作作用用。回回归归分分析析的的内内容容与与步步骤骤:统统计计检检验验通通过过后后,最最后后是是利利用用回回归归模模型型,根根据据自自
5、变变量量去去估估计计、预预测测因因变变量量。回回归归分分析析通通过过一一个个变变量量或或一一些些变变量量的的变变化化解解释释另另一一变变量量的的变变化化。其其主主要要内内容容和和步步骤骤是是,首首先先根根据据理理论论和和对对问问题题的的分分析析判判断断,将将变变量量分分为为自自变变量量和和因因变变量量;其其次次,设设法法找找出出合合适适的的数数学学方方程程式式(即即回回归归模模型型)描描述述变变量量间间的的关关系系;由由于于涉涉及及到到的的变变量量具具有有不不确确定定性性,接接着着还还要要对对回回归归模模型型进进行行统统计计检检验验;例例1从从某某大大学学中中随随机机选选取取8名名女女大大学学
6、生生,其其身身高高和和体体重重数数据据如如表表1-1所所示示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求求根根据据一一名名女女大大学学生生的的身身高高预预报报她她的的体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172cm的的女女大大学学生生的的体体重重。案案例例1:女女大大学学生生的的身身高高与与体体重重解解:1、选选取取身身高高为为自自变变量量x,体体重重为为因因变变量量y,作作散散点点图图:2、由由散散点点图图知知道道身身高高和和体体重重有有比比较较好好的的线线性性相相关关关关系系,因因此此可
7、可以以用用线线性性回回归归方方程程刻刻画画它它们们之之间间的的关关系系。3、从从散散点点图图还还看看到到,样样本本点点散散布布在在某某一一条条直直线线的的附附近近,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次函函数数y=bx+a描描述述它它们们关关系系。我我们们可可以以用用下下面面的的线线性性回回归归模模型型来来表表示示:y=bx+a+e,其其中中a和和b为为模模型型的的未未知知参参数数,e称称为为随随机机误误差差。思思考考P3产产生生随随机机误误差差项项e的的原原因因是是什什么么?思思考考P3产产生生随随机机误误差差项项e的的原原因因是是什什么么?随随机机误误差差e e
8、的的来来源源(可可以以推推广广到到一一般般):1、其它因素的影响:影响身高y的因素不只是体重x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高y的观测误差。函函数数模模型型与与回回归归模模型型之之间间的的差差别别函数模型:abxy回归模型:eabxy可以提供选择模型的准则函函数数模模型型与与回回归归模模型型之之间间的的差差别别函数模型:abxy回归模型:eabxy线线性性回回归归模模型型y=bx+a+e增增加加了了随随机机误误差差项项e,因因变变量量y的的值值由由自自变变量量x和和随随机机误误差差项项e共共同同确确定定,即即自自变变量量x只只
9、能能解解析析部部分分y的的变变化化。在在统统计计中中,我我们们也也把把自自变变量量x称称为为解解析析变变量量,因因变变量量y称称为为预预报报变变量量。例例1从从某某大大学学中中随随机机选选取取8名名女女大大学学生生,其其身身高高和和体体重重数数据据如如表表1-1所所示示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求求根根据据一一名名女女大大学学生生的的身身高高预预报报她她的的体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172cm的的女女大大学学生生的的体体重重。案案例例1:女女大大学学生生的的身身高
10、高与与体体重重解解:1、选选取取身身高高为为自自变变量量x,体体重重为为因因变变量量y,作作散散点点图图:2、由由散散点点图图知知道道身身高高和和体体重重有有比比较较好好的的线线性性相相关关关关系系,因因此此可可以以用用线线性性回回归归方方程程刻刻画画它它们们之之间间的的关关系系。3、从从散散点点图图还还看看到到,样样本本点点散散布布在在某某一一条条直直线线的的附附近近,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次函函数数y=bx+a描描述述它它们们关关系系。我我们们可可以以用用下下面面的的线线性性回回归归模模型型来来表表示示:y=bx+a+e,其其中中a和和b为为模模型
11、型的的未未知知参参数数,e称称为为随随机机误误差差。例例1从从某某大大学学中中随随机机选选取取8名名女女大大学学生生,其其身身高高和和体体重重数数据据如如表表1-1所所示示。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号求求根根据据一一名名女女大大学学生生的的身身高高预预报报她她的的体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172cm的的女女大大学学生生的的体体重重。根据最小二乘法估计和就是未知参数a和b的最好估计,ab制表xi2xiyiyixi78合计654321i2iiixyxx ynni=1i=
12、1 ,.例例1从从某某大大学学中中随随机机选选取取8名名女女大大学学生生,其其身身高高和和体体重重数数据据如如表表1-1所所示示。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号求求根根据据一一名名女女大大学学生生的的身身高高预预报报她她的的体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172cm的的女女大大学学生生的的体体重重。根据最小二乘法估计和就是未知参数a和b的最好估计,ab于是有b=12210.849niiiniix ynx yxnx85.712aybx 所以回归方程是0.84985.712yx所
13、所以以,对对于于身身高高为为172cm的的女女大大学学生生,由由回回归归方方程程可可以以预预报报其其体体重重为为0.849 7285.71260.316()ykg(,)x y 称为样本点的中心探探究究P4:身身高高为为172cm的的女女大大学学生生的的体体重重一一定定是是60.316kg吗吗?如如果果不不是是,你你能能解解析析一一下下原原因因吗吗?探探究究P4:身身高高为为172cm的的女女大大学学生生的的体体重重一一定定是是60.316kg吗吗?如如果果不不是是,你你能能解解析析一一下下原原因因吗吗?答答:身身高高为为172cm的的女女大大学学生生的的体体重重不不一一定定是是60.316kg
14、,但但一一般般可可以以认认为为她她的的体体重重在在60.316kg左左右右。函函数数模模型型与与回回归归模模型型之之间间的的差差别别函数模型:abxy回归模型:eabxy如如何何描描述述两两个个变变量量之之间间线线性性相相关关关关系系的的强强弱弱?在数学3中,我们学习了用相关系数r来衡量两个变量之间线性相关关系的方法。相相关关系系数数r12211()().()()niiinniiiixxyyxxyy0.751,1,0.75,0 25,0.25,rrr 当,表明两个变量正相关很强;当表明两个变量负相关很强;当.表明两个变量相关性较弱。相关关系的测度(相相关关系系数数取取值值及及其其意意义义)对对
15、回回归归模模型型进进行行统统计计检检验验思思考考P6:如如何何刻刻画画预预报报变变量量(体体重重)的的变变化化?这这个个变变化化在在多多大大程程度度上上与与解解析析变变量量(身身高高)有有关关?在在多多大大程程度度上上与与随随机机误误差差有有关关?假假设设身身高高和和随随机机误误差差的的不不同同不不会会对对体体重重产产生生任任何何影影响响,那那么么所所有有人人的的体体重重将将相相同同。在在体体重重不不受受任任何何变变量量影影响响的的假假设设下下,设设8名名女女大大学学生生的的体体重重都都是是她她们们的的平平均均值值,即即8个个人人的的体体重重都都为为54.5kg。54.554.554.554.
16、554.554.554.554.5体重/kg170155165175170157165165身高/cm87654321编号54.5kg在在散散点点图图中中,所所有有的的点点应应该该落落在在同同一一条条水水平平直直线线上上,但但是是观观测测到到的的数数据据并并非非如如此此。这这就就意意味味着着预预报报变变量量(体体重重)的的值值受受解解析析变变量量(身身高高)或或随随机机误误差差的的影影响响。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号例例如如,编编号号为为6的的女女大大学学生生的的体体重重并并没没有有落落在在水水平平直
17、直线线上上,她她的的体体重重为为61kg。解解析析变变量量(身身高高)和和随随机机误误差差共共同同把把这这名名学学生生的的体体重重从从54.5kg“推推”到到了了61kg,相相差差6.5kg,所所以以6.5kg是是解解析析变变量量和和随随机机误误差差的的组组合合效效应应。编编号号为为3的的女女大大学学生生的的体体重重并并也也没没有有落落在在水水平平直直线线上上,她她的的体体重重为为50kg。解解析析变变量量(身身高高)和和随随机机误误差差共共同同把把这这名名学学生生的的体体重重从从50kg“推推”到到了了54.5kg,相相差差-4.5kg,这这时时解解析析变变量量和和随随机机误误差差的的组组合
18、合效效应应为为-4.5kg。用用这这种种方方法法可可以以对对所所有有预预报报变变量量计计算算组组合合效效应应。数数学学上上,把把每每个个效效应应(观观测测值值减减去去总总的的平平均均值值)的的平平方方加加起起来来,即即用用21()niiyy表表示示总总的的效效应应,称称为为总总偏偏差差平平方方和和。在在例例1中中,总总偏偏差差平平方方和和为为354。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号那那么么,在在这这个个总总的的效效应应(总总偏偏差差平平方方和和)中中,有有多多少少来来自自于于解解析析变变量量(身身高高)?有
19、有多多少少来来自自于于随随机机误误差差?假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。这这些些点点散散布布在在回回归归直直线线附附近近,所所以以一一定定是是随随机机误误差差把把这这些些点点从从回回归归直直线线上上“推推”开开了了。在在例例1中中,残残差差平平方方和和约约为为128.361。因因此此,数数据据点点和和它它在在回回归归直直线线上上相相应应位位置置的的差差异异是是随随机机误误差差的的效效应应,称称为为残残差差。)iiyy(iiieyy=例例如如,编编号号为为6的的女女大大学学生生,计计
20、算算随随机机误误差差的的效效应应(残残差差)为为:61(0.849 16585.712)6.627对对每每名名女女大大学学生生计计算算这这个个差差异异,然然后后分分别别将将所所得得的的值值平平方方后后加加起起来来,用用数数学学符符号号21()niiiyy称称为为残残差差平平方方和和,它它代代表表了了随随机机误误差差的的效效应应。表表示示为为:由由于于解解析析变变量量和和随随机机误误差差的的总总效效应应(总总偏偏差差平平方方和和)为为354,而而随随机机误误差差的的效效应应为为128.361,所所以以解解析析变变量量的的效效应应为为解解析析变变量量和和随随机机误误差差的的总总效效应应(总总偏偏差
21、差平平方方和和)=解解析析变变量量的的效效应应(回回归归平平方方和和)+随随机机误误差差的的效效应应(残残差差平平方方和和)354-128.361=225.639 这这个个值值称称为为回回归归平平方方和和。我我们们可可以以用用相相关关指指数数R2来来刻刻画画回回归归的的效效果果,其其计计算算公公式式是是22121()11()niiiniiyyRyy 残差平方和。总偏差平方和2221121()()()nniiiiiniiyyyyRyy总偏差平方和残差平方和回归平方和总偏差平方和总偏差平方和离差平方和的分解(三三个个平平方方和和的的意意义义)1.总总偏偏差差平平方方和和(SST)反反映映因因变变量
22、量的的n个个观观察察值值与与其其均均值值的的总总离离差差2.回回归归平平方方和和(SSR)反反映映自自变变量量x的的变变化化对对因因变变量量y取取值值变变化化的的影影响响,或或者者说说,是是由由于于x与与y之之间间的的线线性性关关系系引引起起的的y的的取取值值变变化化,也也称称为为可可解解释释的的平平方方和和3.残残差差平平方方和和(SSE)反反映映除除x以以外外的的其其他他因因素素对对y取取值值的的影影响响,也也称称为为不不可可解解释释的的平平方方和和或或剩剩余余平平方方和和样本决定系数(判判定定系系数数r r2 2)1.回归平方和占总离差平方和的比例我我们们可可以以用用相相关关指指数数R2
23、来来刻刻画画回回归归的的效效果果,其其计计算算公公式式是是22121()11()niiiniiyyRyy 残差平方和。总偏差平方和显显然然,R2的的值值越越大大,说说明明残残差差平平方方和和越越小小,也也就就是是说说模模型型拟拟合合效效果果越越好好。在在线线性性回回归归模模型型中中,R2表表示示解解析析变变量量对对预预报报变变量量变变化化的的贡贡献献率率。R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。如如果果某某组组数数据据可可能能采采取取几几种种不不同同回回归归方方程程进进行行回回归归分分析析,则则可可以以通通过过比比较较R2的的值值来来做做出
24、出选选择择,即即选选取取R2较较大大的的模模型型作作为为这这组组数数据据的的模模型型。总总的的来来说说:相相关关指指数数R2是是度度量量模模型型拟拟合合效效果果的的一一种种指指标标。在在线线性性模模型型中中,它它代代表表自自变变量量刻刻画画预预报报变变量量的的能能力力。我我们们可可以以用用相相关关指指数数R2来来刻刻画画回回归归的的效效果果,其其计计算算公公式式是是22121()11()niiiniiyyRyy 残差平方和。总偏差平方和1354总计0.36128.361残差变量0.64225.639随机误差比例平方和来源表表1-3从从表表3-1中中可可以以看看出出,解解析析变变量量对对总总效效
25、应应约约贡贡献献了了64%,即即R20.64,可可以以叙叙述述为为“身身高高解解析析了了64%的的体体重重变变化化”,而而随随机机误误差差贡贡献献了了剩剩余余的的36%。所所以以,身身高高对对体体重重的的效效应应比比随随机机误误差差的的效效应应大大得得多多。表表1-4列列出出了了女女大大学学生生身身高高和和体体重重的的原原始始数数据据以以及及相相应应的的残残差差数数据据。在在研研究究两两个个变变量量间间的的关关系系时时,首首先先要要根根据据散散点点图图来来粗粗略略判判断断它它们们是是否否线线性性相相关关,是是否否可可以以用用回回归归模模型型来来拟拟合合数数据据。残残差差分分析析与与残残差差图图
26、的的定定义义:然然后后,我我们们可可以以通通过过残残差差来来判判断断模模型型拟拟合合的的效效果果,判判断断原原始始数数据据中中是是否否存存在在可可疑疑数数据据,这这方方面面的的分分析析工工作作称称为为残残差差分分析析。12,ne ee 编编号号1 12 23 34 45 56 67 78 8身身高高/c cm m1 16 65 51 16 65 51 15 57 71 17 70 01 17 75 51 16 65 51 15 55 51 17 70 0体体重重/k kg g4 48 85 57 75 50 05 54 46 64 46 61 14 43 35 59 9残残差差-6 6.3 3
27、7 73 32 2.6 62 27 72 2.4 41 19 9-4 4.6 61 18 81 1.1 13 37 76 6.6 62 27 7-2 2.8 88 83 30 0.3 38 82 2我我们们可可以以利利用用图图形形来来分分析析残残差差特特性性,作作图图时时纵纵坐坐标标为为残残差差,横横坐坐标标可可以以选选为为样样本本编编号号,或或身身高高数数据据,或或体体重重估估计计值值等等,这这样样作作出出的的图图形形称称为为残残差差图图。残残差差图图的的制制作作及及作作用用。坐坐标标纵纵轴轴为为残残差差变变量量,横横轴轴可可以以有有不不同同的的选选择择;若若模模型型选选择择的的正正确确,残
28、残差差图图中中的的点点应应该该分分布布在在以以横横轴轴为为心心的的带带形形区区域域;对对于于远远离离横横轴轴的的点点,要要特特别别注注意意。身高与体重残差图异常点错误数据模型问题几几点点说说明明:第第一一个个样样本本点点和和第第6个个样样本本点点的的残残差差比比较较大大,需需要要确确认认在在采采集集过过程程中中是是否否有有人人为为的的错错误误。如如果果数数据据采采集集有有错错误误,就就予予以以纠纠正正,然然后后再再重重新新利利用用线线性性回回归归模模型型拟拟合合数数据据;如如果果数数据据采采集集没没有有错错误误,则则需需要要寻寻找找其其他他的的原原因因。另另外外,残残差差点点比比较较均均匀匀地
29、地落落在在水水平平的的带带状状区区域域中中,说说明明选选用用的的模模型型计计较较合合适适,这这样样的的带带状状区区域域的的宽宽度度越越窄窄,说说明明模模型型拟拟合合精精度度越越高高,回回归归方方程程的的预预报报精精度度越越高高。小小结结用用身身高高预预报报体体重重时时,需需要要注注意意下下列列问问题题:1、回回归归方方程程只只适适用用于于我我们们所所研研究究的的样样本本的的总总体体;2、我我们们所所建建立立的的回回归归方方程程一一般般都都有有时时间间性性;3、样样本本采采集集的的范范围围会会影影响响回回归归方方程程的的适适用用范范围围;4、不不能能期期望望回回归归方方程程得得到到的的预预报报值
30、值就就是是预预报报变变量量的的精精确确值值。事事实实上上,它它是是预预报报变变量量的的可可能能取取值值的的平平均均值值。这这些些问问题题也也使使用用于于其其他他问问题题。涉涉及及到到统统计计的的一一些些思思想想:模模型型适适用用的的总总体体;模模型型的的时时间间性性;样样本本的的取取值值范范围围对对模模型型的的影影响响;模模型型预预报报结结果果的的正正确确理理解解。一一般般地地,建建立立回回归归模模型型的的基基本本步步骤骤为为:(1)确确定定研研究究对对象象,明明确确哪哪个个变变量量是是解解析析变变量量,哪哪个个变变量量是是预预报报变变量量。(2)画画出出确确定定好好的的解解析析变变量量和和预
31、预报报变变量量的的散散点点图图,观观察察它它们们之之间间的的关关系系(如如是是否否存存在在线线性性关关系系等等)。(3)由由经经验验确确定定回回归归方方程程的的类类型型(如如我我们们观观察察到到数数据据呈呈线线性性关关系系,则则选选用用线线性性回回归归方方程程y=bx+a).(4)按按一一定定规规则则估估计计回回归归方方程程中中的的参参数数(如如最最小小二二乘乘法法)。(5)得得出出结结果果后后分分析析残残差差图图是是否否有有异异常常(个个别别数数据据对对应应残残差差过过大大,或或残残差差呈呈现现不不随随机机的的规规律律性性,等等等等),过过存存在在异异常常,则则检检查查数数据据是是否否有有误误,或或模模型型是是否否合合适适等等。结结束束
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。