1、(金戈铁骑(金戈铁骑 整理制作)整理制作)第第三三章章统统计计案案例例3 3.1 1回回归归分分析析的的基基本本思思想想及及其其初初步步应应用用2 2、两两个个随随机机变变量量之之间间具具有有线线性性相相关关关关系系是是如如何何直直观观理理解解的的?两两个个变变量量的的样样本本数数据据的的散散点点图图大大致致分分布布在在一一条条直直线线附附近近.1 1、两两个个变变量量之之间间的的相相关关关关系系可可以以分分为为哪哪两两种种?(1 1)确确定定性性关关系系(函函数数关关系系)(2 2)相相关关关关系系(线线性性相相关关与与非非线线性性相相关关)知知识识回回顾顾3 3、什什么么是是回回归归分分析
2、析?回回归归分分析析是是对对具具有有相相关关关关系系的的两两个个变变量量进进行行统统计计分分析析的的一一种种常常用用方方法法.4 4、回回归归分分析析的的基基本本步步骤骤是是怎怎样样的的?画画散散点点图图求求回回归归直直线线方方程程用用回回归归直直线线方方程程进进行行预预报报.5 5、什什么么叫叫回回归归直直线线?回回归归直直线线方方程程的的一一般般形形式式是是什什么么?散散点点图图的的分分布布从从整整体体上上最最接接近近的的一一条条直直线线,其其方方程程是是:.ybxa6 6、对对于于一一组组具具有有线线性性相相关关关关系系的的数数据据:(x1 1,y1 1),(x2 2,y2 2),(xn
3、,yn),其其回回归归直直线线ybxa的的斜斜率率和和截截距距的的最最小小二二乘乘估估计计公公式式分分别别是是什什么么?121()()()niiiniixxyybxxaybx7 7、回回归归直直线线一一定定经经过过哪哪一一个个经经过过样样本本点点中中心心?回回归归直直线线的的斜斜率率估估值值公公式式可可作作什什么么变变形形?8 8、称称为为相相关关系系数数,它它有有12211()()()()niiinniiiixxyyrxxyy何何统统计计意意义义?回回归归直直线线一一定定经经过过样样本本点点中中心心.(,)x y当当r r0 0时时,表表明明两两个个变变量量正正相相关关;当当r r0 0时时
4、,表表明明两两个个变变量量负负相相关关;当当|r r|1 1时时,表表明明两两个个变变量量的的线线性性相相关关性性越越强强;当当|r r|0 0时时,表表明明两两个个变变量量的的线线性性相相关关性性越越弱弱,几几乎乎不不存存在在线线性性相相关关关关系系.当当|r r|1 1时时,所所有有样样本本点点都都在在一一条条直直线线上上.1 1.对对于于一一组组样样本本数数据据,一一般般先先作作散散点点图图,由由此此判判断断两两个个变变量量是是否否具具有有线线性性相相关关关关系系,若若是是,则则进进一一步步求求回回归归直直线线方方程程2 2.若若两两个个变变量量具具有有线线性性相相关关关关系系,在在其其
5、回回归归直直线线方方程程中中,当当0 0时时,回回归归直直线线的的斜斜率率为为正正数数,两两个个变变量量呈呈正正相相关关;当当0 0时时,回回归归直直线线的的斜斜率率为为负负数数,两两个个变变量量呈呈负负相相关关.bb注意:3 3.对对变变量量x,由由回回归归方方程程求求得得的的对对应应的的值值只只是是一一个个估估计计值值,它它与与样样本本数数据据的的真真实实值值y不不一一定定相相等等,但但一一般般认认为为真真实实值值y在在估估计计值值左左右右.yy对对具具有有线线性性相相关关关关系系的的两两个个变变量量x,y,当当自自变变量量x取取某某个个值值时时,由由回回归归方方程程得得到到的的y值值只只
6、是是一一个个预预报报值值或或估估计计值值,它它与与实实际际问问题题中中真真实实的的y值值往往往往有有一一定定的的误误差差.如如何何从从理理论论上上认认识识和和分分析析这这种种误误差差,我我们们有有必必要要进进一一步步了了解解.教教材材自自学学教教材材内内容容:P P8 80 0P P8 86 6例例2 21 1.随随机机误误差差的的含含义义是是什什么么?2 2.残残差差,残残差差图图的的含含义义分分别别是是什什么么?3 3.称称为为相相关关指指数数,它它有有何何统统计计意意义义?22121()1()niiiniiyyRyy 5 5、建建立立回回归归模模型型的的基基本本步步骤骤是是什什么么?4
7、4、利利用用回回归归模模型型进进行行预预报报时时需需要要注注意意些些什什么么问问题题?1 1.随随机机误误差差的的含含义义是是什什么么?对对具具有有线线性性相相关关关关系系的的两两个个变变量量x,y,可可以以用用线线性性回回归归模模型型ybxae来来表表示示,其其中中e是是y与与bxa之之间间的的误误差差,称称为为随随机机误误差差.2 2.残残差差,残残差差图图的的含含义义分分别别是是什什么么?(1 1)称称为为相相应应于于点点(xi,yi)的的残残差差,iiiiieyyybxa(2 2)以以残残差差为为纵纵坐坐标标,样样本本编编号号或或样样本本中中其其它它数数据据为为横横坐坐标标,所所得得的
8、的图图形形称称为为残残差差图图.3 3.称称为为相相关关指指数数,它它有有何何统统计计意意义义?22121()1()niiiniiyyRyy(1 1)R R2 2取取值值越越大大,残残差差平平方方和和越越小小,模模型型拟拟合合的的精精度度越越高高.(2 2)R R2 2是是常常用用的的选选择择模模型型的的指指标标之之一一,在在实实际际应应用用中中,一一般般选选择择R R2 2大大的的回回归归模模型型。4 4、建建立立回回归归模模型型的的基基本本步步骤骤是是什什么么?(1 1)确确定定研研究究对对象象,明明确确解解释释变变量量和和预预报报变变量量;(2 2)画画出出散散点点图图,观观察察两两个个
9、变变量量之之间间的的关关系系;(3 3)由由经经验验确确定定回回归归方方程程的的类类型型;(4 4)按按一一定定规规则则估估计计回回归归方方程程中中的的参参数数;(5 5)分分析析残残差差图图是是否否有有异异常常,并并作作适适当当处处理理.5 5、利利用用回回归归模模型型进进行行预预报报时时需需要要注注意意些些什什么么问问题题?(1 1)回回归归方方程程只只适适用用于于所所研研究究的的样样本本的的总总体体;(2 2)所所得得回回归归方方程程一一般般都都有有时时间间性性;(3 3)样样本本取取值值的的范范围围会会影影响响回回归归方方程程的的取取值值范范围围(4 4)由由回回归归方方程程得得到到的
10、的预预报报值值是是预预报报变变量量的的可可能能取取值值的的平平均均值值.残残差差分分析析是是统统计计学学中中的的一一个个基基础础内内容容,根根据据残残差差图图或或相相关关指指数数,可可以以反反映映回回归归模模型型拟拟合合的的精精度度或或回回归归方方程程的的预预报报精精度度.对对于于不不具具有有线线性性相相关关关关系系的的随随机机变变量量,如如何何建建立立相相应应的的回回归归方方程程,也也是是需需要要解解决决的的问问题题.小小结结作作业业1 1.随随机机误误差差是是引引起起预预报报值值与与真真实实值值之之间间的的误误差差原原因因之之一一,其其大大小小取取决决于于随随机机误误差差的的方方差差.2
11、2.产产生生随随机机误误差差的的原原因因是是多多方方面面的的,如如一一个个人人的的体体重重除除了了受受身身高高的的影影响响外外,还还受受饮饮食食习习惯惯,运运动动量量,家家族族遗遗传传等等因因素素的的影影响响.3 3.在在回回归归模模型型中中,残残差差变变量量是是一一个个不不能能被被观观测测的的量量,但但可可以以估估计计预预报报变变量量观观测测值值中中所所包包含含的的残残差差变变量量,这这种种估估计计对对于于查查找找样样本本数数据据中中的的错错误误和和模模型型的的评评价价极极为为有有效效.小小结结作作业业1 1.若若散散点点图图中中的的样样本本点点分分布布在在一一个个直直线线状状带带形形区区域
12、域内内,则则可可以以选选用用线线性性回回归归模模型型建建模模.2 2.若若散散点点图图中中的的样样本本点点分分布布在在一一个个曲曲线线状状带带形形区区域域内内,表表明明样样本本数数据据呈呈非非线线性性相相关关关关系系,可可以以根根据据散散点点图图分分布布选选择择指指数数函函数数,对对数数函函数数,幂幂函函数数,二二次次函函数数,三三角角函函数数等等回回归归模模型型,再再通通过过变变换换转转化化为为线线性性回回归归模模型型求求回回归归直直线线方方程程,再再退退回回原原变变量量得得非非线线性性回回归归模模型型.3 3.如如果果对对某某组组数数据据可可能能采采取取几几种种不不同同的的回回归归方方程程进进行行回回归归分分析析,则则可可以以通通过过相相关关指指数数的的大大小小比比较较拟拟合合效效果果,选选择择相相关关指指数数大大的的模模型型作作为为回回归归模模型型.作作业业:同同步步教教辅辅练练习习