1、3.1 回归分析的基本回归分析的基本思想及其初步应用思想及其初步应用两个变量的关系两个变量的关系不相关不相关相关关系相关关系函数关系函数关系线性相关线性相关非线性相关非线性相关复习:复习:一、两个变量间的关系一、两个变量间的关系相关关系相关关系:对于两个变量,当自变量取值一定时,因:对于两个变量,当自变量取值一定时,因变量的取值带有一定变量的取值带有一定随机性随机性的两个变量之间的关系的两个变量之间的关系.函数关系函数关系中的两个变量间是一种确定性关系,函数中的两个变量间是一种确定性关系,函数关系是一种关系是一种理想的关系模型理想的关系模型相关关系相关关系是一种是一种非确定性关系非确定性关系,
2、相关关系在现实生,相关关系在现实生活中大量存在,是更一般的情况。活中大量存在,是更一般的情况。现实生活中存在着大量的相关关系:现实生活中存在着大量的相关关系:二、两个变量的线性相关二、两个变量的线性相关 (1 1)散点图)散点图 正相关、正相关、负相关。负相关。(2 2)回归直线回归直线:观察散点图的特征,如果各点:观察散点图的特征,如果各点大大致分布致分布在一条直线的附近,就称两个变量之间具在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做有线性相关的关系,这条直线叫做回归直线。回归直线。三、回归直线方程:最小二乘法三、回归直线方程:最小二乘法n nn ni ii ii ii
3、 ii i=1 1i i=1 1n nn n2 22 22 2i ii ii i=1 1i i=1 1(x x-x x)(y y-y y)x x-n nx xy yb b=,(x x-x x)x x-n nx xa a=y y-b bx xy y1 1、所求、所求回归直线方程回归直线方程为为 ,其中:,其中:y=bx+ay=bx+a1111,.nniiiixx yynn其中(,)x y称为样本点的中心称为样本点的中心高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】2、求、求线
4、性回归直线方程线性回归直线方程的步骤:的步骤:第一步:列表(把数据整理成表格);第一步:列表(把数据整理成表格);,niiiniixyxyx121,第二步:计算:第二步:计算:第三步:代入公式计算第三步:代入公式计算b,a的值;的值;第四步:写出直线方程:第四步:写出直线方程:axby 对两个变量进行的线性分析叫做对两个变量进行的线性分析叫做线性线性回归分析回归分析。例例 从某大学中随机选出从某大学中随机选出8 8名女大学生,其名女大学生,其身高和体重数据如下表:身高和体重数据如下表:编号编号12345678身高身高165165157170175165155170体重体重48575054646
5、14359求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的回归方程回归方程,并,并预报预报一名身高为一名身高为172172的女的女大学生的体重。大学生的体重。新课讲解新课讲解高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】1.散点图;散点图;2.2.回归方程:回归方程:172.85849.0 xy分析:由于问题分析:由于问题中要求根据身高中要求根据身高预报体重,因此预报体重,因此选取身高为自变选取身高为自变量,体重为因变量,体重为因变量量学学身身高
6、高1 17 72 2c cm m女女大大生生体体重重y y=0 0.8 84 49 91 17 72 2-8 85 5.7 71 12 2=6 60 0.3 31 16 6(k kg g)探究?探究?身高为身高为172172的女大学生的体重的女大学生的体重一定一定是是60.316kg60.316kg吗?如果不是吗?如果不是,其原因是什其原因是什么么?高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】从散点图可以看到,样本点散布在某一条直线的从散点图可以看到,样本点散布在某一条直
7、线的附近,而不是一条直线上,所以附近,而不是一条直线上,所以不能不能用一次函数用一次函数来描述它们之间的关系。来描述它们之间的关系。这时我们用下面的这时我们用下面的线性回归模型线性回归模型来描述身高和体来描述身高和体重的关系:重的关系:+其中和为模型的其中和为模型的未知参数未知参数,e e是是y y与与 之间的误差之间的误差,通常通常称为称为随机误差随机误差。y产生随机误差的原因是什么?产生随机误差的原因是什么?(1)(1)所用确定性函数模拟不恰当;所用确定性函数模拟不恰当;(2)(2)忽略了某些因素的影响;忽略了某些因素的影响;(3)(3)观测误差,如使用的测量工具不同等。观测误差,如使用的
8、测量工具不同等。线性回归直线与线性回归模型之间的差别线性回归直线与线性回归模型之间的差别线性回归直线:线性回归直线:y=bx+ay=bx+a 线性回归模型线性回归模型y=bx+a+ey=bx+a+e增加了增加了随机误差项随机误差项e e,因,因变量变量y y 的值由自变量的值由自变量x x和随机误差项和随机误差项e e 共同确定,即共同确定,即自变量自变量x x 只能只能解析部分解析部分y y 的变化的变化.在统计中,我们也把自变量在统计中,我们也把自变量x称为称为解析变量解析变量,因变量因变量y称为称为预报变量预报变量.线性回归模型:线性回归模型:y=bx+a+ey=bx+a+e解析变量解析
9、变量x(身高身高)随机误差随机误差e预报变量预报变量y(体重体重)高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】在线性回归模型中,在线性回归模型中,e e是用是用bx+abx+a预报真实值预报真实值y y的的随机误差,即随机误差,即 e=y-(bx+a)e=y-(bx+a),它是一个它是一个不可观测不可观测的量的量,那么应如何研究随机误差呢?,那么应如何研究随机误差呢?随机误差的估计值为:随机误差的估计值为:(),eyyybxa 对于样本点:对于样本点:1122(,),(,
10、),.,(,)nnxyxyxy随机误差的随机误差的估计值估计值为:为:1,2,.,.,()iiiiieyyybxina ie称为相应于点称为相应于点 的的残差残差.(,)iixy高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】判断模型拟合的效果(精度)方法一:判断模型拟合的效果(精度)方法一:残差分析残差分析在研究两个变量间的关系时,首先要根据散点在研究两个变量间的关系时,首先要根据散点图来粗略图来粗略判断它们是否是线性相关判断它们是否是线性相关,是否可以,是否可以用线性回归
11、模型来拟合数据。然后,可以通过用线性回归模型来拟合数据。然后,可以通过残差残差 来来,判,判断原始数据中断原始数据中是否存在可疑数据是否存在可疑数据.这方面的分析这方面的分析工作称为工作称为残差分析残差分析。12,ne ee通常先求出各个残差数据,然后通常先求出各个残差数据,然后画出残差图进行分析。画出残差图进行分析。高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】残差图的制作:残差图的制作:坐标坐标纵轴为残差纵轴为残差,横轴横轴可以选择为可以选择为样本编号、样本编号、或身高
12、数据、或体重估计值等等。或身高数据、或体重估计值等等。我们通我们通常采用样本编号常采用样本编号作为残差图的横轴。作为残差图的横轴。判断方法:判断方法:如果残差图中的点如果残差图中的点比较均匀比较均匀的分布在以横轴为的分布在以横轴为中心的带形区域,说明选用的模型中心的带形区域,说明选用的模型比较适合比较适合,带状区域带状区域宽度越窄宽度越窄,说明模型的,说明模型的拟合精度越拟合精度越高高,回归方程的,回归方程的预报精度就越高预报精度就越高!高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【
13、完美课件】0.3820.382-2.883-2.8836.6276.6271.1371.137-4.618-4.6182.4192.4192.6272.627-6.373-6.373残差残差59594343616164645454505057574848体重体重/kg/kg170170155155165165175175170170157157165165165165身高身高/cm/cm8 87 76 65 54 43 32 21 1编号编号下表为女大学生身高和体重的原始数据以及相应的下表为女大学生身高和体重的原始数据以及相应的残差数据:残差数据:e以纵坐标为残差,横坐标为编号,作出图形(以纵
14、坐标为残差,横坐标为编号,作出图形(残差图残差图)来分析残差特性来分析残差特性.高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】由图可知,第由图可知,第1个样本点和第个样本点和第6个样本点的个样本点的残差比较大残差比较大,需要确认在采集这两个样本点的过程中是否有人为的需要确认在采集这两个样本点的过程中是否有人为的错误错误.如果数据采集有错误,就予以纠正,然后重新如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据利用线性回归模型拟合数据;如果数据采集没有错误,如果
15、数据采集没有错误,则需要则需要寻找其他原因寻找其他原因.高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】计算计算相关指数:相关指数:22121()1()niiiniiyyRyy 判断方法:判断方法:R2表示解释变量对于预报变量变化的表示解释变量对于预报变量变化的贡献率贡献率,R2越接近越接近1,表示,表示回归的效果越好回归的效果越好。另一方面,。另一方面,R2取值越取值越大大,则,则残差平方和残差平方和越越小小,即模型的拟合效果,即模型的拟合效果越好越好.判断模型拟合的效果(
16、精度)方法二:判断模型拟合的效果(精度)方法二:其中,其中,21()niiyy 21()niiiyy 称为称为总体偏差平方和总体偏差平方和,为确定的数值,为确定的数值称为称为残差平方和残差平方和高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】1.线性回归方程线性回归方程:niiniiiniiniiixnxyxnyxxxyyxx1221121)()(xby 2.样本点中心样本点中心 称为样本点中心称为样本点中心,回归直线回归直线 过样本点中心过样本点中心.),(yxb=a=小小
17、 结结axby高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件【完美课件】3.3.如果两个变量线性相关如果两个变量线性相关,则可以用则可以用线性回归模型线性回归模型来表示:来表示:y=bx+a+ey=bx+a+e,其中,其中a a和和b b为模型的未知参数,为模型的未知参数,e e 4.线性回归模型线性回归模型y=bx+a+e中中,称为称为随机误差随机误差。把自变量把自变量x称为称为解释变量解释变量,把因变量把因变量y称为预报变量称为预报变量。21()niiyy7.总偏差平方和总偏差平方
18、和:5.残差残差:iiiyye 6.残差平方和残差平方和:21)(niiiyy8.相关指数:相关指数:21212)()(1 niiniiyyyyRR2越接近越接近1,表示,表示回归的效果越好回归的效果越好。另一方面,。另一方面,R2取值取值越越大大,则,则残差平方和残差平方和越越小小,即模型的拟合效果,即模型的拟合效果越好越好.1)1)确定解释变量和预报变量确定解释变量和预报变量;2)2)画出散点图画出散点图;3)3)确定确定回归方程类型回归方程类型;4)4)求出回归方程求出回归方程;5)5)利用相关指数或残差进行分析利用相关指数或残差进行分析.建立回归模型的基本步骤建立回归模型的基本步骤非线
19、性回归分析非线性回归分析对于非线性回归问题对于非线性回归问题,并且没有给出经验公式并且没有给出经验公式,这时我们可以这时我们可以画出画出已知数据的已知数据的散点图散点图,把它与把它与学过的各种函数(幂函数、指数函数、对数学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较函数等)的图象作比较,挑选一种挑选一种跟这些散点跟这些散点拟合得拟合得最好的函数最好的函数,然后采用适当的然后采用适当的变量代换变量代换,把问题转把问题转化为线性回归问题化为线性回归问题,使其得到解决使其得到解决.例例、一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有有关关,现收集了现收集了7组观测数据列于表中:组
20、观测数据列于表中:试建立产卵数试建立产卵数y y与温度与温度x x之间的回归方程。之间的回归方程。解解:(1 1)作散点图:)作散点图:从散点图中可以看出产卵数和温度之间的关系并从散点图中可以看出产卵数和温度之间的关系并不能不能用线性回归模型用线性回归模型来很好地近似。这些散点更像是集中来很好地近似。这些散点更像是集中在在一条指数曲线或二次曲线一条指数曲线或二次曲线的附近。的附近。(指数函数模型指数函数模型),令令 则则z=bx+a,(a=lncz=bx+a,(a=lnc1 1,b=c,b=c2 2),),列出变换后数据表列出变换后数据表并画出并画出x x与与z z 的散点图的散点图 z=ln
21、yz=lny此时此时x x和和z z之间的关系可以之间的关系可以用用线性回归直线线性回归直线z=bx+az=bx+a来来拟合。拟合。由由计算器计算器得:得:z关关于于x的线性回归方程:的线性回归方程:2 2c xc x1 1用用y=c e模y=c e模型型;1)x x2121232325252727292932323535z z1.9461.946 2.3982.398 3.0453.045 3.1783.1784.194.194.7454.745 5.7845.784因此因此y关于关于x的非线性回归方程为的非线性回归方程为849.3272.0 xz849.3272.0 xey2)2)用用 y
22、=cy=c3 3x x2 2+c+c4 4 模型(模型(二次函数模型二次函数模型),令令 ,则则y=cy=c3 3t+ct+c4 4 ,列出变换后数据表并列出变换后数据表并画出画出t t与与y y 的散点图:的散点图:2 2t t=x xt t4414415295296256257297298418411024102412251225y y7 71111212124246666115115325325t由计算器得:由计算器得:y y和和t t之间之间的线性回归方程为:的线性回归方程为:y=y=0.3670.367t t-202.54-202.54 将将t=xt=x2 2 代入线性回归方代入线性回归方程得:程得:y=y=0.3670.367x x2 2-202.54-202.54函数模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.802指数函数模型指数函数模型0.98上节例题中最好的上节例题中最好的模型是哪个模型是哪个?显然,指数函数模型最好!显然,指数函数模型最好!作业布置:作业布置:1、完成、完成全优课堂全优课堂 2、预习课本、预习课本P91P96内容内容