1、8.2.1一元线性回归模型一元线性回归模型8.2.2一元线性回归模型参数的最小二乘估计(一元线性回归模型参数的最小二乘估计(1)讲课人:邢启强2自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系机性的两个变量之间的关系,叫做相关关系.相关关系的概念相关关系的概念2 2、相关关系与函数关系的异同点、相关关系与函数关系的异同点不同点不同点:函数关系是一种确定的关系,因果关系;而:函数关系是一种确定的关系,因果关系;而相关关系是一种非确定性关系,也可能是伴随关系。相关关系是一种非确定性关系,也可能是伴随关系。相同点相同点:均是指两个
2、变量的关系:均是指两个变量的关系相关关系相关关系当自变量取值一定当自变量取值一定,因变量的取值带有一定的因变量的取值带有一定的随机性(随机性(非确定性关系非确定性关系)函数关系函数关系-函数关系指的是自变量和因变量之间的关系函数关系指的是自变量和因变量之间的关系是相互唯一确定的是相互唯一确定的.1 1、对相关关系的理解、对相关关系的理解复习引入复习引入讲课人:邢启强3散点图散点图1、散点图:将样本中n个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.2、分类:(1)正相关、负相关正相关:如果散点图的点散布在从左下角到右上角的区域
3、,即一个变量的值由小变大时,另一个变量的值也近似的由小变大,对于两个变量的这种相关关系,我们称为正相关负相关:如果散点图的点散布的位置是从在左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值也近似的由大变小,对于两个变量的这种相关关系,我们称为负相关.(2)线性相关和非线性相关两个变量之间相关关系的确定两个变量之间相关关系的确定(1).经验作出推断(2).通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断复习引入复习引入讲课人:邢启强4样本相关系数riiiiniii=1nn2222iii=1i=1ni=1nn22i=1i=1=x-xy-yxxyyx y-
4、nxyx-nxy-ny=r(1)当r 0时,称成对样本数据正相关;当r 0时,称成对样本数据负相关(2)r的取值范围为-1,1(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.获得总体中所有的成对数据往往是不容易的,因此,我们还是要用样本估计总体的思想来解决问题,也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度,对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性,一般地,样本容量越大,用样本相关系数估计两个变量的相关系数
5、的效果越好。复习引入复习引入讲课人:邢启强5通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等关,以及线性相关程度的强弱等.下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题并利用模型进行预测的问题.如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建如果能像建立
6、函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测用这个模型研究两个变量之间的随机关系,并通过模型进行预测.讲课人:邢启强6 问题问题1:生活经验告诉我们,儿子的身高与父亲的身高相关:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的一般来说,父亲的身高较高时,儿子的身高通常也较高身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了为了进一步研究两者之间的关系,有人调查了14名男大学生的身
7、高及其父亲的身高,得到的数据如表名男大学生的身高及其父亲的身高,得到的数据如表1所示所示.编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182儿子身高/cm,174,176儿子身高/cm,170,176儿子身高/cm,173,170儿子身高/cm,169,170儿子身高/cm,182,185儿子身高/cm,172,176儿子身高/cm,180,178儿子身高/cm,172,174儿子身高/cm,168,170儿
8、子身高/cm,166,168儿子身高/cm,182,178儿子身高/cm,173,172儿子身高/cm,164,165儿子身高/cm,180,182160165170175180185190162164166168170172174176178180182184儿子身高/cm父亲身高/cm可以发现,散点大致分布在一条可以发现,散点大致分布在一条从左下角到右上角的直线附近,从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相表明儿子身高和父亲身高线性相关关.利用统计软件,求得样本相利用统计软件,求得样本相关系数为关系数为r0.886r0.886,表明儿子身,表明儿子身高和父亲身高正线性相关,
9、且相高和父亲身高正线性相关,且相关程度较高关程度较高。复习引入复习引入讲课人:邢启强7 问题问题2:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?以用函数模型刻画吗?列表法是函数的一种表示方法,但并不是所有列表表示的数据都是函数关系,要成为函数关系必须满列表法是函数的一种表示方法,但并不是所有列表表示的数据都是函数关系,要成为函数关系必须满足函数的定义,即应满足足函数的定义,即应满足“集合集合A中的任意一个数,在集合中的任意一个数,在集合B中都存在唯一的数与它对应中都存在唯一的数与它对应”.编号1234567
10、891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182表表中的中的数据,存在父亲身高相同而儿子身高不同的情况数据,存在父亲身高相同而儿子身高不同的情况.例如,第例如,第6个和第个和第8个观测父亲的身高均为个观测父亲的身高均为172cm,而对应的儿子的身高为而对应的儿子的身高为176cm和和174cm;同样在第;同样在第3,4个观测中,儿子的身高都是个观测中,儿子的身高都是170cm,而父亲的身高,而父亲的身高分别为分别为173cm
11、,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画以不能用函数模型来刻画.学习新知学习新知问题问题3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身高和父亲身高有较强的线性关系高和父亲身高有较强的线性关系.我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高有关系但不是函数关系有关系但不
12、是函数关系.那么影响儿子身高的其他因素是什么?那么影响儿子身高的其他因素是什么?影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.讲课人:邢启强8 问题问题4:由问题由问题3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性各种随机因素都是独立的,有些因素又无法量化现出随机性
13、各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因你能否考虑到这些随机因素的作用,素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?如果用如果用x表示父亲身高,表示父亲身高,Y表示儿子的身高,用表示儿子的身高,用e表示各种其他随机因素影响之和,称表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a
14、之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.学习新知学习新知讲课人:邢启强9追问追问:为什么要假设为什么要假设E(e)=0,而不假设其为某个不为,而不假设其为某个不为0的常数?的常数?因为误差是随机的,即取各种正负误差的因为误差是随机的,即取各种正负误差的可能性一样,所以它们可能性一样,所以它们均值的理想状态应该为均值的理想状态应该为0.思考:你能结合父亲与儿子身高的实例,说明回归模型思考:你能结合父亲与儿子身高的实例,说明回归模
15、型的意义?的意义?2,()0,().YbxaeE eD e 学习新知学习新知讲课人:邢启强10思考思考:你能结合父亲与儿子身高的实例,说明回归模型:你能结合父亲与儿子身高的实例,说明回归模型的意义?的意义?2,()0,().YbxaeE eD e 问题问题5:你能结合具体实例解释产生模型中随机误差项的原因吗?你能结合具体实例解释产生模型中随机误差项的原因吗?(1 1)除父亲身高外)除父亲身高外,其他可能影响儿子身高的因素其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等比如母亲身高、生活环境、饮食习惯和锻炼时间等.(2 2)在测量儿子身高时,由于测量工具、测量精度所产生的
16、测量误差在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.(3 3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差来近似这种关系,这种近似关系也是产生随机误差e e的原因的原因.产生随机误差产生随机误差e e的原因有:的原因有:学习新知学习新知讲课人:邢启强11 问题问题6:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型达式达式 刻画的是变量刻画的是变量
17、Y与变量与变量x之间的线性相关关系,之间的线性相关关系,其中参数其中参数a和和b未知,我们能否通过样本数据估计参数未知,我们能否通过样本数据估计参数a和和b?2,()0,().YbxaeE eD e 参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.学习新知学习新知追问追问1:我们怎样寻找一条:我们怎样寻找一条“最好最好”的直线,使得表示成对样本数据的这些散点在的直线,使得表示成对样本数据的这些散点在整体上与这条直线最整体上与这条直线最“接近接近”?目标:从成对样本数据出发,用数学的方法刻画
18、目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近从整体上看,各散点与直线最接近”讲课人:邢启强12儿子身高/cm,174,176儿子身高/cm,170,176儿子身高/cm,173,170儿子身高/cm,169,170儿子身高/cm,182,185儿子身高/cm,172,176儿子身高/cm,180,178儿子身高/cm,172,174儿子身高/cm,168,170儿子身高/cm,166,168儿子身高/cm,182,178儿子身高/cm,173,172儿子身高/cm,164,165儿子身高/cm,180,1821601651701751801851901601651
19、70175180185儿子身高/cm父亲身高/cm由由yi=bxi+a+ei(i=1,2,n),得,得|yi-(bxi+a)|=.显然显然|ei|越小,表示点越小,表示点(xi,yi)与点与点(xi,bxi+a)的的“距离距离”越小,即样本数据点离直线越小,即样本数据点离直线y=bx+a的的越小越小。特别地特别地,当当ei=0时时,表示点表示点(xi,yi)在这条直线上在这条直线上.我们设满足一元线性回归模型的两个变量的我们设满足一元线性回归模型的两个变量的n对样本数据为对样本数据为(x1,y1),(x2,y2),(xn,yn)1|()|niiiybxa因此,可以用因此,可以用 来刻画各样本观
20、测数据与直线来刻画各样本观测数据与直线y=bx+a的整体接近程度。的整体接近程度。在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和21(,)()niiiQ a bybxa来刻画“整体接近程度”讲课人:邢启强131|()|niiiybxa21(,)()niiiQ a bybxa残差平方和:残差平方和:求求a,b的值的值,使使Q(a,b)最小最小1111,nniiiixxyynn记在上式中,xi,yi(i=1,2,3,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数,因为Q还可以表示为 即它是随机误差的平方和,这个和当然越小越好,所以我们取使
21、Q达到最小的a和b的值,作为截距和斜率的估计值。下面利用成对样本数据求使Q取最小值的a,b.讲课人:邢启强14212121212211(,)()()()()(2()()()()()()()()()niiiniiiinnniiiiiiniiiiiQ a bybxaybxaybxayyb xxybxayybyxxnyyb xxbbxayyxabxybx1111()()()()()()()()()()()()0nniiiiiinniiiiyyb xxybxaybxayyb xxybxayybxxybxanynyb nxnx讲课人:邢启强15221(,)()()()niiiQ a byyb xxnyb
22、xa2(,)()0=Q a bnybxaaybx当取最小时,取最小值,即22221111(,)()()=b()2()()()nnnniiiiiiiiiiQ a byyb xxxxbxxyyyy此时,上式是关于上式是关于b b的二次函数,因此要使的二次函数,因此要使Q Q取得最小值,当且仅当取得最小值,当且仅当b b的取值为的取值为iii()()()1 12 21 1ninixxyybxx 1 12 21 11 11 1=inin22ininxxyyb,xx axyx yxxyb.iiiiii x)n()()n 讲课人:邢启强16ybxa 1 12 21 11 11 1=inin22ininxx
23、yyb,xx axyx yxxyb.iiiiii x)n()()n 我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法ybx a 注意:注意:1、经验回归必过、经验回归必过 .2、都是估计值都是估计值.3、与与r符号相同符号相同.讲课人:邢启强17问题问题7:利用利用下表下表的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高儿子身高Y关于父亲身高关于父亲身高x的经验回归方程。的经验回归方程。通过信息技术,计算求得0.83928.957yx问1:
24、当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?177y 儿子的身高不一定会是儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为们可以作出推测,当父亲的身高为176cm时,儿子身高一般在时,儿子身高一般在177cm左右左右.父亲身高/cm174170173169182172180172168166
25、182173164180儿子身高/cm176176170170185176178174170168178172165182讲课人:邢启强18问问2 2:根据经验回归方程根据经验回归方程 中斜率的具体含义,高个子的父亲中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?0.83928.957yx问问3 3:根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断?你怎么看这个判断?讲课人:邢启强19例
26、如,对于右表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y=176(cm),预测值为96=0.839172+28.957=173.265(cm),残差为176-173.265=2.735(cm).类似地,可以得到其他的残差,如右表所示.讲课人:邢启强20问题问题8:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?性吗?作图时作图时纵坐标纵坐标 为为残差残差,横坐标横坐标可以选为样本可以选为样本编号,或身高数据,或体重编号,或身高数据,或体重估计值等,这样作出的图形估计值等,这样作出的图形称为
27、残差图称为残差图观察表可以看到观察表可以看到,残差有正有负残差有正有负,残差的绝对值最大是残差的绝对值最大是4.413.4.413.观察残差的散点图可以发现观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边残差比较均匀地分布在横轴的两边,说明残差比较符合一说明残差比较符合一元线性回归模型的假定元线性回归模型的假定,是均值为是均值为0 0、方差为、方差为2 2的随机变量的观测值的随机变量的观测值.可见可见,通过观察残通过观察残差图可以直观判新模型是否满足一元线性回归模型的假设差图可以直观判新模型是否满足一元线性回归模型的假设.一般地一般地,建立经验回归方程后建立经验回归方程后,通常需要对模
28、型刻画数据的效果进行分析通常需要对模型刻画数据的效果进行分析,借助残借助残差分析还可以对模型进行改进差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策。使我们能根据改进模型作出更符合实际的预测与决策。讲课人:邢启强21(1)(2)(3)(4)思考思考:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?机误差的假定?讲课人:邢启强22图图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;显示残差与观测时间有线性关系,应将时间变量纳入模型;图(图(2)显示残差与观测时间有非线性
29、关系,应在模型中加入时间的非线性函数部分;)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图图(3)说明残差的方差不是一个常数,随观测时间变大而变大;说明残差的方差不是一个常数,随观测时间变大而变大;所以所以,只有图,只有图(4)满足一元线性回归模型对随机误差的假设)满足一元线性回归模型对随机误差的假设。练习:练习:关于残差图的描述错误的是()A.残差图的横坐标可以是样本编号 B.残差图的横坐标也可以是解释变量或响应变量 C.残差点分布的带状区域的宽度越窄相关指数越小 D.残差点分布的带状区域的宽度越窄残差平方和越小C C讲课人:邢启强23对于一组具有线性相关关系的数据对
30、于一组具有线性相关关系的数据1122(,),(,),.,(,),nnx yxyxy我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:1122211()(),.(2)()nniiiiiinniiiixxyyxnxybxxxnxy,.(1)aybx1111,.nniiiixx yynn其中(,)x y称为样本点的中心称为样本点的中心.学习新知学习新知讲课人:邢启强242、求回归直线方程的步骤:、求回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixx y求(3)代入公式)代入公式1122211(
31、)(),(),.(1)nniiiiiinniiiixx yyxnxybxxxnxa y bxy(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程即为所求的回归直线方程.学习新知学习新知讲课人:邢启强25某大学中随机选取某大学中随机选取8 8名女大学生,其身高和体重数据如下表所示名女大学生,其身高和体重数据如下表所示.编号编号1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165157157170170175175165165155155170170体重体重/kg/kg48485757505054546464616143435959求根
32、据女大学生的身高预报体重的回归方程,并预报一名身高为求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm172cm的女大学生的体重的女大学生的体重.典型例题典型例题讲课人:邢启强26121()()()niiiniixXyYbXX aYbX由由得:得:0.849,85.712ba 故所求线性回归方程为:故所求线性回归方程为:0.84985.712yx因此,对于身高因此,对于身高172cm的女大学生,由线性回归方程可的女大学生,由线性回归方程可以预报其体重为:以预报其体重为:0.849 17285.71260.316()ykg0.849b 是斜率的估计值,说明身高是斜率的估计值,说明
33、身高x每增加每增加1个单个单位时,体重位时,体重y就增加就增加0.849个单位,这表明个单位,这表明体重与身高具有正的线性相关关系体重与身高具有正的线性相关关系.典型例题典型例题讲课人:邢启强27尝试练习尝试练习C 讲课人:邢启强28尝试练习尝试练习A讲课人:邢启强29练习:观察两相关量得如下数据练习:观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379101010221110,0,110,3 01 0.3,1iiiiiiixyyyxx求两变量间的回归方程求两变量间的回归方程.解:列表:解:列表:i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149讲课人:邢启强301011022110110 10 01110 10 010iiiiix ybyxxx 000aybxb.yx所求回归直线方程为所求回归直线方程为讲课人:邢启强31尝试练习尝试练习B讲课人:邢启强32尝试练习尝试练习B讲课人:邢启强33讲课人:邢启强34讲课人:邢启强35讲课人:邢启强36
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。