1、8.2.28.2.2一元线性回归模型参数一元线性回归模型参数的最小二乘估计的最小二乘估计 为了研究两个变量之间的相关关系,我们建立了一元线性回归模型,表达式 刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.2,()0,()YbxaeE eD e 由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.问题1从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路思路1 1:先画出一条直线,测量出各点到直线
2、的距离,然后移动直先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线就得到一条直线160 165 170 175 180 185图 8.2-2儿子身高/cm父亲身高/cm190185180175170165160问题1从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路思路2 2:可以在散点图中选两点画一条直线,使得直线两侧点的个可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线数基本相同,把这条直线作为
3、所求直线160 165 170 175 180 185图 8.2-3儿子身高/cm父亲身高/cm190185180175170165160问题1从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?160 165 170 175 180 185图 8.2-4儿子身高/cm父亲身高/cm190185180175170165160思路思路3 3:在散点图中多取几对点,确定出几条直线,再分别求出这在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距些直线的斜率、截距的平均数作为所求直线的斜率和截距160 165 170 175 1
4、80 185图 8.2-5儿子身高/cm父亲身高/cm190185180175170165160设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),(xn,yn)设 表示点 到直线 的距离,表示点 到直线的竖直距离,表示直线 的倾斜角,则 ,所以思路1可以用中的距离可以用竖直距离替换.ybxaidiixy,iixy,ybxacosiidhihybxa160 165 170 175 180 185图 8.2-5儿子身高/cm父亲身高/cm190185180175170165160设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),(xn,y
5、n)由 ,得 .显然 越小,表示点 与点 的“距离”越小,即样本数据点离直线的竖直距离越小.因此可以用这n个竖直距离之和 来刻画各样本观测数据与直线 的“整体接近程度”.ybxaybxa(1,2,3,iiiybxae in)ie)iiiybxae-(iixy,iixbxa,1)niiiybxa-(问题2如何求a,b的值,使 最小?21(,)()niiiQ a bybxa221121212112()()()()(,)()()()()()2()()()nniiiiiiniiiniiiniiiniiiybxaybxaybxayyyyb xQ a by bxy bxb xxy bxayyb xxn y
6、 baabxxyx1111,nniiiixxyynn记记1111()()()()()()()()()()()()0nniiiiiinniiiiyyb xxy bxay bx ayyb xxy bx ayybxxy bx any nyb nx nx注意到注意到221()()(,)niiiyyb xxQ an ybxab所以所以当当 取最小值时,取最小值时,取最小值取最小值0,即,即 .2()n y bxa(,)Q a b=a y bx21221211()()=(,)2()()()nniiiiniiiiniiQ a bxx yyyxxyb xxyybb此时此时上式是关于上式是关于b的二次函数,因此
7、要使的二次函数,因此要使Q取得最小值,当且仅当取得最小值,当且仅当b的的取值为取值为121()()()niiiniixxyybxx综上,当综上,当a,b的取值为的取值为时,时,Q达到最小达到最小.121()()()niiiniixxyybxxayb x21122211()()=(,)()2()()nniiiinniiiiiiyyb xxbbyyQ a bxxxx yy我们将我们将 称为称为Y 关于关于x 的的经验回归方程经验回归方程,也称,也称经验回归函数经验回归函数或或经验回归公式经验回归公式,其图形称为,其图形称为经验回归直线经验回归直线,这种求经验回归方程,这种求经验回归方程的方法叫的方
8、法叫最小二乘法,最小二乘法,求得的求得的 ,叫做叫做b,a的的最小二乘估计最小二乘估计易得易得:(1 1)经验回归直线必过样本中心)经验回归直线必过样本中心 ;(2 2)与相关系数与相关系数r符号相同符号相同.(,)x ybybxab a问题3如何理解经验回归直线?160 165 170 175 180 185图 8.2-6儿子身高/cm父亲身高/cm1901851801751701651600 83928 957 y.x.1)1)当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?177y 2)根据模型,父亲身高为多少时,儿子的平均身高与父亲的一样
9、?1)1)当x=185时,184.172y 1)1)当x=170时,171.587y 问题3如何理解经验回归直线?160 165 170 175 180 185图 8.2-6儿子身高/cm父亲身高/cm1901851801751701651600 83928 957 y.x.3)斜率0.839有什么含义?对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差.y残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.问题4如何判断模型刻画数据的效果?图 8.2-7父亲身高/cm160 165 170 175 180 18554321012345残差/cm问题5观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?课堂小结1.经验回归方程 ,其中ybxa121()()()niiiniixxyybxxayb x2.残差分析课后作业:教科书第113页练习第2、3题.