1、导入新课 在数学3中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:画散点图求回归直线方程用直线方程进行预报 函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法回归分析.提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?1.1回归分析的基本思想及其初步应用通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别任何模型只能近似描述实际问题了解残差分析和指标的含义.教学目标知识目标能力目标具有初步应用回归分
2、析的能力.情感目标 通过对回归分析的基本思想的学习,能够在现实生活中应用此思想.教学重难点重 点 (1)了解线性回归模型与函数模型的差异;(2)了解判断刻画模型拟合效果的方法相关指数和残差分析.难 点 解释残差变量的含义,了解偏差平方和分解的思想.探究 对于一组具有线性相关关系的数据 (x1,y1),(x2,y2),(xn,yn),我们知道回归直线y=bx+a的斜率和截距的最小二乘估计分别为niii=1n2ii=1(x-x)(y-y)b=,(x-x)a=y-bx,其中nniii=1i=111x=x,y=y,(x,y)nn 称为样本点的中心,你能推导出这两个计算公式吗?回归直线过样本点的中心 从
3、已经学过的知识我们知道,斜距 和斜率 分别是使a biiiiQ(,)=y-y=y-(x+)取最小时 的值.由于,n2iii=1Q(,)=y-x-(y-x)+(y-x)-n2iiiii=12y-x-(y-x)+2y-x-(y-x)(y-x)-+(y-x)-niii=1niii=1y-x-(y-x)(y-x-)=(y-x-)y-x-(y-x)注注意意到到nniii=1i=1=(y-x-)y-x-n(y-x)=(y-x-)ny-nx-n(y-x)=0,nn2iiiii=1i=12=y-x-(y-x)+2y-x-(y-x)(y-x-)+n(y-x-),继续n22iii=1Q(,)=y-x-(y-x)+
4、n(y-x-),因因此此22nnn22iiiii=1i=1i=1=(x-x)-2(x-x)(y-y)+(y-y)+n(y-x-)2nn22iiiin2i=1i=1inn22i=1iii=1i=12nii=1(x-x)(y-y)(x-x)(y-y)=n(y-x-)+(x-x)-(x-x)(x-x)+(y-y)继续 在上式中,后两项和 无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即有niii=1n2ii=1(x-x)(y-y)=(x-x)这正是我们所要推导的公式.,从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:例题1编号编号1 2 3 4 5 6 7 8身
5、高身高/cm 165 165 157 170 175 165 155 170体重体重/kg 48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解答第一步:画散点图第二步:求回归方程第三步:代值计算 探究 身高为172c的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?计算器得:故线性回归方程:当x=172时,0.849.b-85.712,a85.712.-0.849xy y0.849172-85.712 60.316(kg)显然,身高172cm的女大学生的体重不一定是60.316kg,但一
6、般可以认为她的体重在60.316kg左右,下图中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型 y=bx+a+e 来表示,这里a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=20,这样线性回归的完整表达式为y=bx+a+eE(e)=0,D(e)=2.注意存在误差的原因 (1)随机误差,其大小取决于随机误差的方差.在线性回归模型中,随机误差e的方差 2越小,用bx+a预报真实值y的精度越高.(2)和 为斜率和截距的估计值,它们与真实值a和b
7、之间也存在误差.ba 要牢记!探究 在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程a xby 中的 估计bx+a.由于随机误差e=y-(bx+a),所以 是e的估计值.对于样本点 (x1,y1),(x2,y2),(xn,yn)y y-ye 而言,它们的随机误差为 ei=yi-bxi-a,i=1,2,n,其估计值为n,1,2,.,ia xbyy ye iiii ie 称为相应于点(xi,yi)的残差(residual).要牢记!思考如何发现数据中的错误?如何衡量模型的拟合效果?(1)可以利用残差图来分析残差特
8、性;(2)可以利用.nn22iii2i=1i=1nn22iii=1i=1(y-y)(y-y)R=1-=(y-y)(y-y)来刻画回归的效果.何为残差图?残差图 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.0编号12345671020304050607080-10-20-30-40-50-6090100要牢记!对R2的理解(1)在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.(2)对于已经获取的样本数据,R2表达式中的 为确定的数.因此R2越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差.n1i2i)y-(y n1
9、i2i)y-(y要牢记!用身高预报体重时,需要注意以下问题 (1)回归方程只适用于我们所研究的样本总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型;(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.要牢记!为了对x、Y两个变量进行统计分析,现有以下两
10、种线性模型 和 试比较哪一个模型拟合的效果更好.例题2关于X与Y有如下数据:x24568y3040605070 y=6.5x+17.5 y=7x+17 分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.52ii2i=1152ii=1(y-y)155R=1-=1-=0.8451000(y-y)22R=1-52iii=152ii=1(y-y)180=1-=0.821000(y-y),84.5%82%,所以甲选用的模型拟合效果较好.解答 课堂小结1.数学知识 (1)建立回归模型及残差图分析的基本步骤;(2)不同模型拟合
11、效果的比较方法;(3)相关指数和残差的分析.2.数学思想 数形结合的思想,化归思想及整体思想.3.数学方法 数形结合法,转化法,换元法.针对性练习 1.某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_.解析:本题考查抽样的方法.由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;(
12、2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 y=bx+a.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解析:(1)如下图66.54.5645342.53(2)yxin1ii 4.546543x 3.544.5432.5y 866543i2222n1i2x 266.5-4 4.5 3.566.5-63b=0.786-4 4.586-81 a=Y-bX=3.5-0.7 4.5=0.35 故线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消
13、耗的标准煤的数量为0.7100+0.35=70.35.1.选择 课堂练习(1)下列说法中正确的有:()若r0,则x增大时,y也相应增大;若r0,表示两个相关变量正相关,x增大时,y也相应增大,故正确.r0,表示两个变量负相关,x增大时,y也相应减小,故错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故正确.(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.模型的相关系数r为0.98 B.模型的相关系数r为0.80 C.模型的相关系数r为0.50 D.模型的相关系数r为0.25 解析:根据
14、相关系数的定义和计算公式可知,|r|1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.A (3)对有线性相关关系的两个变量建立的回归直线方程 中,回归系数 ()A.可以小于0 B.小于0 C.能等于0 D.只能等于0axbyb 解析:时,得r=0,这时不具有线性相关性,但 能大于0,也能小于0.b0 bA2.解答题 (1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:学生号学生号12345678910 x120 108 11710410311010410599108y84648468696
15、869465771 试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?查表得自由度为10-2=8相应的相关关系临界值 由 知,两次数学考试成绩有显著性的线性相关关系.101i2i116584x101i2i47384y107.8x 68y 73796yx101iii 易得则相关系数为解答2273796 10 107.8 68r0.7506(116584 10 107.8)(47384 10 68)0.05r0.6021 0.05r r(2)观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程.i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149解答列表:10101022iiiii=1i=1i=1x=0,y=0,=110,=330,=110.yyxx10iii=11022ii=1-10 xy110-10 0b=1110-10 0-10yxxx a=y-bx=0-b 0=0 y=x.所求回归直线方程为