1、3 3.1 1 回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用 1.了解回归分析的基本思想,会对两个变量进行回归分析,会求两 个具有线性相关关系的变量的回归直线方程,并用回归直线方程进 行预报. 2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别 与联系. 3.通过典型案例的分析,了解回归分析的初步应用相关检验. 1 2 3 4 1.回归分析 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关 系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一 种常用方法. (3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回 归直线
2、 y=bx+a 的斜率和截距的最小二乘估计公式分别为 = i=1 n (-)(-) =1 (-)2 , = . 其中 = 1 =1 xi, = 1 =1 yi,(,)称为样本点的中心. 1 2 3 4 (4)用相关系数 r= =1 (-)(-) =1 (-)2 =1 (-)2 来描述线性相关. 知识拓展知识拓展1.当r0时,表明两个变量正相关; 当r|r甲|=0.8更接近于1,乙组数据相关性强. 答案:B 1 2 3 4 2.随机误差 (1)随机误差的均值E(e)=0,方差D(e)=2. (2)线性回归模型的完整表达式是 在此线性 回归模型中,随机误差e的方差2越小,通过回归直线预报真实值y的
3、 精度越高. 知识拓展知识拓展随机误差的主要来源: (1)用线性回归模型近似地逼近真实模型所引起的误差; (2)忽略了某些因素的影响所产生的误差; (3)观测误差. = + + , () = 0,() = 2. 1 2 3 4 (3)对于样本点(x1,y1),(x2,y2),(xn,yn)而言,它们的随机误差为 ei=yi-bxi-a,i=1,2,n,其估计值为 i = yi-y = - - , = 1,2, 称为相应于点(xi,yi)的残差. (4)以样本编号,或身高数据,或体重的估计值等为横坐标,残差 为纵坐标作出的图形称为残差图. (5)我们可以用 R2来刻画回归的效果,其计算公式是 R
4、2=1 =1 (- ) 2 =1 (-)2 . (6)R2越大,意味着残差平方和 =1 (yi- )2越小,也就是说,模型拟 合的效果越好. 1 2 3 4 知识拓展知识拓展在线性回归模型中,R2表示解释变量对于预报变量变化 的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表 示解释变量和预报变量的相关性越强).如果对某组数据可以采取 几种不同的回归方程进行回归分析,也可以通过比较几个R2,选择 其值大的模型. 1 2 3 4 【做一做2】 有下列说法: 在残差图中,残差点比较均匀地落在水平的带状区域内,说明 选用的模型比较合适; R2用来刻画回归效果,R2值越大,说明模型拟
5、合效果越好; 比较两个模型的拟合效果,可以比较残差平方和的大小,残差 平方和越小的模型,拟合效果越好. 其中正确命题的个数是( ) A.0 B.1 C.2 D.3 答案:D 1 2 3 4 3.非线性回归方程 当回归方程不是形如y=bx+a(a,bR)时,称之为非线性回归方程. 非线性回归方程也可以线性化. (1)将幂函数型函数y=axn(a为常数,a,x,y均取正值)化为线性函数: 将y=axn两边取常用对数,则有lg y=nlg x+lg a,令=lg y,v=lg x,b=lg a代入上式得=nv+b(其中n,b是常数),其图象是一条直线. (2)将指数型函数y=cax(a0,c0,a,
6、c为常数)化为线性函数: 将y=cax两边取常用对数,则有lg y=xlg a+lg c,令=lg y,b=lg c,d=lg a,代入上式得=dx+b(d,b是常数),它的图象是一条直线. 1 2 3 4 4.建立回归模型的基本步骤 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变 量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的 关系(如是否存在线性关系等). (3)由经验确定回归方程的类型. (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常.若存在异常,则检查数据 是否有误,或模
7、型是否合适等. 1 2 1.相关分析的意义和作用是什么 剖析函数是大家比较熟悉的概念,它是指变量之间的确定性关系, 即当X取某一数值x时,变量Y按照某种规则总有一个确定的数值与 之对应.相关关系则是指变量之间的非确定性关系,由于随机因素 的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量, 但它的概率分布与X的取值有关.这里,我们看到了函数关系与相关 关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而 在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关 系是随机变量之间或随机变量与非随机变量之间的一种数量依存 关系,对于这种关系,只能运用统计方法进行研究.通
8、过对相关关系 的研究又可以总结规律,从而指导人们的生活与生产实践. 1 2 2.举例说明怎样确定线性回归的模型 剖析在确定数据适合哪种模型之前,首先应该对观测数据绘图, 以便进行简单的观测.例如,为了研究建立初始工资与当前工资的 回归模型,首先对观测数据绘图,如下图所示. 1 2 从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可 以建立线性回归方程.如果观测数据不呈线性分布,那么还可以根 据其他方程模型的观测数据分布图形的特点以及对建立各方程后 所得的R2进行比较以便确定一种最佳方程式. 一般说来,如果所有的观测量都落到回归直线上,那么R2等于1;如 果自变量与因变量之间没有回归关系,
9、那么R2等于0. 另外,我们通过对观测数据分布图形的仔细观察还可以发现一些 奇异值,所以还可以通过对数据的检查来消除奇异值.但是,对待奇 异值时要格外小心. 题型一 题型二 题型三 题型四 题型一 求线性回归方程 【例1】 一个车间为了规定工时定额,需要确定加工零件所花费 的时间,为此进行了10次试验.测得的数据如下: (1)y与x是否具有线性相关关系? (2)如果y与x具有线性相关关系,求回归直线方程; (3)根据求出的回归直线方程,预测加工200个零件所用的时间为 多少? 零件 数 x/个 10 20 30 40 50 60 70 80 90 100 加工时 间 y/min 62 68 7
10、5 81 89 95 102 108 115 122 题型一 题型二 题型三 题型四 解:(1)列出下表: i 1 2 3 4 5 6 7 8 9 10 xi 10 20 30 40 50 60 70 80 90 100 yi 62 68 75 81 89 95 102 108 115 122 xiyi 620 1 360 2 250 3 240 4 450 5 700 7 140 8 640 10 350 12 200 =55,=91.7, =1 10 xi 2=38 500, i=1 10 2=87 777, =1 10 xiyi=55 950, 题型一 题型二 题型三 题型四 因此 r=
11、 =1 10 -10 ( =1 10 2-102)( =1 10 2-102) = 55 950-105591.7 (38 500-10552)(87 777-1091.72) 0.999 8. 由于 r0.999 8,因此 x 与 y 之间有很强的线性相关关系,因而可 求回归直线方程. 题型一 题型二 题型三 题型四 (2)设所求的回归直线方程为 = x+ ,则有 = =1 10 -10 =1 10 2-102 0.668, = =91.7-0.66855=54.96, 因此,所求的回归直线方程为 =0.668x+54.96. (3)当 x=200 时,y 的估计值为 =0.668200+5
12、4.96=188.56189. 因此,预测加工 200 个零件所用的工时为 189 min. 题型一 题型二 题型三 题型四 【变式训练1】 某工厂18月份某种产品的产量x(单位:t)与成本 y(单位:万元)的统计数据如下表: (1)画出散点图; (2)判断y与x是否具有线性相关关系,若有,求出其线性回归方程. 月份 1 2 3 4 5 6 7 8 产量/t 5.6 6.0 6.1 6.4 7.0 7.5 8.0 8.2 成本/万元 130 136 143 149 157 172 183 188 题型一 题型二 题型三 题型四 解:(1)散点图如图. (2)由图可看出,这些点基本分布在一条 直
13、线附近,可以认为x和y线性相关. =6.85,=157.25, =1 8 xiyi=8 764.5, i=1 8 2=382.02, = =1 8 -8 =1 8 2-82 =8 764.5-86.85157.25 382.02-86.852 22.169, = 157.25-22.1696.855.392. 线性回归方程为 =22.169x+5.392. 题型一 题型二 题型三 题型四 题型二 线性回归分析 【例2】 某运动员训练次数与成绩之间的数据关系如下: (1)作出散点图; (2)求出回归方程; (3)作出残差图; (4)计算R2; (5)试预测该运动员训练47次及55次的成绩. 次数
14、 x 30 33 35 37 39 44 46 50 成绩 y 30 34 37 39 42 46 48 51 题型一 题型二 题型三 题型四 解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图,由 散点图可知,它们之间具有线性相关关系. 题型一 题型二 题型三 题型四 (2)计算可得=39.25,=40.875, =1 8 xi 2=12 656, i=1 8 2=13 731, =1 8 xiyi=13 180, 设回归方程为 = x+ , 则 = =1 8 -8 =1 8 2-82 1.041 48, = =-0.003 09, 故回归方程为 =1.041 48x-0.0
15、03 09. 题型一 题型二 题型三 题型四 (3)残差分析. 作残差图如图, 由图可知,残差点比较均匀地分布在水平带状区域中,说明选用 的模型比较合适. (4)计算R2. 计算得R20.985 5.说明了该运动员的成绩的差异有98.55%是由 训练次数引起的. 题型一 题型二 题型三 题型四 (5)作出预报. 由上述分析可知,我们可用回归方程 =1.041 48x-0.003 09作为 该运动员成绩的预报值. 将x=47和x=55分别代入该方程可得y49和y57. 故预测该运动员训练47次和55次的成绩分别为49和57. 反思反思“R2、残差图”在回归分析中的作用: (1)R2是用来刻画回归
16、效果的,由 可知R2越大,意味 着残差平方和越小,也就是说模型的拟合效果就越好. (2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均 匀地分布在水平带状区域中,带状区域的宽度越窄,说明模型拟合 精度越高,回归方程预报精度越高. R2=1- =1 (yi-y ) 2 =1 (-)2 题型一 题型二 题型三 题型四 【变式训练2】 某农科所对冬季昼夜温差大小与某反季节大豆 新品种发芽数为多少之间的关系进行分析研究,他们分别记录了12 月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的 发芽数,得到如下资料: 该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下 的3组数
17、据求线性回归方程,再对被选取的2组数据进行检验. (1)求选取的2组数据恰好是不相邻2天数据的概率; (2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至 12月4日的数据,求出y关于x的线性回归方程 日期 12 月 1 日 12 月 2 日 12 月 3 日 12 月 4 日 12 月 5 日 温差 x/ 10 11 13 12 8 发芽数 y/颗 23 25 30 26 16 = b x+ . 题型一 题型二 题型三 题型四 解:(1)设抽到不相邻两组数据为事件 A,因为从 5 组数据中选取 2 组数据共有 10 种情况,每种情况都是等可能出现的,其中抽到相邻 两组数据的情
18、况有 4 种,所以 P(A)=1- 4 10 = 3 5. (2)由数据,求得=12,=27. 1125+1330+1226=977,112+132+122=434, 由公式,求得 = 5 2 , = =-3. 所以 y 关于 x 的线性回归方程为 = 5 2x-3. 题型一 题型二 题型三 题型四 题型三 求非线性回归方程 【例 3】 在彩色显影中,由经验可知:形成染料光学密度 y 与析 出银的光学密度 x 由公式 y=Ae (b0)表示.现测得试验数据如下: xi 0.05 0.06 0.25 0.31 0.07 0.10 0.38 0.43 0.14 0.20 0.47 yi 0.10
19、0.14 1.00 1.12 0.23 0.37 1.19 1.25 0.59 0.79 1.29 试求 y 对 x 的回归方程. 分析由题意可知这不是一个线性回归分析问题,而是一个非线 性回归分析问题.由于题目中已给定了要求的曲线为 y=Ae 类型,我 们只要通过所给出的 11 对样本数据,求出 A 和 b 的值即可确定 x 与 y 的相关关系的曲线方程. 题型一 题型二 题型三 题型四 解:由题意知,对于给定的公式 y=Ae (b0.75,可知u和v具有很强的线性相关性.再求出b- 0.146,a0.548. 所以 A=ea=e0.548,y=e0.548e -0.146 = e0.548
20、- 0.146 . 题型一 题型二 题型三 题型四 【变式训练3】 在一化学反应过程中,某化学物质的反应速率 y(单位:g/min)与一种催化剂的量x(单位:g)有关,现收集了如下表所 示的8组数据,试建立y与x之间的回归方程. 催化剂的量 x/g 15 18 21 24 27 30 33 36 化学物质反应速率 y/(g min -1 ) 6 8 30 27 70 205 65 350 题型一 题型二 题型三 题型四 解:根据收集的数据作散点图,如图. 根据样本点的分布情况,可选用两种曲线模型来拟合. 可认为样本点集中在某二次曲线y=c1x2+c2的附近. 令t=x2,则变换后样本点应该分布
21、在直线y=bt+a(b=c1,a=c2)的周 围. 题型一 题型二 题型三 题型四 由题意得变换后t与y的样本数据如下表: y与t的散点图如图. 由y与t的散点图可以观察到样本数据点并不分布在一条直线的 周围,因此不宜用线性回归方程y=bt+a来拟合,即不宜用二次曲线 y=c1x2+c2来拟合y与x之间的关系. t 225 324 441 576 729 900 1 089 1 296 y 6 8 30 27 70 205 65 350 题型一 题型二 题型三 题型四 x 15 18 21 24 27 30 33 36 z 1.792 2.079 3.401 3.296 4.248 5.323
22、 4.174 5.858 题型一 题型二 题型三 题型四 z与x的散点图如图. 因为根据散点图可以观察到样本 数据点大致分布在一条直线的周围, 所以可以用线性回归方程来拟合. 由z与x的样本数据得到线性回归方程 =0.181 2x-0.848 5,故非 线性回归方程为y =e0.181 2x-0.848 5. 因此该化学物质的反应速率与催化剂的量之间的非线性回归 方程为 =e0.181 2x-0.848 5. 题型一 题型二 题型三 题型四 题型四 易错辨析 易错点:对概念理解不清致错 【例 4】 对两个变量 y 和 x 进行回归分析,得到一组样本数 据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是( ) A.由样本数据得到的回归方程 = b x+ 必过样本点的中心 (,) B.残差平方和越小的模型,拟合的效果越好 C.用R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好 D.若变量 y 和 x 之间的相关系数 r=-0.936 2,则变量 y 和 x 之间 具有线性相关关系 题型一 题型二 题型三 题型四 错解:B 错因分析对残差平方和和R2理解错误. 正解:R2的值越大,说明残差平方和越小,也就是说模型的拟合效 果越好. 答案:C 反思反思把握好R2的回归意义.