1、数 学选修2-3 人教A版第三章统计案例3.1回归分析的基本思想及其初步应用1自 主 预 习学案2互 动 探 究学案3课 时 作 业学案自主预习学案 一、回归直线方程 1回归分析是处理两个变量之间_的一种统计方法若两个变量之间具有线性相关关系,则称相应的回归分析为_相关关系 线性回归分析 相关系数r 当r0时,表明两个变量_;当r0时,表明两个变量_r的绝对值越接近1,表明两个变量的线性相关性越_;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系通常当|r|大于_时,认为两个变量有很强的线性相关关系 二、线性回归分析 1随机误差(1)随机误差的概念:当样本点散布在某一条直线的附近,
2、而不是在一条直线上时,不能用一次函数ybxa来描述两个变量之间的关系,而是用线性回归模型_来表示,这里_称为解释变量,_称为预报变量,_称为随机误差,E(e)_,D(e)_.正相关 负相关 强0.75 ybxae xye02 (2)随机误差及其产生的原因 从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数ybxa来描述它们之间的关系,我们用下面的线性回归模型来表示:ybxae,其中a、b为模型的未知数,e称为随机误差产生随机误差的主要原因有以下3个方面:用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差可能存在
3、非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差这种由模型近似所引起的误差包含在e中 忽略了某些因素的影响影响变量y的因素不只变量x,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中 观测误差由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中残差 样本编号 贡献率 好相关系数r 1在对两个变量x,y进行线性回归分析时
4、,有下列步骤:对所求出的回归直线方程作出解释;收集数据(xi,yi),i1,2,n;求线性回归方程;求相关系数;根据所搜集的数据绘制散点图D 解析对两个变量进行回归分析时,首先收集数据(xi,yi),i1,2,n;根据所搜集的数据绘制散点图 观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释;故正确顺序是 故选D 2(2015福建理,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.0 8.5 9.8B 3(201
5、6武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:年龄23 27394145495053565860脂肪9.517.821.225.927.526.328.229.631.433.535.2D C某人年龄37岁,他体内脂肪含量的期望值为20.90%D20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计 解析由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选AA AB CD 解析根据散点图中点的分布情况,可判断中的变量x,y具有相关的关系D 互动探究学案命题方向1 变量间的相关性检测x2123252
6、72932 35y 711212466115325 规律总结变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度学生号12345678910 x12010811710410311010410599108y84 64 84 68 69 68 69 465771命题方向2 求线性回归方程 规律总结1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析 2求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义
7、,否则,求出的回归直线方程毫无意义x35404550y56412811 解析(1)散点图如图所示从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关命题方向3 线性回归分析次数(x)3033353739444650成绩(y)3034373942464851 解析(1)作出该运动员训练次数(x)与成绩(y)的散点图,如图所示由散点图可知,它们之间具有相关关系(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.作残差图如图所示 由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适(4)计算相关指数R20.9855,说明了该运动员的成绩的差
8、异有98.55%是由训练次数引起的 规律总结1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析命题方向4 非线性回归问题i1234567水高h(厘米)0.71.12.54.9 8.110.213.5流量Q(升/分)0.0820.251.811.237.866.5134 思路分析作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程解析根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分
9、布在某一条幂函数型曲线Qh(、是待定的正常数)的周围为此将Qh两边取对数,得到lgQlghlg,令lgQy,lghx,于是式可化为yxlg.这样y就是x的线性函数了可以利用线性回归模型来建立y和x之间的线性回归方程ybxa(b,lga)了 规律总结1.在建立经验公式时,选择合适的函数类型是十分重要的通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验有时候还需要选择不同的模拟函数作比较 2如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函
10、数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解e4 解析ycekx,两边取对数,可得lnyln(cekx)lnclnekxlnckx,令zlny,可得zlnckx,z0.3x4,lnc4,ce4.故答案为e4.利用线性回归方程进行预报变量的估计(规律方法)x24568y2040607980C 解析(1)散点图如图所示,可以看出x和y具有线性相关关系必须在两变量线性相关的条件下,才能用最小二乘法求回归直线方程 x0.250.51 2 4y 16 12 5 2 1 辨析此题解法是错误的,原因是这两个变量之间不是线性相关关系此类问题的解决,应先对两个变量间的相关关系进行相关性检验,然
11、后结合作出的散点图,选择适宜的回归方程 正解由数值表可作散点图如图所示:t 42 10.50.25y16125 21 由散点图可以看出y与t呈近似的线性相关关系列表如下:解析(1)散点图如图所示:(2)由散点图可看出,样本点分布在一条指数函数yc1ecx2的周围,于是令zlny,则x123456z1.792.483.223.894.555.25D 2甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103 解析r越接近1,相关性越强,残差平方和m越小,相关性越强,故选DD 3对具有线性相关关系的变量x和Y,测得一组数据如下表:x 24568Y3040605070零件的个数x(个)2 3 4 5加工的时间y(小时)2.53 44.5 解析(1)散点图如图所示:课 时 作 业 学 案