1、第3节 相关性、最小二乘估计与统计案例,最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.,知 识 梳 理,1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是_;与函数关系不同, _是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为_,点散布在左上角到右下角的
2、区域内,两个变量的相关关系为_.,相关关系,相关关系,正相关,负相关,2.回归分析 对具有_的两个变量进行统计分析的方法叫回归分析.其基本步骤是:()画散点图;()求_ ;()用回归直线方程作预报. (1)回归直线:如果散点图中点的分布从整体上看大致在_附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线. (2)回归直线方程的求法最小二乘法. 设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i1,2,n),则回归直线方程yabx的系数为:,相关关系,回归直线方程,一条直线,(3)相关系数 当r0时,表明两个变量_; 当r0时,表明两个变量_. r的绝对值越接近于1,
3、表明两个变量的线性相关性_. r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.,中心,正相关,负相关,越强,3.独立性检验 (1)设A,B为两个变量,每一个变量都可以取两个值,,22列联表,(2)独立性检验 利用随机变量来判断“两个变量_”的方法称为独立性检验. (3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断 当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的; 当22.706时,有90%的把握判定变量A,B有关联; 当23.841时,有95%的把握判定变量A,B有关联;
4、 当26.635时,有99%的把握判定变量A,B有关联.,abcd,有关联,微点提醒,基 础 自 测,1.判断下列结论正误(在括号内打“”或“”),(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ),(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X,Y关系越密切,则由观测数据计算得到的2值越大.( ) 答案 (1) (2) (3) (4),2.(选修23P87问题提出改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最
5、有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率 解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C,3.(选修23P78讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r如下,其中拟合效果最好的模型是( ) A.模型1的相关系数r为0.98 B.模型2的相关系数r 为0.80 C.模型3的相关系数r为0.50 D.模型4的相关系数r为0.25 解析 在两个变量y与x的回归模型中,它们的相关系数r越近于1,模拟效果越好,在四个选项中A的相关系数最大,所以拟合效果最好的是模型1. 答案 A,4.(2019焦作模拟)已知
6、变量x和y的统计数据如下表:,答案 C,5.(2015全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( ),A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关,解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年
7、下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确. 答案 D,6.(2019丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22列联表进行独立性检验,经计算K26.705,则所得到的统计学结论是:有_的把握认为“学生性别与支持该活动有关系”( ),A.95% B.99% C.1% D.5% 解析 因为6.7056.635,因此有99%的把握认为“学生性别与支持该活动有关系”,故选B. 答案 B,考点一 相关关系的判断,【例1】 (1)观察下列各图形,,其中两个变量x,y具有相关关系的图是( ) A. B. C. D.,(
8、2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:,则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲 B.乙 C.丙 D.丁,解析 (1)由散点图知中的点都分布在一条直线附近.中的点都分布在一条曲线附近,所以中的两个变量具有相关关系. (2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性. 答案 (1)C (2)D,【训练1】 (1)已
9、知变量x和y满足关系y0.1x1,变量y与z正相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关,(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为_.,解析 (1)由y0.1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.,答案 (1)C (2),考点二 线性回归方程及应用 【例2】 (2018西安调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额
10、),如下表1:,表1,为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:,表2,(1)求z关于t的线性回归方程; (2)通过(1)中的方程,求出y关于x的回归方程; (3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.,【训练2】 (2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.,(2)利用模型得到的预测值更可靠.理由如下: ()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用
11、2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,,()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠. 以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.,考点三 独立性检验 【例3】 (2019湖南长沙雅礼中学、河南省实验中学联考)环境问题
12、是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:,某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.,(1)求频率分布直方图中m的值; (2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少
13、有一天空气质量是中度污染的概率;,(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:,根据限行前6年180天与限行后60天的数据,计算并填写22列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.,解 (1)因为限行分单双号,王先生的车被限行的概率为0.05, 所以空气重度污染和严重污染的概率应为0.0520.1, 由频率分布直方图可知(0.0040.0060.005m)500.11,解得m0.003.,(2)因为空气质量良好与中度污染的天气的概率之比为0.30.1521, 按分层抽样的方法从中抽取6天,则
14、空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),
15、(B1,B2),共15个,,(3)22列联表如下:,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.,【训练3】 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:,解析 24.8443.841,则有95%的把握认为是否选修文科与性别有关系. 答案 95%,2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值. 3.独立性检验中统计量2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.,