1、第八章第八章 成对数据的统计分析成对数据的统计分析在现实中,我们还经常需要了解两个或两个以上变量之间的关系在现实中,我们还经常需要了解两个或两个以上变量之间的关系.例如,例如,教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;医疗卫生部门门要制定预防青少年近视的措施,需要了解有哪些因关系;医疗卫生部门门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;商家要根据顾客的意见素会影响视力,以及这些因素是如何影响视力的;商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水
2、平,以及这些因素是如何起改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等作用的;等等.为此,我们需要进一步学习通过为此,我们需要进一步学习通过样本推断变量之间关系的知样本推断变量之间关系的知识和方法识和方法.本章的学习内容本章的学习内容有成对数据的统计相关性有成对数据的统计相关性、一元线性回归模型一元线性回归模型和和22列联列联表表等,这些知识与方法在解决实际问题中非常有用等,这些知识与方法在解决实际问题中非常有用.可以发现,可以发现,两个随机变两个随机变量的相关性可以通过成对样本数据进行分析量的相关性可以通过成对样本数据进行分析;利用;利用一元线性回归模型可以一元
3、线性回归模型可以研究变量之间的随机关系研究变量之间的随机关系,进行预测进行预测;利用;利用22列联表可以检验两个随机变列联表可以检验两个随机变量的独立性量的独立性.本章的学习对于提高我们解决实际问题的能力,提升本章的学习对于提高我们解决实际问题的能力,提升数据分析数据分析、数学建模、数学建模等素养都是非常有帮助的等素养都是非常有帮助的.8.1 成对数据的统计相关性成对数据的统计相关性8.1.1 变量的相关关系变量的相关关系如果变量如果变量y是变量是变量x的函数的函数,那么由,那么由x就可以唯一确定就可以唯一确定y.然而,现实世界中然而,现实世界中还存在这样的情况还存在这样的情况:两个变量之间有
4、关系两个变量之间有关系,但密切程度又,但密切程度又达不到函数关系达不到函数关系的的程度程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值的体重值.那么,该如何刻画这两个变量之间的关系呢那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究下面我们就来研究这个问题这个问题.我们知道,一个人的体重与他的身高有关系我们知道,一个人的体重与他的身高有关系.一般而言,个子高的人往一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯但身高并不是决定体
5、重的唯一因素,一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素是影响体重的重要因素.像这样,像这样,两个变量有关系,但又没有确切到可由两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度其中的一个去精确地决定另一个的程度,这种关系称为,这种关系称为相关关系相关关系.1.相关关系相关关系两个变量具有相关关系的事例在现实中大量存在两个变量具有相关关系的事例在现实中大量存在.例如例如:1.子女身高子女身高y与父亲身高与父亲身高x之间的关系之间的关系.一般来说,父亲的个子高,其子女的个一般来说,
6、父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮子也会比较高;父亲个子矮,其子女的个子也会比较矮.但影响子女身高的因素但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高亲身高又不能完全决定子女身高.2.商品销售收入商品销售收入y与广告支出与广告支出x之间的关系之间的关系.一般来说,广告支出越多,商品销一般来说,广告支出越多,商品销售收人越高售收人越高.但广告支出并不是决定商品销售收人的唯一因素,商品销售收人还但广告支出并不是决定商品销
7、售收人的唯一因素,商品销售收人还与商品质量、居民收入等因素有关与商品质量、居民收入等因素有关.3.空气污染指数空气污染指数y与汽车保有量与汽车保有量x之间的关系之间的关系.一般来说,汽车保有量增加,空一般来说,汽车保有量增加,空气污染指数会上升气污染指数会上升.但汽车保有量并不是造成空气污染的唯一因素,气象条件、但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素.4.粮食亩产量粮食亩产量y与施肥量与施肥量x之间的关系之间的关系.在一定范围内,施肥量越大,粮食亩产
8、在一定范围内,施肥量越大,粮食亩产量就越高量就越高.但施肥量并不是决定粮食亩产量的唯一因素,但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响壤质量、降水量、田间管理水平等因素的影响.变量的相关关系变量的相关关系与与函数关系函数关系的区别和联系:的区别和联系:相同点:相同点:两者均是两个变量之间的关系;两者均是两个变量之间的关系;不同点:不同点:函数关系是一种函数关系是一种确定的关系确定的关系,如匀速直线运动中时间,如匀速直线运动中时间t与路程与路程s的关的关系,相关关系是一种系,相关关系是一种非确定的关系非确定的关系,如一
9、块农田的小麦产量与施肥量,如一块农田的小麦产量与施肥量之间的关系;之间的关系;函数关系是函数关系是两个随机变量之间的关系两个随机变量之间的关系,而相关关系,而相关关系是非随机变量与是非随机变量与随机变量之间的关系随机变量之间的关系;函数关系是一种函数关系是一种因果关系因果关系,而相关关系,而相关关系不一定是因果关系,也可能不一定是因果关系,也可能是伴随关系是伴随关系练习练习1 下列关系中,属于相关关系的是下列关系中,属于相关关系的是_.正方形的边长与面积之间的关系正方形的边长与面积之间的关系 农作物的产量与施肥量之间的关系农作物的产量与施肥量之间的关系 出租车打车费与行驶的里程出租车打车费与行
10、驶的里程 降雪量与交通事故的发生率之间的关系降雪量与交通事故的发生率之间的关系在相关关系中,变量在相关关系中,变量y的值不能随变量的值不能随变量x的值的确定而唯一确定,所以的值的确定而唯一确定,所以我们我们无法直接用函数去描述变量之间的这种关系无法直接用函数去描述变量之间的这种关系.对上述各例中两个变对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断量之间的相关关系,我们往往会根据自己以往积累的经验作出推断.“经经验之中有规律验之中有规律”,经验的确可以为我们的决策提供一定的依据经验的确可以为我们的决策提供一定的依据,但仅凭经但仅凭经验推断又有不足验推断又有不足.例如
11、,不同经验的人对同一情形可能会得出不同结论例如,不同经验的人对同一情形可能会得出不同结论,不是所有的情形都有经验可循等,不是所有的情形都有经验可循等.因此,在研究两个变量之间的相关因此,在研究两个变量之间的相关关系时,我们需要关系时,我们需要借助数据说话借助数据说话,即,即通过样本数据分析,从数据中提取通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断信息,并构建适当的模型,再利用模型进行估计或推断.探究探究 在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,
12、如下表所示和脂肪含量的简单随机样本数据,如下表所示.表中每个编号下的年龄和脂肪含表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据量数据都是对同一个体的观测结果,它们构成了成对数据.根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?编号编号1234567891011121314年龄年龄/岁岁2327394145495053545657586061脂肪含量脂肪含量/9.517.821.225.927.526.328.229.630.231.430.833.535.234.6为了更加直观地描述上
13、述成对样本数据为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,我们用图中脂肪含量与年龄之间的关系,我们用图形展示成对样本数据的变化特征、用横轴形展示成对样本数据的变化特征、用横轴表示年龄,纵轴表示脂肪含量,则表中每表示年龄,纵轴表示脂肪含量,则表中每个编号下的成对样本数据都可用直角坐标个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如右系中的点表示出来,由这些点组成了如右图所示的统计图图所示的统计图.我们把这样的统计图叫我们把这样的统计图叫做做散点图散点图.观察图形,可以发现,这些散点大致观察图形,可以发现,这些散点大致落在一条从落在一条从左下角到右上角的直线
14、附近左下角到右上角的直线附近,表明表明随年龄值的增加,相应的脂肪含量值随年龄值的增加,相应的脂肪含量值呈现增加的趋势呈现增加的趋势.这样,由成对样本数据这样,由成对样本数据的分布规律,我们可以推断的分布规律,我们可以推断脂肪含量变量脂肪含量变量和年龄变量之间存在着相关关系和年龄变量之间存在着相关关系.如果从整体上看,当如果从整体上看,当一个变量的值增加一个变量的值增加时,时,另一个变量的相应值也呈另一个变量的相应值也呈现增加的趋势现增加的趋势,我们就称这两个变量,我们就称这两个变量正相关正相关;如果当一个变量的值;如果当一个变量的值增加增加时,另一个变量的相应值呈现时,另一个变量的相应值呈现减
15、小的趋势减小的趋势,则称这两个变量,则称这两个变量负相关负相关.由图可推断脂肪含量与年龄这两个变量由图可推断脂肪含量与年龄这两个变量正相关正相关.散点图的作用:散点图的作用:把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做图叫做散点图散点图.2.散点图散点图 根据散点图可判断两个变量有无相关关系根据散点图可判断两个变量有无相关关系 通过散点图不但可以从点的位置判断测量值的大小、变动范围与趋通过散点图不但可以从点的位置判断测量值的大小、变动范围与趋势势,还可以通过观察剔除异常数值,提高估计相关程度的准确性还可以通过观察
16、剔除异常数值,提高估计相关程度的准确性3.正相关与负相关正相关与负相关一个变量随另一个变量的增加呈现减小的趋势一个变量随另一个变量的增加呈现减小的趋势.正相关:正相关:一个变量随另一个变量的增加呈现增加的趋势一个变量随另一个变量的增加呈现增加的趋势.负相关:负相关:课本课本95页页2.根据下面的散点图,推断图中的两个变量是否存在相关关系根据下面的散点图,推断图中的两个变量是否存在相关关系.例例1 以下是某地不同楼盘新房的销售价格以下是某地不同楼盘新房的销售价格y(单位单位:万元万元)和面积和面积x(单位单位:m2)的数据的数据:解:解:面积面积x(m2)11511080135105销售价格销售
17、价格y(万元万元)24.821.619.429.222(1)画出数据对应的散点图;画出数据对应的散点图;(2)判断新房的销售价格和面积之间是否具有相关关系如果有相关关系判断新房的销售价格和面积之间是否具有相关关系如果有相关关系,是是正相关还是负相关?正相关还是负相关?(1)数据对应的散点图如图所示数据对应的散点图如图所示.(2)通过以上数据对应的散点图可以判断,新通过以上数据对应的散点图可以判断,新房的销售价格和面积之间具有相关关系,且是正房的销售价格和面积之间具有相关关系,且是正相关相关.变式变式 根据下面给出的根据下面给出的2011年至年至2020年某市二氧化硫排放量年某市二氧化硫排放量(
18、单位单位:万吨万吨)柱柱形图以下结论不正确的是形图以下结论不正确的是()A逐年比较,逐年比较,2015年减少二氧化硫排放量的效果最显著年减少二氧化硫排放量的效果最显著B2014年我国治理二氧化硫排放显现成效年我国治理二氧化硫排放显现成效C2013年以来我国二氧化硫年排放量呈减少趋势年以来我国二氧化硫年排放量呈减少趋势D2013年以来我国二氧化硫年排放量与年份正相关年以来我国二氧化硫年排放量与年份正相关4.线性相关线性相关散点图散点图是描述成是描述成对数据之间关系的一种直观方法对数据之间关系的一种直观方法.观察右图,从中我观察右图,从中我们不仅可以大致看出脂肪含量和年龄呈现们不仅可以大致看出脂肪
19、含量和年龄呈现正相关正相关,而且从整体上可以看,而且从整体上可以看出散点落在出散点落在某条直线附近某条直线附近.一般地,如果两个变量的取值呈现一般地,如果两个变量的取值呈现正相关或负相关正相关或负相关,而且,而且散点落在一散点落在一条直线附近条直线附近,我们就称这两个变量,我们就称这两个变量线性相关线性相关.观察观察 下图中请指出哪些图的两个变量具有相关性,并判定是否是线性相关?下图中请指出哪些图的两个变量具有相关性,并判定是否是线性相关?非线性相关非线性相关非线性相关非线性相关不具有相关性不具有相关性一般地,如果两个变量一般地,如果两个变量具有相关性具有相关性,但不是线性相关但不是线性相关,
20、那么我们就称,那么我们就称这两个变量这两个变量非线性相关或曲线相关非线性相关或曲线相关.3.下表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类下表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类数与海拔高度是否存在相关关系数与海拔高度是否存在相关关系?如果是,那么这种相关关系有什么特点如果是,那么这种相关关系有什么特点?课本课本95页页地区地区ABCDEFGHIJK海拔高度海拔高度/m1250115810674577017316106701493762549鸟的种类鸟的种类/种种363037111113171329415解:解:画鸟的种类数与海拔高度的散点图,如图所示
21、画鸟的种类数与海拔高度的散点图,如图所示.510海拔高度海拔高度/m201600140012006000200 400800 10001540353025鸟的种类鸟的种类/种种从散点图中散点的分布看,鸟的从散点图中散点的分布看,鸟的种类数与海拔高度种类数与海拔高度正相关正相关,鸟的种类,鸟的种类数在海拔高度数在海拔高度1000m以上的明显多于以上的明显多于在海拔高度在海拔高度1000m以下的以下的.但从局部但从局部看,不管是在海拔高度看,不管是在海拔高度1000m以上,以上,还是在海拔高度还是在海拔高度1000m以下,鸟的种以下,鸟的种类数和海拔高度正相关都不明显类数和海拔高度正相关都不明显.
22、小结:小结:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度的程度,这种关系称为,这种关系称为相关关系相关关系.1.相关关系相关关系把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做图叫做散点图散点图.2.散点图散点图3.正相关与负相关正相关与负相关一个变量随另一个变量的增加呈现减小的趋势一个变量随另一个变量的增加呈现减小的趋势.正相关:正相关:一个变量随另一个变量的增加呈现增加的趋势一个变量随另一个变量的增加呈现增加的趋势.负相关:负相关: