1、8.1 成对数据的相关关系 1理解两个变量的相关关系的概念;2会作散点图,并利用散点图判断两个变量之间是否具有相关关系;3会根据相关系数判断两个变量的相关程度重点:相关关系的概念及利用散点图判断两个变量之间是否具有相关关系难点:根据相关系数判断两个变量的相关程度1.变量的相关关系相关关系是一种不确定性关系;相关关系是相对于函数关系而言的.像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系与函数关系的异同点 关系项目函数关系相关关系相同点都是两个变量间的关系不同点是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关
2、系2.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图。3.正相关与负相关(1)正相关:根据样本数据所作得散点图中,若点散布在从左下角到右上角的区域。对于两个变量的这种相关关系,我们称之为正相关。(2)负相关:根据样本数据所作得散点图中,若点散布在从左上角到右下角的区域。对于两个变量的这种相关关系,我们称之为负相关。O3.线性相关与非线性相关线性相关:散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关;非线性相关:一般地,如果两个变量具有相关性
3、,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.4.样本相关系数我们称r为变量x和变量y的样本相关系数.1.下列关系是相关关系的是_(填序号)曲线上的点与该点的坐标之间的关系;苹果的产量与气候之间的关系;森林中同一种树木,其断面直径与高度之间的关系;学生与其学号之间的关系一、 问题探究我们知道,如果变量y是变量工的函数,那么由x就可以唯一确定y.然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值,那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题. 我们知道,一
4、个人的体重与他的身高有关系,一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素,像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系(correlation).两个变量具有相关关系的事例在现实中大量存在,例如:1.子女身高y与父亲身高x之间的关系,一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮,但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能
5、完全决定子女身高.2.商品销售收人y与广告支出x之间的关系,一般来说,广告支出越多,商品销售收入越高,但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关。3.空气污染指数y与汽车保有量x之间的关系,一般来说,汽车保有量增加,空气污染指数会上升,但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素。4.粮食亩产量y与施肥量x之间的关系,在一定范围内,施肥量越大,粮食亩产量就越高,但施肥量并不是决定粮食亩产量的唯一因索,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。概念解析探究1
6、:在对人体的脂肪的含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据。编号1234567年龄23273941454950脂肪9.517.821.225.927.526.328.2编号891011121314年龄53545657586061脂肪29.630.231.430.833.535.234.6根据以上数据,你能推新人体的脂肪含量与年龄之间存在怎样的关系吗?成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图由散点图可以发现,这些
7、散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.变量相关关系的分类(1)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关. 当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关.探究2.通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无
8、法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?对于变量𝑥和变量𝑦,设经过随机抽样得到的成对数据为(𝑥1,𝑦1),(𝑥2,𝑦2),(𝑥𝑛,𝑦𝑛),其中x=x1+x2+xnn,y=y1+y2+ynn将数据以(x,y)为零点进行平移,得到平移后的成对数据为:x1-x,y1-y,x2-x,y2-y,.,xn-x,yn-y绘制散点图
9、为平移 这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的。探究3:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后星现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?根据散点图特征,初步构造统计量.利用散点xi-x)(yi-y,i=1,2,n的横纵坐标是否同号,可以构造一个量一般情形下,Lxy0表明成对样本数据正相关; Lxy 0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。当r0.75,则线性相关较为显著
10、,否则不显著例2. 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.第n年12345678910居民年收入/亿元32.231.132.935.837.138394344.646A商品销售额/万元25.030.034.037.039.041.042.044.048.051.0例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.体重与身高、臂展与身高分别具有怎样的相关性?跟踪训练1.由于往届高三年级数学
11、学科的学习方式大都是“刷题讲题再刷题”的模式,效果不理想某市一中的数学课堂教改采用了“记题型刷题检测效果”的模式,并记录了某学生的记题型时间t(单位:h)与检测效果y的数据如表所示.t1234567y2.93.33.64.44.85.25.9据统计表明,y与t之间具有线性相关关系,请用相关系数r加以说明(若|r|0.75,则认为y与t有很强的线性相关关系,否则认为没有很强的线性相关关系)参考公式及数据:相关系数r,4.3, (yi)27.08,(ti)(yi)14,14.08.1判断(正确的打“”,错误的打“”)(1)变量之间只有函数关系,不存在相关关系()(2)两个变量之间产生相关关系的原因
12、受许多不确定的随机因素的影响()(3)两个变量的相关系数越大,它们的相关程度越强()(4)若相关系数r0,则两变量x,y之间没有关系()2下列各图中所示的两个变量具有相关关系的是()A(1)(2)B(1)(3) C(2)(4) D(2)(3)3.对变量x,y有观测数据(xi,yi)(i1,2,3,10),得散点图1;对变量u,v有观测数据(ui,vi)(i1,2,3,10),得散点图2,由这两个散点图可以断定()Ax与y正相关,u与v正相关 Bx与y正相关,u与v负相关Cx与y负相关,u与v正相关 Dx与y负相关,u与v负相关4在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相
13、关系数r有如下四个选项,其中拟合得最好的模型为()A模型1的相关系数r为0.75B模型2的相关系数r为0.55C模型3的相关系数r为0.25D模型4的相关系数r为0.905.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:x23456y2.23.85.56.57.0已知90,140.8,iyi112.3,8.9,1.4.(1)求,;(2)对x,y进行线性相关性检验判断变量的相关性通常有两种方式:1.散点图;2.相关系数r,前者只能粗略地说明变量间具有相关性,而后者可以从定量的角度分析变量相关性的强弱参考答案:知识梳理1. 解析:利用相关关系的概念进行判
14、断中两个变量之间的关系是一种确定性关系,而中的两个变量之间的关系是不确定的,所以它们具有相关关系学习过程一、 问题探究探究1:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图问题1:我们发现, Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小. 二、典例解析例1. 解:先画出散点图,如右图所示观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.r19403.2-1448.0727.2634181-1448.07211051.77-1427.2620.97由样本相关系数𝑟
15、0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同.归纳总结例2. 解:从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.例3.解:通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高.体重与身高、臂展与身高分别具有怎样的相关性?跟踪训练1.解:由题得4,(ti)2941014928,所以r0.990.75,所以y与t有很强的线性相关关系达标检测1答案 :(1)(3)(4)错;(2)对当堂达标2D解析:(1)为函数关系;(2)(3)为相关关系;(4)中,因为点分布得比较分散,两者之间无相关关系.3. C解析:由题图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;由题图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关4D解析:D中相关系数r的绝对值最接近1,相关性最强,故选D.5. 解:(1)4,5.(2)iyi5112.354512.3,529054210,52140.812515.8,所以r0.987.所以有把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的