1、第八第八章章 成成对数据的统计分析对数据的统计分析8.1 成对数据的相关关系成对数据的相关关系8.1.2 样本相关系数样本相关系数1.结合实例,了解样本相关系数的统计含义.2.了解样本相关系数与标准化数据向量夹角的关系.3.结合实例,会通过样本相关系数比较多组成对样本数据的相关性.4.会求出样本相关系数r,并能利用样本相关系数r判断两个随机变量间线性相关程度的大小学习目标学习目标知识回顾知识回顾 关系项目函数关系相关关系 相同点不同点都是两个变量间的关系是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系2.2.变量相关关系的分类变量相关关系的分类 线性相关非线性相关
2、3.线性相关与非线性相关:问题探究问题探究探究探究2.通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?问题探究问题探究对于变量和变量,设经过随机抽样得到的成对数据为(1,1),(2,2),(,),绘制散点图为平移这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的
3、规律是由人体脂肪含量与年龄正相关所决定的 如果变量x和变量y正相关,那么均值平移后的大多数点将分布在第一、三象限,对应的成对数据同号居多;如果变量x和变量y负相关,那么关于均值平移后的大多数点将分布在第二、四象限,对应的成对数据异号居多.探究探究3:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后星现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?问题探究问题探究根据散点图特征,初步构造统计量.1,2,iixxyyin利用散点 的横纵坐标是否同号,可以构造一个量 11221-xynnLxxyyxxyyxxyyn 一般情形下,Lxy0表明成对样本数据正相关;Lxy
4、 0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。当r0时,称成对样本数据负相关;当其中一个数据的值变小时,另一个数据的值通常会变大:当其中一个数据的值变大时,另一个数据的值通常会变小。【诊断分析】判断正误.(请在括号中打“”或“”)(1)样本相关系数r的符号反映了相关关系的正负性.()(2)对于简单随机样本而言,样本相关系数r是确定的.()(3)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.()(4)r=0表明成对样本数据间就不存在相关性.()解析r=0只表明成对样本数据间没有线性相关
5、关系,但不排除它们之间有其他相关关系.解析对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.概念辨析概念辨析典例分析典例分析例1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.年龄23273941454950脂肪9.517.821.225.927.526.328.2年龄53545657586061脂肪29.630.231.430.833.535.234.6参考数据:1414142211148.07,27.26,19403.2,34181,11051.77iiiiiiixyx yxyiiiiniii=1nn2222iii
6、=1i=1ni=1nn22i=1i=1=x-x y-yxxyyx y-nxyrx-nxyny=-解:先画出散点图,如右图所示观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.iiii1414iii=1i=114141414222222iii=1i=1i=1i=1x-xy-yxxyyx y-14xy=x-14xy14r-y由样本相关系数0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同.散点图可以从直观上判断成对样本数据的相关性,通过样本相关系数则可以从定量的角度刻画成对样本数据相关的正负性和线性相关程度.样本相关系数r
7、的大小与成对样本数据的相关程度有什么内在联系呢?标准化处理后的成对样本数据:设其第一分量为设其第二分量为 11221+11|+|co=ns nnr=nnxxyxyxyyxy ()2222221212222212112()()()()()()|,|y|()1()nnxxxnininxiixxxxxxxxxsssxxxxxxxxsxnnnxx同理可得问题探究问题探究样本相关系数样本相关系数r的取值范围的取值范围211|cos()cos nnr=x yn cosrcos-11r-11 样本相关系数样本相关系数r的取值范围为的取值范围为-1,1-1,1当当|r|=1|=1时,成对样本数据之间具有怎样的
8、关系?时,成对样本数据之间具有怎样的关系?cosr当|r|=1时 ,向量 与 共线.=0或即存在实数 ,使得,1,2,iiyxyyxxinss成对样本数据(xi,yi)都落在直线 上()yiixsyyxxs成对样本数据的两个分量之间满足一种线性关系知识概念知识概念 样本相关系数r的取值范围为-1,1,样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0时,只表明成对样本数据间没有线性相关关系
9、,但不排除它们之间有其他相关关系.知识概念知识概念例2.有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额 的10年数据,如表所示.画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.第n年12345678910居民年收入/亿元32.231.132.935.837.138394344.646A商品销售额/万元25.030.034.037.039.041.042.044.048.051.0解:从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.x3839,=y=,10101022iiiii=1i=1i=1x=y=158351466515x y70,1=,iiiinniii=1i=1nnnn222222iii=1i=1i=1i=1x-xy-yxxyyx y-nxy=x-nxy-nyr0.95典例分析典例分析例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.体重与身高、臂展与身高分别具有怎样的相关性?解:通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高.典例分析典例分析课后作业课后作业课后作业:全品41-42,1-11题+13、14必做,其余选做本节内容结束