1、8.1.2 样本相关系数样本相关系数通过观察通过观察散点图散点图中成对样本数据的分布规律,我们可以大致推断中成对样本数据的分布规律,我们可以大致推断两个变两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等等.散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小无法量化两个变量之间相关程度的大小.能否像引人均值、方差等数字特能否像引人均值、方差等数字特征对征对单个变量数据进行分析单个变量数据进行分析那样,引入一
2、个适当的那样,引入一个适当的“数字特征数字特征”,对成对样,对成对样本数据的相关程度进行定量分析呢本数据的相关程度进行定量分析呢?对于变量对于变量x和变量和变量y,设经过随机抽样获得的成对样本数据为,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),(xn,yn),其中,其中x1,x2,xn和和y1,y2,yn的均值分别为的均值分别为 和和 .将数据以将数据以 为零点进行平移,得到平移后的成对数据为为零点进行平移,得到平移后的成对数据为并绘制散点图并绘制散点图.xy()x y,1122()()()nnxx yyxx yyxx yy,通过绘图分析可得,如果变量通过绘图分析可得,如
3、果变量x和和y正相关正相关,那么关于均值平移后的大多数散点,那么关于均值平移后的大多数散点将分布在将分布在第一象限、第三象限第一象限、第三象限,对应的成对数据,对应的成对数据同号的居多同号的居多,如图,如图(1)所示;所示;如果变量如果变量x和和y负相关负相关,那么关于均值平移后的大多数散点将分布在,那么关于均值平移后的大多数散点将分布在第二象限、第二象限、第四象限第四象限,对应的成对数据,对应的成对数据异号的居多异号的居多,如图,如图(2)所示所示.思考思考1 根据上述分析,你能利用正相关变量和负相关变量的成对样本数据根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律
4、,构造一个度量成对样本数据是正相关还是负相关的数平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗字特征吗?利用散点利用散点 的的横、纵坐标是否同号横、纵坐标是否同号,可以构造,可以构造一个量一个量()(1,2,)iixx yy in,11221()()()()()().xynnLxxyyxxyyxxyyn一般情形下,一般情形下,Lxy0表明成对样本数据表明成对样本数据正相关正相关;Lxy 0时,称成对样本数据时,称成对样本数据正相关正相关;当;当r0时,称成对样本数据时,称成对样本数据负相关负相关.|r|1;当当|r|越接近越接近1时,成对数据的时,成对数据的线性相关程
5、度越强线性相关程度越强;当;当|r|越接近越接近0时,成对数时,成对数据的据的线性相关程度越弱线性相关程度越弱;特别地,当;特别地,当|r|0时时,成对数据的,成对数据的没有线性相关关系没有线性相关关系;当当|r|1时,时,成对数据都落在一条直线上成对数据都落在一条直线上.注意注意:若若0.75|r|1,则认为,则认为y与与x的线性相关程度很强;的线性相关程度很强;若若0.3|r|0.75,则认为,则认为y与与x的线性相关程度一般;的线性相关程度一般;若若|r|0.25,则认为,则认为y与与x的线性相关程度较弱的线性相关程度较弱)1222211.niiinniiiix ynx yxnxyny
6、图图(1)中成对样本数据中成对样本数据的的正线性相关程度很强正线性相关程度很强.图图(2)中成对样本数据中成对样本数据的的负线性相关程度比较负线性相关程度比较强强.图图(3)中中 对样本数据的对样本数据的线性相关程度很弱线性相关程度很弱.图图(4)中成对样本数据的中成对样本数据的线性相关程度极弱线性相关程度极弱.练习练习1 判断正误判断正误(正确的打正确的打“”,错误的打,错误的打“”)(1)相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系系()(2)散点图越接近某一条直线,线性相关程度越强,样本相关系数越大散点
7、图越接近某一条直线,线性相关程度越强,样本相关系数越大()(3)散点图可以直观地分析出两个变量是否具有相关性散点图可以直观地分析出两个变量是否具有相关性()(4)若变量若变量x,y满足函数关系,则这两个变量线性相关满足函数关系,则这两个变量线性相关()练习练习2 已知求得甲、乙、丙已知求得甲、乙、丙3组不同的数据的样本相关系数分别为组不同的数据的样本相关系数分别为0.81,0.98,0.63,其中,其中_(填甲、乙或丙填甲、乙或丙)组数据的线性相关程度最强组数据的线性相关程度最强乙乙 例例1 根据表根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相中脂肪含量和年龄的样本数据,推
8、断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度关,计算样本相关系数,并推断它们的相关程度.解解:由样本数据可得由样本数据可得14114142211()()0.97.()()iiiiiiixxyyrxxyy 14148.0727.26()()1054.34iiixyxxyy ,由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.141422=1=1()1828.93()645iiixxyy ,.编号编号1234567891011121314年龄年龄/岁岁232739414549505354565758606
9、1脂肪含量脂肪含量/9.517.821.225.927.526.328.229.630.231.430.833.535.234.6 例例1 根据表根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度关,计算样本相关系数,并推断它们的相关程度.编号编号1234567891011121314年龄年龄/岁岁2327394145495053545657586061脂肪含量脂肪含量/9.517.821.225.927.526.328.229.630.231.430.833.535.234.6解解:由
10、样本数据可得由样本数据可得14114142211()()()()iiiiiiixxyyrxxyy 1411414222211140.97.1414iiiiiiix yx yxxyy 1414142211148.0727.2619403.23418111051.77iiiiiiixyx yxy ,.由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.变式变式1 在一次试验中,测得在一次试验中,测得(x,y)的的4组值分别为组值分别为(1,2),(2,0),(4,4),(1,6),则则y与与x的样本相关系数为的样本相关系数为
11、()A1 B2 C0 D1解:解:由样本数据可得由样本数据可得41442222221134204121.3224()564 1442iiiiiiix yx yrxxyy 4131202iiixyx y ,4422112256iiiixy ,.课本课本103页页 1.由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系反映变量之间的相关关系?为什么为什么?解:解:样本相关系数可以反映变量之间相关的正负性及线性相关的程度,样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样
12、本相关系数往往不能确切地反映变量之间但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系的相关关系.一般来说,样本量越大,根据样本相关系数推断变量之间相一般来说,样本量越大,根据样本相关系数推断变量之间相关的正负性及线性相关的程度越可靠,而样本量越小则越不可靠关的正负性及线性相关的程度越可靠,而样本量越小则越不可靠.一个极一个极端的情况是,无论两个变量之间是什么关系,如果样本量取端的情况是,无论两个变量之间是什么关系,如果样本量取2,则计算可,则计算可得样本相关系数的绝对值都是得样本相关系数的绝对值都是1(在样本相关系数存在的情况下在样本相关系数存在的情况下),显然据,显然
13、据此推断两个变量完全线性相关是不合理的此推断两个变量完全线性相关是不合理的.课本课本103页页 2.已知变量已知变量x和变量和变量y的的3对随机观测数据对随机观测数据(2,2),(3,1),(5,7),计算成对,计算成对样本数据的样本相关系数样本数据的样本相关系数.能据此推断这两个变量线性相关吗能据此推断这两个变量线性相关吗?为什么为什么?解:解:由样本数据可得由样本数据可得313322222211103343(2)31.10383()543(2)333iiiiiiix yx yrxxyy 311022 23(1)5(7)343iiixyx y ,332222222211235382(1)(7
14、)54iiiixy ,.虽然样本相关系数为虽然样本相关系数为1,三个样本点在一条直线上,但是由于样本,三个样本点在一条直线上,但是由于样本量太小,据此推断两个变量完全线性相关并不可靠量太小,据此推断两个变量完全线性相关并不可靠.解解:课本课本103页页 3.画出下列成对数据的散点图,并计算样本相关系数画出下列成对数据的散点图,并计算样本相关系数.据此,请你谈谈样本相关据此,请你谈谈样本相关系数在刻画成对样本数据相关关系上的特点系数在刻画成对样本数据相关关系上的特点.(1)(2,3),(1,1),(0,1),(1,3),(2,5),(3,7);(2)(0,0),(1,1),(2,4),(3,9)
15、,(4,16);(3)(2,8),(1,1),(0,0),(1,1),(2,8),(3,27);(4)(2,0)(1,),(0,2),(1,),(2,0).33248x-4-320-213-16y-2515x2041310y20.51.5x-320-213-11y51020 x-10-320-213-115y-5251r 0.96r 0.89r 0r 样本相关系数主要刻画的是成对样本数据线性相关的程度样本相关系数主要刻画的是成对样本数据线性相关的程度.例例2 有人收集了某城市居民年收入有人收集了某城市居民年收入(所有居民在一年内收人的总和所有居民在一年内收人的总和)与与A商品商品销售额的销售额
16、的10年数据,如下表所示年数据,如下表所示.解解:第第n年年12345678910居民年收入居民年收入/亿元亿元32.231.132.935.837.138.039.043.044.646.0A商品销售额商品销售额/万元万元25.030.034.037.039.041.042.044.048.051.0画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与断居民年收入与A商品销售额的相关程度和变化趋势的异同商品销售额的相关程度和变化趋势的异同.画出成对样本数据的散点图,如图所示画出成对样本数据的散点图,如图所示
17、.从散点图看,从散点图看,A商品销售额与居民年收人的商品销售额与居民年收人的样本数据呈现出线性相关关系样本数据呈现出线性相关关系.由样本数据计算得样本相关系数由样本数据计算得样本相关系数r0.95.由由此可以推断,此可以推断,A商品销售额与居民年收入正线商品销售额与居民年收入正线性相关,即性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强商品销售额与居民年收入有相同的变化趋势,且相关程度很强.例例3 在某校高一年级在某校高一年级 中随机抽取中随机抽取25名男生,测得他们的身高、体重、臂展名男生,测得他们的身高、体重、臂展等数据,如下表所示等数据,如下表所示.体重与身高、臂展与身
18、高分别具有怎样的相关性体重与身高、臂展与身高分别具有怎样的相关性?编号编号身高身高/cm体重体重/kg臂展臂展/cm编号编号身高身高/cm体重体重/kg臂展臂展/cm123456789101112131731791751791821731801701691 77177178174557152628263558154545967561691701721771741661741 691 66176170174170141516171819202122232425166176176175169184169182171177173173666149604886585458615851161166165
19、173162189164170164173165169 根据样本数据画出体重与身高、臂展与身高的散点图,分别如图根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和和(2)所所示,两个散点图都呈现出线性相关的特征示,两个散点图都呈现出线性相关的特征.解解:通过计算得到体重与身高、臂展与身高的样本相关系数分别约为通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和和0.78,都为正线性相关都为正线性相关.其中,臂展与身高的相关程度更高其中,臂展与身高的相关程度更高.变式变式 足球是深受全世界人们喜爱的运动,我国大力发展校园足球为了足球是深受全世界人们喜爱的运动,我国大力
20、发展校园足球为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:年份年份x20162017201820192020足球特色学校足球特色学校y(百个百个)0.300.601.001.401.70根据上表数据根据上表数据,计算计算y与与x的样本相关系数的样本相关系数r,并说明并说明y与与x的线性相关程度的线性相关程度(附附:若若0.75|r|1,则认为,则认为y与与x的线性相关程度很强;若的线性相关程度很强;若0.3|r|0时,称成对样本数据时,称成对样本数据正相关正相关;当;当r0时,称成对样本数据时,称成对样本数据负相关负相关.|r|1;当当|r|越接近越接近1时,成对数据的时,成对数据的线性相关程度越强线性相关程度越强;当;当|r|越接近越接近0时,成对数时,成对数据的据的线性相关程度越弱线性相关程度越弱;特别地,当;特别地,当|r|0时时,成对数据的,成对数据的没有线性相关关系没有线性相关关系;当当|r|1时,时,成对数据都落在一条直线上成对数据都落在一条直线上.1222211.niiinniiiix ynx yxnxyny