1、第八章 成对数据的统计分析8.1成对数据的统计相关性知识梳理知识点1. 变量的相关关系相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系的分类按变量间的增减性分为正相关和负相关正相关:当一个变量的值增加时,另一个变量的相应值也增加负相关:当一个变量的值增加时,另一个变量的相应值也减少按变量间是否有线性特征分为线性相关和非线性相关(曲线相关)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关知识点2.
2、相关关系的刻画散点图::将样本中的每一个序号下的成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.样本相关系数(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r.(2)样本相关系数r的取值范围为1,1若r0时,成对样本数据正相关;若r0.75 , y 与 x 的关系可用线性回归模型拟合(2)解:药品 A 的每类剂型经过两次检测后合格的概率分别为 PA1=1245=25 , PA2=4512=25 , PA3=3523=25 ,由题意, XB(3,25) ,E(X)=325=65 .【解析】(1) 根据题目提供的数据求出 x,y ,代入相
3、关系数公式求出 r ,根据 r 的大小来确定结果;(2)求出药品 A 的每类剂型经过两次检测后合格的概率,发现它们相同,那么经过两次检测后 A1 , A2 , A3 三类剂型合格的种类数为 X , X 服从二项分布 XB(3,25) ,利用二项分布的期望公式求解即可.3.【答案】 解:()由题可得 (0.005+0.010+0.020+0.030+a+0.010)10=1 , 解得 a=0.025 ()由()知 a=0.025 ,则比赛成绩不低于 80 分的频率为 (0.025+0.010)10=0.35 ,故从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于 80 分的概
4、率约为 0.35 ()由()知,在抽取的 100 名学生中,比赛成绩优秀的有 1000.35=35 人,由此可得完整的 22 列联表:优秀非优秀合计男生10 40 50 女生25 25 50 合计35 65 100 所以 K2 的观测值 k=100(1025-2540)235655050=900919.89010.828 ,所以没有 99.9% 的把握认为“比赛成绩是否优秀与性别有关”【解析】 () 由已知频率分布直方图,利用频率和等于1列式,即可求出a的值; () 由()可证a的值,根据频率分布直方图列式,即可估计事件 A 的概率; () 先由()得到抽取的 100 名学生中比赛成绩优秀的人
5、数,完成 22 列联表 ,再求出观测值 k=900919.89010.828 , 即可判断相关关系.4.【答案】 (1)解:由图1可知,高中生占学生总数的 20% ,学生总数为 300020%=15000 人,样本容量为 150002%=300 .抽取的高中生人数为 30002%=60 人,由于近视率为 60% ,抽取的高中生近视人数为 6060%=36 人(2)解:列联表如下:平均学习时间不超过9小时平均学习时间超过9小时总计不近视18624近视241236总计421860(3)解:由列联表可知, K2=60(1812-246)2243642180.476 , 0.4763.841 ,没有
6、95% 的把握认为高中生平均每天学习时间与近视有关【解析】(1)根据题干和频率分布图可直接求解。(2)由(1)所得可间接求出表中其他数据。(3)利用变量的相关关系求得。5.【答案】 (1)解:r= i=116(xi-x)(i-8.5)i=116(xi-x)2i=116(i-8.5)2 = -2.780.2121618.439 =0.18|r|0.25,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)(i) x =9.97,s=0.212,合格零件尺寸范围是(9.334,10,606),显然第13号零件尺寸不在此范围之内,需要对当天的生产过程进行检查(ii)剔除离群值后,剩下的数据平均值为 115(169.97-9.22) =10.22,i=116xi2 =160.2122+169.972=1591.134,剔除离群值后样本方差为 115 (1591.1349.2221510.022)=0.008,剔除离群值后样本标准差为 0.008 0.09【解析】(1.)代入数据计算,比较|r|与0.25的大小作出结论;(2.)(i)计算合格零件尺寸范围,得出结论;(ii)代入公式计算即可