1、第六十讲:成对数据的统计分析 【核心考点】 1、 会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系。 2、了解最小二乘法的思想,能根据给出的线性回归方程(线性回归系数公式不 要求记忆) 。 3、了解回归分析的基本思想、方法及其简单应用。 4、了解独立性检验(只要求 2*2 列联表)的思想、方法及其初步应用。 【知识梳理】 1、回归分析:回归分析: 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常 用统计图是;统计量有:相关指数等。 从散点图看相关性: 正相关:样本点分布在从的区域内; 负相关:样本点分布在从的区域内。 从相关系数看相关性: 当0r
2、时表明两个变量正相关;当0r 时表明两个变量负相关;r的绝对值越小,线性相 关关系 ;r的绝对值越大,线性相关关系; 通常认为通常认为0.75r 时具有较强的相关性。 从相关指数看相关性: 2 R的值越大,说明残差平方和越小,也就是模型的拟合效果越好。在线性回归模型中, 2 R 表示解释量对于预报变量变化的贡献率, 2 R越接近于 1,表示回归的效果越好。 2、线性回归方程:线性回归方程: 两个具有线性相关关系的变量的一组数据: 11 (,)xy, 22 (,)xy,(,) nn xy,其回归方 程为 ybxa,则 11 222 11 ()() () nn iiii ii nn ii ii x
3、xyyx ynx y b xxxnx a ybx,其中 b是回归方程的, a 是在y轴上的截距。 3、独立性检验:独立性检验: 2 2列联表,如图 1 y 2 y总计 1 xab 2 xcdcd 总计acabcd 2 K统计量: 2 2 () ()()()() n adbc K ab cd ac bd (其中nabcd 为样本容量) 【学情自测】 1 1、某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表: x6 68 810101212 y 2 23 35 56 6 则则y对x的线性回归直线方程为() A A、2.30.7yxB B、2.30.7yx C C、0.72.3y
4、xD D、0.72.3yx 2、为了判断高中三年级学生是否选修文科与性别的关系, 现随机抽取 50 名学生, 得到如下2 2 列联表: 性别理科文科 男1310 女720 已知 2 (3.841)0.05P K , 2 (5.024)0.025P K 根据表中数据,得到 2 K的观测值: 50 (13 20 10 17) 4.844 23 1720 30 k ,则 认为选修 文科与 性别有关 系出错 的可能 性 为。 3、某商品销售量 y (件)与销售价格x(元/件)负相关,则其回归直线方程可 能是() A A、10200yx B B、10200yx C C、10200yx D D、10200
5、yx 4 4、为考察某药物预防疾病的效果,对 100 只某动物进行试验,得到如下的列联 表: 类别患病未患病总计 服用药104050 没服用药203050 总计3070100 经计算,统计量 2 K的观测值4.762k ,则在犯错误的概率不超过的前提下认为 药物有效,已知独立性检验中统计量 2 K的临界值参考表为:() 2 0 ()P Kk0.150.100.050.0250.010 0 k2.0722.7063.8415.0246.635 A A、0.010B B、0.025 C C、0.05D D、0.10 【典题分析】 题型题型 1 1:相关关系的判断:相关关系的判断 例例 1 1:某公
6、司在 2017 年上半年的收入x(单位:万元)与月支出y(单位:万元) 的统计资料如表所示: 月份1 月份2 月份3 月份4 月份5 月份6 月份 收入x 12.314.515.017.019.820.6 支出y 5.635.735.825.896.116.18 根据统计资料,则() A、月收入的中位数是 15,x与y有正线性相关关系 B、月收入的中位数是 17,x与y有负线性相关关系 C、月收入的中位数是 16,x与y有正线性相关关系 D、月收入的中位数是 16,x与y有负线性相关关系 题型题型 2 2:独立性检验:独立性检验 例例 2 2:某学生对其亲属 30 人的饮食习惯进行了一次调查,
7、并用如图所示的茎叶 图表示 30 人的饮食指数。 (说明:图中饮食指数低于 70 的人,饮食以蔬菜为主; 饮食指数高于 70 的人,饮食以肉类为主) : (1)根据以上数据完成下列2 2列联表. 类别主食蔬菜主食肉类总计 50 岁以下 50 岁以上 总计 (2)能否在犯错误的概率不超过 0.01 的前提下认为其亲属的饮食习惯与年龄有关, 并写出简 要分析。 附: 2 2 () ()()()() n adbc K ab cd ac bd nabcd 2 0 ()P Kk0.0500.0100.001 0 k3.8416.63510.828 在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析
8、数据得到“打鼾 与患心脏病有关”的结论,并且在犯错误的概率不超过 0.01 的前提下认为这个 结论是成立的,下列说法中正确的是() A、100 个心脏病患者中至少有 99 人打鼾 B、1 个人患心脏病,则这个人有 99%的概率打鼾 C、100 个心脏病患者中一定有打鼾的人 D、100 个心脏病患者中可能一个打鼾的人都没有 甲(50 岁以下)乙(50 岁以上) 1 53 8 8764 532 0 2 3 4 5 6 7 8 9 015667 23679 245 8 1 58 题型题型 3 3:线性回归方程的应用:线性回归方程的应用 下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单
9、位:亿吨)的折线图 (I)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (II)建立 y 关于 t 的回归方程(系数精确到 0.01) ,预测 2018 年我国生活垃圾无害化处理 量。 参考数据: 7 1 9.32 i i y , 7 1 40.17 ii i t y , 7 2 1 ()0.55 i i yy , 72.646. 参考公式:相关系数 1 22 11 ()() ()(yy) n ii i nn ii ii ttyy r tt , 回归方程yabt 中斜率和截距的最小二乘估计公式分别为: 1 2 1 ()() () n ii i n i i ttyy b tt , = .a ybt