1、=【 ;精品教育资源文库 】 = 第十 五 单元 统计与统计案例 教材复习课 “ 统计与统计案例 ” 相关基础知识一课过 三种抽样方法 过双基 三种抽样方法 类别 共同点 各自特点 相互联系 适用范围 简单随机抽样 是不放回抽样,抽样过程中,每个个体被抽到的机会 (概率 )相等 从总体中逐个抽取 总体中的个数较少 系统抽样 将总体均分成几部分,按事先确定的规则,在各部分抽取 在起始部分抽样时,采用简单随机抽样 总体中的个数比较多 分层抽样 将总体分成几层,分层进行抽取 各层抽样时,采用简单随机抽样或系统抽样 总体由差异明显的几部 分组成 小题速通 1从一个容量为 N 的总体中抽取一个容量为 n
2、 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为 p1, p2, p3,则( ) A p1 p2bc B bca C cab D cba 解析:选 D 依题意,这些数据由小到大依次是 10,12,14,14,15,15,16,17,17,17,因此aba. 4某校甲、乙两个班级各有 5 名编号为 1,2,3,4,5 的学生进行投篮练习,每人投 10 次,=【 ;精品教育资源文库 】 = 投中的次数如下表: 学生 1 号 2 号 3 号 4 号 5 号 甲班 6 7 7 8 7 乙班 6 7 6 7 9 若以上两组数据的方差中较小的一个为
3、s2,则 s2 _. 解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为 7,方差 s2 15(1 0 0 1 0) 25. 答案: 25 变量间的相关关系、统计案例 过双基 1 变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是 相关关 系 ;与函数关系不同, 相关关系 是一种非确定性关系 (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关 ,点散布在左上角到右下角的区域内,两个变量的相关关系为 负相关 2两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散
4、点图中心的一条直线附近,称两个变量之间具有 线性相关关系 ,这条直线叫做 回归直线 (2)回归方程为 y bx a,其中 b?i 1nxiyi nx y?i 1nx2i nx 2, a y bx . (3)通过求 Q ?i 1nyi bxi a 2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法 (4)相关系数: 当 r 0 时,表明两个变量 正相关 ; 当 r 0 时,表明两个变量 负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性 越强 r 的绝对值越接近于 0 时,表明两个变量之间几乎不存在线性相关关系通常 |r|大于 0.75
5、 时,认为两个变量有很强的线性相关性 =【 ;精品教育资源文库 】 = 3独立性检验 假设有两个分类变量 X 和 Y,它们的取值分别为 x1, x2和 y1, y2,其样本频数列联表 (称为 22 列联表 )为: y1 y2 总计 x1 a b a b x2 c d c d 总计 a c b d a b c d K2 n ad bc2a b a c b d c d (其中 n a b c d 为样本容量 ) 小题速通 1如图是根据 x, y 的观测数据 (xi, yi)(i 1,2, ? , 10)得到的散点图,可以判断变量 x, y 具有线性相关关系的图是 ( ) A B C D 解析:选
6、D 若变量 x, y 具有线性相关关系,那么散点就在某条直线附 近,从左上到右下,或从左下到右上,故选 D. 2已知变量 x, y 取值如表所示: x 0 1 4 5 6 y 1.3 m 3m 5.6 7.4 画散点图分析可知: y 与 x 线性相关,且求得回归方程为 y x 1,则 m 的值 (精确到 0.1)为 ( ) A 1.5 B 1.6 C 1.7 D 1.8 解析:选 C 由题意知, x 3.2 代入回归方程 y x 1 可得 y 4.2,则 4m 4.25 (1.3 5.6 7.4) 6.7,解得 m 1.675,则精确到 0.1 后 m 的值为 1.7. 3为了判断高中三年级学
7、生是否选修文科与性别的关系,现随机抽取 50 名学生,得到=【 ;精品教育资源文库 】 = 如下 22 列联表: 理科 文科 男 13 10 女 7 20 已知 P(K23.841)0.05 , P(K25.024)0.025. 根据表中数据,得到 K2 的观测值 k 223272030 4.844. 则认为选修文科与性别有关系出错的可能性为 _ 解析: K2的观测值 k4.844 ,这表明小概率事件发生根据假设检验的基本原理,应该断定 “ 是否选修文科与性别之间有关系 ” 成立,并且这种判断出错的可能性约为 5%. 答案: 5% 清易错 1易混淆相关关系与函数关系,两者的区别是函数关系是一种
8、确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系 2回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过 ( x , y )点,可能所有的样本数据点都不在直线上 设某大学的女 生体重 y(单位: kg)与身高 x(单位: cm)具有线性相关关系,根据一组样本数据 (xi, yi)(i 1,2, ? , n),用最小二乘法建立的回归方程为 y 0.85x 85.71,则下列结论中不正确的是 ( ) A y 与 x 具有正的线性相关关系 B回归直线过样本点的中心 ( x , y ) C若该大学某女生身高增加 1 cm,则其体重约
9、增加 0.85 kg D若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 解析:选 D 由于线性回归方程中 x 的系数为 0.85,因此 y 与 x 具有正的线性相关关系,故 A 正确又线性回归方程必过样本中心点 ( x , y ),因此 B 正确由线性回归方程中系数的意义知, x 每增加 1 cm,其体重约增加 0.85 kg,故 C 正确当某女生的身高为 170 cm时,其体重估计值是 58.79kg,而不是具体值,因此 D 不正确 . 一、选择题 1 (2018 邯郸摸底 )某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一 600 人、高二 780
10、 人、高三 n 人中,抽取 35 人进 行问卷调查已知高二被抽取的人数=【 ;精品教育资源文库 】 = 为 13,则 n ( ) A 660 B 720 C 780 D 800 解析:选 B 由已知条件,抽样比为 13780 160, 从而 35600 780 n 160,解得 n 720. 2已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x 3, y 3.5,则由该观测数据算得的线性回归方程可能为 ( ) A.y 0.4x 2.3 B.y 2x 2.4 C.y 2x 9.5 D.y 0.3x 4.4 解析:选 A 依题意知,相应的回归直线的斜率应为正,排除 C, D.且直线必过点
11、 (3,3.5),代入 A、 B,知 A 正确 3从编号为 001,002, ? , 500 的 500 个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为 007,032,则样本中最大的编号应该为 ( ) A 480 B 481 C 482 D 483 解析:选 C 根据系统抽样的定义可知样本的编号成等差数列,令 a1 7, a2 32,则 d 25,所以 7 25(n 1)500 ,所以 n20 ,最大编号为 7 2519 482. 4根据如下样本数据: x 2 3 4 5 6 7 y 4.1 2.5 0.5 0.5 2.0 3.0 得到的回归方程为 y bx a,则
12、 ( ) A.a0, b0 B.a0, b0 D.a 0, b0 解析:选 B 根据样本数据画出散点图 (图略 ),可知 b 0, a 0. 5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为 ( ) A 84,4.84 B 84,1.6 =【 ;精品教育资源文库 】 = C 85,1.6 D 85,4 解析:选 C 依题意,所剩数据的平均数是 80 15(43 6 7) 85,所剩数据的方差是 153(84 85)2 (86 85)2 (87 85)2 1.6. 6某时段内共有 100 辆汽车经过某一雷达测速区
13、域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过 50 km/h 的汽车的辆数为 ( ) A 56 B 61 C 70 D 77 解析:选 D 由图知,时速超过 50 km/h 的汽车的频率为 (0.039 0.028 0.010)10 0.77, 所以时速超过 50 km/h 的汽车的辆数为 1000.77 77. 7 (2018 江西九校联考 )随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了 100 位育龄妇女,结果如下表 . 非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 由 K2 n ad bc2a b c d a c b d , 得 K2 265355842 9.616. 参照下表, P(K2 k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 下列说法中,正确的结论是 ( ) A在犯错误的概率不超过 0.1%的前提下,认为 “ 生育意愿与城市级别有关 ” B在犯错误的概 率不超过 0.1%的前提下,认为 “ 生育意愿与城市级别无关 ” C有 99%以上的把握认为 “ 生育意愿与城市级别有关 ”