1、章末优化总结 网络 体系构建 专题 归纳整合 章末检测 专题一专题一 回归分析回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤是回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤是 先画出两个变量的散点图, 然后利用常见的函数模型去拟合样本点, 拟合的效果如何先画出两个变量的散点图, 然后利用常见的函数模型去拟合样本点, 拟合的效果如何 借助于相关指数去分析借助于相关指数去分析(或利用残差图去分析或利用残差图去分析) 典例典例 1 一台机器使用时间较长,但还可以使用,它按不同的转速生产出来的某机一台机器使用时间较长,但还可以使用,它按不同的转
2、速生产出来的某机 械零件有一些会有缺陷,每小时生产有缺陷零件的多少随机器运转的速度而变化,如械零件有一些会有缺陷,每小时生产有缺陷零件的多少随机器运转的速度而变化,如 表为抽样试验结果:表为抽样试验结果: 转速转速 x/(转转/秒秒) 16 14 12 8 每小时生产有缺每小时生产有缺 陷的零件数陷的零件数 y(件件) 11 9 8 5 (1)已知已知 y 与与 x 有线性相关关系,写出线性回归方程;有线性相关关系,写出线性回归方程; (2)若实际生产中,允许每小时的产品中有缺陷的零件最多为若实际生产中,允许每小时的产品中有缺陷的零件最多为 10 个,那么机器的运转个,那么机器的运转 速度需控
3、制在什么范围内?速度需控制在什么范围内? 解析解析 (1)x12.5,y8.25, i1 4 xiyi438, i1 4 x2 i 660. b i1 4 xiyi4 x y i1 4 x2 i 4x 2 0.728 6,a 0.857 5,故线性回归方程为,故线性回归方程为y 0.728 6x0.857 5. (2)由由y 0.728 6x0.857 510, 得得 x14.901 9. 机器的转速应控制在机器的转速应控制在 14.901 9 转转/秒以下秒以下 1某商场经营一批进价是某商场经营一批进价是 30 元元/件的小商品,在市场试验中发现,此商品的销售单件的小商品,在市场试验中发现,
4、此商品的销售单 价价 x(x 取整数取整数)元与日销售量元与日销售量 y 件之间有如下关系件之间有如下关系 x 35 40 45 50 y 56 41 28 11 (1)y 与与 x 是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程;是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程;(方方 程的斜率保留一个有效数字程的斜率保留一个有效数字) (2)设经营此商品的日销售利润为设经营此商品的日销售利润为 P 元,根据元,根据(1)写出写出 P 关于关于 x 的函数关系式,并预测的函数关系式,并预测 当销售单价当销售单价 x 为多少元时,才能获得最大日销售利润为多少元时,才能
5、获得最大日销售利润 解析:解析:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此 两个变量线性相关两个变量线性相关 设回归直线为设回归直线为y b x a ,由题知 ,由题知x42.5,y34, 则求得则求得b i1 4 xix yiy i1 4 xix 2 370 125 3. a yb x34(3)42.5161.5. y 3x161.5. (2)依题意有依题意有 P(3x161.5)(x30) 3x2251.5x4 845 3 x251.5 6 2 251.5 2 12 4 845. 当当 x251.5
6、 6 42 时,时,P 有最大值,约为有最大值,约为 426. 即预测当销售单价为即预测当销售单价为 42 元时,才能获得最大日销售利润元时,才能获得最大日销售利润 2 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x(吨吨)与相应的与相应的 生产能耗生产能耗 y(吨标准煤吨标准煤)的几组对照数据的几组对照数据. x 3 4 5 6 y 2.5 3 4 4.5 (1)请画出表中数据的散点图;请画出表中数据的散点图; (2)请根据表中提供的数据,用最小二乘法求出请根据表中提供的数据,用最小二乘法求出 y 关于关于 x 的线
7、性回归方程的线性回归方程y b x a ; ; (3)已知该厂技改前已知该厂技改前 100 吨甲产品的生产能耗为吨甲产品的生产能耗为 90 吨标准煤 试根据吨标准煤 试根据(2)求出的线性回求出的线性回 归方程,预测生产归方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤?吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:参考数值:32.5435464.566.5) 解析:解析:(1)由题意,作散点图如图由题意,作散点图如图 (2)由表中数据, 计算得,由表中数据, 计算得, i1 4 xiyi66.5, i1 4 x2 i 3242526286,x4.5,y3.5,
8、b 66.5 44.53.5 8644.52 66.5 63 8681 0.7, a yb x3.50.74.50.35, 所求的回归方程为所求的回归方程为y 0.7x0.35. (3)当当 x100 时,时,y1000.70.3570.35, 9070.3519.65(吨标准煤吨标准煤) 即预测生产即预测生产 100 吨甲产品的生产能耗比技改前降低吨甲产品的生产能耗比技改前降低 19.65 吨标准煤吨标准煤 专题二专题二 独立性检验独立性检验 独立性检验的基本思想类似于数学中的反证法, 要确认独立性检验的基本思想类似于数学中的反证法, 要确认“两个分类变量有关系两个分类变量有关系” 这一结论
9、成立的可信程度, 首先假设该结论不成立,即假设结论这一结论成立的可信程度, 首先假设该结论不成立,即假设结论“两个分类变量没有两个分类变量没有 关系关系”成立,在该假设下构造的随机变量成立,在该假设下构造的随机变量 K2应该很小,如果由观测数据计算得到的应该很小,如果由观测数据计算得到的 K2的观测值的观测值 k 很大,则在一定程度上说明假设不合理,根据随机变量很大,则在一定程度上说明假设不合理,根据随机变量 K2的含义,可的含义,可 以通过概率以通过概率 P(K26.635)0.01 来评价该假设不合理的程度,由实际计算出的来评价该假设不合理的程度,由实际计算出的 k6.635,说明该假设不
10、合理的程度约为,说明该假设不合理的程度约为 99%,即,即“两个分类变量有关系两个分类变量有关系”这一结论这一结论 成立的可信程度约为成立的可信程度约为 99%. 典例典例 2 在对人们休闲方式的一次调查中,共调查了在对人们休闲方式的一次调查中,共调查了 56 人,其中女性人,其中女性 28 人,男性人,男性 28 人女性中有人女性中有 16 人主要的休闲方式是看电视,另外人主要的休闲方式是看电视,另外 12 人是运动;男性中有人是运动;男性中有 8 人人 主要的休闲方式是看电视,另外主要的休闲方式是看电视,另外 20 人是运动人是运动 (1)根据以上数据建立一个根据以上数据建立一个 22 列
11、联表;列联表; (2)能否在犯错误的概率不超过能否在犯错误的概率不超过 0.05 的前提下认为性别与休闲方式的选择有关系?的前提下认为性别与休闲方式的选择有关系? 解析解析 (1)依题意得依题意得 22 列联表:列联表: 看电视看电视 运动运动 总计总计 男性男性 8 20 28 女性女性 16 12 28 总计总计 24 32 56 (2)由由 22 列联表中的数据,知列联表中的数据,知 K2的观测值为的观测值为 k56 1282016 2 24322828 4.667 3.841,故在犯错误的概率不超过,故在犯错误的概率不超过 0.05 的前提下,可以认为性别与休闲方式的选择的前提下,可以
12、认为性别与休闲方式的选择 有关有关 3考查小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如表:考查小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如表: 种子灭菌种子灭菌 种子种子未灭菌未灭菌 总计总计 黑穗病黑穗病 26 184 210 无黑穗病无黑穗病 50 200 250 总计总计 76 384 460 试分析种子灭菌与小麦是否发生黑穗病是否有关试分析种子灭菌与小麦是否发生黑穗病是否有关 解析:解析:由列联表所示数据可求得由列联表所示数据可求得 K2的观测值的观测值 k n adbc 2 ab cd ac bd 460 2620050184 2 7638421025
13、0 4.8043.841. 由此可知,有由此可知,有 95%的把握认为种子灭菌与小麦是否发生黑穗病有关系的把握认为种子灭菌与小麦是否发生黑穗病有关系 4为了调查某生产线上质量监督员甲是否在生产为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现现场对产品质量好坏有无影响,现 统计数据如下:甲在生产现场时,统计数据如下:甲在生产现场时,990 件产品中有合格品件产品中有合格品 982 件,次品件,次品 8 件;甲不在件;甲不在 生产现场时,生产现场时,510 件产品中有合格品件产品中有合格品 493 件,次品件,次品 17 件试分别用列联表、等高条件试分别用列联表、等高条 形图
14、、独立性检验的方法分析监督员甲对产品质量好坏有无影响能否在犯错误的概形图、独立性检验的方法分析监督员甲对产品质量好坏有无影响能否在犯错误的概 率不超过率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系? 解析:解析:(1)22 列联表:列联表: 合格品数合格品数 次品数次品数 总计总计 甲在生产现场甲在生产现场 982 8 990 甲不在生产现场甲不在生产现场 493 17 510 总计总计 1 475 25 1 500 由列联表可得由列联表可得|adbc|982174938|12 750, 相差较大, 可在
15、某种程度上认为, 相差较大, 可在某种程度上认为 “质量监督员甲是否在生产现场与产品质量有关系质量监督员甲是否在生产现场与产品质量有关系” (2)相应的等高条形图如图所示相应的等高条形图如图所示 图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频 率从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场率从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场 样本中次品数的频率 因此可以认为质量监督员甲在不在生产现场与产品质量好坏样本中次品数的频率 因此可以认为质量监督员甲在不在生产现场与产品质量好坏 有关系有关系 (3)由由 22 列联表中数据,计算得到列联表中数据,计算得到 K2的观测值为的观测值为 k1 500 982174938 2 9905101 47525 13.09710.828, 因此,在犯错误的概率不超过因此,在犯错误的概率不超过 0.001 的前提下,认为质量监督员甲在不在生产现场与的前提下,认为质量监督员甲在不在生产现场与 产品质量好坏有关系产品质量好坏有关系 章末检测