1、统计案例统计案例 第一章第一章 情景导学 哲学知识告诉我们事物之间是有联 系的、联系是普遍的,任何事物都是运 动的、任何两个事物之间都存在着普遍 联系具体到现实问题中,我们会发现 有些问题是从变化的角度来分析是存在 两个都在变化的量,关系非常密切,一个现象发生一定量的变 化,另一个现象一般也会发生相应的变化,但又不能用函数概 念去定义,也无法用函数的模型来代言如商场销售收入每增 加一万元时,因所卖商品不同,销售利润一般会增加不同的数 值;施肥量增加一斤,一般地产量也会增加,但值有时不固定 5 月 31 日是世界无烟日有关医学研究表明,许多疾病, 例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都
2、与吸烟 有关,吸烟已成为继高血压之后的第二号全球杀手这些疾病 与吸烟有关的结论是怎样得出的呢?若从数学角度区分,这里 的疾病和吸烟就是彼此相关的两个变量如何用数学的方法来 刻画这种变量之间的相关关系呢?如何用数学方法说明两个变 量是相互独立的?这就是本章所要研究的问题 学法探究 本章内容是统计案例中常见方法中的两种:回归分析和独 立性的检验 通过对典型案例的学习, 理解问题和方法的实质, 进一步体会统计方法在解决实际问题中的基本思想在学习过 程中多与社会实践相结合, 亲自动手实践, 加深对知识的认识 学习时应注意以下几点: 1 注意用最小二乘法建立变量之间线性回归方程的方法的 学习,理解用散点
3、图判断变量之间近似成线性相关关系及用线 性相关系数刻画变量之间线性相关程度 2 非线性回归方程可转化为线性回归方程来解决, 转化时 要熟悉几种常见的函数拟合模型,理解非线性方程与线性方程 变量间的关系 3牢记 2统计量的计算公式,理解独立性检验的思想, 对实际问题作出统计推断 1 回归分析回归分析 第一章第一章 第第1课时课时 回归分析回归分析 相关系数相关系数 课堂典例探究课堂典例探究 2 课课 时时 作作 业业 3 课前自主预习课前自主预习 1 课前自主预习课前自主预习 通过收集现实问题中两个有关联变量的数据 作出散点图,并利用散点图直观认识变量间 的相关关系 理解相关系数的含义及求法 了
4、解回归分析的基本思想会建立回归模型, 并能利用回归分析进行有效预测 1.变量之间有一定的联系,但不能完全用函 数来表达如人的体重y与身高x.一般来说, 身高越高,体重越重,但不能用一个函数来 严格地表示身高与体重之间的关系相关关 系是非确定性关系,因变量的取值具有一定 的_ 2在考虑两个变量的关系时,为了对变量之 间的关系有一个大致的了解,人们通常将变 量所对应的点描出来,这些点就组成了变量 之间的一个图,通常把这种图叫作变量之间 的_ 变量之间的相关关系 随机性 散点图 2回归直线方程为y b xa ,其中b _ a _,_称为样本点的中心其中 x x1x2xn n 1 n n i1xi;y
5、 y1y2yn n 1 n n i1 yi. 1.回归分析是处理两个变量之间_ 常用的一种统计方法若两个变量之间具有 线性相关关系,则称相应的回归分析为 _ 回归分析 相关关系 线性回归分析 n i1 xixyiy n i1 xix 2 yb x (x,y) 1.线性相关系数 假设两个随机变量的数据分别为(x1,y1),(x2, y2),(xn,yn),则变量间线性相关系数r 的计算公式如下: 线性相关系数 r_ . i1 n xixyiy i1 n xix2 i1 n yiy2 i1 n xiyin x y i1 n x2 in x 2 i1 n y2 in y 2 1.关于散点图要注意以下
6、方面: 散点图可以说明变量间有无线性相关关系, 相关的方向,但不能精确地说明两个变量之 间关系的密切程度,因此需要计算相关系数 来描述两个变量之间关系的密切程度 2相关关系与函数关系 (1)两者之间的不同点 相关关系是一种非确定性关系即相关关 系是非随机变量与随机变量之间的关系如 人的身高与年龄;商品的销售额与广告费等 都是相关关系,而函数关系中的两个变量是 一种确定性关系如正方形的面积S与边长x 之间的关系Sx2就是函数关系,即对于边长 x的每一个确定的值,都有面积S的唯一确定 的值与之对应 函数关系是一种因果关系,而相关关系不 一定是因果关系如有人发现,对于在校儿 童,身高与阅读能力有很强
7、的相关关系,然 而学会新词并不能使儿童马上长高,而是涉 及第三个因素年龄,当儿童长大一些,他 们的阅读能力会提高,而由于长大身高也会 高一些 (2)两者之间的联系 相关关系与函数关系有着密切的联系,在一 定条件下可以相互转化例如正方形的面积 S与其边长x之间虽然是一种确定性关系,但 在每次测量时,由于测量误差等原因,其数 值大小又表现出一种随机性,而对于具有线 性关系的两个变量来说,当求得其回归直线 方程后,我们又可以用一种确定的关系对这 两个变量间的关系进行估计 3求回归系数a、b的具体步骤和方法 (1)列表,将所给的数据x、y列成相应的表格, 如下表所示: 序号 xi yi x2 i y2
8、 i xiyi 1 x1 y1 x2 1 y2 1 x1y1 2 x2 y2 x2 2 y2 2 x2y2 n xn yn x2 n y2 n xnyn i1 n xi i1 n yi i1 n x2 i i1 n y2 i i1 n xiyi (2)计算:x、y、 i1 n x2 i、 i1 n xiyi. (3)代入公式计算 b、a 的值 1.下列结论不正确的是( ) A函数关系是一种确定性关系 B相关关系是一种非确定性关系 C回归分析是具有函数关系的两个变量进 行统计分析的一种方法 D回归分析是具有相关关系的两个变量进 行统计分析的一种方法 答案 C 解析 回归分析是具有相关关系的两个变
9、量 进行统计分析的一种方法,而不是具有函数 关系的两个变量进行统计分析的一种方法, 故选C 2对变量x、y有观测数据(xi,yi)(i1,2, 10),得散点图;对变量u、v有观测数据(ui, vi)(i1,2,10),得散点图.由这两个散 点图可以判断( ) A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关 答案 C 解析 观察图像易知选项C正确 3下列变量之间的关系不是相关关系的是 ( ) A已知二次函数yax2bxc,其中a、c 是已知常数,取b为自变量,因变量是这个函 数的判别式b24ac B光照时间
10、和果树亩产量 C降雪量和交通事故发生 D每亩用肥料量和粮食亩产量 答案 A 4 某商品销售量 y(件)与销售价格 x(元/件)负相关, 则其回 归方程可能是( ) Ay 10x200 By 10x200 Cy 10x200 Dy 10x200 答案 A 解析 本题主要考查变量的相关性 由负相关的定义排除B,D,由x1时,y0 排除C 课堂典例探究课堂典例探究 有下列说法: 线性回归分析就是由样本点去寻找一条 直线,使之贴近这些样本点的数学方法; 利用样本点的散点图可以直观判断两个 变量的关系是否可以用线性关系表示; 概念的理解和判断 通过回归方程y bxa可以估计观测变量的取值和变化 趋势;
11、因为由任何一组观测值都可以求得一个线性回归方程, 所以没有必要进行相关性检验 其中正确命题的个数是( ) A1 B2 C3 D4 分析 由题目可获取以下信息: 线性回归分析; 散点图; 相关性检验等的相关概念及意义 解答本题可先逐一核对相关概念及其性质, 然后再逐一作出判断,最后得出结论 解析 反映的正是最小二乘法思想,故正确 反映的是画散点图的作用,也正确 解释的是回归方程y bxa的作用,故也正确 是不正确的,在求回归方程之前必须进行相关性检验, 以体现两变量的关系 答案 C 方法规律总结 解答概念辨析题,应紧扣线 性回归分析中每个概念的定义进行,要准确 把握概念的内涵 下面变量关系是相关
12、关系的是( ) 学生的学习态度与学习成绩之间的关系; 教师的执教水平与学生的学习成绩之间的 关系; 学生的身高与学生的学习成绩之间的关系; 家庭的经济条件与学生的学习成绩之间的 关系 A B C D 答案 A 解析 是相关关系,是非相关关 系 某5名学生的数学和化学成绩如下 表: (1)画出散点图; (2)求化学成绩y对数学成绩x的线性回归方 程 求线性回归方程 学生 学科成绩 A B C D E 数学成绩(x) 88 76 73 66 63 化学成绩(y) 78 65 71 64 61 分析 描点画出散点图,依次计算x、y、xiyi、x2 i代 入公式即可求出回归直线方程 解析 (1)散点图
13、如图所示: (2)x1 5(8876736663)73.2, y1 5(7865716461)67.8, i1 5 xiyi8878766573716664636125 054. i1 5 x2 i88 276273266263227 174, b i1 5 xiyi5x y i1 5 x2 i5x 2 25 054573.267.8 27 174573.22 0.625, aybx67.80.62573.222.05. y 对 x 的线性回归方程为 y0.625x22.05. 方法规律总结 1.求回归直线方程的一般步骤 (1)作出散点图,依据问题所给的数据在平面直角坐标系中 描点, 观察点的
14、分布是否呈条状分布, 即是否在一条直线附近, 从而判断两变量是否具有线性相关关系 (2)当两变量具有线性相关关系时,求回归系数a 、b,写出 回归直线方程 2 回归直线方程y ab x 中的b 表示 x 每增加 1 个单位时, y 的变化量的估计值为b. 可以利用回归直线方程y ab x 预报在 x 取某个值时 y 的 估计值 由于回归直线中的系数a 和b 是通过样本估计而来的,存在 着误差,这种误差可能导致预报结果有偏差 根据上表提供的数据, 求出 y 关于 x 的线性回归方程为y 0.7x0.35,那么表中 t 的值为( ) A3 B3.15 C3.5 D4.5 下表提供了某厂节能降耗技术
15、改造后在生产 A产品过程中记录的产量x(t)与相应的生产能 耗y(t)的几组对应数据: 答案 A x 3 4 5 6 y 2.5 t 4 4.5 解析 样本中心点是( x ,y),即(4.5,11t 4 )因为回归 直线过该点,所以11t 4 0.74.50.35,解得 t3. 研究某品牌学习机的广告投入x和 销售额y的关系时,得到以下数据:(单位:万 元) 利用散点图和相关系数r判断广告投入x和销 售额y之间的相关性 利用相关系数检验两个变量间的 相关性 广告投入 x 2 4 5 6 8 销售额y 30 40 60 50 70 解析 (1)利用题中给出的数据得到散点图为: 从散点图中可以发现
16、: 样本点大致分布在一个条形区域内, 因此我们认为广告投入x和销售额y之间具有线性相关关系 但 是这种判断的准确度我们无法给出 (2)利用题中数据可知: x5,y50, i1 5 xiyi1380, i1 5 x2 i145, i1 5 y2 i13500, 则 线 性 相 关 系 数 r i1 5 xiyi5x y i1 5 x2 i5x 2 i1 5 y2 i5y 2 130 141.42140.91920.75. 所以我们有充分的把握认为:广告投入 x 和销售额 y 之间 具有很强的线性相关关系 某运动员训练次数与运动成绩之间的数据关系如下: 训练次数 30 33 35 37 39 44
17、 46 50 成绩 30 34 37 39 42 46 48 51 试利用上述数据列表计算相关统计量x,y, i1 8 x2 i, i1 8 y2 i, i1 8 x iyi,并计算相关系数,进行分析 分析 可以把训练次数和成绩分别作为表格的列,另外 加上 x2 i、y 2 i、xiyi三列,并在表格的底部进行合计,得到相关统 计量,再代入求相关系数 r 的公式求得 r. 解析 如下表所示: 序号 i 训练次数 xi 成绩 yi x2 i y2 i xiyi 1 30 30 900 900 900 2 33 34 1089 1156 1122 3 35 37 1225 1369 1295 4
18、37 39 1369 1521 1443 5 39 42 1521 1764 1638 6 44 46 1936 2116 2024 7 46 48 2116 2304 2208 8 50 51 2500 2601 2550 314 327 12656 13731 13180 由上表可求得 x 314 8 39.25, y 327 8 40.875, i1 8 x2 i 12656, i1 8 y2 i13731, i1 8 xiyi13180, r i1 8 xiyi8x y i1 8 x2 i8x 2 i1 8 y2 i8y 2 13180839.2540.875 12656839.252
19、13731840.87520.993, 由此可以得出 x 与 y 之间有较强的线性相关关系 准确理解概念和参数的含义 关于x与y有如下数据: x 2 4 5 6 8 y 30 40 60 50 70 为了对 x、y 两个变量进行统计分析,现有以下两种线性模 型:甲模型y 6.5x17.5,乙模型y7x17,试比较哪一个模 型拟合的效果更好 错解 R2 甲1 i1 5 yiy i2 5 i1 yi y 21 155 1 0000.845, R2 乙1 i1 5 yi y i2 i1 5 yi y 2 1 180 1 0000.82, R2 甲R2乙. 乙模型拟合的效果更好 辨析 明确R2的大小与拟合效果的关系 用相关指数R2来比较模型的拟合效果,R2越 大,模型的拟合效果越好,并不是R2越小模 型的拟合效果越好 正解 R2 甲1 i1 5 yiy i2 5 i1 yi y 21 155 1 0000.845, R2 乙1 i1 5 yi y i2 i1 5 yi y 2 1 180 1 0000.82, R2 甲R2乙. 甲模型拟合的效果更好