1、统计案例统计案例 第一章第一章 1.2 回归分析回归分析 第一章第一章 课堂典例探究课堂典例探究 2 课课 时时 作作 业业 3 课前自主预习课前自主预习 1 课前自主预习课前自主预习 如何对两个具有相关关系的变量进行相关性分析?相关性 如何刻画? 1.相互独立事件的判断依据: (1)_ _ (2)_ _ 2独立性检验的步骤为: _ 答案: 1.只需计算 P(A)、 P(B)、 P(AB), 若 P(AB)P(A) P(B), 则 A、 B 相互独立; 若 P(AB)P(A) P(B), 则 A、 B 不相互独立 (2) 相互独立事件的实际意义,即事件 A 是否发生对事件 B 的发生 无影响
2、2(1)采集样本数据,制成 22 列联表;(2)由 2 nn11n22n12n212 n1n2n1n2 计算 2的值;(3)作出推断. 一 回归直线方程 若变量 x 与 y 之间有近似线性相关关系,则可以用一个回 归直线方程y abx 来反映这种关系 求回归直线方程的一般步骤为: (1)作出散点图 将题目中所给的数据在平面直角坐标系中描出,表示出具 有相关关系的两个变量的一组数据的图形就是散点图从散点 图中可以看出数据是否分布在一条直线的附近,从而判断两个 变量是否线性相关 (2)求回归系数 将所给的数据 x,y 列成相应的表格,如下表所示: 序号 x y x2 y2 xy 1 x1 y1 x
3、2 1 y2 1 x1y1 2 x2 y2 x2 2 y2 2 x2y2 n xn yn x2 n y2 n xnyn xi yi x2 i y2 i xiyi 由此可知x xi n ,y yi n . 则b xixyiy xix2 xiyinx y x2 inx 2 ,a yb x. (3)写出回归直线方程:y bxa,利用回归直线方程可以 进行预测,即当 x 取 x0时,由回归直线方程可得y 0 的值 注意:在回归直线方程中,b 既表示直线的斜率,又表示 自变量 x 的取值增加一个单位时,函数 y 的改变量 回 归 直 线 方 程 中 x x1x2xn n , y y1y2yn n ;(x
4、,y)称为样本点的中心,回归直线方程过样 本点中心 利用回归直线方程不但可以预测在 x 取某一个值时,y 的估计值,同时也能知道 x 每增加 1 个单位,y 的变化量 已知有线性相关关系的两个变量建立的回归直线方程为y a bx,方程中的回归系数b( ) A可以小于 0 B只能大于 0 C可以为 0 D只能小于 0 答案 A 解析 回归系数可正可负 二 线性相关性检验 1散点图法 将样本中 n 个数据点(xi,yi)(i1,2,n)描在平面直角 坐标系中,以表示具有相关关系的两个变量的一组数据的图形 叫做散点图当散点图在一条直线的附近时,两变量 Y 与 x 线 性相关 2相关系数及相关性检验
5、(1)样本相关系数 r 的计算公式 对于变量 x 与 Y 随机抽取到的 n 对数据(x1, y1)(x2, y2), , (xn,yn),检验统计量是样本相关系数 r xixyiy xix2yiy2 xiyinx y x2 inx 2y2 iny 2 (2)相关系数 r 的性质 |r|1; |r|越接近 1,线性相关程度越强; |r|越接近 0,线性相关程度越弱 (3)相关性检验的步骤: 作统计假设:x 与 Y 不具有线性相关关系 根据小概率 0.05 与 n2 在附表中查出 r 的一个临界值 r0.05. 根据样本相关系数计算公式算出 r 的值 作统计推断如果|r|r0.05,表明有95%的
6、 把握认为x与Y之间具有线性相关关系 如果|r|r0.05,我们没有理由拒绝原来的假 设这时寻找回归直线方程是毫无意义的 说明:(1)|r|越接近1,散点图越接近一条直 线,这时用线性回归模拟合这组数据的效果 就越好 (2)样本相关系数r可以定量地反映出变量间的 相关程度,明确地给出有无必要建立两变量 间的回归方程 (3)样本相关系数r描述了两个变量之间的密切 程度,当00) 函数 yaebx(a0)的图象,见下图 解决方案: 两边取对数得 lnyln(aebx),即 lnylnabx. 令 ylny, xx, 则原方程变成 ylnabx . 把数据点(xi,yi)化为(xi,lnyi),i1
7、,2,n,把(xi,lnyi) 列表计算求出 lna 和 b. (2)对数函数型:yablnx 函数 yablnx 的图象,见下图 解决方案: 令 xlnx, yy, 原方程化为 yabx,然后按线性回 归模型求出 a,b 的值 (3)幂函数型:yaxb. 函数 yaxb(a0)的图象,见下图 解决方案: 令两边取对数得 lnylnablnx. 令 ulny, vlnx, clna, 则原方程化为 ucbv, 然后按线性回归模 型求 c,b 的值 有下列关系: 等边三角形的边长和周长关系; 玉米的产量和施肥量的关系; 电脑销售额和利润的关系; 日光灯的产量和单位生产成本的关系 其中不是函数关系
8、的是_ 答案 解析 是函数关系,不是函数关 系 课堂典例探究课堂典例探究 为了估计山上积雪融化后对下游灌 溉的影响,在山下建立了一个观测站,测量了 最大积雪深度x(尺)与当年灌溉面积y(千亩),得 到连续10年的数据如下表: 散点图与回归方程 年 序 最大积雪深度 x/尺 灌溉面积y/ 千亩 1 15.2 28.6 2 10.4 19.3 3 21.2 40.5 4 18.6 35.6 年序 最大积雪深度 x/尺 灌溉面积 y/千亩 5 26.4 48.9 6 23.4 45.0 7 13.5 29.2 8 16.7 34.1 9 24.0 46.7 10 19.1 37.4 试求回归方程 解
9、题提示 通过作出数据的散点图,分析是 否具有线性相关关系,进而求出其回归直线 方程 解析 为了研究这些数据中所蕴含的规律, 我们把各年最大积雪深度作为横坐标,相应 的灌溉面积作为纵坐标,作散点图如下: 从上图看到,数据点大致分布在一条直线附近,这告诉我 们变量 x 与 Y 之间的关系大致可看作是线性关系,从上图还看 到,这些点又不都在一条直线上,这表明 x 与 Y 的关系并没有 确切到给定 x 就可以唯一地确定 Y 的程度 x 1 10(15.210.419.1)18.85, y 1 10(28.619.337.4)36.53, i1 10 (xix)2227.845. i1 10 (xix)
10、(yiy)413.065, i1 10 (yiy 2)764.961. 于是b 413.065/227.8451.813, a 36.531.81318.852.355. 从而回归直线方程为y 1.813x2.355. 又因为相关系数 r 413.065 227.845764.9610.989 4. 显然 r0.989 40.75,这表明这两个变量有很强的线性相 关关系,故此方程为所求的回归直线方程 方法总结 计算a ,b值时,可采用分步计算的方法,即 先分别计算 i1 n xiyi, i1 n x2 i与x y,x 2,然后根据公式求值 某工厂 18 月份某种产品的产量与成本的统计数据见下
11、表: 月份 1 2 3 4 5 6 7 8 产量(吨) 5.6 6.0 6.1 6.4 7.0 7.5 8 8.2 成本(万元) 130 136 143 149 157 172 183 188 以产量为 x,成本为 y. (1)画出散点图; (2)y 与 x 是否具有线性相关关系?若有, 求出其回归方程 解析 (1)散点图如下图所示: (2)从上图可以看出,这些点基本上分布在一条直线附近, 可以认为 x 和 y 线性关系显著,下面求其回归方程,首先列出 下表 序号 xi yi x2 i y2 i xiyi 1 5.6 130 31.36 16900 728.0 2 6.0 136 36.00
12、18496 816.0 3 6.1 143 37.21 20449 872.3 4 6.4 149 40.96 22201 953.6 5 7.0 157 49.00 24649 1099.0 6 7.5 172 56.25 29584 1290.0 x6.85,y157.25. b i1 8 xiyi8x y i1 8 x2 i8x 2 8764.586.85157.25 382.0286.852 22.17, a yb x157.2522.176.855.39, 故线性回归方程为y 22.17x5.39. 序 号 xi yi x y xiyi 7 8.0 183 64.0 0 3348 9
13、 1464 .0 8 8.2 188 67.2 4 3534 4 1541 .6 54. 8 125 8 382. 02 2011 12 8764 .5 相关性检验 要分析学生初中升学的数学成绩对高中一年级 数学学习有什么影响,在高中一年级学生中随机抽选 10 名学 生,分析他们入学的数学成绩(x)和高中一年级期末数学考试成 绩(Y)(如表): 编号 1 2 3 4 5 6 7 8 9 10 x 63 67 45 88 81 71 52 99 58 76 Y 65 78 52 82 92 89 73 98 56 75 (1)画出散点图; (2)计算入学数学成绩(x)与高一期末数学考试 成绩(Y
14、)的相关系数; (3)对变量x与Y进行相关性检验,如果x与Y之 间具有线性相关关系,求出回归直线方程; (4)若某学生入学数学成绩为80分,试估计他 高一期末数学考试成绩 解题提示 由题目可获取以下主要信息: 高中一年级某10名同学,初中升学的数学成 绩和高一期末考试的数学成绩解答本题可 结合相关知识和本题问题依次作出解答 解析 (1)入学成绩(x)与高一期末考试成绩 (Y)两组变量的散点图(如图),从散点图看, 这两组变量具有线性相关关系 (2)因为x 1 10(636776)70, y 1 10(657875)76. 10 i1 (x 1x)(yiy)1 894, 10 i1 (x ix)
15、 22 474, 10 i1 (y iy) 22 056.因此求得相关系数为 r 10 i1 x ixyiy 10 i1 x ix 2 10 i1 y iy 2 0.839 786. (3)查表求得相关系数临界值 r0.050.632.因 r0.839 786r0.05,这说明数学入学成绩与高一期末成绩之间存在线性 相关关系设回归直线方程为y a b x,在两组变量具有显著 的线性相关关系情况下,b 0.765 56,a y b x22.410 8. 因此所求的回归直线方程是y 22.410 80.765 56x. (4)若某学生入学数学成绩为 80 分,代入上式可求得y 84 分,即这个学生
16、高一期末数学预测值为 84 分 方法总结 建立回归模型的步骤 (1)确定研究对象,明确变量 x,Y. (2)画出变量的散点图, 观察它们之间的关系(如是否存在线 性相关关系等) (3)由经验确定回归方程的类型(如我们观察到数据呈线性 相关关系,则选用回归直线方程y b xa ) (4)按一定规则估计回归方程中的参数(如最小二乘法) (5)得到回归方程 另外,回归直线方程只适用于我们所研究的样本的总体, 而且一般都有时间性样本的取值范围一般不能超过回归直线 方程的适用范围,否则没有实用价值 某工业部门进行一项研究,分析该部门的产量与生产费用 之间的关系,从这个工业部门内随机抽选了 10 个企业作
17、样本, 有如下资料: 产量 x (千件) 40 42 48 55 65 79 88 100 120 140 生产费用 y(千元) 150 140 160 170 150 162 185 165 190 185 (1)计算 x 与 y 的相关系数; (2)对这两个变量之间是否线性相关进行相关性检验; (3)设回归直线方程为y b xa ,求系数a、b . 解析 由表可计算得:x777 10 77.7,y1657 10 165.7, i1 10 x2 i70903, i1 10 y2 i277119, i1 10 xiyi132938. (1)r i1 10 xiyi10x y i1 10 x2
18、i10x 2 i1 10 y2 i10y 2 0.808. 即 x 与 y 的相关系数 r0.808. (2)查表显著性水平 0.05,自由度 1028 相应的相关系 数临界值 r0.050.632,因为 rr0.05,所以认为 x 与 y 之间具有 线性相关关系 (3)经计算知,b 0.398,a 134.8. 转化与化归思想 在一次抽样调查中测得样本的 5 个样本点, 数值 如下表: x/cm 0.25 0.5 1 2 4 y/cm 16 12 5 2 1 请建立 y 与 x 之间的回归方程 解题提示 先由数值表作出散点图,然后模拟出近似函 数,进而转化为线性函数,由数值表求出回归直线 解
19、析 由数值表可作散点图如下: 根据散点图可知 y 与 x 近似地呈反比例函数关系, 设 yk x, 令 t1 x,则 ykt,原数据变为: t 4 2 1 0.5 0.25 y/cm 16 12 5 2 1 由置换后的数值表作散点图如下: 由散点图可以看出 y 与 t 呈近似的线性相关关系列表如 下: i ti yi tiyi t2 i y2 i 1 4 16 64 16 256 2 2 12 24 4 144 3 1 5 5 1 25 4 0.5 2 1 0.25 4 5 0.25 1 0.25 0.062 5 1 7.75 36 94.25 21.312 5 430 t1.55,y7.2.
20、 b i1 5 tiyi5t y i1 5 t2 i5t 2 4.134. a yb t0.792. y4.134t0.792. y 与 x 的回归方程是y 4.314 x 0.792. 方法总结 非线性回归问题有时并不给出经验公式,这 时我们可以画出已知数据的散点图,把它与数学必修 1 中学过 的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑 选一种跟这些散点拟合得最好的函数,然后像本例这样,采用 适当的变量变换,把问题化为线性回归分析问题,使之得到解 决注意在解答问题时,要先画出散点图判断,如果不画散点 图直接利用线性回归方程求解容易出错 在一化学反应过程中某化学物质的反应速度 Y
21、(单位:g/分) 与一种催化剂的量 x(单位:g)有关,现收集了 8 组数据列于表 中,试建立 Y 与 x 之间的回归方程. 催化剂量 x(g) 15 18 21 24 27 30 33 36 化学物质反应 速度 Y(g/分) 6 8 30 27 70 205 65 350 解题提示 解答本题可先由表中数据作出散 点图,并通过散点图来分析两个变量间的关 系若两个变量间的关系是非线性的,选择 合适的函数模型拟合,然后通过换元化为直 线型 解析 根据收集的数据作散点图如图 根据 x 与 Y 的散点图可以认为样本点集中在某一条指数型 函数曲线 yc1ec2x 的周围 令 zlny,则 zc2xlnc
22、1,即变换后样本点应该分布在直 线 zbxa(alnc1,bc2)的周围 由 Y 与 x 数据表可得 z 与 x 的数据表: x 15 18 21 24 27 30 33 36 z 1.792 2.079 3.401 3.296 4.248 5.323 4.174 5.858 作出 z 与 x 的散点图如图 由散点图可观察到样本数据点大致分布在一条直线上,所 以可用线性回归方程来拟合它 由 z 与 x 数据表, 得到线性回归方程, z0.1812x0.8485, 所以非线性回归方程为 ye0.1812x 0.8485, 因此,该化学物质反应速度对催化剂的量的非线性回归方 程为 ye0.1812
23、x 0.8485. 对一组数据(x1,y1),(x2,y2),(xn,yn),并 且x对Y具有线性相关关系, 则下列说法正确的是_ (写 出所有正确的序号) 对所有两个变量 x 和 Y,只有当相关系数 rr0时,变量 之间才具有线性相关关系; 对所有两个变量 x 和 Y,如果相关系数 rr0时,那么变 量之间具有线性相关关系; 回归系数b 与第一个数据有关, 并且a一定满足关系ya b x; 回归系数b 与每一个数据有关, 并且(x1, y1), (x2, y2), , (xn,yn)中至少有一组数据满足方程:y ab x. 误解 辨析 该解法对两个变量满足线性相关关系的前提条件 模糊;回归直线方程中回归系数a 的求法即与b的关系不明确 正解 解决此问题首先明确两个变量满足线性相 关关系的前提的充要条件:当相关系数|r|r0时,两个变量才具 有线性相关关系,求出的回归方程才有意义,而 rr0只是充分 条件,故错误;又因为回归直线方程一定过点(x,y),故满 足ya b x,而回归直线方程不一定过点(xi,yi),故错误.