1、第一章 统计案例 1.1 回归分析的基本思想及其初步应用 为农村居民建立健康档案管理系统为农村居民建立健康档案管理系统 标准体重表的制作标准体重表的制作 假设某地区从假设某地区从20032003年到年到20122012 年的人均年的人均GDPGDP(单位(单位/ /美元)美元) 数据如图数据如图: : 能否根据提供的数据,建立能否根据提供的数据,建立 一个合适的模型,预报一个合适的模型,预报20142014 年(或年(或20152015年)的人均年)的人均GDPGDP是是 多少?多少? 年份年份 人均人均GDPGDP 20032003 12001200 20042004 15101510 20
2、052005 18701870 20062006 22102210 20072007 25702570 20082008 30003000 20092009 36703670 20102010 45004500 20112011 54305430 20122012 61006100 1.1.了解回归分析的基本思想了解回归分析的基本思想. . 2.2.会对两个变量进行回归分析会对两个变量进行回归分析. . ( (重点重点) ) 3.3.明确解决回归模型的基本步骤,并对具体问题进明确解决回归模型的基本步骤,并对具体问题进 行回归分析以解决实际应用问题行回归分析以解决实际应用问题 4.4.了解最小二
3、乘法的推导,解释残差变量的含义了解最小二乘法的推导,解释残差变量的含义. . 5.5.了解偏差平方和分解的思想,了解判断刻画模型了解偏差平方和分解的思想,了解判断刻画模型 拟合效果的方法拟合效果的方法相关指数和残差分析相关指数和残差分析 6.6.掌握利用计算器求线性回归直线方程参数及相关掌握利用计算器求线性回归直线方程参数及相关 系数的方法系数的方法. .( (难点)难点) 探究点探究点1 1 回归分析的基本思想回归分析的基本思想 我我们们知知道道 , , 函函数数关关系系是是一一种种确确定定性性关关系系, ,而而相相关关关关系系 是是一一种种非非确确定定性性关关系系. .回回归归分分析析是是
4、对对具具有有相相关关关关系系的的两两 个个变变量量进进行行统统计计分分析析的的一一种种常常用用方方法法. .在在之之前前的的学学习习中中, , 我我们们对对两两个个具具有有线线性性相相关关关关系系的的变变量量利利用用回回归归分分析析的的方方 法法进进行行了了研研究究, ,其其步步骤骤为为画画散散点点图图, ,求求回回归归直直线线方方程程, ,并并用用 回回归归直直线线方方程程进进行行预预报报. . 例例1 1从从某某大大学学中中随随机机选选取取8 8名名女女大大学学生生, ,其其身身高高和和体体 重重数数据据如如下下表表所所示示. . 5943616454505748kg/ 170155165
5、175170157165165cm/ 87654321 体重体重 身高身高 编号编号 求求根根据据女女大大学学生生的的身身高高预预报报体体重重的的回回归归方方程程, , 并并预预报报一一名名身身高高为为172 cm172 cm的的女女大大学学生生的的体体重重. . :由由于于问问题题中中要要求求根根据据身身高高预预报报体体重重, ,因因此此选选取取身身 高高为为自自变变量量 x,x,体体重重为为因因变变量量 y.y.作作散散点点图图( (图图1 1 解解 .1-1):.1-1): 11 . 1图 从从图图1.1-11.1-1中中可可以以看看出出, , 样样本本点点呈呈条条状状分分布布, ,身身
6、高高和和体体 重重有有比比 较较好好的的线线性性相相关关关关系系, , 因因此此可可以以用用回回归归直直线线y = bx+ay = bx+a 来来近近似似刻刻画画它它们们之之间间的的关关系系. . 未未知知参参数数b b和和a a的的最最小小二二乘乘估估计计分分别别为为b b和和a a, 其其计计算算公公式式如如下下: 身高身高/cm/cm 体重体重/kg/kg a = y - bx,a = y - bx, , 1 2 1 n i i n i ii xx yyxx b 的 nnnn iiii i=1i=1i=1i=1 1111 其其中中x =x ,y =y . x,yx =x ,y =y .
7、x,y 称称为为样样本本点点中中心心. . nnnn x线性 在在本本例例中中,根根据据上上面面的的公公式式,可可以以得得到到 b = 0.849 b = 0.849,a = -85.712.a = -85.712. 于于是是得得到到回回归归方方程程y = 0.849 -85.712.y = 0.849 -85.712. 为身身高高172cm172cm的的女女大大学学生生的的体体重重一一定定是是 60.316kg60.316kg 吗吗? ? 如如果果不不是是, ,你你能能解解释释一一下下 思思考考: 原原因因吗吗? ? b = 0.849 b = 0.849是是回回归归直直线线的的斜斜率率的的
8、估估计计值值, ,说说明明身身高高x x 每每增增加加1 1个个单单位位, ,体体重重y y就就增增加加0.8490.849个个单单位位, ,这这表表明明体体重重 与与身身高高具具有有正正的的线线性性相相关关关关系系. . 所所以以, ,对对身身高高为为172 cm172 cm的的女女大大学学生生, , 由由回回归归方方程程可可以以 预预报报其其体体重重为为 y = 0.849 172-85.712 = 60.316 y = 0.849 172-85.712 = 60.316(kgkg). . 在 显显然然身身高高为为172cm172cm的的女女大大学学生生的的体体重重不不一一定定 是是60.
9、316kg60.316kg,但但一一般般可可以以认认为为她她的的体体重重60.316kg60.316kg 左左右右. .图图1.1-21.1-2中中的的样样本本点点和和回回归归直直线线的的相相互互位位置置 说说明明了了这这一一点点. . 从从散散点点图图中中还还看看到到,样样本本点点散散布布在在某某一一条条直直 线线的的附附近近, ,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次 函函数数 y = bx+a y = bx+a 来来描描述述它它们们之之间间的的关关系系. .这这时时我我们们把把身身高高和和体体重重 的的关关系系用用下下面面的的线线性性回回归归模模型型 y =
10、bx+a+e y = bx+a+e(1 1) 来来表表示示,其其中中a a和和b b为为模模型型的的未未知知参参数数,e e称称为为随随 机机误误差差. . 产 产 生 生 随 随 机 机 误 误 差 差 项 项 e e 的 的 原 原思 思 考 考 : :因 因 是 是 什 什 么 么 ? ? 实实际际上上, ,一一个个人人的的体体重重值值除除了了受受身身高高的的影影响响外外, , 还还受受许许多多其其他他因因素素的的影影响响. .例例如如, ,饮饮食食习习惯惯、是是否否喜喜 欢欢运运动动、度度量量误误差差等等. .另另外外, ,我我们们选选用用的的线线性性模模型型往往 往往只只是是一一种种
11、近近似似的的模模型型. .所所有有这这些些因因素素都都会会导导致致随随 机机误误差差项项e e的的产产生生. . 线线性性回回归归模模型型(1 1)与与我我们们熟熟悉悉的的一一次次函函数数模模型型 的的不不同同之之处处是是增增加加了了随随机机误误差差项项e e,因因变变量量y y的的值值由由 自自变变量量x x和和随随机机误误差差e e共共同同确确定定,即即自自变变量量x x只只能能解解释释 部部分分y y的的变变化化. .在在统统计计中中,我我们们也也把把自自变变量量x x称称为为解解释释 变变量量,因因变变量量y y称称为为预预报报变变量量. . : 呢 在在线线性性回回归归模模型型中中,
12、e,e是是用用bx+abx+a预预报报真真实实值值y y的的 随随机机误误差差, ,它它是是一一个个不不可可观观测测的的量量, ,那那么么应应该该怎怎样样研研究究 思思 随随机机误误差差 考考 ? ? 随随机机 对于样本点的估计量是所以 由于随机误差)中的估计(的 中回归方程在实际应用中,我们用 . ),(.1 eyye abxyeabxy axby 1122nn (x ,y ),(x ,y ),(x ,y ) 而言,它们的随机误差为 iii eybxa,i1,2,n,, 其估计值为 iiiii iii eyyybxa,i1,2,n, e x ,y. , 称为相应于点()的残差 思考:如何发现
13、数据中的错误?如何衡量模型的拟思考:如何发现数据中的错误?如何衡量模型的拟 合效果?合效果? 可以通过残差发现原始数据中的可疑数据,判可以通过残差发现原始数据中的可疑数据,判 断所建立模型的拟合效果断所建立模型的拟合效果. .下表列出了女大学生身下表列出了女大学生身 高和体重的原始数据以及相应的残差数据高和体重的原始数据以及相应的残差数据. . 382.0883.2627.6137.1618.4419.2627.2373.6 e 5943616454505748kg/ 170155165175170157165165cm/ 87654321 残差残差 体重体重 身高身高 编号编号 . , ,.
14、 . 我我们们可可以以利利用用图图形形来来分分析析残残差差特特性性 作作图图时时纵纵 坐坐标标为为残残差差 横横坐坐标标可可以以选选为为样样本本编编号号 或或身身高高数数据据 或或 体体重重估估计计值值等等 这这样样作作出出的的图图形形为为残残差差图图下下图图是是以以 样样本本编编号号为为横横坐坐标标的的 残残差差图图 编 号编 号 残 差残 差 41.1图 从图从图1.11.1- -4 4中可以看出,第中可以看出,第1 1个样本点和第个样本点和第6 6个样本个样本 点的残差比较大,需要确认在采集这两个样本点的过程点的残差比较大,需要确认在采集这两个样本点的过程 中是否有人为的错误中是否有人为
15、的错误. .如果数据采集有错误,就予以纠如果数据采集有错误,就予以纠 正,然后再重新利用线性回归模型拟合数据;如果数据正,然后再重新利用线性回归模型拟合数据;如果数据 采集没有错误,则需要寻找其他的原因采集没有错误,则需要寻找其他的原因. .另外,残差点另外,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比比较均匀地落在水平的带状区域中,说明选用的模型比 较合适较合适. .这样的带状区域的宽度越窄,说明模型拟合精这样的带状区域的宽度越窄,说明模型拟合精 度越高,回归方程的预报精度越高度越高,回归方程的预报精度越高. . . 1: , 1 2 1 2 2 2 n i i n i ii y
16、y yy R R 其计算公式是 来刻画回归的效果我们还可以用相关指数另外 ., 1 . ,. , 2 2 2 表示回归的效果越好于 接近越量变化的贡献率示解释变量对于预报变 表在线性回归模型中好是说模型的拟合效果越 也就意味着残差平方和越小取值越大显然 R R R 2 2 2 1,R0.64,“64% “,“64% “.R R. 在例 中表明 女大学生的身高解释了的 体重变化 或者说 女大学生的体重差异有是由身高引 起的是常用的选择模型的指标之一,在实际应用中 应该尽量选择大的回归模型 用用身身高高预预报报体体重重时时 需需要要注注意意下下列列问问题题,: 1.1.回回归归方方程程只只适适用用
17、于于我我们们所所研研究究的的样样本本的的总总体体. .例例如如, , 不不能能用用女女大大学学生生的的身身高高和和体体重重之之间间的的回回归归方方程程, ,描描述述 女女运运动动员员的的身身高高和和体体重重之之间间的的关关系系. .同同样样, ,不不能能用用生生长长 在在南南方方多多雨雨地地区区的的树树木木的的高高与与直直径径之之间间的的回回归归方方程程, , 描描述述北北方方干干旱旱地地区区的的树树木木的的高高与与直直径径之之间间的的关关系系. . 2, 2080 ,. 我们所建立的回归方程一般都有时间性例如 不 能用世纪年代的身高、体重数据所建立的回归 方程 描述现在的身高和体重之间的关系
18、 3, , (, x155cm175cm, x70cmy,.) 样本取值的范围会影响回归方程的适用范围例如 我们的回归方程是由女大学生身高和体重的数据建 立的 那么用它来描述一个人幼儿时期的身高和体 重之间的关系就不恰当.在回归方程中 解释变量 的样本的取值范围为而用这个方 程计算时的 值 显然不合适 .,. . 4 值的平均值它是预报变量的可能取事实上精确值 的的预报值就是预报变量不能期望回归方程得到 一 一 般 般 地 地 , ,建 建 立 立 回 回 归 归 模 模 型 型 的 的 基 基 本 本 步 步 骤 骤 为 为 : : (1 1) 确确定定研研究究对对象象, ,明明确确哪哪个个
19、变变量量是是解解释释变变量量, ,哪哪个个变变 量量是是预预报报变变量量 (2 2) 画画出出解解释释变变量量和和预预报报变变量量的的散散点点图图, ,观观察察它它们们之之间间 的的关关系系(如如是是否否存存在在线线性性关关系系等等) (4 4)按按一一定定规规则则( (如如最最小小二二乘乘法法) )估估计计回回归归方方程程中中的的参参数数 得得出出结结果果后后分分析析残残差差图图是是否否有有异异常常( (如如个个别别数数据据对对 应应残残差差过过大大, ,残残差差呈呈现现不不随随机机的的规规律律性性等等).).若若存存在在异异常常, , 则则检检查查数数据据是是否否有有误误, ,或或模模型型
20、是是否否合合适适等等. . (5 5) 经经验验确确定定回回归归方方程程的的类类型型( (如如我我们们观观察察到到数数据据呈呈 线线性性关关系系, ,则则选选用用线线性性回回归归方方程程) ) (3 3)由由 在研究身高和体重的关系时,求得相关指数在研究身高和体重的关系时,求得相关指数 _,可以叙述为“身高解释了,可以叙述为“身高解释了64%64%的的 体重变化,而随机误差贡献了剩余的体重变化,而随机误差贡献了剩余的36%”36%”所以身所以身 高对体重的效应比随机误差的效应大得多高对体重的效应比随机误差的效应大得多. . 2 R 64.0 【即时训练即时训练】 探究点探究点2 2 回归分析的
21、初步应用回归分析的初步应用 测关于 例例2 2一一只只红红铃铃虫虫的的产产卵卵数数y y和和温温度度x x有有关关. .现现收收集集了了7 7组组 观观数数据据列列于于表表1-31-3中中, ,试试建建立立yxyx的的回回归归方方程程. . 31 表 根 根 据 据 收 收 集 集 的 的 数 数 据 据 作 作 散 散 点 点 图 图 ( ( 1 .1 .解 解 : :1 - 51 - 5 ) ) . . 0 x / C 21 23 2527293235 y /711212466 115 325 温度 产卵数个 1.1 5, , . 在图中 样本点并没有分布在某个带状区域 内 因此两个变量不
22、呈线性相关关系 不能直接利用线 性回归方程来建立两个变量之间的关系 0 50 100 150 200 250 300 350 202224262830323436 51 . 1图 温度/ 产卵数产卵数/ /个个 2 c x 112 , yc e,cc . 根据已有的函数知识 可以发现样本点分布在 某一条指数函数曲线的周围 其中 和是 待定参数 12 12 ,cc . ,zln y, zbxa(alnc ,bc ) .,yx . 现在 问题变为如何估计待定参数 和我们可 以通过对数变换把指数关系变为线性关系 令 则变换后样本点应该分布在直线 的周围这样 就可以利用线性回归模型来建立 关于 的非线
23、性回归方程 了 当回归方程不是形如 当回归方程不是形如 y=bx+a(ay=bx+a(a,bR)bR)时,时, 称之为称之为非线性回归方非线性回归方 程程. . 图的 样 本 数 据 表的 数 据 可 以 得 到 变 换 后由 表, 4131 . , 61 . 1.4161 . 1 用线性回归方程来拟合 因此可以一条直线的附近变换后的样本点分布在看出 中可以从图中数据的散点图给出了表 784.5745.4190.4178.3045.3398.2946.1z 35322927252321x 41 表 0 1 2 3 4 5 6 7 202224262830323436 产卵数的对数 温度 1.1
24、6图 x x z z 1 4 z0.272x3.849. 由表中的数据得到线性回归方程 为温 度 的 非 线 性 回 归 方 程因 此 红 铃 虫 的 产 卵 数 对 1 0.272x 3.849 y e. 2 2 3434 2 ,-5 yc xc,cc. ,tx ,yt ,yx. 另一方面 可以认为图1.1 中样本点集中在某二 次曲线的附近 其中和为待定参数因此 可以对温度变量做变换 即令然后建立 与 之间 的线性回归方程 从而得到 与 之间的非线性回归方程 .71 . 1 ,51 是相应的散点图 图应的温度的平方是红铃虫的产卵数和对表 325115662421117y 1225102484
25、1729625529441t 5表1 0 50 100 150 200 250 300 350 400500600700800900 1000 1100 1200 1300 温度的平方 数 卵 产 1.17图 t t y y 2 34 1.17,yt , yc xcyx. . 从图中可以看出与 的散点图并不分布在一 条直线的周围 因此不宜用线性回归方程来拟合它 即不 宜用二次函数来拟合 与 之间的关系这个结 论还可以通过残差分析得到 , .yx, yx.1 5 yt 为比较两个不同模型的残差 需要建立两个相应的 回归方程前面已经建立了 关于 的指数回归方程(2)下面 建立 关于 的二次回归方程
26、用线性回归模型拟合表 中的数据,得到 关于 的线性回归方程 2 2 2 y0.367t202.543, yx y0.367x202.543.3 即关于的二次回归方程为 i 23 .x1 31i 1, 23 可以通过残差来比较两个回归方程和的拟合 效果用 表示表中第 行第列的数据 则回归方程 和的残差计算公式分别为 i 110.272x3.849 iiii eyyye,i1,2,7; 222 iiiii eyyy0.367x202.543,i1,2,7. 1 2 x212325272932 35 y711212466115 325 e 0.5570.101 1.8758.9509.230 13.
27、381 34.675 e 47.69619.4005.83241.00040.10458.265 77.968 61 表 2 2 2 ,. ,.R .R .1 623R0.98 0.8023 . 在一般情况下比较两个模型的残差比较困难原因 是在某些样本点上一个模型的残差的绝对值比另一个 模型的小 而另一些样本点的情况则相反这时可以用 来比较两个模型的拟合效果越大,模型的拟合效果 越好由表容易算出模型和的分别约为和 ,因此模型的拟合效果好于模型 .3 2,3 2. 61 的拟合效果好果比模型 的拟合效因此模型的残差的绝对值小显然比模型 的残差的绝对值模型从表中的数据可以看出残差 的两个回归方程的
28、给出了原始数据及相应表 如图四个散点图中如图四个散点图中, ,适合用线性回归模型拟合其中两个适合用线性回归模型拟合其中两个 变量的是变量的是( ( ) ) A.A. B.B. C.C. D.D. B B 【即时训练即时训练】 1.1.下列有关回归直线方程下列有关回归直线方程 = x+ = x+ 的叙述:的叙述: 反映反映 与与x x之间的函数关系之间的函数关系; ; 反映反映y y与与x x之间的函数关系之间的函数关系; ; 表示表示 与与x x之间不确定关系之间不确定关系; ; 表示最接近表示最接近y y与与x x之间真实关系的一条直线之间真实关系的一条直线. . 其中正确的是其中正确的是(
29、 ( ) ) A.A. B.B. C.C. D.D. yb a y y C C 2. 2. 有下列说法有下列说法: :在残差图中在残差图中, ,残差点比较均匀地落残差点比较均匀地落 在水平的带状区域内在水平的带状区域内, ,说明选用的模型比较合适说明选用的模型比较合适. . 用相关指数用相关指数R R2 2来刻画回归的效果来刻画回归的效果, R, R2 2值越大值越大, ,说明模说明模 型的拟合效果越好型的拟合效果越好. .比较两个模型的拟合效果比较两个模型的拟合效果, ,可可 以比较相关系数的大小以比较相关系数的大小, ,相关系数越大的模型相关系数越大的模型, ,拟合拟合 效果越好效果越好.
30、 .其中正确命题的个数是(其中正确命题的个数是( ) A.0A.0 B.1B.1 C.2C.2 D.3D.3 C C 3.3.设变量设变量x x,y y的回归方程是的回归方程是 ,若变量,若变量x x 增加增加1.21.2个单位时,个单位时,y y平均减少平均减少3 3个单位,则个单位,则 = =( ) A.A.- -2.5 B.2.5 2.5 B.2.5 C.C.- -0.4 D.0.40.4 D.0.4 A A ybx1.5 b 4.4.对于一组数据的两个函数模型对于一组数据的两个函数模型, ,其残差平方和分别为其残差平方和分别为 85.285.2和和190.5,190.5,若从中选取一个
31、拟合程度较好的函数模若从中选取一个拟合程度较好的函数模 型型, ,应选应选_(_(填“前者”填“前者” “后者”“后者”).). 【解析解析】残差平方和越小残差平方和越小( (大大) )函数模型对数据的拟合函数模型对数据的拟合 效果越好效果越好( (差差),),故选前者故选前者. . 前者前者 5.5.已知方程已知方程 是根据女中学生的身是根据女中学生的身 高预报她的体重的回归方程,其中高预报她的体重的回归方程,其中x的单位是的单位是cm, 的单位是的单位是kg,若某女同学的实际体重为,若某女同学的实际体重为53kg,她的,她的 体重的估计值相对于实际体重的残差是体重的估计值相对于实际体重的残
32、差是-0.29kg,则,则 这位女同学的身高是这位女同学的身高是 . y0.85x82.71 y 160cm160cm 6 6(2015(2015福建高考福建高考) )为了解为了解某社区居民的家庭年收入某社区居民的家庭年收入 所年支出的关系,随机调查了该社区所年支出的关系,随机调查了该社区 5 5 户家庭,得到如户家庭,得到如 下统计数据表:下统计数据表: 收入收入 x (万元)(万元) 8.28.2 8.68.6 10.010.0 11.311.3 11.911.9 支出支出 y (万元)(万元) 6.26.2 7.57.5 8.08.0 8.58.5 9.89.8 根据上表可得回归直线方程根据上表可得回归直线方程 ybxa , 其中其中 0.76,baybx ,据此估计,该社区一户收入,据此估计,该社区一户收入 为为 1515 万元家庭年支出为万元家庭年支出为( )( ) A A11.411.4 万元万元 B B11.811.8 万元万元 C C12.012.0 万元万元 D D12.212.2 万元万元 B B 回归分析回归分析 统计案例统计案例 独立性检验独立性检验 线线 性性 非线性非线性 列联表列联表 等高条形图等高条形图 独立性检验步骤独立性检验步骤 实现自己既定的目标,必须能耐得住 寂寞单干.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。