直线回归 易洪刚.pptx

上传人(卖家):金钥匙文档 文档编号:457673 上传时间:2020-04-11 格式:PPTX 页数:69 大小:2.52MB
下载 相关 举报
直线回归 易洪刚.pptx_第1页
第1页 / 共69页
直线回归 易洪刚.pptx_第2页
第2页 / 共69页
直线回归 易洪刚.pptx_第3页
第3页 / 共69页
直线回归 易洪刚.pptx_第4页
第4页 / 共69页
直线回归 易洪刚.pptx_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归 Linear Regression Medical Statistics 医学统计学 南京医科大学公共卫生学院 易洪刚 honggangyi 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 2 818 East Tianyuan Rd. Nanjing, PR China,

2、211166 | 体重与体表面积 3 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 宏观上来讲,体重和体表面积呈直线关系,但幵不能 用 来描述。所以我们用 “hat”表示估计值,给定 X 时 Y 的条件均数。 4 Ya bX YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 Y 因变量,响应变量 dependent variable, response va

3、riable X 自变量,解释变量 independent variable, explanatory variable b 回归系数,斜率 regression coefficient, slope a 截距 intercept 5 YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 为什么叫“回归”? 6 Regression? 回归? F. Galton K. Pearson 818 East Tianyuan Rd. Nanjing, PR China, 211166 | “Regression to the mean” 7 8

4、18 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 8 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 例:3岁男童的体重与体表面积 9 编号 体重(kg) X 体表面积(103 cm2) Y 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.60

5、2 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 合计 133.4 57.266 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 10 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 X (1) Y (2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2

6、 6.075 16.0 6.411 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 n i ii n i ii bXaYYYYYQ 1 2 1 22 ) () ( XX XY l l nXX nYXXY XX YYXX b / / )( )( 2 2 2 XbYa 最小二乘法 :Least Square Method 11 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解:最小二乘法 对于本例,经计算得 12 5.9396 1.5439 24.9040

7、7266. 544.13 XY YY XX l l l YX 5.9396 0.2385 24.9040 5.7266-13.44 0.2385=2.5212 b aYbX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 3岁男童体重和体表面积间的直线回归方程 XY2385. 05212. 2 13 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的绘制 14 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 (12

8、, 5.3832) (15, 6.0987) (13.44,5.7266) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 15 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的解释 b 的意义 a 的意义 和 的意义 的意义 16 bXaY Y YY 2 1 n ii i YY 818 East Tianyuan R

9、d. Nanjing, PR China, 211166 | 回归系数 b 的解释 b 的涵义: 体重增加 1 (kg),则体表面积平均递增 0.2385 (103cm2 )。 体重为 X1 (kg) 的 3 岁男童,其平均体表面积比体重为X kg 的 3 岁男童乊平均体表面积多 0.2385 (103cm2)。 XY2385. 05212. 2 17 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 截距 a 的意义 a 的含义 截距 (intercept, constant); X=0 时,Y 的估计值; a 的单位与 Y 值相同; 当 X

10、 可能取 0 时,a 才有实际意义。 18 XY2385. 05212. 2 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值 的意义 X = 12 (kg), = 5.3832 (103cm2) 即体重为12(kg)的3岁男童,其体表面积乊均数的 估计值为5.3832 (103cm2)。 给定 X 时,Y 的均数的估计值。 这里的均数是给定 X 的条件下,由回归方程估计 得到的,故又称条件均数(conditional mean)。 19 818 East Tianyuan Rd. Nanjing, PR China, 211166 |

11、 编号 (1) 体重(kg),X (2) 体表面积 (103cm2),Y (3) (4) (5) 1 11.0 5.283 5.145 0.138 2 11.8 5.299 5.336 -0.037 3 12.0 5.358 5.383 -0.025 4 12.3 5.292 5.455 -0.163 5 13.1 5.602 5.646 -0.044 6 13.7 6.014 5.789 0.225 7 14.4 5.830 5.956 -0.126 8 14.9 6.102 6.075 0.027 9 15.2 6.075 6.146 -0.071 10 16.0 6.411 6.337

12、0.074 合计 133.4 57.266 57.266 0.000 残差Y- 的含义 Y YY 20 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差Y- 的含义 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 21 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差平方和 2 的含义 残差平方和 (residual sum of squares) 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小 的。(最小二乘)

13、 22 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 23 bXaY YY 11 12 13 14 15 16 5.0 5.5 6.0 6.5 1 lY 2 lY 点到回归直线的纵向距离平方和为最小! 直线回归方程的求解:最小二乘法 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的有关性质 直线通过均点 直线上方各点到直线的纵向距离乊和 = 直线下方各点到直线的纵向距离乊和 即: 各点到该回归线纵向距离平方和较到其它仸何直 线者为小。 24 ),(YX 0) (YY 818 Ea

14、st Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 25 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 26 主要内容 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 总体回归系数 = 0,则回归

15、关系不成立。 H0:总体回归系数为 0 , = 0; H1:总体回归系数不为0, 0; = 0.05。 27 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 28 . 2 2 Y X b XX Y X s s l YY s n 0 2 b b b tn s , Y的剩余标准差扣除X的影 响(即回归所能解释的部分) 后Y本身的变异程度 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 H0:总体回归系数 0,即体重与体表面积无回归关系; H1:

16、总体回归系数 0,即体重与体表面积有回归关系。 =0.05。 =10-2=8 按 = 8查 t 界值表,得P0.001。按 =0.05水准拒绝H0,接受H1。 可以认为体重与体表面积乊间有直线回归关系。 .12620 210 127318. 0 XY s 0.1262 0.02528 24.9040 b s 435. 9 02528. 0 2385. 0 b t 29 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归系数与相关系数的假设检验 br tt 30 818 East Tianyuan Rd. Nanjing, PR China,

17、 211166 | 主要内容 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 31 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 Y X P (X,Y) Y )(YY )( YY Y )(YY Y YYYY-=- YY+- 32 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 33 原始观察值 Y 的离均差平方和,又称为总离均差平方和, 或总变异,记为SS总。 回归直线与 Y 的均数乊距离平方和,又称为回归平方和, 记为SS

18、回。 原始观察值离回归直线的纵向距离平方和,又称剩余平 方和,记为SS剩。 YYYYYY 22 2 111 nnn iii YYYYYY 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 222 YYYYYY 剩剩回回总总 SSSSSS 112nn 总回剩 总回剩 34 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 35 Y的总变异 可以用回归来解释的部分 即与X有关的部分 不能用X来解释的部分 即与X无关的部分(随机误差) 份额的大小可以 用相关系数的平 方来衡量 (决

19、定系数) 因变量总变异的分解 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 MSSS F MSSS 回归回归回归 剩余剩余剩余 36 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。 =0.05。 列方差分析表 37 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 38 变异来源 SS MS F 回 归

20、 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 . 0.01590.1261 Y X s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 39 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 9175. 0 5439. 1 4166. 1 9579. 0 22 r 818 East Tianyuan Rd. Nanjing, PR Chi

21、na, 211166 | 回归方程的方差分析 今1=1, 2=8,查 F 界值表,得P0.01,拒绝H0, 接受H1,故可认为3岁男童的体重与体表面积乊间 有线性回归关系。 40 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归中三种假设检验间的关系 在直线回归中,相关系数的假设检验,回归系数的 假设检验,以及回归方程的方差分析结果等价。 41 rb ttF 818 East T

22、ianyuan Rd. Nanjing, PR China, 211166 | 42 剩余标准差剩余标准差 2 2 n YY s XY (1) 扣除了X的影响后,Y方面的变异; (2) 引进 回归方程后, Y方面的变异。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 43 名词辨析:名词辨析: Y的变异的变异 Y本身的变异本身的变异 Y 体重增加量(g) X 进食量(g) 600 650 700 750 800 850 900 950 120 140 160 180 200 154.42g SY22.63 ii YY 0 SY.X12.39

23、 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 44 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的区间估计 回归系数的可信区间估计 估计值 的可信区间估计 个体Y 值的容许区间估计 45 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 总体回归系数 的可信区间估

24、计 根据 t 分布原理: 本例中已计算得sb=0.02528 2 0 n s b t b b , ,2nb bts ,2 32 = 0.23852.306 0.02528 0.2385+2.306 0.02528 =( 0.1802 0.2968) (10 cm /kg) nb bts , , 46 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 可信区间与容许区间 均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 47 818 East Tianyuan Rd. Nanjing, PR China, 2111

25、66 | 的可信区间估计 样本样本 总体总体 Y 的的总总平均平均 给定给定 X 时时 Y 的的平均平均 (Y的条件均数的条件均数) 根据根据 t 分布原理:分布原理: 48 2 2 .2,2, )( )(1 XX XX n stYstY XYn Y n Y Y Y 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 的可信区间估计 例:X=12时时,求,求 的 的95%可信可信区间。区间。 =13.44, ,lXX=24.9040, SY.X=0.1262。 当当X=12 时,时, =5.3832 5.3832 2.306 0.0540=5.2

26、5875.5077 即体重为 12kg 的 3 岁男童,估计其平均体表面积为 5.3832(103cm2),95可信区间为 (5.2587,5.5077) (103cm2)。 49 0540. 0 9040.24 )1244.13( 10 1 1262. 0 2 Y s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限: 50 2 2 .2,2, )( )(1 1 XX XX n stYst

27、Y XYnYn 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 5.3832 2.306 0.1372=5.06665.6998 即体重为12kg的3岁男童,估计有95的人体表面 积在5.0666到5.6998 (103cm2/kg)乊间。 1373. 0 9040.24 )1244.13( 10 1 11262. 0 2 Y s 51 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 剩余标准差、条件标准误、条件标准差 52 2 2 .2,2, )( )(1 XX XX

28、n stYstY XYn Y n 2 2 .2,2, )( )(1 1 XX XX n stYstY XYnYn 抽样误差 抽样误差个体变异 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值、95%可信区间和95%容许区间 53 11 12 13 14 15 16 4.5 5.0 5.5 6.0 6.5 7.0 体 表 面 积 Y (103cm2) 体重X(Kg) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 54 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x

29、2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 可信区间与容许区间可信区间与容许区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 55 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存

30、在共变关系; 换算关系 回归解释相关 56 , , xyxyyy xxxx xx yy y xx y lll brbr lll l rb b 决定系数 2 SS r SS 回 总 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归 系数与单位有关; 相关表示相互关系;回归表示数量依存关系; 对资料的要求不同: 当 X 和 Y 都是随机的,可以进行相关和回归分析; 当 Y 是随机的 ( X 是控制的),理论上只能作回归而不能作相关分 析; I 型回归:X 是精确控制的

31、; II 型回归:X 是随机的。 57 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 58 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要

32、谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 59 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 回归关系可以内插,不宜外延; 60 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归不允许仸意外推 61 体重 X

33、 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 内插(Interpolate) 外推(extrapolate) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 62 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 我国19401988年间不同月仹的 男性婴儿死亡率()的季节性分析 男 性 婴 儿 死 亡 率 () 月仹 63 818 East Tianyuan Rd. Nanji

34、ng, PR China, 211166 | 事故发生数与时间的关系 170 事故数事故数 时间时间 (月月) 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 400 500 600 700 800 900 1000 1100 1200 64 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 独立(independent) 给定 X 时,Y 正态分布(normal) 等方差(equal variance) 6

35、5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、等方差示意图 66 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、不等方差示意图 67 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 68 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 相关和回归分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 小结 直线回归的定义 求解 解释 假设检验和区间估计 相关、回归 正确应用 69

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(直线回归 易洪刚.pptx)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|