1、818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归 Linear Regression Medical Statistics 医学统计学 南京医科大学公共卫生学院 易洪刚 honggangyi 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 2 818 East Tianyuan Rd. Nanjing, PR China,
2、211166 | 体重与体表面积 3 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 宏观上来讲,体重和体表面积呈直线关系,但幵不能 用 来描述。所以我们用 “hat”表示估计值,给定 X 时 Y 的条件均数。 4 Ya bX YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 Y 因变量,响应变量 dependent variable, response va
3、riable X 自变量,解释变量 independent variable, explanatory variable b 回归系数,斜率 regression coefficient, slope a 截距 intercept 5 YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 为什么叫“回归”? 6 Regression? 回归? F. Galton K. Pearson 818 East Tianyuan Rd. Nanjing, PR China, 211166 | “Regression to the mean” 7 8
4、18 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 8 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 例:3岁男童的体重与体表面积 9 编号 体重(kg) X 体表面积(103 cm2) Y 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.60
5、2 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 合计 133.4 57.266 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 10 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 X (1) Y (2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2
6、 6.075 16.0 6.411 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 n i ii n i ii bXaYYYYYQ 1 2 1 22 ) () ( XX XY l l nXX nYXXY XX YYXX b / / )( )( 2 2 2 XbYa 最小二乘法 :Least Square Method 11 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解:最小二乘法 对于本例,经计算得 12 5.9396 1.5439 24.9040
7、7266. 544.13 XY YY XX l l l YX 5.9396 0.2385 24.9040 5.7266-13.44 0.2385=2.5212 b aYbX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 3岁男童体重和体表面积间的直线回归方程 XY2385. 05212. 2 13 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的绘制 14 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 (12
8、, 5.3832) (15, 6.0987) (13.44,5.7266) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 15 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的解释 b 的意义 a 的意义 和 的意义 的意义 16 bXaY Y YY 2 1 n ii i YY 818 East Tianyuan R
9、d. Nanjing, PR China, 211166 | 回归系数 b 的解释 b 的涵义: 体重增加 1 (kg),则体表面积平均递增 0.2385 (103cm2 )。 体重为 X1 (kg) 的 3 岁男童,其平均体表面积比体重为X kg 的 3 岁男童乊平均体表面积多 0.2385 (103cm2)。 XY2385. 05212. 2 17 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 截距 a 的意义 a 的含义 截距 (intercept, constant); X=0 时,Y 的估计值; a 的单位与 Y 值相同; 当 X
10、 可能取 0 时,a 才有实际意义。 18 XY2385. 05212. 2 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值 的意义 X = 12 (kg), = 5.3832 (103cm2) 即体重为12(kg)的3岁男童,其体表面积乊均数的 估计值为5.3832 (103cm2)。 给定 X 时,Y 的均数的估计值。 这里的均数是给定 X 的条件下,由回归方程估计 得到的,故又称条件均数(conditional mean)。 19 818 East Tianyuan Rd. Nanjing, PR China, 211166 |
11、 编号 (1) 体重(kg),X (2) 体表面积 (103cm2),Y (3) (4) (5) 1 11.0 5.283 5.145 0.138 2 11.8 5.299 5.336 -0.037 3 12.0 5.358 5.383 -0.025 4 12.3 5.292 5.455 -0.163 5 13.1 5.602 5.646 -0.044 6 13.7 6.014 5.789 0.225 7 14.4 5.830 5.956 -0.126 8 14.9 6.102 6.075 0.027 9 15.2 6.075 6.146 -0.071 10 16.0 6.411 6.337
12、0.074 合计 133.4 57.266 57.266 0.000 残差Y- 的含义 Y YY 20 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差Y- 的含义 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 21 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差平方和 2 的含义 残差平方和 (residual sum of squares) 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小 的。(最小二乘)
13、 22 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 23 bXaY YY 11 12 13 14 15 16 5.0 5.5 6.0 6.5 1 lY 2 lY 点到回归直线的纵向距离平方和为最小! 直线回归方程的求解:最小二乘法 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的有关性质 直线通过均点 直线上方各点到直线的纵向距离乊和 = 直线下方各点到直线的纵向距离乊和 即: 各点到该回归线纵向距离平方和较到其它仸何直 线者为小。 24 ),(YX 0) (YY 818 Ea
14、st Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 25 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 26 主要内容 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 总体回归系数 = 0,则回归
15、关系不成立。 H0:总体回归系数为 0 , = 0; H1:总体回归系数不为0, 0; = 0.05。 27 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 28 . 2 2 Y X b XX Y X s s l YY s n 0 2 b b b tn s , Y的剩余标准差扣除X的影 响(即回归所能解释的部分) 后Y本身的变异程度 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 H0:总体回归系数 0,即体重与体表面积无回归关系; H1:
16、总体回归系数 0,即体重与体表面积有回归关系。 =0.05。 =10-2=8 按 = 8查 t 界值表,得P0.001。按 =0.05水准拒绝H0,接受H1。 可以认为体重与体表面积乊间有直线回归关系。 .12620 210 127318. 0 XY s 0.1262 0.02528 24.9040 b s 435. 9 02528. 0 2385. 0 b t 29 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归系数与相关系数的假设检验 br tt 30 818 East Tianyuan Rd. Nanjing, PR China,
17、 211166 | 主要内容 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 31 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 Y X P (X,Y) Y )(YY )( YY Y )(YY Y YYYY-=- YY+- 32 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 33 原始观察值 Y 的离均差平方和,又称为总离均差平方和, 或总变异,记为SS总。 回归直线与 Y 的均数乊距离平方和,又称为回归平方和, 记为SS
18、回。 原始观察值离回归直线的纵向距离平方和,又称剩余平 方和,记为SS剩。 YYYYYY 22 2 111 nnn iii YYYYYY 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 222 YYYYYY 剩剩回回总总 SSSSSS 112nn 总回剩 总回剩 34 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 35 Y的总变异 可以用回归来解释的部分 即与X有关的部分 不能用X来解释的部分 即与X无关的部分(随机误差) 份额的大小可以 用相关系数的平 方来衡量 (决
19、定系数) 因变量总变异的分解 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 MSSS F MSSS 回归回归回归 剩余剩余剩余 36 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。 =0.05。 列方差分析表 37 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 38 变异来源 SS MS F 回 归
20、 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 . 0.01590.1261 Y X s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 39 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 9175. 0 5439. 1 4166. 1 9579. 0 22 r 818 East Tianyuan Rd. Nanjing, PR Chi
21、na, 211166 | 回归方程的方差分析 今1=1, 2=8,查 F 界值表,得P0.01,拒绝H0, 接受H1,故可认为3岁男童的体重与体表面积乊间 有线性回归关系。 40 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归中三种假设检验间的关系 在直线回归中,相关系数的假设检验,回归系数的 假设检验,以及回归方程的方差分析结果等价。 41 rb ttF 818 East T
22、ianyuan Rd. Nanjing, PR China, 211166 | 42 剩余标准差剩余标准差 2 2 n YY s XY (1) 扣除了X的影响后,Y方面的变异; (2) 引进 回归方程后, Y方面的变异。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 43 名词辨析:名词辨析: Y的变异的变异 Y本身的变异本身的变异 Y 体重增加量(g) X 进食量(g) 600 650 700 750 800 850 900 950 120 140 160 180 200 154.42g SY22.63 ii YY 0 SY.X12.39
23、 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 44 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的区间估计 回归系数的可信区间估计 估计值 的可信区间估计 个体Y 值的容许区间估计 45 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 总体回归系数 的可信区间估
24、计 根据 t 分布原理: 本例中已计算得sb=0.02528 2 0 n s b t b b , ,2nb bts ,2 32 = 0.23852.306 0.02528 0.2385+2.306 0.02528 =( 0.1802 0.2968) (10 cm /kg) nb bts , , 46 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 可信区间与容许区间 均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 47 818 East Tianyuan Rd. Nanjing, PR China, 2111
25、66 | 的可信区间估计 样本样本 总体总体 Y 的的总总平均平均 给定给定 X 时时 Y 的的平均平均 (Y的条件均数的条件均数) 根据根据 t 分布原理:分布原理: 48 2 2 .2,2, )( )(1 XX XX n stYstY XYn Y n Y Y Y 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 的可信区间估计 例:X=12时时,求,求 的 的95%可信可信区间。区间。 =13.44, ,lXX=24.9040, SY.X=0.1262。 当当X=12 时,时, =5.3832 5.3832 2.306 0.0540=5.2
26、5875.5077 即体重为 12kg 的 3 岁男童,估计其平均体表面积为 5.3832(103cm2),95可信区间为 (5.2587,5.5077) (103cm2)。 49 0540. 0 9040.24 )1244.13( 10 1 1262. 0 2 Y s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限: 50 2 2 .2,2, )( )(1 1 XX XX n stYst
27、Y XYnYn 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 5.3832 2.306 0.1372=5.06665.6998 即体重为12kg的3岁男童,估计有95的人体表面 积在5.0666到5.6998 (103cm2/kg)乊间。 1373. 0 9040.24 )1244.13( 10 1 11262. 0 2 Y s 51 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 剩余标准差、条件标准误、条件标准差 52 2 2 .2,2, )( )(1 XX XX
28、n stYstY XYn Y n 2 2 .2,2, )( )(1 1 XX XX n stYstY XYnYn 抽样误差 抽样误差个体变异 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值、95%可信区间和95%容许区间 53 11 12 13 14 15 16 4.5 5.0 5.5 6.0 6.5 7.0 体 表 面 积 Y (103cm2) 体重X(Kg) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 54 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x
29、2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 可信区间与容许区间可信区间与容许区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 55 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存
30、在共变关系; 换算关系 回归解释相关 56 , , xyxyyy xxxx xx yy y xx y lll brbr lll l rb b 决定系数 2 SS r SS 回 总 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归 系数与单位有关; 相关表示相互关系;回归表示数量依存关系; 对资料的要求不同: 当 X 和 Y 都是随机的,可以进行相关和回归分析; 当 Y 是随机的 ( X 是控制的),理论上只能作回归而不能作相关分 析; I 型回归:X 是精确控制的
31、; II 型回归:X 是随机的。 57 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 58 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要
32、谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 59 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 回归关系可以内插,不宜外延; 60 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归不允许仸意外推 61 体重 X
33、 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 内插(Interpolate) 外推(extrapolate) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 62 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 我国19401988年间不同月仹的 男性婴儿死亡率()的季节性分析 男 性 婴 儿 死 亡 率 () 月仹 63 818 East Tianyuan Rd. Nanji
34、ng, PR China, 211166 | 事故发生数与时间的关系 170 事故数事故数 时间时间 (月月) 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 400 500 600 700 800 900 1000 1100 1200 64 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 独立(independent) 给定 X 时,Y 正态分布(normal) 等方差(equal variance) 6
35、5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、等方差示意图 66 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、不等方差示意图 67 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 68 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 相关和回归分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 小结 直线回归的定义 求解 解释 假设检验和区间估计 相关、回归 正确应用 69