1、 英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”33.730.516YX “回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出
2、“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。简单回归分析Simple linear regression analysis参考书o 1.徐勇勇主编.医学统计学(第二版).北京:高等教育出版社,2004o 2.杨树勤主编.卫生统计学(第二版).北京:人民卫生出版社,1991o 3.方积乾主编.医学统计学与电脑实验(第二版).上海:上海科学技术出版社,2001o 4.孙振球主编.医学统计学(供研究生用).北京:人民卫生出版社,2004 本章内容本章内容 第一节第一节 简单线性回归简单线性回归 第二节第二节 线性回归的应用线性回归的应用
3、第三节第三节 残差分析残差分析 教学目标o了解回归的思想来源了解回归的思想来源o掌握线性回归方程的计算,回归系数掌握线性回归方程的计算,回归系数的假设检验的思想和步骤的假设检验的思想和步骤o了解回归方程的应用了解回归方程的应用 双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回
4、归、直线相关第一节第一节 简单线性回归简单线性回归线性回归的概念及其统计描述线性回归的概念及其统计描述直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。X值和值和Y的的均数均数的关系,的关系,不同于一般数学上的不同于一般数学上的X 和和Y的函数关系的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表1)进行回归分析,得到图1所示散点图(scatter plot)No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.
5、91.10.91.11.00.7Y141315151314161714161516141517 在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示 相关系数反映了散点的疏密,一个变相关系数反映了散点的疏密,一个变量对另一个变量的影响需用回归分析。量对另一个变量的影响需用回归分析。对于线性回归,若只有对于线性回归,若只有1 1个自变量,个自变量,称为简单回归称为简单回归(simple regression)(simple
6、 regression);若;若有有2 2个或个或2 2个以上自变量,称为多重回归个以上自变量,称为多重回归(multiple regression)(multiple regression)。当这种数量关系为曲线关系时,称当这种数量关系为曲线关系时,称为曲线回归为曲线回归/非线性回归非线性回归(curve(curve regression/nonlinear regression)regression/nonlinear regression)。YabX样本线回归方程样本线回归方程Y 为各X处Y的总体均数的估计。简单线性回归模型 iiiXY1a 为回归直线在为回归直线在 Y 轴上的截距轴上的
7、截距a 0,表示直线与纵轴的交点在,表示直线与纵轴的交点在原点的上方原点的上方a 0,直线从左下方走向右上方,直线从左下方走向右上方,Y 随随 X 增大而增大而增大;增大;b0,直线从左上方走向右下方,直线从左上方走向右下方,Y 随随 X 增大而增大而减小;减小;b=0,表示直线与,表示直线与 X 轴平行,轴平行,X 与与Y 无直线关系无直线关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 线性回归模型的假设条件线性回归模型的假设条件o 1.线性线性(line)自变量和因变量之间的关系自变量和因变量之间的关系有线性趋势有线性
8、趋势 散点图散点图o 2.独立独立(independence)n个个体之间相个个体之间相互独立互独立 专业知识专业知识,残差图残差图o 3.正态正态(normal)各各x所对应的所对应的y服从正态服从正态(误差项服从正态分布(误差项服从正态分布)残差的直方图残差的直方图,正态概率图正态概率图o 4.等方差等方差(equal variance)各各x值变动值变动时,相应的时,相应的y有相同的变异性有相同的变异性 散点图散点图,残差图残差图|YXX 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直
9、线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则 最小二乘法最小二乘法(least square method)XY(Xn,Yn)(X1,Y1)(X2,Y2)(Xi,Yi)iieYY()()()()XYlX X Y YXYXYn aYb X回归参数的估计方法回归参数的估计方法 本例:n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=336898020.615)7.14(81.1415)224)(7.14(7.2162b77393.21157.14)
10、98020.6(15224 aXY9802.677393.21解题步骤5步3、计算有关指标的值4、计算回归系数和截距5、列出回归方程 此直线必然通过点此直线必然通过点(,)(,)且与纵坐标轴相且与纵坐标轴相交于截距交于截距a a。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易点开始,可在自变量实测范围内远端取易于读数的于读数的 值代入回归方程得到一个点的值代入回归方程得到一个点的坐标,连接此点与点坐标,连接此点与点(,)(,)也可绘出回归也可绘出回归直线。直线。X绘制回归直线绘制回归直线XYY总体回归系数总体回归系数的的的统计推断样本回归系数样本回归系数
11、b的标准误的标准误 niixybXXss12.)(21.()2niiiy xYYsn.3.249170.249940.4999413y xs78655.0404.049994.0)(12.niixybXXss回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?0因变量Y的变异分解图示YYY YYYY YXY(一)、方差分析法(一)、方差分析法 P(X,Y)t lYY 的分解:表示为:=+t 总总=回回+剩剩 (总=n-1,回=1,剩=n-2)222YYYYYYSSSS总总SSSS回回SSSS
12、剩剩YYYYYYo SSSS总总是是Y Y的离均差平方和的离均差平方和,表示表示Y Y的总变异。的总变异。o SSSS回回表示在表示在Y Y的总变异中可用的总变异中可用X X来解释的部分,来解释的部分,即使即使得得总变异总变异(Y-)(Y-)2 2减少的那部分减少的那部分。SSSS回回越大,说明回归效果越好。越大,说明回归效果越好。SSSS回回=blblXYXY=o SSSS剩剩表示在表示在Y Y的总变异中无法用的总变异中无法用X X解释的部分,解释的部分,即除了即除了X X对对Y Y的线性影响外,其它一切因素的线性影响外,其它一切因素对对Y Y变异的作用。变异的作用。XXlXYl2Yo 将将
13、SSSS总总分解为分解为SSSS回回与与SSSS剩剩两部分,两部分,SSSS回回越大表越大表明回归效果越好明回归效果越好,即,即X X对对Y Y 的影响越大;的影响越大;SSSS剩剩越小,说明各实测点到回归直线越近,越小,说明各实测点到回归直线越近,回归的估计误差越小。回归的估计误差越小。比较回归均方和误差均方,计算检验统计量比较回归均方和误差均方,计算检验统计量F值值 回回=1=1,剩剩=n-2=n-2 剩回剩剩回回MSMSSSSSF/(二、)t 检验 当=0时,样本回归系数b服从正态分布 =剩=n-2 Sb为样本回归系数b的标准误,SY.X为剩余标准差,反映了因变量在扣除了自变量的线性影响
14、后的离散程度。XXlXYSbbSbt/.0222.nSSnYYXYS剩H0、H1及同方差分析,代入公式求得t=4.579,自由度8-26,查t界值表得0.002P0.005,结论同上。注意对同一份资料,F=t2,F检验与t检验所得的结论一致。回归系数的检验与相关系数的检验结论一致。检验例1数据得到的直线回归方程是否成立?(1)方差分析 方差分析表(2)t 检验参数的意义是:若自变量X增加一个单位,反应变量Y的平均值便增加 bbSbt87.878655.098020.6bt注意:总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为bnStb2,本 例 b=-6.9 8
15、 0 2,自 由 度=1 3,t0.05,13=2.16,Sb=0.78655,代入公式(12-7)得参数的95%置信区间为 =(-8.6791 -5.2813)78655.016.29802.6注意到此区间不包括0,可按0.05 水准同样得到总体回归系数不为0的结论,即用区间估计回答相同时的假设检验问题。第二 节 线性回归的应用(估计和预测)给 定X的 数 值0X,由 样 本 回 归方 程 算 出 的0Y只 是 相 应 总 体 均 数0|YX的 一 个 点 估 计。0Y会 因 样 本 而异,存 在 抽 样 误 差。给定0XX时,总体均数0|Y X的(1)可信区间为 00/2,YYtS22()
16、1()ppY XYiXXSSnXX反映其抽样误差大小的标准误为o 例中,第一观测值X1=1.1,0.4994,0.404,代入(12.8)式获得第一观测点X1对应的 的标准误为 0.1599Y的总体均数的95%置信区间为 14.0957(2.16)(0.1599)(13.7502,14.4412)xyS.1512)(iiXX98.0X1Y404.0)98.01.1(15149994.021yS对象实测值 X实测值 Y预测值均值均值的标准误Y均值的95%CIY值的95%预测区间残差下限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.
17、095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143615.18151
18、5.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550.5083131.
19、11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122o 以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线 o(1-)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(1-)置信带(confidence band)。同样,因为其标准误是X的函数,所以在均数(
20、)点处置信带宽度最小,越远离该均数点,置信带宽度越大。bXaYYX,o 图12-3中,左图显示位于最小二乘回归线下两侧的两条弧形虚线为总体回归线的(1-)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。o(1-)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为(1-)22()11()ppYY XXXSSnXX/2,ppYYtSo 以第一观测点数据(X1=1.1)点为例,该点预测值的标准差为 o =0.52489182 o 第一数据点的预测区间为:14.0957(2.16)(0.0.5249)=12.96181
21、5.2297o 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个带子,称为Y值的95%预测带,它比总体回归线95%置信带更宽。图12-3同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。404.0)98.01.1(151149994.02|1XYSPICIxiyxx置信下限置信下限置信上限置信上限决定系数(coefficient of determination)定义为回归平方和与总平方和之比,计算公式为:222XYXXXYYYXX YYSSlllRSSlll回总 取值在0到1之间且无单位,其数值大小反映了回
22、归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。2R第三节第三节 残差分析残差分析 o 残差残差(residual)是指观测值Yi与回归模型拟合值之差 o 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。o 例如,第一数据点的残差e1=14-14.0957=-0.0957,如此类推,计算出各数据点的残差值示于表2的第10列中。将第10列的残差减去其均数,除以其标准差,便得标准化残差。iiiYYe若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图12-5所示。类似地,也可以自
23、变量取值Xi为横坐标,以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。o 图12-6给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b)和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于2倍标准差以外,可能是异常点。直线回归应用的注意事项 直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分
24、析。1根据分析目的选择变量及统计方法2进行回归分析前应绘制散点图(1)散点图可考察两变量是否有直线趋势;(2)可发现异常点(outlier)。散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。3资料的要求 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;*对于双变量正态分
25、布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X,一般情况下两个回归方程不相同)。反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 当实际资料不能满足直线回归模型的要求而无法用最小二乘法估计回归方程时,可使用秩回归F 区别区别 两个变量的地位两个变量的地位 用途用途 相关系数与回归系数的取值范围相关系数与回归系数的取值范围 相关系数与回归系数的单位相关系数与回归系数的单位 相关与回归的区别与联系相关与回归的区别与联系 F 联系联系 相关系数与回归系数的计算公式相关系数与回归系数的计算公式 相关和回归的假设检验是等价的相关和回归的假设检验是等价的XXXYXYXXXXYYXX YYYYllllrblllllYYXYXYYYXXXXXX YYXXllllbrlllll222/XYXYXXXX YYYYSSlllrlllSS回总