1、多元线性回归分析 Multiple linear regression,Medical statistics 医学统计学,一元直线回归方程,研究的是两个变量之间是否存在线性关系。但在实际生活及医学临床研究中,经常遇到一个因变量与多个自变量之间的相互关系问题。如: 肺活量可能与身高、体重、胸围等因素有关; 胃癌术后的存活时间,可能与胃癌患者手术后的病理切片上所观察到的癌组织类型、浸润程度、肉芽反应等因素有关; 在法医鉴定中,推断死亡时间与实测的尸体直肠温度、实测尸体每小时下降的温度数及尸体温度与环境温度之差有关;,血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史; 糖尿病人的血糖与胰岛素
2、、糖化血红蛋白、血清总胆固醇、甘油三脂; 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间; 等等,都可以用多元线性回归来研究。,多元线性回归的概念,多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。 简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。 简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。,一、多元线性回归的数据格式,变量:应变量 1 个,自变量k 个,共 k+1 个。 样本含量:n 数据格式见下
3、表 多元回归分析数据格式,要求: 自变量的数值可以是随机变量也可以是人为设定的。 因变量是随机变量。,条件,多元线性回归方程(或模型):,在这个模型中,Y由X1 , X2 , X3 , ,Xm所解释,有m+1个未知参数0、1 、 2、m 。 为常数项, 为总体偏回归系数(partial regression),表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量,e是去除m个自变量对Y影响后的随机误差(残差)。,总体回归方程:,样本回归方程: b0为常数项,b1 , b2 , ,bm为样本偏回归系数,是对总体偏回归系数0、1 、 2、m 的估计。 表示Y的估计值。,一般步骤,建立回归
4、方程(样本),(2)对回归方程及各自变量做假设检验并对方程的拟合效果及各自变量的作用大小做出评价。,多元线性回归分析的一般步骤,原 理:最小二乘法,多元线性回归方程的建立,求偏导数(一阶),统计软件包,计算出b1、b2、bm,例,20名儿童的血红蛋白Y(g/100ml)与元素钙X1(g/100ml)和铁X2(g/100ml)的测定结果,试做多元线性回归。,1878.9616b1+2930.5941b2=20.6278 2930.5941b1+30448.8366b2=868.7028 解此方程,得 b1=-0.0394 b2=0.0323 b0=11.68-(- 0.0394)(60.43)-
5、 ( 0.0323)(417.68)=0.5699 得方程:,多元回归方程的假设检验,由样本算得的偏回归系数bi是总体偏回归系数i的估计值(i=1,2,k)。如果总体偏回归系数等于0,则由于存在抽样误差,仍可使样本估计的偏回归系数不等于0.因此,与直线回归的情形相同,对所建立的多元回归方程还需进行有否统计学意义的假设检验,以判断它是否有意义。,(一)回归方程的假设检验与评价,方差分析法:,多元线性回归方差分析表,如果FF,(k,n-k-1),则在水准上拒绝H0, 接受H1,认为应变量Y与k个自变量 X1,X2,Xk之间存在线性回归关系。,检验步骤,H0:所有自变量对应变量Y均无线性回归关系 H
6、1:至少1个自变量对应变量Y有线性回归关系 计算F值:,本例FF0.01(2,17),所以P0.01,拒绝H0,故总体上认为元素钙与铁对血红蛋白有直线回归关系,多元线性回归方程的评价 评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2p 。 Sy,x1,2. p SQRT(SS误差n-p-1) 本题Sy,x1,2. p 如用于预测,重要的是组外回代结果。,简记为R2,即回归平方和SS回归与总离均差平方和SS总的比例。 R2 SS回归/SS总1-SS残/SS总 0 R2 1, 可用来定量评价在Y的总变异中,由k个X变量建立的线性回归方程所能解释的比例。其值越接近于1,说明模型对数
7、据的拟合程度越好。 本例: R2 SS回归/SS总 27.2464/45.7675=0.5953,确定系数,复相关系数,为确定系数的算术平方根,表示变量Y与k个自变量(X1,X2,Xk)的线性相关的密切程度,亦即观察值Y与估计值 之间的相关程度。,偏回归系数的假设检验和评价,方差分析和决定系数是将所有自变量X1、X2、Xk作为一个整体来检验和说明它们与Y的相关程度及解释能力,并未指明方程中每个自变量对Y的作用及作用的大小,即每个自变量是否对Y都存在线性回归关系以及关系密切程度,因此,需分别对每个自变量(即相应的偏回归系数进行检验,以免把作用不显著的自变量引入回归方程中,常用的方法有两种:偏回归
8、平方和检验法(F检验)和偏回归系数检验法(t检验),偏回归平方和,回归方程中某一自变量Xi的偏回归平方和(sum of squares for partial regression)是指模型中含有其他k-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除Xi后所引起的回归平方和的减少量,或在k-1个自变量的基础上新增加Xi引起的回归平方和的增加量。,偏回归平方和检验法检验步骤,1. 将所有的自变量都引入回归方程中,得到回归平方和及残差平方和记为SS回和SS残。 2. 将拟检验的某个自变量Xi从回归方程中取出后,重新建立起一个含K-1自变量的回归方程,并得到不含Xi作用的回归平方和
9、SS回(-i) 。则SS回- SS回(-i)就是在其他自变量已在回归方程中的条件下,Xi单独引起的回归平方和的改变量,把这个量称为Xi的偏回归平方和(sum of squares for partial regression)。,3. 用F值来检验该Xi的回归效应是否显著,F值的计算公式为: 4. 根据=1,=N-K-1,查F界值表,求出F0.05(1,n-k-1), F0.01(1,n-k-1),并与F值比较,得出结论。,例,将元素钙x1和铁x2全部纳入回归方程中,得到:SS回=27.2464, SS残=18.5211 2. 把 X1从回归方程中取出,而单独建立x2与y的回归方程为: 此时S
10、S回(-1)=24.7842 SS回(x1)= SS回(x1,x2)- SS回(x2)=2.4618,3. 若把x2从回归方程中取出,而单独建立x1与y的回归方程为: 此时SS回(-2)=0.2264 SS回(x2)= SS回(x1,x2)- SS回(x1)=27.02 因此x2(铁)对血红蛋白贡献大于x1(钙)。 4. 进行F检验:,5. 查F界值表,得: F 0.05(1,17)=4.45 F 0.01(1,17)=8.40 可以认为x1(钙)对血红蛋白的线性回归无统计学意义,但x2(铁)对血红蛋白的线性回归有统计学意义。 这样应把把x1剔除,只建立x2与y的线性回归方程。,偏回归系数的t
11、检验,偏回归系数的t检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献,与偏回归平方和检验完全等价的一种方法。,bi为偏回归系数的估计值,sbi是bi的标准误,计算比较复杂要运用矩阵运算获得,一般可以利用统计软件计算。如x2(铁)对血红蛋白的b2=0.0323, sb2=0.0647,x1(钙)对血红蛋白的b1=0.0394, sb1=0.00260,则 对于同一资料,不同的自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归作用越大。,标准化偏回归系数,由于各自变量的测量单位不同,不能直接比较偏偏回归系数,需要将
12、其转化为标准化偏回归系数。 将原始数据减去相应变量的均数后再除以该变量的标准差,即为数据标准化 。 用标准化的数据建立的回归方程,称为标准化回归方程,相应的回归系数即为标准化回归系数。,标准化回归方程的截距为0,标准化回归系数与一般回归方程的回归系数之间的关系为: 比较自变量对Y的回归贡献大小时,也可用标准化偏回归系数。通常在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。,例:,S1=9.9554 S2=40.0321 SY=1.5519 b1=0.0394 b2=0.0323 代入公式,例15-1,27名糖尿病患者的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红
13、蛋白、空腹血糖的测定结果如下,试建立血糖与其他几项指标的多元线性回归方程。,统计软件包计算得,b0=5.9433 b1=0.1424 b2=0.3515 b3=-0.2706 b4=0.6382 所求多元回归方程为:,多元线性回归方程的假设检验及其评价,1. 方差分析法:,(一)对回归方程的假设检验及评价,F0.01,(4,22 )=4.31 ,P 0.01,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释糖尿病患者的血糖浓度的变化是有统计学意义的。,2. 确定(决定)系数 (coefficient of determination),简记为R2,即回归平方和SS回归与总离均差平方
14、和SS总的比例。 可用来定量评价在Y的总变异中,由 m个X变量建立的线性回归方程所能解释的比例。 0R2 1,其值越接近1,说明模型对数据拟合程度愈好。,表明血糖含量变异的60%可由总胆固醇、 甘油三酯、胰岛素和糖化血红蛋白的变化来解释,3. 复相关系数 (multiple correlation coefficient),确定系数的算术平方根 表示变量Y与m个自变量(X1,X2,Xm)的线性相关的密切程度。 当只有一个自变量时R= r ,r为简单相关系数。,偏回归系数的假设检验,实质是考察在固定其它变量后,该变量对应变量 Y 的影响有无显著性。 H0: j=0 H1: j 0 0.05 检验
15、方法 F检验 t检验,例:,偏回归平方和的F检验结果为 查F界值表的F0.05,(1,22) =4.30, F3、F4均大于4.30,故在=0.05检验水准上拒绝H0,接受H1,认为血糖与胰岛素(X3) 、糖化血红蛋白(X4)有线性关系。 由两变量的偏回归平方和大小可见糖化血红蛋白(X4)的贡献更大些。,偏回归系数的t检验,b1=0.1424 Sb1=0.3656 t1=0.1424/0.3656=0.390 b2=0.3515 Sb2=0.2042 t2=0.3515 /0.2042=1.721 b3= -0.2706 Sb3=0.1214 t3= -0.2706 /0.1214= -2.2
16、29 b4=0.6382 Sb4=0.2433 t4=0.6382/0.2433=2.623,查t界值表得t0.05/2,22 =2.074,则t4 t3 2.074,P值均小于0.05,说明 b3 、b4 有统计学意义。 对同一资料,不同自变量的t值之间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。,标准化偏回归系数,S1=1.5934 S2=2.5748 S3=3.6706 S4=1.5934 SY=2.9257 代入公式,自变量选择方法,根据研究者专业知识和经验事先选择好。 若无清晰的理论依据则可采用下列方法结合专业知识选择。 选择自变量的方法有多种,其基本思路是:
17、尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的自变量排除在外。目的:使得预报和(或)解释效果好,全局择优法,意义:对自变量各种不同的组合所建立 的回归方程进行比较 择优。 选择方法:,校正决定系数Rc2选择法,决定系数R2SS回归/SS总, R2越大,回归所占的比例越大,因此可以用来评价回归方程的优劣,但R2随自变量个数的增加而增加,多元线性回归方程中并非自变量越多越好,原因是自变量越多剩余标准差可能变大;同时也增加收集资料的难度。 因此,评价回归方程的标准还必须考虑方程所包含的自变量的个数的影响。,血红蛋白与钙铁元素方程的校正确定系数,钙铁均引进方程时的确定系数和校正确定系数,只
18、引进铁均时的确定系数和校正确定系数,血糖与X1,X2,X3,X4方程的校正确定系数,将四个变量均引入方程时的校正和未校正的确定系数 将三个变量均引入方程时的校正和未校正的确定系数(除总胆固醇),Cp选择法,Cp统计量定义: (SS残)p是由p(pm)个自变量做回归的误差平方和, (MS残)m是从全部m个自变量的回归模型中得到的残差均方。 当由p个自变量拟合的方程理论上最优时, Cp的期望值是p+1,因此应选择最接近p+1的回归方程为最优方程。 当p=m时,必有Cp =m。,用全局法对例15-1数据的自变量进行选择,逐步选择法,当自变量的数目较大时,采用全局择优方法的计算量很大,即使只有6个自变
19、量,也要考虑26-1=63个方程,对于10个自变量,方程的个数要增加到210-1=1023个。 逐步选择法可以克服这一不足,是实际应用中普遍使用的方法。,逐步选择法的基本思想,每引进或剔除一个自变量Xj,决定其取舍则基于对偏回归平方和的F检验 其中,p为进行到第i步时方程中自变量的个数,SS回(i)(Xj)为第i步时Xj的偏回归平方和, SS残(i)(Xj)为第i步时Xj的残差平方和。 对给定的检验水准,若是方程外自变量,当FjF,(1,n-m-1),可决定引入;若是方程内自变量, FjF,(1,n-m-1),可决定剔除。,逐步选择法可分为 前进法(forward selection)、 后退
20、法(backward elimination) 逐步回归法(stepwise regression),前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。 第一步,应变量Y对每个自变量做直线回归,把回归平方和最大的自变量做F检验,若偏回归系数有统计学意义,则把该自变量引入方程。而后在余下的自变量中,考虑在进入方程的第一个自变量的基础上,计算其他自变量的偏回归平方和,选取偏回归平方和最大的一个自变量做F检验以决定是否选入,如果有统计学意义则进入方程。然后再以同样的方式寻找第三自变量。一直做下去,直到没有自变量为止。 前进法有一定的局限性,即后引入可能会使先进入方程的自变量变得不重要。,
21、SS(X1)最大,先引入X1; 再算SS(X1,X2)、 SS(X1,X3)、 SS(X1,X4), 若SS(X1,X2)- SS(X1) SS(X1,X3)- SS(X1) SS(X1,X4)- SS(X1),则引入X2; 再算SS(X1,X2,X3), SS(X1,X2,X4), 若SS(X1,X2,X3)- SS(X1,X2) SS(X1,X2,X4)- SS(X1,X2),则引入 X3 依次类推,后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量
22、建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。 后退法的优点是考虑到了自变量的组合作用,选中的自变量的数目一般会比前进法选中的多;缺点是当自变量数目较多或某些自变量高度相关时,可能得不出正确的结果,前进法可以自动去掉高度相关的自变量。,对选入和剔除自变量的F检验,可以设置相同或不同的检验水准,一般可以把值定为0.05。 值定得越小,表示选取自变量的标准越严,被选入的自变量个数相对也较小;反之, 值定得越大表示选取自变量的标准越宽,被选入的自变量个数也就相对较多。,逐步回归法,是在前述两种方法的基础上,进行双向筛选的一种方法。 该方法的本质是前进法,但每引入一个自变量进入
23、方程后,要对方程中的每个自变量做基于偏回归平方和的F检验,看是否需要剔除一些退化为“不显著”的自变量,以确保每次引入新变量之前方程中值包含有“显著”作用的自变量。这一双向筛选过程反复进行,直到既没有自变量需要引入,也没有自变量从方程中剔除为止,从而得到一个局部最优方程。,逐步回归法,先设选入自变量的检验水准入和剔除自变量的检验水准出,入要小于或等于出,一般小样本定为0.10或0.15,大样本定为0.05 。 两个入、 出对应阈值F引入和F剔除,当候选变量中最大F值F引入时,引入相应变量;已进入方程的变量最小FF剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止。(计算复杂),先将Y与各自
24、变量建立回归方程,引入偏回归平方和最大的,假设为X1; 再同前进法,将X1与剩下的自变量组合,计算SS(Xi)最大者进入方程,如X2; 再同前进法,将X1、X2与剩下的自变量组合,计算SS(Xi)最大者进入方程,如X3; 再同剔除法,计算SS(X1,X2,X3)- SS(X1,X3)和SS(X1,X2,X3)- SS(X2,X3),进行方差分析,若有意义,变量留在方程中,若无意义,即剔除; 依次类推,例:例15-1计算,例,第1步,Y 对各自变量做直线回归,回归平方和最大的是X4, SS残(l)的值为Y与X4做回归的残差平方和,F检验的结果为: 查F界值F0.10,(1,25) =2.92,
25、F2.92,p0.10,将X4引入。,第2步,在方程中已存在X4的基础上,拟合附加另一个自变量的回归方程,考察加入不同新自变量后回归平方和的改变量,其中X1的偏回归平方和最大,F检验结果为 查F界值F0.10,(1,24) =2.93, F2.93,p0.10,将X1引入。,第3步,按先剔除后选入的原则,考虑是否有需要剔除的变量。方程中X1的偏回归平方和最小,但X1上步刚选入,由于入2.94,p0.10,将X3引入。,第4步,同理引入X2。 第5步,仍先考虑是否需要剔除的自变量,方程中X1的偏回归平方和最小,F检验结果为: 查F界值F0.15,(1,22) =2.23, F0.15,将X1从方
26、程中剔除。,整个逐步回归分析可以借助于统计软件来实现。本例的主要输出结果: 方差分析表,回归系数估计及检验结果 回归方程为:,结果表明:血糖的变化与甘油三酯、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。 由标准化回归系数看出,糖化血红蛋白对空腹血糖影响最大。,用统计软件包求解多个自变量的线性回归方程,例:某单位研究儿童生长发育情况,测量了15名三岁儿童的六项基本体格指标,体重(x1、kg)、身高(x2、cm) 、胸围(x3、cm) 、上臂围(x4、cm) 、胸围之呼吸差(x5、cm) 、肺活量(x6、cm)数据如下,求以肺活量为因变量,体重、身高、胸围、上臂围、胸围之呼吸差为自变量的线性回归方程。,
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。