医学统计学多元线性回归研课件.ppt

上传人(卖家):晟晟文业 文档编号:3943767 上传时间:2022-10-27 格式:PPT 页数:58 大小:699KB
下载 相关 举报
医学统计学多元线性回归研课件.ppt_第1页
第1页 / 共58页
医学统计学多元线性回归研课件.ppt_第2页
第2页 / 共58页
医学统计学多元线性回归研课件.ppt_第3页
第3页 / 共58页
医学统计学多元线性回归研课件.ppt_第4页
第4页 / 共58页
医学统计学多元线性回归研课件.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、 在医学、生物学中,许多现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。例如,影响高血压的因素很多,如年龄、性别、精神紧张、劳动强度、吸烟状况、家族史等。在影响血压高低的众多因素中,哪些是主要因素,各因素的作用大小等,是我们关心的问题。回归分析就是研究各变量间在数量上相互关系的一种统计方法。它包含下面这些内容它包含下面这些内容:从一组数据出发确定某些变量间是否存在某种相关关系,如果存在,找出适当的定量关系式;对这种关系式的可靠程度进行检验;在许多自变量共同影响一个应变量的关系中,判断哪些自变量的影响是主要的,哪些是次要的,哪些是多余的;利用所求得的关系式对某一过程

2、进行预测或控制等等。一、多多元元线性回归模型线性回归模型 在讨论一个应变量与一个自变量之间的关系时,我们介绍了直线回归与相关分析。在那里,我们作了这样的假定:对于自变量的每一个值,有2(0,)yxN yabx其中,x为非随机变量,是随机误差,并称为y关于x的回归直线方程,a、b分别是、的最小二乘估计量。当考虑一个应变量受多个因素影响时,则需将直线回归分析方法推广到多个自变量的情形。下面,我们来考虑一个应变量Y 与多个自变量X1,X2,Xm 之间的线性回归问题多元线性回归。假定对于Y和X1,X2,Xm 的每一组值,有 0112(0,)mmYXXN其中,X1,Xm为非随机变量,为随机误差,则称01

3、122mmYbb Xb Xb X (2)(1)为Y关于X1,X2,Xm的线性回归方程;其中,b0 称为回归截距或常数项,bj(j=1 ,m)称为Y对自变量X1,X2,Xm 的偏回归系数。bj的意义为:在其它自变量固定的条件下,Xj改变一个单位而使Y获得的平均改变量。这里b0,b1,b2,bm 分别是0,1,2,m 的最小二乘估计量。二、回归方程的建立回归方程的建立 现在讨论怎样通过样本观测值来建立回归方程。设通过实验或观察得到一组实际资料:多元线性回归分析的任务是利用这些样本观测值来确定式(2)中的b0,b1,b2,bm,即求出Y 关于X1,X2,Xm的线性回归方程。由模型(1),对于每一观测

4、对象所得的样本观测值(xi1,xi2,xim,yi),i=1,2,n,有01122 1,2,.,iiimimiyxxxin即01122()iiiimimyxxx 我们寻求0,1,2,m 的估计值的原则是:求得的b0,b1,b2,bm,使22201122111()()nnniiiimimiiiiiQybb xb xb xyy达到最小值,即所谓最小二乘准则。(3)可以证明,由正规方程组mYmmmmmYmmYmmlblblbllblblbllblblbl22112222212111212111及公式01122()mmbYb Xb Xb X即可求得满足上述最小二乘准则的估计量b0,b1,b2,bm。从

5、而求得线性回归方程:(4)(5)01122mmYbb Xb Xb X显然 ()ijjillij1()(),1,2,.,nijkiikjjklxXxXi jm1()()1,2,.,niYkiikklxXyYim(6)(7)其中:Ex.1为推算少年儿童心脏面积,某研究者对33名8岁正常男童测得体重、心脏纵径、胸腔横径及心脏面积等指标的观测值。所得资料如下表33名名8岁正常男童生长发育指标的实测值岁正常男童生长发育指标的实测值 取体重(X1)、心脏纵径(X2)、胸腔横径(X3)为自变量,心脏面积(Y)为应变量来建立线性回归方程。欲建立回归方程,其步骤为:1.建立正规方程组(1)由表中数据算得各指标均

6、值:(2)根据公式(6)和公式(7)可以计算出各lij及liy。123123123291.0152+43.5394+76.8379=475.2585 43.5394+17.1224+20.4185=177.4261 76.8379+20.4185+37.6097=223.8262bbbbbbbbb3.列出回归方程2.解正规方程组得:1230.008124,9.258524,0.908196bbb再由(5)式,算得:053.572992b 123-53.572992+0.008124+9.258524+0.908196YXXX(3)按公式(4)列出正规方程组三、多元线性回归方程的假设检验多元线性

7、回归方程的假设检验 多元线性回归方程的假设检验。它包含两个内容:一是检验线性回归方程是否有统计学意义;二是检验每个自变量对应变量的线性影响是否有统计学意义。1.回归方程的假设检验回归方程的假设检验 回归方程的假设检验,即是要检验原假设:H0:12 m 0 由平方和分解定理,可将应变量Y的总离均差平方和lyy 分解成回归平方和U与残差平方和Q两个部分,即222111()()()nnnyyiiiiiiilyYyYyyUQ回归平方和回归平方和211()nmij jyijUyYb l反映了所有m 个自变量对应变量 Y的总变差的影响,自由度为m。(8)(9)残差平方和残差平方和:yyQlU (10)反映

8、了除自变量外,其它随机因素对应变量Y的影响,自由度为n-m-1。按照方差分析的思想,我们用如下的F统计量来对假设 H0作检验/1/(1)MSU mFmnmQnmMS回残回残,可以证明,当H0成立时,统计量F 服从自由度为1m,2n-m-1 的F分布。若F F(m,n-m-1)则在 水准上拒绝H0,认为这m个自变量作为一个整体对应变量Y 有一定影响,但这里并不排除其中有一个或几个自变量对Y 并无影响,即可能有某些j 0。反之,若 F F(m,n-m-1),则在 水准上不拒绝H0,即认为所有自变量与应变量Y 之间不存在线性回归关系。(11)上述检验可列成如下的方差分析表由上表得到对回归方程的检验结

9、果:F=61.149,P=0.0001,故在=0.01的水准上拒绝原假设,可以认为体重、心脏纵径、胸腔横径与心脏面积之间存在线性回归关系。对例1已求得的回归方程作假设检验,可得2.各偏回归系数的假设检验各偏回归系数的假设检验 若回归方程有统计学意义,则认为所有自变量作为一个整体对应变量Y存在线性影响,但这里并不排除其中有一个或几个自变量对Y 并无线性影响,即可能有某些 j 0。为了检验是否每个自变量都对应变量存在线性影响,需要分别对各偏回归系数进行假设检验,即检验假设 H0:j0 j=1,2,m 为了检验这个假设,先介绍偏回归平方和的概念。偏回归平方和偏回归平方和 回归平方和 U 是所有自变量

10、对应变量 Y 的变差的回归贡献。一般地说,所考虑的自变量越多,回归平方和 U 的值就越大。因此若在所考虑的自变量中去掉一个,则 U 的值只可能减少,不可能增加,减少的数值越大,则说明该变量对应变量的影响越大。我们称在原有的 m 个自变量中去掉一个自变量 Xj后,回归平方和减少的数值()(1)jjUU mUm为自变量 Xj 的偏回归平方和偏回归平方和。其中U(m)表示原来有 m 个自变量时的回归平方和;U(m-1)表示去掉一个自变量 Xj 后,剩余 m-1 个自变量时的回归平方和。由偏回归平方和的定义可知,Uj 的值越大,说明相应自变量 Xj 对应变量 Y 的线性影响也就越大。因此,我们用如下的

11、统计量/1/(1)jjUFQ nm或 /(1)jjUtQnm来检验原假设H0:j0(j=1,2,m)。可以证明,当 H0 成立时,统计量 Fj 服从 F(1,n-m-1)分布;tj 服从 t(n-m-1)分布。这里,tj2=Fj 即在对各偏回归系数作假设检验时,选用tj 与Fj 作为检验统计量,其结果是等价的。(12)(13)下面是对例1所得回归方程中各偏回归系数的假设检验结果:t1=0.030,P1=0.9766 t2=7.149,P2=0.0001 t3=0.896,P3=0.3776故在=0.05的水准上拒绝原假设 H0:20,而不拒绝原假设 H0:10及 H0:30。这就是说,在自变量

12、 X1(体重)、X2(心脏纵径)、X3(胸腔横径)中,只有X2(心脏纵径)与应变量 Y(心脏面积)的线性回归关系具有统计学意义。四、偏回归系数的标准化偏回归系数的标准化 前面已经指出,偏回归系数bj 的意义是当其余自变量固定时,Xj 每改变一个单位时引起 Y 的变化值。这就意味着,bj 的绝对值大小,反映了该自变量对Y 的影响程度。但由于各自变量的测量单位不同,因此在回归方程中,欲比较两个自变量 Xi与 Xj 对应变量 Y 的影响程度时,不能直接比较 bi与 bj 的绝对值大小。这时,需要消除测量单位的影响,即将各偏回归系数进行标准化后再作比较。这种消除测量单位影响后的偏回归系数称为标准化偏回

13、归系数 bj,其计算公式为:jjjjjjyyylSbbbSl其中:Sj 为 Xj 的标准差;Sy为 Y 的标准差。(14)求得标准化偏回归系数后,一般说来,就可以根据 bj 的绝对值大小来比较各自变量对 Y 的影响程度(严格地讲,应对 各bj之间的差异进行假设检验。)。例如,在例1中,对三个偏回归系数进行标准化,可得:1111291.01520.0081240.002994142142.2726yylbbl217.12249.2585240.827726812142.2726b337.60970.9081960.120335052142.2726b这说明在三个自变量X1(体重)、X2(心脏纵径

14、)、X3(胸腔横径)中,X2(心脏纵径)对 Y(心脏面积)的影响最大。标准化偏回归系数还可以用下面的方法来求得:先按下式ijjijjxXxS将原始变量标准化,然后用标准化后的变量来建立回归方程,这样得到的偏回归系数即为标准化偏回归系数,这时得到的回归方程称为标准化回归方程。在用标准化变量来建立回归方程时,需要注意的是,在标准化回归方程中,常数项b0=0。这是因为标准化后,各自变量与应变量的均数全都为0的缘故。五、多多元元线性相关线性相关 多元线性相关,即多个变量之间的相关性问题。这里包含两方面的问题:一个变量与其余所有变量之间的线性关系的密切程度;各变量两两间线性关系的密切程度。复相关系数复相

15、关系数 设有m+1 个正态随机变量X1,X2,Xm,Xm+1(Y),可以分析其中任一变量与其余所有变量之间的线性相关性-多元复相关性。反映这种复相关性强弱的量称为总体复相关系数,记为。不失一般性,我们讨论 Xm+1与 X1,X2,Xm的线性相关性。视 Xm+1为应变量 Y,X1,X2,Xm 均为自变量,作 Y与 X1,X2,Xm的多元线性回归分析。统计量R 反映了应变量与全体自变量之间线性关系的密切程度,称为 Y(即Xm+1)与X1,X2,Xm 之间的样本复相关系数。1yyyyUQRll (15)由前面的讨论知,所得的回归平方和 U 在一定程度上反映了应变量 Y与全体自变量之间线性关系的密切程

16、度。利用 U,可得如下的统计量 R 具有如下性质:0 R 1.若R 0,则U 0,或 Q lyy,即Y 的总变异 lyy 全是由随机误差 Q 所引起的,而与各自变量无关,即 Y 与全体自变量在线性意义下呈零相关;1.若 R 1,则 U lyy,或 Q 0,则意味着 Y 与全体自变量呈最为理想的线性关系。一般地说,R 的值愈接近于1,则 Y与全体自变量的线性关系愈密切,但究竟大到什么程度才能认为这种线性关系具有统计学意义呢?这需要进行假设检验。这里,检验假设为总体复相关系数 为零,即 H0:0。检验统计量为:2122,1(1)(1)RmFmnmRnm 若 F F(m,n m 1)则在 水平上拒绝

17、 H0,认为总体复相关系数 不为0;否则不拒绝 H0,认为总体复相关系数 为0。例如,在例1中,可求得应变量与三个自变量之间的复相关系数:1849.842340.929242142.27255R 21120.92924 3=61.151,3 29(1 0.92924)(333 1)F (16)查表可得 F0.01(3,29)4.54,故在0.01 水平上拒绝原假设H0,表明总体复相关系数 不为0,可以认为体重(X1)、心脏纵径(X2)、胸腔横径(X3)与心脏面积(Y)之间存在线性相关性。这里,我们引入一个重要的统计量2yyRU lR2称为决定系数(coefficient of determin

18、ation)或相关指数,它反映了回归平方和U 在总变异 lyy 中所占的比例。显然,R2 愈大,则 U 亦愈大,说明回归效果愈好。从这个意义上讲,相关与回归是可以相互解释的。(17)另一方面,可以证明,复相关系数的F检验统计量2122,1(1)(1)RmFmnmRnm与多元线性回归方程的检验统计量是相等的,这就是说,对复相关系数的检验等价于对回归方程的检验。在例1中,分别用上述两式求得的 F 值分别为61.151与61.149,略有差异,这是计算误差所致。2.偏相关系数偏相关系数 复相关系数解决了一个变量与其余所有变量之间的线性相关关系。下面讨论在多个变量同时存在的情况下,任意两个变量之间的相

19、关关系。在只有两个变量(X、Y)的情形,其相关系数为:22()()()()XYXYXX YYXX YYrlllXXYY 一般说来,在多个变量X1,X2,Xm同时存在的情形,任意两个变量Xi,Xj 之间的简单相关系数 rij 就不能正确地反映它们之间的线性相关性了,这是因为有其它变量的干扰存在。为了正确地反映Xi与Xj 之间的相关性,需要消除其余变量的影响。由偏回归平方和Ui 的定义可知,Ui 的大小反映了在消除其余自变量影响后,Xi对 Y 在线性意义下的影响。因此,称(1)2iYiirU Q mm 为 Xi 与 Y 的偏相关系数。riY 的符号与偏回归系数bi 的符号一致。其中:Ui 为偏回归

20、平方和;Qi(m-1)为去掉 Xi 后,Y对其余 m-1个自变量作线性回归时的剩余平方和。(18)可以证明,当 Qi(m-1)0 时,riY 有如下性质:1)1iYr2)000iYiirUb3)1(1)0iYiirUQ mQ 关于性质(3),有 lyy=U+Q 全部自变量与Y作线性回归 lyy=Ui(m-1)+Qi(m-1)去掉Xi后,其余m-1个自变 量与Y作线性回归当riY|=1,即Ui =Qi(m-1)时,有lyy=Ui(m-1)+Qi(m-1)=Ui(m-1)+Ui =U于是得Q=0 性质(3)说明:Xi 与 Y 的偏相关系数 riY 取值为+1或1时,等价于剩余平方和 Q 为零。即此

21、时若把 Xi 加入回归方程,则 Y与全体自变量呈最理想的线性关系,而不管缺少 Xi 时的回归方程是否有统计学意义。这实际上表明,当 riY 取值为+1或1时,Xi 与 Y 之间呈最理想的线性关系。一般地说,riY 的绝对值愈接近于1,则 Xi与 Y 的线性关系愈密切,但riY 的绝对值与1究竟接近到什么程度才能认为这种线性关系具有统计学意义呢?这需要进行假设检验。这里,检验假设为总体偏相关系数iY 0,即 H0:iY 0检验统计量为:21221,1 1(1)(1)iYiiYrFnmrnm2,1(1)(1)iYiiYrtnmrnm或:至于任意两个变量 Xi 与 Xj 之间的偏相关系数,只需将Xi

22、 与 Xj 中任意一个视为应变量即可。(19)(20)需要指出的是,偏相关系数的计算比较复杂,通常是利用统计软件来解决这一问题的。由SAS软件算得例1的各偏相关系数及相应的p值为:、回归变量筛选的意义、回归变量筛选的意义 要注意各自变量的专业背景不要遗漏 要考虑各自变量相互之间的影响不要重叠(多元共线性)如果多元线性回归方程中,相互影响的自变量太多,不仅导致计算量增大,而且也会使回归方程的参数估计和预测精度降低。二、回归变量的筛选方法二、回归变量的筛选方法 从统计学的角度讲,自变量的选择方法可分为两大类:全局择优法:以数据对回归模型的拟合优劣为准则 局部择优法:根据自变量对应变量的影响程度大小

23、为准则全局择优法全局择优法:对于有 m 个自变量的情形,多元线性回归方程中所包含的自变量的个数可以是 m,m-1,m-2,1。共有:个,在这些自变量的组合中如何选择一个“最优”组合?衡量“最优”的标准是什么?这是我们需要解决的问题。12121mmmmmmmmCCCC 决定系数 R2可用来衡量回归模型的拟合效果,一般说来,R2愈大,则回归效果愈好 R2值大,也可能是自变量个数较多所引起的。这是因为R2的大小受自变量个数的影响:211()nmij jyijUyYb l2yyRU l01122mmYbb Xb Xb X 因此,单纯以决定系数 R2 作为选择自变量的准则是不合适的。下面给出几个常用的准

24、则。准则1.自由度调整的决定系数达到最大。2211(1)1anRRnp 222(1)1apRRRnp其中,n为样本含量,p(1 p m)为引入模型的自变量个数,R2为决定系数。在一个实际问题中,如果仅从拟合的角度来看,R2a 的值愈大,所对应的自变量组合愈优。即所有自变量组合中R2a最大者所对应的回归方程就是“最优”回归方程。21aMSRMS 残差总 (21)(22)准则准则2.赤池信息量赤池信息量AIC达到最小达到最小。AIC的计算公式为ln2QAICnpn其中,n为样本含量,p(1 p m)为引入模型的自变量个数,Q为残差平方和。在实际问题中,可以根据赤池统计量AIC的大小来确定自变量的选

25、择:AIC的值愈小,所对应的自变量组合愈优。即所有自变量组合中AIC最小者所对应的回归方程就是“最优”回归方程。(23)准则3:Cp统计量达到最小。Cp统计量的计算公式为:(1)1(1)ppmMSCnppMS残,残,其中,n为样本含量,p(1 p m)为引入模型的自变量个数,MS残,p为包含 p 个自变量的残差均方,MS残,m为包含 m 个自变量的残差均方。按此准则,使 Cp 达到最小的自变量组合为最优组合,相应的回归方程即为“最优”回归方程。(24)二、局部择优法二、局部择优法 当自变量个数 m 较大时,全局择优法的计算量会很大。这直接影响了它的应用。例如,当 m=10 时,需要考虑的方程个

26、数就达到 210-1=1023个。因此,当 m 很大时,计算量将会很大。下面介绍的局部择优法是从自变量对应变量影响的角度出发,根据自变量的作用大小来决定是否将其引入回归方程。1.向后法向后法 先建立包含全部自变量的回归方程,然后按偏回归平方和从小到大的顺序,对各自变量的偏回归系数逐个进行假设检验,一旦发现不具有统计学意义的自变量,便将其从方程中剔除,直到方程中的所有自变量都具有统计学意义为止。2.向后向后逐步回归法逐步回归法 该法在从模型中剔除自变量的方法与向后法是相同的,但向后逐步回归在每剔除一个自变量后,需要考察模型外的其它自变量是否能引入回归模型并且有统计学意义,通过反复剔除无统计学意义

27、的自变量和引入有统计学意义的自变量进入回归模型,直到既没有变量可以剔除,也没有变量可以引入模型为止。3.向前法向前法 此法与向后法相反,此法是按偏回归平方和从大到小的顺序,把对应变量的影响具有统计学意义的自变量逐个引入方程,直到方程外的自变量不能引入为止。向前法有一个重要缺点:由于各自变量之间可能存在多重共线性,计算初期引入的自变量在当时是具有统计学意义的,但随着其它自变量的引入,就可能使得初期引入的自变量失去其统计学意义(即原来某自变量的作用被后来引入的一些自变量的共同作用所代替)。因此,在最终所得的方程中仍可能含有不具有统计学意义的自变量。从这个意义上讲,最终得到的回归方程并非“最优”。4

28、.向向前前逐步回归法逐步回归法 此法的基本思想是对全部自变量按其对应变量的影响程度大小(即偏回归平方和的大小),从大到小地依次把自变量逐个引入方程。每引入一个自变量,就要对它作检验,有统计学意义才引入。而当新的自变量进入方程后,就对方程中当时所含有的全部自变量进行检验,一旦发现不具有统计学意义的自变量(由于引入新自变量而“相形见绌”者),就立即剔除。因此,逐步回归的每一步(引入一个新自变量或从方程中剔除一个自变量,都称为一步)前后都要作检验,以保证每次引入新的自变量前,方程中只含有具有统计学意义的自变量;引入新的自变量后,方程中也只含有具有统计学意义的自变量。如此往复选入、剔除,直至无法剔除方

29、程中的自变量,也无法引入新的自变量为止。需要指出的是,在用局部择优法筛选自变量时,重点在于选出对应变量有重要影响作用的自变量。因此,对假设检验的检验水准不必过于苛刻,可以根据具体情况来选择检验水准,如=0.05,0.10,0.15等。选入水准 越小,选取自变量的标准越严,入选自变量的个数相对较少;反之,选入水准 越大,选取自变量的标准越宽,入选自变量的个数相对较多。此外,对选入和剔除,也可以设置不同的检验水准,但选入水准须小于或等于剔除水准。例13-3 为了研究影响糖尿病患者糖化血红蛋白(HbA1c)的主要危险因素,某研究者调查了在某医院内分泌科就诊的200名糖尿病患者的糖化血红蛋白、年龄、体

30、重指数、总胆固醇、收缩压、舒张压、饮食、运动、服药情况等,并用逐步线性回归分析影响糖化血红蛋白的主要因素。为了简化问题,这里仅取自变量为年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、收缩压(X4,mmHg)和舒张压(X5,mmHg),应变量为糖化血红蛋白(Y,%),随机选取了20例。具体资料见表13-7,试用逐步线性回归分析寻找主要的影响因素。20例糖尿病患者调查资料采用后退逐步回归法,先把所有自变量引入回归方程,然后把无统计学意义的自变量剔除模型,具体情况如下最后的回归方程为2344.799+0.031+0.097+0.008YXXX可以认为体重指数X2、总

31、胆固醇X3和收缩压X4是影响糖化血红蛋白的主要因素,体重指数增大1个单位,糖化血红蛋白平均升高0.031;总胆固醇升高1mmol/L,估计糖化血红蛋白平均升高0.097;收缩压X4升高10mmHg,估计糖化血红蛋白平均升高0.008。这些差异均有统计学意义。多元线性回归的应用及注意事项多元线性回归的应用及注意事项1.多元线性回归的应用多元线性回归的应用 从医学应用的角度看,多元线性回归实际上是从医学应用的角度看,多元线性回归实际上是对某些因素与某一医学现象间数量关系的一种刻划对某些因素与某一医学现象间数量关系的一种刻划,这就使得多元线性回归在医学上有着广泛的用途,这就使得多元线性回归在医学上有

32、着广泛的用途,大致可以归纳为如下两个方面。,大致可以归纳为如下两个方面。1).预测预报预测预报 利用一些预报因子和预报对象的实测值建立一利用一些预报因子和预报对象的实测值建立一个预报方程后,就可以进行一些预测预报。例如根个预报方程后,就可以进行一些预测预报。例如根据胃癌患者手术后的病理切片上所观察到的各种形据胃癌患者手术后的病理切片上所观察到的各种形态特征,如癌组织类型、浸润深度、肉芽肿等,可态特征,如癌组织类型、浸润深度、肉芽肿等,可建立由这些特征估算患者存活时间的多元线性回归建立由这些特征估算患者存活时间的多元线性回归方程。用此方程,据某胃癌患者手术后的病理切片方程。用此方程,据某胃癌患者

33、手术后的病理切片,就可大致推测术后的存活时间。,就可大致推测术后的存活时间。2).因素分析因素分析 当机体出现某种现象或结果时,导致产生这种当机体出现某种现象或结果时,导致产生这种现象或结果的可能因素往往很多,这就需要去伪存现象或结果的可能因素往往很多,这就需要去伪存真、由表及里地在众多因素中把真正起作用的因素真、由表及里地在众多因素中把真正起作用的因素找出来,这就是因素分析。如研究年龄对冠心病的找出来,这就是因素分析。如研究年龄对冠心病的患病率有无影响;在影响血压高低的众多因素中,患病率有无影响;在影响血压高低的众多因素中,哪些是主要因素,各个因素的作用大小如何;用某哪些是主要因素,各个因素

34、的作用大小如何;用某法治疗宫颈炎,效果良好,但疗效有波动,这时需法治疗宫颈炎,效果良好,但疗效有波动,这时需要对可能影响疗效的各个因素进行分析,找出一些要对可能影响疗效的各个因素进行分析,找出一些真正起作用的因素,以便进行控制,进一步提高疗真正起作用的因素,以便进行控制,进一步提高疗效等等。效等等。2.应用多元线性回归的几点注意应用多元线性回归的几点注意1).应用条件应用条件 多元线性回归模型的前提条件是当各自变量多元线性回归模型的前提条件是当各自变量Xi 分别取某一确定值时,应变量分别取某一确定值时,应变量Y的分布是正态的;的分布是正态的;且当且当Xi 分别取不同值时,分别取不同值时,Y 的

35、不同分布满足方差齐的不同分布满足方差齐性的要求。如稍有偏离以上条件,一般影响不大;性的要求。如稍有偏离以上条件,一般影响不大;但如资料与上述条件偏离较大,则需对资料作适当但如资料与上述条件偏离较大,则需对资料作适当的数据转换,使之尽可能满足以上条件,方可进行的数据转换,使之尽可能满足以上条件,方可进行多元线性回归分析。多元线性回归分析。2).样本含量样本含量 由于在平面上两点即可确定一条直线,因此当由于在平面上两点即可确定一条直线,因此当我们作直线回归分析时,两对观察值可定一回归直我们作直线回归分析时,两对观察值可定一回归直线,其余各对观察值则用以修正此回归直线,并可线,其余各对观察值则用以修

36、正此回归直线,并可借此求得估计误差。同理,当我们进行多元线性回借此求得估计误差。同理,当我们进行多元线性回归分析时,例如有归分析时,例如有5个变量,就需要有个变量,就需要有5个点才能构个点才能构成回归,而无估计误差(这时成回归,而无估计误差(这时)。因此,在进行多)。因此,在进行多元线性回归分析时,一般要求观察例数不少于变量元线性回归分析时,一般要求观察例数不少于变量个数的个数的5倍。如果观察总例数与变量个数相差很小倍。如果观察总例数与变量个数相差很小时,不要被大的时,不要被大的R2 值所欺骗,必须经假设检验后才值所欺骗,必须经假设检验后才能作出适当的推断。能作出适当的推断。3).资料类型资料

37、类型 回归方程中的各变量一般应是数值变量,但如回归方程中的各变量一般应是数值变量,但如果自变量为分类变量或有序变量时,经适当的数据果自变量为分类变量或有序变量时,经适当的数据转换后也可以应用。转换后也可以应用。4).预测范围预测范围 用实际观测资料建立回归方程后,对目标变量用实际观测资料建立回归方程后,对目标变量 进行预报时,各自变量进行预报时,各自变量 的取值范围应在其现有的观的取值范围应在其现有的观察范围之内。这是因为所建立的回归方程实际上是察范围之内。这是因为所建立的回归方程实际上是一个经验方程,它只描述了在各自变量一个经验方程,它只描述了在各自变量 现有的观察现有的观察范围之内应变量范

38、围之内应变量 的取值情况。的取值情况。5).“最优最优”方程的意义方程的意义 从方法学上看,无论是用全局择优法还是局部从方法学上看,无论是用全局择优法还是局部择优法所得的择优法所得的“最优最优”回归方程,都只是一种相对回归方程,都只是一种相对的的“最优最优”,相对于其产生的择优方法;从实际应,相对于其产生的择优方法;从实际应用的角度看,对回归方程中自变量的选择,除了选用的角度看,对回归方程中自变量的选择,除了选用恰当的方法之外,还应结合实际问题本身、专业用恰当的方法之外,还应结合实际问题本身、专业知识及实践经验来考虑。不加分析地把选择变量的知识及实践经验来考虑。不加分析地把选择变量的方法绝对化是难于取得好的应用效果的。方法绝对化是难于取得好的应用效果的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(医学统计学多元线性回归研课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|