1、1234Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)例:例:欲研究血压受年龄、性别、体重、性格、欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。血脂水平等因素的影响。5eXXXYmm 221106mm22110XbXbXbbY Y7891011表表15-2 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果序号序号i总胆固醇总胆固醇甘油三脂甘油三脂胰岛素胰岛素糖化血糖化血血血 糖糖(mmol/L)(mmol/L)(U/ml)红蛋白红蛋白(%
2、)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.412Coefficientsa5.9432.8292.101.047.142.366.078.390.701.351.204.3091.721.099-.271.121-.339-2.229.036.638.243.3982.623.016(Constant)总胆固醇x1甘油三脂x2胰岛素x3糖化血红蛋白x4Model1BStd.ErrorUnstandar
3、dizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:血 糖 ya.由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:4321638.0271.0351.0142.0943.5XXXXY 1314ANOVAb133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1Sum of SquaresdfMean SquareFSig.Predictors:(Constant),总胆固醇x1,胰岛素x3,糖化血红蛋
4、白x4,甘油三脂x2a.Dependent Variable:血糖yb.15Coefficientsa5.9432.8292.101.047.142.366.078.390.701.351.204.3091.721.099-.271.121-.339-2.229.036.638.243.3982.623.016(Constant)总胆固醇x1甘油三脂x2胰岛素x3糖化血红蛋白x4Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:血 糖 ya.16432663
5、.0287.0402.0500.6XXXY Coefficientsa6.5002.3962.713.012.402.154.3542.612.016-.287.112-.360-2.570.017.663.230.4132.880.008(Constant)甘油三脂x2胰岛素x3糖化血红蛋白x4Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:血 糖 ya.17ANOVAb133.098344.36611.407.000a89.454233.889222.
6、55226RegressionResidualTotalModel1Sum of SquaresdfMean SquareFSig.Predictors:(Constant),胰岛素x3,甘油三脂x2,糖化血红蛋白x4a.Dependent Variable:血糖yb.18Coefficientsa6.5002.3962.713.012.402.154.3542.612.016.663.230.4132.880.008-.287.112-.360-2.570.017(Constant)甘油三脂x2糖化血红蛋白x4胰岛素x3Model1BStd.ErrorUnstandardizedCoeffi
7、cientsBetaStandardizedCoefficientstSig.Dependent Variable:血糖ya.n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留检验结果均有意义,因此回归方程保留甘油三酯甘油三酯(X2)、胰岛、胰岛素素(X3)和糖化血红蛋白和糖化血红蛋白(X4)三个三个因素。因素。最后获得回归方程为:最后获得回归方程为:432663.0287.0402.0500.6XXXY 19总总回归回归SSSSR2 Y20 总总残残MSMS11pn1n)R1(1R22a 21Model Summary.775a.601.5282.0
8、095.773b.598.5461.9721Model12RR SquareAdjusted R SquareStd.Error of theEstimatePredictors:(Constant),糖化血红蛋白x4,甘油三脂x2,胰岛素x3,总胆固醇x1a.Predictors:(Constant),糖化血红蛋白x4,甘油三脂x2,胰岛素x3b.22232425bj X的偏回归系数的偏回归系数 Sj为自变量的标准差为自变量的标准差 SY 为应变量的标准差为应变量的标准差YjjjSSbb iiiiSXXu n若将各变量先经标准状态化处理后,再进行多元回归,若将各变量先经标准状态化处理后,再进
9、行多元回归,则所得到的偏回归系数即为标准偏回归系数。则所得到的偏回归系数即为标准偏回归系数。n计算:计算:26Coefficientsa6.5002.3962.713.012.402.154.3542.612.016-.287.112-.360-2.570.017.663.230.4132.880.008(Constant)甘油三脂x2胰岛素x3糖化血红蛋白x4Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:血糖ya.对血糖影响大小的顺序依次为:糖化血红蛋
10、白对血糖影响大小的顺序依次为:糖化血红蛋白(X4)、胰岛、胰岛素素(X3)、甘油三酯、甘油三酯(X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数:比较糖化血红蛋白和甘油三酯的标准偏回归系数:0.413/0.354=1.17(倍)(倍)糖化血红蛋白对血糖的影响强度约为甘油三酯的糖化血红蛋白对血糖的影响强度约为甘油三酯的 1.17倍。倍。27282930313233 2 1 0重型病人重型病人中度型病人中度型病人轻型病人轻型病人X 3 2 1重型病人重型病人中度型病人中度型病人轻型病人轻型病人X34 0 1 0 1 0 1321其它其它干部干部其它其它农民农民其它其它工人工人XXX3536说明说
11、明X3、X4对应变量既有单独作用,又有交互作用。即说对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。的含量。Coefficientsa-.7903.172-.249.806.365.133.3212.744.0121.227.5101.5392.405.0251.510.343.9414.401.000-.179.059-1.828-3.022.006(Constant)甘油三脂x2胰岛素x3糖化血红蛋白x4X3*X4Model1BStd.ErrorUnstandardizedCoefficie
12、ntsBetaStandardizedCoefficientstSig.Dependent Variable:血糖ya.373839(9)残差分析)残差分析模型诊断模型诊断iiiYYe 通常以标准化残差(通常以标准化残差(standardized residual)为纵为纵坐标,以坐标,以 为横坐标,作残差图。为横坐标,作残差图。iY4041ABCDEF残差呈随机分布残差呈随机分布 残差不满足方差残差不满足方差齐性条件齐性条件 存在非线性关系存在非线性关系 有异常点有异常点 4243mmXXXPPQP221101lnln44mmmmXXXXXXeeP 22110221101mmXbXbXbbP
13、P 221101lnmmmmXbXbXbbXbXbXbbeeP 2211022110145immiiiiXbXbXbbQP 22110lnlmmllllXbXbXbbQP 22110ln lmimmlililliixxbxxbxxbORQPQP 222111)ln(ln46 暴露暴露非暴露非暴露 jX10)bexp(ORjj lmimmlililliixxbxxbxxbORQPQP 222111)ln(lnljijxx jbe47 RRPPP1PP1POR010011 )bexp(ORjj 4849二、二、Logistic 回归的参数估计及假设检验回归的参数估计及假设检验例:例:在研究医院抢救
14、急性心肌梗塞在研究医院抢救急性心肌梗塞(AMI)患者能否成患者能否成功的危险因素调查中,某医院收集了功的危险因素调查中,某医院收集了5年中该院所有年中该院所有的的AMI患者的抢救病史,共患者的抢救病史,共200例。其中例。其中Y表示抢救表示抢救是否成功(是否成功(0表示成功,表示成功,1表示死亡),表示死亡),X1表示抢救表示抢救前是否已休克(前是否已休克(0表示未休克,表示未休克,1表示已休克),表示已休克),X2表示抢救前是否已心衰(表示抢救前是否已心衰(0表示未心衰,表示未心衰,1表示已心表示已心衰),衰),X3表示患者从开始有表示患者从开始有AMI症状到抢救时是否症状到抢救时是否已超过
15、已超过12小时(小时(0表示未超过表示未超过12小时,小时,1表示已超过表示已超过12小时)。试分析影响抢救成功率的因素。小时)。试分析影响抢救成功率的因素。50Y=0(Y=0(抢救成功抢救成功)Y=1(Y=1(抢救不成功而死亡抢救不成功而死亡)X X1 1X X2 2X X3 3N NX X1 1X X2 2X X3 3N N0 00 00 035350 00 00 04 40 00 01 134340 00 01 110100 01 10 017170 01 10 04 40 01 11 119190 01 11 115151 10 00 017171 10 00 06 61 10 01
16、16 61 10 01 19 91 11 10 06 61 11 10 06 61 11 11 16 61 11 11 16 6AMI患者的抢救危险因素资料患者的抢救危险因素资料51参数估计方法:参数估计方法:(maximum likelihood)。)。最大似然法的基本思想:最大似然法的基本思想:先建立似然函数或对数似然函数,求似然函数或对数先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,即称为参数的最大似然似然函数达到极大时参数的取值,即称为参数的最大似然估计值。估计值。niYiYiiiPPL11)1(niiiiiPYPYL1)1ln()1(lnln52Vari
17、ables in the Equation1.110.34810.1401.0013.033.703.3294.5571.0332.019.975.3448.0341.0052.651-2.086.35135.2571.000.124X1X2X3ConstantStep 1aBS.E.WalddfSig.Exp(B)Variable(s)entered on step 1:X1,X2,X3.a.参数估计方法:参数估计方法:(maximum likelihood)321975.0703.0110.1086.21lnXXXPP b0=-2.086,表示在其它自变量均为,表示在其它自变量均为0时死亡
18、优势的对数值;时死亡优势的对数值;exp(b0)=0.124是无休克、无心衰和抢救及时组死亡的优势,是无休克、无心衰和抢救及时组死亡的优势,当死亡概率很低时,近似等于自然死亡率。当死亡概率很低时,近似等于自然死亡率。53Variables in the Equation1.110.34810.1401.0013.033.703.3294.5571.0332.019.975.3448.0341.0052.651-2.086.35135.2571.000.124X1X2X3ConstantStep 1aBS.E.WalddfSig.Exp(B)Variable(s)entered on step
19、1:X1,X2,X3.a.b1=1.110X1的的logistic回归系数;回归系数;exp(1.110)=3.033,表示在其它自变量取值固定时,表示在其它自变量取值固定时,休克与没有休克相比死亡的优势比(休克与没有休克相比死亡的优势比(OR),反映),反映死亡与休克的关联程度。死亡与休克的关联程度。541.似然比检验似然比检验比较两个模型的拟合效果。比较两个模型的拟合效果。模型模型1含较少自变量,模型含较少自变量,模型2含较多自变量。含较多自变量。H0:模型模型1与模型与模型2拟合效果无区别拟合效果无区别H1:模型模型1与模型与模型2拟合效果不同拟合效果不同检验统计量:检验统计量:)ln2
20、(ln221LLG 552.Wald检验检验用于回归系数的假设检验。用于回归系数的假设检验。H0:=0H1:0检验统计量:检验统计量:1 )(22 SE563.优势比的估计优势比的估计 jbjSue:OR2/jbxp 1 可信区间可信区间的的57Logistic RegressionDependent Variable Encoding01Original Value.001.00Internal Value显示的是应变量的赋值情况。显示的是应变量的赋值情况。Binary Logistic过程默认以应变量过程默认以应变量Y=1所对应的概率为所对应的概率为P,即以,即以P(Y=1)建立模型。)建
21、立模型。5859Omnibus Tests of Model Coefficients21.7303.00021.7303.00021.7303.000StepBlockModelStep 1Chi-squaredfSig.60Model Summary222.616.103.146Step1-2 LoglikelihoodCox&SnellR SquareNagelkerkeR Square61Classification Tablea134695.754610.070.0Observed.001.00YOverall PercentageStep1.001.00YPercentage Co
22、rrectPredictedThe cut value is.500a.62Variables in the Equation1.110.34810.1401.0013.033.703.3294.5571.0332.019.975.3448.0341.0052.651-2.086.35135.2571.000.124X1X2X3ConstantStep 1aBS.E.WalddfSig.Exp(B)Variable(s)entered on step 1:X1,X2,X3.a.3 jjjSbb 63Model if Term Removed-116.49110.3651.001-113.600
23、4.5831.032-115.5588.4991.004VariableX1X2X3Step 1Model LogLikelihoodChange in-2Log LikelihooddfSig.of theChange64疾病疾病暴露暴露非暴露非暴露发生发生10 2不发生不发生4080例:例:在某项病因调查研究工作中,通过病例在某项病因调查研究工作中,通过病例对对照研究,得下表资料:照研究,得下表资料:n疾病为疾病为Y,发生为,发生为1,不发生为,不发生为0;n暴露情况为暴露情况为X,暴露为,暴露为1,非暴露为,非暴露为0。n频数需加权。频数需加权。65Variables in the Eq
24、uation2.303.7988.3171.00410.0002.09147.822-3.689.71626.5521.000.025exposeConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.for EXP(B)Variable(s)entered on step 1:expose.a.66经验估计:首先选择应变量中较少的一类,然后将经验估计:首先选择应变量中较少的一类,然后将该数值除以该数值除以10,即模型中可以分析的自变量数。,即模型中可以分析的自变量数。例:例:n=100人,结局为患病者人,结局为患病者70人,未患病者人,未患
25、病者30人,则模型中可分析的自变量数为人,则模型中可分析的自变量数为30/10=3。关于关于Logistic 回归的样本量:回归的样本量:67Cox风险比例回归风险比例回归(Cox regression)691、“死亡死亡”事件或称失败事件事件或称失败事件(failure event)2、截尾值、截尾值(censored value)3、生存时间、生存时间(survival time)4、生存率、生存率(survival rate)7071 有的观察对象终止随访不是由于失败事件发生,有的观察对象终止随访不是由于失败事件发生,而是由于而是由于中途失访、死于其它原因、随访截止中途失访、死于其它原因
26、、随访截止。由由于不知道这些观察对象发生失败事件的时间,他们于不知道这些观察对象发生失败事件的时间,他们的资料不能提供完全的信息,这些对象的观察值称的资料不能提供完全的信息,这些对象的观察值称为截尾值,常用符号为截尾值,常用符号“+”表示。如表示。如140+天。天。72 即随访观察持续的实足时间,按失败事件发生或即随访观察持续的实足时间,按失败事件发生或失访前最后一次的随访时间记录。按天、周、月、失访前最后一次的随访时间记录。按天、周、月、年等时间单位记录,常用符号年等时间单位记录,常用符号t表示。表示。一般情况下较细的时间单位准确性较高,应尽量一般情况下较细的时间单位准确性较高,应尽量以个体
27、为单位采用较细的时间单位来记录。但在许以个体为单位采用较细的时间单位来记录。但在许多大型的随访中,不可能做到按个体记录,常见的多大型的随访中,不可能做到按个体记录,常见的是按固定时间段(如一月一次等)记录有多少人失是按固定时间段(如一月一次等)记录有多少人失访及多少人发生失败事件,此为分组生存资料。访及多少人发生失败事件,此为分组生存资料。73l如某病人如某病人1990年年2月月1日进入随访,日进入随访,1992年年4月间发生月间发生失败事件,他的生存时间为失败事件,他的生存时间为t=26月;月;l 又如某白血病患者化疗又如某白血病患者化疗3月后失去联系,他的随访月后失去联系,他的随访结果为一
28、截尾值,生存时间记为结果为一截尾值,生存时间记为t=3+月;月;l 安放心脏起搏器患者术后安放心脏起搏器患者术后2年因意外事故死亡,他年因意外事故死亡,他的随访结果也为一截尾值,生存时间记为的随访结果也为一截尾值,生存时间记为t=2+年。年。l某医院对某医院对100100例原发性肝癌例原发性肝癌生存情况随访结果生存情况随访结果74 实际应当是生存概率,指某个观察对象活过实际应当是生存概率,指某个观察对象活过t时时刻的概率,常用刻的概率,常用P(Xt)表示。如表示。如P(X10)表示某对表示某对象活过象活过10天天(或或10月、月、10年年)的概率。的概率。根据不同随访资料的失败事件,生存率可以
29、是根据不同随访资料的失败事件,生存率可以是缓解率、有效率等。缓解率、有效率等。75n用途:用途:专门用于生存时间的多变量分析法。专门用于生存时间的多变量分析法。n模型结构:模型结构:n设共有设共有n例病人,第例病人,第i(i=1,2,n)例病人的生存例病人的生存时间为时间为ti,并且有并且有p个预后因素个预后因素Xi1,Xi2,Xip。该病人生存到时间该病人生存到时间ti时死亡风险函数(时死亡风险函数(hazard function)hi(t)是基准风险函数是基准风险函数h0(t)与预后因素)与预后因素函数函数f(jX)的乘积,而预后因素函数为:的乘积,而预后因素函数为:f(jX)=exp(1
30、Xi1+2Xi2+pXip)76nCox回归假定病人的风险函数为:回归假定病人的风险函数为:hi(t)=h0(t)exp(1Xi1+2Xi2+pXip)式中:式中:hi(t)风险函数,又称风险率或瞬间死亡率风险函数,又称风险率或瞬间死亡率(instantaneous failure rate)H0(t)基准风险函数,是当所有预后因素都处于基准风险函数,是当所有预后因素都处于0(或标准)状态下的风险函数(或标准)状态下的风险函数X观察变量观察变量j回归系数(回归系数(j=1,2,p)77对上式进行变换,可得:对上式进行变换,可得:ipp2i21i10iXXX)t(h)t(hln 由此可知,由此可
31、知,j的临床意义是:的临床意义是:在其它预后因素固定不变的情况下,预后因素在其它预后因素固定不变的情况下,预后因素Xj每改变一每改变一个观察单位时所引起的相对风险度改变量的自然对数值。个观察单位时所引起的相对风险度改变量的自然对数值。当当j0时,时,Xj增加使相对风险度增加,是危险因素;增加使相对风险度增加,是危险因素;当当j0时,时,Xj增加使相对风险度减少,是保护因素。增加使相对风险度减少,是保护因素。78n例:例:某医药公司与中山医科大学协作,研究天花粉注射治某医药公司与中山医科大学协作,研究天花粉注射治疗绒癌的疗效问题。将疗绒癌的疗效问题。将16只体表接种绒癌成功只体表接种绒癌成功 的
32、裸鼠分为的裸鼠分为4组,其中一组作空白对照,其余三组分别注射天花粉、甲组,其中一组作空白对照,其余三组分别注射天花粉、甲药和乙药,实验记录和整理数据如表,试作药和乙药,实验记录和整理数据如表,试作Cox回归分析。回归分析。SPSS过程过程7980nCox回归变量筛选回归变量筛选n当变量数目较多或质量较差时,在建立多因素当变量数目较多或质量较差时,在建立多因素模型之前,必须对变量作初步的筛选。模型之前,必须对变量作初步的筛选。1.一般方法:剔去缺失数据较多,或变异程度一般方法:剔去缺失数据较多,或变异程度几乎为几乎为0的变量(如的变量(如X6)。)。81Variables not in the
33、Equationa,b4.7031.0301.4241.2336.6321.010.0091.9241.1991.274X1X2X3X4X5ScoredfSig.Residual Chi Square=19.770 with 5 df Sig.=.001a.Beginning Block Number 0,initial Log Likelihoodfunction:-2 Log likelihood:-63.214b.2.单变量模型方法:可用单变量模型方法:可用Cox回归前进法筛选变量,回归前进法筛选变量,取变量筛选第取变量筛选第0步的步的Score检验结果,作为单变量检验结果,作为单变量C
34、ox回归分析结果。回归分析结果。其中其中X4的的P=0.924,可将其剔除。,可将其剔除。82Variables in the Equation-1.888.8055.5021.019.151.031.733.420.1636.6471.0101.5221.1062.095-2.9401.0717.5301.006.053.006.432X3Step 1X1X3Step 2BSEWalddfSig.Exp(B)LowerUpper95%CI for Exp(B)n变量的危险比(变量的危险比(risk ratio)risk ratio)RR=EXP(B)RR=EXP(B)表示协变量增加一个单位,
35、危险度改变多少倍。表示协变量增加一个单位,危险度改变多少倍。一、下面是一、下面是300300名肝硬化患者的有关资料。名肝硬化患者的有关资料。编号编号X1X1(病程,天病程,天)X2X2(出血次数出血次数)X3X3(血型血型)X4X4(性别性别)X5X5(疗法疗法)X6X6(白蛋白白蛋白,g/L),g/L)0010019 91010B B男男A A353500200235350 0A A男男B B404000300354541 1O O男男B B25250040048 82 2A A女女C C41411 1、若以若以40g/L为低白蛋白,欲了解肝硬化患者的低白蛋白发生率,请写为低白蛋白,欲了解肝
36、硬化患者的低白蛋白发生率,请写出分析思路;出分析思路;2、欲了解随着病程的延长,白蛋白含量是否越来越低,请写出分析思路;、欲了解随着病程的延长,白蛋白含量是否越来越低,请写出分析思路;3、在病程、出血次数、腹水等因素中,如果要了解影响白蛋白含量的影响、在病程、出血次数、腹水等因素中,如果要了解影响白蛋白含量的影响因素有哪些,可考虑选择什么统计分析方法?该方法有哪些应用条件?因素有哪些,可考虑选择什么统计分析方法?该方法有哪些应用条件?思考题思考题84 欲研究新生儿脐带血铅浓度受环境因素影响的情况,某欲研究新生儿脐带血铅浓度受环境因素影响的情况,某研究所测定了研究所测定了235名新生儿血铅浓度,
37、并对产妇进行问卷调查,名新生儿血铅浓度,并对产妇进行问卷调查,调查表包括了调查表包括了21种可能影响脐带血铅浓度的环境因素如职业、种可能影响脐带血铅浓度的环境因素如职业、吸烟、上下班途中时间、住家是否临近马路、居室装潢情况、吸烟、上下班途中时间、住家是否临近马路、居室装潢情况、是否用煤做燃料、饮食等。是否用煤做燃料、饮食等。(1)欲筛选哪些环境因素是影响新生儿脐带血铅浓度的主要欲筛选哪些环境因素是影响新生儿脐带血铅浓度的主要因素,宜选择何种方法进行统计分析?因素,宜选择何种方法进行统计分析?(2)若产妇职业、吸烟情况、上下班途中时间及饮食是主要若产妇职业、吸烟情况、上下班途中时间及饮食是主要影响因素,现欲比较上述因素对血铅浓度的相对影响强度,影响因素,现欲比较上述因素对血铅浓度的相对影响强度,应计算何种指标?应计算何种指标?讨讨 论论 题题85