1、多因素分析多元线性回归Logistic回归生存分析.第一部分 多元线性回归 简单线性回归只考虑一个X对Y的影响;多元线性回归(multiple linear regression)考虑多个自变量X对Y的影响 此时要考虑:1.Y是否满足LINE 2.所建回归方程是否有意义:AVOVA 3.回归方程中的每个自变量是否都有意义:t检验 4.如何获得变量最少,解释Y变异又较多的方程?筛选变量方法330名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析4根据样本得到的回归方程
2、 偏回归系数 partial regression coefficient 表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响。标准化偏回归系数(standardized),表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数。其大小反映了该自变量的重要性 多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素kkxbXbxbbY 22110 偏回归系数的计算:最小二乘原理 假设检验:偏回归系数检验-t检验 模型整体检验-方差分析 前提条件:线性、独立性、正态性、方 差相等,LINE SPSS操作步骤 分析回归线性因
3、变量:Y;自变量:x1-x4 ok4321579.0811.0131.0030.1199.58XXXXY 体重指数 病程 瘦素 空腹血糖-1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030(ng/ml)For a given x2,x3,x4,each 1kg/m2 increase in x1 is associated with an average decrease in Y of 1.030ng/ml.方程的假设检验整个模型的假设检验:方差分析法(ANOVA)043210:HF=17.000,P0.001,拒绝H0,以下模型是有意义的.
4、4321579.0811.0131.0030.1199.58XXXXY是不是每个自变量的偏回归系数均有统计学意义呢?t检验)1(knbiitsbtiN为个体数,k为自变量个数并不是每个自变量都有意义!,在alpha=0.05,x1 x2 x4三个变量没有统计学意义自变量筛选常用方法All possible subsets selection 最优子集回归,全局择优法Stepwise selection include 逐步回归法 forward selection 前向选择 backward elimination 后向选择 stepwise regression 逐步选择9.由于变量之间是有
5、关联的,因此并不是简单地将三个变量从方程中去除!10一 最优子集法 最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程。11评价指标:TETRSSSSSSSSR121 残差平方和与决定系数残差平方和越小越好,R2越大越好122 残差均方与调整确定系数1pnSSMSEE1)1(222pnRpRRa考虑了引入变量的个数p133 Cp统计量(Cp statistic)由Mallows CL.提出。1p11)()()(allppMSMSpnC残残当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程。1
6、4SAS运行结果运行结果二、逐步回归法向后法(删)向前法(进)逐步法方程方程方程规定进入,保留(删)的P值,且要求P进=25)的优势 odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的优势 Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727 高血压1非病人0合计超重或肥胖11656 a2492 b4148正常01331 c5461 d6792合计298779531094027对照中非暴露的比例对照中暴露的比例病例中非暴露的比例病例中暴露的比例OR727.22492*13315461*16
7、56bcadOR28因素保护1因素危险1有关1疾病与暴露无关1OROR若y=1为disease,y=0为non-disease,有29高血压1非病人0合计超重或肥胖11656 a2492 b4148正常01331 c5461 d6792合计298779531094030回归系数的解释 logistic回归中的系数,与OR的关系:ln(OR)/()ln()ln/()lnln ()()=PPO RPPPPPP11000110111110设P1 为X=1的得病概率,P0 为X=0的得病概率11010)0()1(mmxxxP22110 logit31模型检验与偏回归系数检验似然比检验(likeliho
8、od test)似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:G GG GP PG GK K 2ln(2ln(L LP P)+2ln()+2ln(L LK K)G服从自由度为K-P的2分布。所以似然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验 32似然比检验 检验变量X1是否有统计学意义:模型1:不考虑,-2lnL1=12827.236模型2:考虑X,-2lnL2=12301.503 G=-2lnL1-(-2lnL2)L为对数似然函数值 G G 12301.503-12827.236174.267174.267,
9、=1=1,P0.001 P0.001 说明回归系数说明回归系数具有统计学意义。具有统计学意义。3334(偏)回归系数wald检验)(2/bSZbe22)()(0 SESEzSPSS软件操作 分析回归二元logistic回归因变量:C协变量:r 选项确定36 多分类变量:哑变量(dummy variable)x1时:x10,x20,x30 表示A型血x2时:x11,x20,x30 表示B型血x3时:x10,x21,x30 表示AB型血x4时:x10,x20,x31 表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。3322110logit
10、 xxxP 例 为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(5岁:1;5岁:2;15岁:3;45岁:4;65岁:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(10分钟:1;10分钟:2;30分钟:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。11790名居民中,调查前二周患者1649人,其中未
11、就医者720人。38P 386 例20-239逐步法40操作步骤 analyzeregressionbinary logistic depedent:y covariates:x1-x7 categorical:x7 continue method:backward LR options:entry0.02,removal0.05 continue ok样本含量估计 在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的1020倍。也可以根据公式估计 Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果。复习思考1、Lo
12、gistic回归应变量是什么?2、Logistic回归系数的流行病学解释3、OR值的解释与暴露因素及Y的设置有关吗?4、为什么要进行变量筛选?5、最终进入方程的变量取决于哪些因素?第三部分医学随访资料的统计分析方法-生存分析survival analysis44.问题1如果 甲药治愈率为80%,疗程1月 乙药治愈率为90%,疗程3月.哪个更好?n158例经手术治疗大肠癌患者临床病理因素及5年生存状态.n如果有人没观察满5年,4年时死于其他原因,这个人的信息可否利用?45问题2 如何计算平均数手术到死亡时间手术到死亡时间p 3 7 15 20 25 26 30 3 7 15 20 25 26 3
13、0 平均生存时间平均生存时间 meanmean=18=18p 3 9 15 20 25 3 9 15 20 25+27 30 27 30+中位生存时间中位生存时间 median=median=202046n以以30天为界天为界 的分类结果:的分类结果:死亡死亡 生存生存A 62B 44 n完全数据的均数完全数据的均数:Mean(A)=12.5Mean(B)=11.0 问题3 这个数据如何分析?A 368102226 30 30B 681020 30 30 30 30n?47数据特点 结局不仅取决于有效/无效,还与起效时间长短有关 时间不仅有完全数据,还有不完全数据(截尾数据,删失数据)生存数据
14、常常是偏态的生存分析486例膀胱肿患者术后生存时间记录表某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=3,2=3),是否复发(1=是,0=否)49生存资料基本概念 起点事件与终点事件(结局)生存时间(过程)截尾值50基本概念 起点事件与终点事件 生存时间 暴露因素疾病确诊死亡治疗开始痊愈手术死亡或痊愈症状缓解疾病恶化接触毒物出现毒性反映临床试验开始不良反应接触危险因素发病小白鼠染毒中毒死亡开始戒烟再次吸烟结婚登记第一次离婚51生存时间(survival tim
15、e)失效时间(failure time)广义:从起点事件到终点事件所经历的时间跨度。其包括三个内容:事件的起点、事件的终点及测量单位(小时、日、月、年等)52起点事件终点事件生存时间完全数据与删失数据完全数据(Complete data)删失数据,截尾数据(Censored data)终点数据没有发生 失访/脱落(lost to follow-up,drop-out)其他竞争性事件 治疗措施改变53生存资料的统计分析方法 p统计描述:生存率及其标准误p统计推断:p总体生存率的可信区间估计;p两样本或多样本生存率比较p 生存过程的影响因素分析54生存资料的统计描述 生存概率与死亡概率 survi
16、val probability,dead probability 生存率survival function,cumulative survival probability 半数生存时间 median survival time55生存资料的统计推断 生存率的估计小样本的乘积极限法product-limit method(Kaplan-Meier法)大样本的寿命表法 life-table method 生存曲线的比较log-rank检验56生存曲线下降速度快表现为坡度大、曲线陡峭,说明其生存率较低或生期较短;若下降速度慢表现为坡度小、曲线平缓,说明其生存率较高或生期较长。57中位生存期或半数生存
17、期median survival time 仍有半数观察个体存活的时间。数值求解 图表法-通过生存率为50%从生存曲线粗略估计 线性内插法interpolation 若中位生存期越长,疾病预后越好;反之,预后越差。58生存率曲线的比较log-rank检验(对数秩检验)两时点生存率的比较生存率及标准误均有截尾值,所以不能用普通的二项分布的Z检验或分类资料的卡方检验比较两样本生存率。59对数秩检验的条件:要求各生存曲线不能交叉;交叉提示可能存在混杂因素,应采用多因素分析方法来校正或采用分层分析方法。6061Cox回归比例风险回归模型(proportional hazards regression
18、model)简称COX回归研究协变量与生存函数(风险函数)之间的关系。比例风险回归模型 ppXXXthth22110exp62pH(t)t时刻的hazard function);h0(t)为基准风险函数,与时间有关,任意分布;p比例风险(proportional hazard,PH)假设:任一时刻两组风险比是常数,比例系数为exp(.)风险比(Hazard Ratio,HR)风险比(Hazard Ratio,HR)同一时点两组风险函数之比63 ppippippiXXXthXthXXXthXthXXXthXth221102211022110)(/),(lnexp)(/),(exp,)(exp,j
19、ijiXXXthXth41名某恶性肿瘤病人的生存时间及其影响因素6441名某恶性肿瘤病人的多变量Cox回归结果65生存资料的基本要求p随机样本,数量足够p死亡例数不能太少p截尾比例不能太大p生存时间尽可能精确,如日66作业 请从应变量类型、模型表达形式、回归系数解释小结多元线性回归、logistic回归与Cox回归三个多因素分析方法 为什么要设置哑变量?以下是logistic回归分析结果,试解释结果x2年龄:5岁=1;5岁=2;15岁=3;45岁=4;65岁=5);x6自感疾病严重程度:不严重=1;一般=2;严重=3;x7发病时间:急性病两周内发生=1,急性病两周前发生延 续到两周内=2 慢性病持续到两周内=3;Y就诊 就诊=0,未就诊=1