1、2002级研究生医学统计学Multiple linear regression.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月Root MSE 反映了回归方程的精度,其值越小说明回归效果越好 0095. 20382. 41) 1/()(2.12,残残)(MSmnSSmnYYSmY.第四军医大学卫生统计学教研室 宇传华2002年12月determination coeffici
2、ent说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好 6008. 05519.2228412.8815519.2227107.13312总残总回SSSSSSSSR.s含义含义:被解释变量所解释的部分占总体离差:被解释变量所解释的部分占总体离差的大小。越大越好,但是不会超过的大小。越大越好,但是不会超过1。s缺点缺点:如果在模型中增加一个解释变量,模:如果在模型中增加一个解释变量,模型的解释功能增强了,型的解释功能增强了, 就增大了。这就给人就增大了。这就给人一个错觉:要使得模型拟合得好,就必须增一个错觉:要使得模型拟合得好,就必须增加解释变量。加解释变量。2R.第四军
3、医大学卫生统计学教研室 宇传华2002年12月 说明所有自变量与Y间的线性相关程度。 如果只有一个自变量,此时 7751. 06008. 02RRY|r|R .第四军医大学卫生统计学教研室 宇传华2002年12月 5282. 026/5519.22222/8412.8811) 1/()1/(1) 1(1)1 (122总残总残MSMSnSSpnSSpnnRRcY响考虑了自变量个数的影,22RRc.校正的决定系数校正的决定系数5282. 01)1 (222knRkRRc.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月 Parameter
4、Standard Standardized Variable DF Estimate Error t Value Pr |t| Estimate 变量变量 自由度自由度 回归系数回归系数 标准误标准误 t t值值 P P值值 标准化回归系数标准化回归系数 Intercept 22 5.94327 2.82859 2.10 0.0473 0 X1 22 0.14245 0.36565 0.39 0.7006 0.07758 X2 22 0.35147 0.20420 1.72 0.0993 0.30931 X3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948
5、X4 22 0.63820 0.24326 2.62 0.0155 0.397741mnSbtjbjj.第四军医大学卫生统计学教研室 宇传华2002年12月YjjYYjjjYYjjjjSSbnlnlbllbb) 1/() 1/( 变量变量回归系数回归系数b bj j标准化标准化回归系数回归系数bbj j 标准差标准差S SX1X10.142450.14245 0.07758 0.077581.5934 1.5934 X2X20.351470.35147 0.30931 0.309312.5748 2.5748 X3X3-0.27059-0.27059-0.33948-0.339483.6706
6、 3.6706 X4X40.63820.6382 0.39774 0.397741.8234 1.8234 Y Y2.9257 2.9257 .第四军医大学卫生统计学教研室 宇传华2002年12月1; 1;) 1(21)(mnmnSSSSSSFjj残回回 是在其它自变量存在于回归方程中的是在其它自变量存在于回归方程中的下,考察某一自变量下,考察某一自变量Xj对应变量对应变量Y的回归效应的回归效应 0:0:10jjHH;j=1,2,m .第四军医大学卫生统计学教研室 宇传华2002年12月 .第四军医大学卫生统计学教研室 宇传华2002年12月1. 变量多增加了模型的复杂度变量多增加了模型的复杂
7、度2. 计算量增大计算量增大3. 估计和预测的精度下降估计和预测的精度下降4. 模型应用费用增加模型应用费用增加.s1.残差平方和缩小与决定系数增大s2.残差均方缩小与调整决定系数增大s3. Cp统计量)2()()(qnMSSSCmpp残残的模型为最佳接近1)q( pC总残差总回归SSSSSSSSR12总残MSMSRc12.第四军医大学卫生统计学教研室 宇传华2002年12月二二 自变量筛选的常用方法自变量筛选的常用方法根据一些准则(根据一些准则(criterion)建)建立立 “最优最优”回归模型回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的
8、个数;)AIC(Akaikes Information Criterion)准则; .第四军医大学卫生统计学教研室 宇传华2002年12月 5282. 026/5519.22222/8412.8811) 1/()1/(1) 1(1)1 (122总残总残MSMSnSSpnSSpnnRRcY响考虑了自变量个数的影,22RRc.第四军医大学卫生统计学教研室 宇传华2002年12月Cp准则的计算公式准则的计算公式的模型为最佳接近提出年残残残残1)p()2()()(1()2()()(MallowsCL1964pmpmppCpnMSMSpnpnMSSSC.第四军医大学卫生统计学教研室 宇传华2002年12
9、月准则的计算公式准则的计算公式越小越好最小二乘法年由日本学者赤池提出AICpSnpnnAICpy)(2/ )ln(1973212.第四军医大学卫生统计学教研室 宇传华2002年12月 如果自变量个数为4,则所有的回归有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;。;当自变量数个数为50时,所有可能的回归为25011015个。.第四军医大学卫生统计学教研室 宇传华2002年12月 1. 前进法(forward selection)2. 后退法(backward elimination)3. 逐步回归法(stepwise regression)。 它们的共同特点
10、是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验1; 1;) 1(21)(pnpnSSSSSSFjj残回回.第四军医大学卫生统计学教研室 宇传华2002年12月 自变量从无到有、从少到多自变量从无到有、从少到多 Y Y对每一个自变量作直线回归,对回归平方和最对每一个自变量作直线回归,对回归平方和最大的自变量作大的自变量作F F 检验,有意义(检验,有意义(P P小)则引入。小)则引入。在此基础上,计算其它自变量的偏回归平方和在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作,选取偏回归平方和最大者作F F 检验,检验,。 局限性:即后续变量的引入可能会使先
11、进入方局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。程的自变量变得不重要。.第四军医大学卫生统计学教研室 宇传华2002年12月 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 偏回归平方和最小的变量,作偏回归平方和最小的变量,作F F 检验及检验及相应的相应的P P值,决定它是否剔除(值,决定它是否剔除(P P大)大) 。 建立新的回归方程。重复上述过程。建立新的回归方程。重复上述过程。 局限性:局限性:自变量高度相关时,可能得不出正自变量高度相关时,可能得不出正确的结果确的结果 。.第四军医大学卫生统计学教研室 宇传华2002年12月 双向筛选 ;
12、引入有意义的变量(前进法),剔除无意义变量(后退法) 小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。.第四军医大学卫生统计学教研室 宇传华2002年12月 .第四军医大学卫生统计学教研室 宇传华2002年12月 变异来源变异来源 自由自由度度SSMSFP总变异总变异26 222.5519回回 归归3133.098 44.366 11.41 0.0001残残 差差2389.4543.889.第四军医大学卫生统计学教研室 宇传华2002年12月 .第四军医大学卫生统计学教研室 宇传华2002
13、年12月.第四军医大学卫生统计学教研室 宇传华2002年12月影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月(1)自变量为连续型变量 :必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男1,女0.第四军医大学卫生统计学教研室 宇传华2002年12月 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编
14、码方法如下:.第四军医大学卫生统计学教研室 宇传华2002年12月 观察个体数n与变量个数m的比例一般至少应为:n : m510.第四军医大学卫生统计学教研室 宇传华2002年12月不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响.第四军医大学卫生统计学教研室 宇传华2002年12月 自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。回归系数的符号与由专业知识不符变量的重要性与专业不符.第四军医大学卫生统计学教研室 宇传华2002年12月
15、整个方程决定系数R2高,但各自变量对应的回归系数均不显著。解决共线性的主要方法:筛选自变量用主成分回归岭回归。.第四军医大学卫生统计学教研室 宇传华2002年12月 当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。.第四军医大学卫生统计学教研室 宇传华2002年12月00000000a. 二元正态b. y的标准差随x递增c. y关于x的回归是非线性的d. 非线性,且方差不等yyyyyyyyyyyyxxxxxxx.第四军医大学卫生统计学教研室 宇传华2002年12月残残残差标准差残差标准化残差:MSeMSYYeiiii一般标准化残差绝对值大于2考虑为异常点(outlier)(也称离群值).第四军医大学卫生统计学教研室 宇传华2002年12月.第四军医大学卫生统计学教研室 宇传华2002年12月.