1、o 教学对象:高等医学院校预防医学专业学生教学对象:高等医学院校预防医学专业学生o 实验课时:实验课时:4 4学时学时o 课程类型:专业实验课课程类型:专业实验课o 课程要求:必修课程要求:必修o 每组人数:每组人数:1 1人人实实 验验 目目 的的o 1.1.掌握多元回归分析的概念和偏回归系掌握多元回归分析的概念和偏回归系数、复相关系数,校正复相关系数,剩数、复相关系数,校正复相关系数,剩余标准差的意义;余标准差的意义;o 2.2.了解多元回归分析的步骤;了解多元回归分析的步骤;o 3.3.熟悉多元线性回归方程求法及假设检熟悉多元线性回归方程求法及假设检验的软件操作。验的软件操作。课堂知识复
2、习课堂知识复习o 多元线性回归多元线性回归(重点重点)o 自变量选择方法自变量选择方法(重点重点)o 多元线性回归的应用及注意事项多元线性回归的应用及注意事项0 0 常数项常数项i i偏回归系数偏回归系数(partial regression coefficient)(partial regression coefficient):在其它自变量保持不变时,在其它自变量保持不变时,X Xi i增加或减少增加或减少 一个单位时一个单位时Y Y的平均变化量。的平均变化量。e e 去除去除m m个自变量对个自变量对Y Y影响后的随机误差。影响后的随机误差。eXXXYmm22110 o 根据样本数据求得
3、模型参数估计值:根据样本数据求得模型参数估计值:o 对回归方程及各对回归方程及各XjXj作假设检验。作假设检验。mm22110XbXbXbbY 多元线性回归模型应用条件多元线性回归模型应用条件o Y Y与与X1X1,X2X2,XmXm之间具有线性关系;之间具有线性关系;o 各个各个YiYi间相互独立;间相互独立;o e e服从均数为服从均数为0 0、方差为、方差为 2 2的正态分布。的正态分布。反映了回归方程的精度,其值越小反映了回归方程的精度,其值越小说明回归效果越好。说明回归效果越好。说明所有自变量能解释说明所有自变量能解释Y Y变化的百分比。变化的百分比。取值(取值(0 0,1 1),越
4、接近),越接近1 1模型拟合越好模型拟合越好 。说明所有自变量与说明所有自变量与Y Y间的线性相关程间的线性相关程度。度。即观察值即观察值Y Y与估计值与估计值 之间的相关程度。之间的相关程度。响考虑了自变量个数的影,22RRcY各自变量的假设检验及评价各自变量的假设检验及评价1.1.偏回归平方和偏回归平方和 表示模型中含有其它表示模型中含有其它m-1m-1个自变量的条件下个自变量的条件下该自变量对该自变量对Y Y的回归贡献。其值愈大说明相的回归贡献。其值愈大说明相应的自变量愈重要。应的自变量愈重要。)()(残残回回1mn/SS1/XSSF 0.05 0:H ,0:H jjj1j0 2.t2.
5、t检验法检验法 3.3.标准化回归系数:标准化回归系数:用来比较各个自变量用来比较各个自变量Xj Xj 对对Y Y的影响程度大小;绝对值越大影响的影响程度大小;绝对值越大影响越大。越大。jbjjSbt o 全局选择法:全局选择法:对自变量各种不同的组合所建立的回对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个归方程进行比较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。1.1.校正决定系数选择法:校正决定系数选择法:所谓所谓“最优最优”回归方程指回归方程指校校正决定系数正决定系数最大者。最大者。2.Cp准则(C即criterion,p为所选模型中变量的个数;)全局
6、选择计算量很大:全局选择计算量很大:6 6个变量,计算个变量,计算26-1=6326-1=63个方程;个方程;1010个变量,计算个变量,计算210-1=1023210-1=1023个方程。个方程。o 逐步选择法逐步选择法 按选入变量顺序不同分按选入变量顺序不同分前进法、后退法前进法、后退法与与逐步回逐步回归法归法,共同特点是每一步只引入或剔除一个自变量,共同特点是每一步只引入或剔除一个自变量XjXj。1.1.前进法前进法(只选不剔)(只选不剔)开始方程中无自变量开始方程中无自变量,然后从方程外选取偏回归平,然后从方程外选取偏回归平方和最大的自变量作方和最大的自变量作F F检验以决定是否选入方
7、程,检验以决定是否选入方程,直至无自变量可以引入方程为止。直至无自变量可以引入方程为止。缺点:缺点:后续变量的引入可能使先前引入的变量变的后续变量的引入可能使先前引入的变量变的 不重要。不重要。2.2.后退法后退法(只剔不选)(只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程,然后从方程中选取偏回归平方和最小的自变量作中选取偏回归平方和最小的自变量作F F检验检验以决定是否从方程中剔除,直至无自变量可以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。以从方程中剔除为止。缺点:缺点:当某些自变量高度相关时,可能得当某些自变量高度相关时,可能得不出正确结果。不出正确结
8、果。3.3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作平方和最大的自变量作F F检验以决定是否选入检验以决定是否选入方程;每引一个自变量进入方程后,从方程中方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作选取偏回归平方和最小的自变量作F F检验以决检验以决定是否从方程中剔除;直至方程外无自变量可定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。引入,方程内无自变量可剔除为止。出出出出 P FF)1pn,1(jXj剔除剔除内剔内剔入入入
9、入 P FF)1pn,1(jXj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选入方程内自变量数越少。入方程内自变量数越少。入入值越大则反之。值越大则反之。小样本:小样本:入入=0.05=0.05,出出=0.10=0.10。大样本:大样本:入入=0.10=0.10,出出=0.15=0.15。入入出,以免出,以免XjXj上一步剔除后下一步又被上一步剔除后下一步又被选入选入多元线性回归的应用多元线性回归的应用o 影响因素分析影响因素分析o 估计与预测估计与预测o 统计控制统计控制多元线性回归应用的注意事项多元线性回归应用的注意事项1.1.指标的数量化指标的数
10、量化(1 1)自变量为连续型变量)自变量为连续型变量 :必要时作变换:必要时作变换(2 2)自变量为有序变量:依次赋值,如疗效)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值好中差,可分别赋值3 3、2 2、1 1(3 3)自变量为二分类:如令男)自变量为二分类:如令男1 1,女,女0 0(4 4)自变量为名义分类:需要采用哑变量()自变量为名义分类:需要采用哑变量(dummy variablesdummy variables)进行编码)进行编码 观察个体数观察个体数n n与变量个数与变量个数m m的比例一般至少的比例一般至少应为:应为:n:mn:m5 51010o 不同不同准则、方法准
11、则、方法得出的得出的“最优最优”方程不同;方程不同;o 不同的不同的引入、剔除标准引入、剔除标准获得的获得的“最优最优”方程不方程不同;同;o 方程还受数据的正确性、共线性影响方程还受数据的正确性、共线性影响自变量间存在着线性关系,使一个或几自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性变量与另外的自变量间存在有共线性.整个方程决定系数整个方程决定系数R2R2高,但各自变量对应的回高,但各自变量对应的回归系数均不显著。归系数均不显著。解决共线性的主要方法:解决共线性的主要方法:o 筛选自
12、变量筛选自变量o 用主成分回归用主成分回归o 岭回归。岭回归。o 当某一自变量对应变量的作用大小与另一个当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交自变量的取值有关时,则表示两个变量有交互作用(互作用(interactioninteraction)。)。o 检验两变量间有无交互作用,普遍的做法是检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考在方程中加入它们的乘积项再做检验。如考察察X1X1、X2X2间的交互作用,可在模型中加入间的交互作用,可在模型中加入X1X2X1X2项。项。6.6.SPSSSPSS软件操作过程软件操作过程 例:例
13、:某医生测定某医生测定2727名糖尿病病人的血糖名糖尿病病人的血糖Y(mmol/l)Y(mmol/l)、胰岛素、胰岛素X1(u/ml)X1(u/ml)、总胆固醇、总胆固醇X2(mmol/l)X2(mmol/l)、甘油三脂、甘油三脂X3X3(mmol/lmmol/l)、糖化)、糖化血红蛋白血红蛋白X4X4(%),实测数据如下表,试建),实测数据如下表,试建立血糖与其他四项指标关系的多元线性回归立血糖与其他四项指标关系的多元线性回归方程。方程。1.1.建立数据文件建立数据文件 打开打开SPSS Data EditorSPSS Data Editor窗窗口,点击口,点击 Variable ViewV
14、ariable View标签,定义要输入标签,定义要输入的变量血糖的变量血糖Y(mmol/l)Y(mmol/l)、胰岛素、胰岛素X1(u/ml)X1(u/ml)、总胆固醇总胆固醇X2(mmol/l)X2(mmol/l)、甘油三脂、甘油三脂X3X3(mmol/lmmol/l)、糖化血红蛋白)、糖化血红蛋白X4X4(%),再点),再点击击Data ViewData View标签,录入数据(见图)标签,录入数据(见图)Data View 窗口内录入数据窗口内录入数据2.分析步骤分析步骤 AnalyzeRegressionLinear Dependent:y Independent:x1、x2、x3、x4 Statistics Estimates:Confidence intervals:Model fit Descriptives Continue Options Missing Values Exclude case pairwise Continue OK