1、浙江大学医学院流行病与卫生统计学教研室 沈毅分类树与回归树分析决策树分类浙江大学医学院流行病与卫生统计学教研室 沈毅饮酒与产妇年龄发生早产的风险饮酒与产妇年龄发生早产的风险:低风险高风险浙江大学医学院流行病与卫生统计学教研室 沈毅 决策树的基本概念:决策树的基本概念:分类分类:决策树分为分类树分类树和回归树回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。过程:过程:通过递归分割的过程构建决策树通过递归分割的过程构建决策树。寻找初始分裂:整
2、个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。生成一棵完整的树:重复第一步,直至每个叶节点内的记录都属于同一类。数据的修剪:不同的算法有不同修剪规则(修剪成大小合适的树)。浙江大学医学院流行病与卫生统计学教研室 沈毅 CHAID(Chi-squared Automatic Interaction Detector),由Kass于1980年提出,其核心思想是:根据给定的结果
3、变量(即目标变量)和经过筛选的特征指标(即预测变量)对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是:首先选定分类的目标变量,然后用分类指标与结果变量进行交叉分类,产生一系列二维分类表,分别计算二维分类表的2值,比较P值的大小,以P值最小的二维表作为最佳初始分类表,在最佳二维分类的基础上继续使用分类指标对目标变量进行分类,重复上述过程直到P大于设定的有统计意义的值时则分类停止。目标变量可以为nominal、ordinal、continuous三种类型,每个拆分点可以有多个子结点。一、方法选择一、方法选择浙江大学医学院流行病与卫生统计学教研室 沈毅 Exhaus
4、tive CHAID,由Biggs于1991年提出,通过连续合并相近的对子反复检测来选择最佳拆分点,相对于CHAID法需要花费较长的时间。目标变量可以为nominal、ordinal、continuous三种类型,其每个拆分点可以有多个子结点。浙江大学医学院流行病与卫生统计学教研室 沈毅 C&RT(Classification and Regression Trees),由Breiman等于1984年首次提出,CART在计算过程中充分利用二叉树的结构,即根结点包含所有样本,对预测变量应用多种统计方法反复运算,将根结点分割为两个子结点,这个过程又在子结点上重复进行,成为一个回归过程,直至不可再分
5、成为子结点为止,最后产生同质的与目标变量有关的子集。其目标是以尽量小的树将目标变量分入同质的组中。目标变量也可以为nominal、ordinal、continuous三种类型,其最终生成一个二叉树。浙江大学医学院流行病与卫生统计学教研室 沈毅 QUEST(Quick,Unbiased,Efficient Statistical Tree),由Loh和Shih于1997年提出,是一种快速且可避免由多分类预测变量引起的偏倚的算法。目标变量仅限于nominal型,且其最后生成的是二叉树。浙江大学医学院流行病与卫生统计学教研室 沈毅二、模型定义二、模型定义 在这一步可以选择并定义目标变量和预测变量,如
6、果选择了QUEST法,则目标变量只能为nominal型。要改变变量的类型,可以对变量类型进行重定义(define variables)。(注意:目标变量类型的不同,树枝修剪的规则也不同)浙江大学医学院流行病与卫生统计学教研室 沈毅三、模型验证三、模型验证设定合适的验证模型的方式:Do not validate the tree:不另外建立数据集对模型进行验证,模型的建立 和检验都基于整个数据集。Partition my data into subsamples:整个数据文件成两部分,即训练样 本(training sample)和检验样本(testing sample),如果通过训练样本 生成
7、的模型能够较好地拟合检验样本,则表明生成的决策树对类似于当 前数据集结构的更大的数据集具有较好的通用性。在生成满意的训练样本的决策树后,对样本进行检验,决策树即变为应用 检验样本后的结果,接着通过考察估计误差、gain系数,可以决定生成的 决策树的通用程度。当样本量较大时可以选择该法。Cross-validation:该法将整个数据集拆分成数个相等大小的部分,分别以 每一部分作为检验样本,其余部分作为训练样本,生成数个决策树,并计 算各个决策树的危险估计(risk estimates)的平均值。该法适用于样本量较 小的情形。浙江大学医学院流行病与卫生统计学教研室 沈毅四、修剪树枝四、修剪树枝
8、在这一步中可以通过设置树状图的最大层数(Maximum Tree Depth)、根结点(Parent Node)及子结点(Child Node)的最小例数(Minimum Number of Cases)来确定生成树的终止规则(Stoping Rules);终止规则会随着所选定算法的不同而不同;当目标变量是nominal型时,还可以估计对错误分类造成的费用(costs);总之,这一部分比较复杂也较难掌握。浙江大学医学院流行病与卫生统计学教研室 沈毅五、实例分析五、实例分析 分类决策树(回归树)在病例组合中的应用 根据医疗资源消耗相近的原则,选取每个病例的住院总费用为分组轴心(即目标变量),以年
9、龄、婚否、性别、手术、护理、抢救、伴随病、费用类别、入院情况、转归情况为分类结点(即预测变量),并对目标变量和预测变量进行重新编码。变 量 量化方法或单位 目标变量 住院总费用(元)预测变量 年龄 1:020岁 2:2140岁 3:4160岁 4:61岁 婚否 1:未婚 2:已婚 3:离婚 4:丧偶 性别 1:男 2:女 手术 0:无 1:有 护理 0:无 1:有 抢救 0:无 1:有 伴随病 0:无 1:有 费用类别 1:自费 2:公费 3:其它 入院情况 1:一般 2:急 3:危 转归情况 1:有效 2:死亡 3:其他 浙江大学医学院流行病与卫生统计学教研室 沈毅 由于住院总费用呈正偏态分
10、布,对其作对数变换,变换后的数据经正态性检验符合要求,故将其对数值作为目标变量。算法选用CHAID法,且抽取10的样本做回代检验。下图为生成的树形图。图图1:住院费用的回归树:住院费用的回归树浙江大学医学院流行病与卫生统计学教研室 沈毅从图可以看出,树的第一个结点是年龄,说明年龄与肠道传染病的住院总费用相关性最显著。其中,年龄在40岁以上者的总费用最高。在年龄为40岁以上者中,与住院总费用相关性最显著的为病人的费用类别,费用类别为非自费(公费及其它)者的总费用相对较高。因此,从图可以得出结论:年龄在40岁以上,并且费用类别为非自费的病人住院总费用最高。疾病名 ICD-9 分类结点1(年龄)分类
11、结点2(费用类别)结点3()新组合 的编码 肠道传染病 001-009 020岁 001 2140岁 002 41岁 自 费 003 公费及其它 004 从上表可以看出,经过CHAID分析,最后将肠道传染病重新组合为4个组,分别为:年龄为020岁的病人、年龄为2040岁的病人、年龄为四十岁以上且费用类别为自费的病人、年龄为40岁以上且费用类别为非自费的病人 浙江大学医学院流行病与卫生统计学教研室 沈毅 回代检验的树形图回代检验的结果与训练样本的结果基本一致,说明拟合较好,因此该决策树有较好的通用性。图2:回代检验的回归树浙江大学医学院流行病与卫生统计学教研室 沈毅训练样本和检验样本的误差率估计
12、值 R isk统 计 量 样 本 平 均 估 计 误 差 平 均 估 计 误 差 的 标 准 误 训 练 样 本 1.1394 0.0990 检 验 样 本 0.9677 0.1528 训练样本和检验样本的误差率估计值均较小,说明分类结果较为合理。通过以上分析我们可以得出结论:肠道传染病的住院总费用经过CHAID分析后,得到两个分类点,分别为年龄和费用类别,从而得到四个病例组合,其中年龄为40岁以上且费用类别为非自费的病人住院总费用最高,并且回代检验和Risk统计量的结果表明分析较为合理。浙江大学医学院流行病与卫生统计学教研室 沈毅(1)熟悉欲分析资料的变量特征,合理地选择目标变量及预测变量。
13、如上例中目标变量除住院总费用外,还可选用平均住院天数;(2)必须准确编码预测变量,并对其变量类型进行正确的设定;目标变量是连续变量时,须符合正态性的要求;(3)选用的算法不同会直接影响到模型的建立,因此,一定要根据实际情况,考虑目标变量及预测变量的类型,对树的算法作出合理的选择。对于可以同时选用几种算法的情形,可以对每种算法的结果进行分析,最后找出最佳的模型。(4)对于大样本的资料,可以选用模型验证的第二种方式进行回代检验,当样本量较小时,则应该选用第三种方式(Cross-validation)进行模型检验。(5)可以使用传统的统计模型与Tree模型的分析结果作一对比分析。六、注意事项六、注意
14、事项 浙江大学医学院流行病与卫生统计学教研室 沈毅七、决策树的优缺点七、决策树的优缺点优点:1、不受缺省值的影响,可充分利用缺省值。2、对异常值不敏感。3、树结构、判断规则呈现结果4、目标变量可以是多种类型的变量。5、变量间存在非线性、交互效应等同样适用。缺点:不稳定(不同的随机种子、不同的结点划分、不同的算法可能获得十分不同的结果)。浙江大学医学院流行病与卫生统计学教研室 沈毅八、八、Logistic模型和多元线性回归模型与决策树比较模型和多元线性回归模型与决策树比较比较内容Logistic分类树目标变量分类变量分量变量解释变量分类变量(最佳)分类或连续变量分布二项或多项分布二项或多项分布参
15、数估计能不能变量间的独立性有要求(无共线性)无要求Y与X的关系呈对称的S型关系无要求异常值的影响较大较小预测概率分类值分类人为分类自动分类(一)Logistic回归与分类树比较浙江大学医学院流行病与卫生统计学教研室 沈毅实例分析比较实例分析比较浙江大学医学院流行病与卫生统计学教研室 沈毅Logistic回归分析:Y=1 二分类变量 X 连续变量0)()()(221102211022110111xxxxxxeeep浙江大学医学院流行病与卫生统计学教研室 沈毅22110)(log)1ln(xxpitppLogit(p)与饮酒量呈线性关系浙江大学医学院流行病与卫生统计学教研室 沈毅Logit(p)与
16、年龄呈线性关系浙江大学医学院流行病与卫生统计学教研室 沈毅Logit(p)与饮酒和年龄的关系 饮酒与年龄的关系浙江大学医学院流行病与卫生统计学教研室 沈毅Logistic回归分析结果:V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n1.677.5997.8481.0055.3521.65517.304-4.0391.23710.6621.001.0183.7911.5086.3231.01244.2992.307850.488.328.1326.1711.0131.3881.0721.797-18.077
17、6.8157.0361.008.000drinkConstantStep1adrinkageConstantStep2bBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.for EXP(B)Variable(s)entered on step 1:drink.a.Variable(s)entered on step 2:age.b.如何解释饮酒和年龄的OR?)(01xeppoddseeeORx00)(浙江大学医学院流行病与卫生统计学教研室 沈毅C Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a
18、27584.47330.071.431196.93770.090.5Observed非早产早产早产Overall Percentage非早产早产早产Overall PercentageStep 1Step 2非早产早产早产PercentageCorrectPredictedThe cut value is.500a.Logistic回归预测(分类)结果:浙江大学医学院流行病与卫生统计学教研室 沈毅SPSS软件决策树分析:软件决策树分析:浙江大学医学院流行病与卫生统计学教研室 沈毅M Mo od de el l S Su um mm ma ar ry yCHAID早产饮酒量,年龄NONE3205
19、饮酒量,年龄532Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild NodeSpecificationsIndependent VariablesIncludedNumber of NodesNumber of TerminalNodesDepthResults分类树分析结果:浙江大学医学院流行病与卫生统计学教研室 沈毅1.饮酒量(x1)与早产的关系最大,且在饮酒量1.3(两/天)的组中
20、,年龄(x2)是影响其早产的重要因素。2.饮酒量x11.3(两/天)且年龄x2 26岁的孕妇具有最高的早产风险。浙江大学医学院流行病与卫生统计学教研室 沈毅比较内容多元线性回归回归树目标变量连续变量连续变量解释变量连续或分类分类或连续变量参数估计能不能分布正态分布正态分布变量间的独立性有要求(无共线性)无要求Y与X的关系呈线性关系无要求等方差有要求无要求异常值的影响较大较小预测个体分类值分类无自动分类(二)多元线性回归与回归树比较浙江大学医学院流行病与卫生统计学教研室 沈毅讨论:1、决策树在数据分析中的主要作用是什么?2、如何选择模型?3、能否用决策树分析来替代Logistic回归分析,为什么?4、多元线性回归与回归树的主要区别?5、产妇饮酒、产妇年龄与早产关系的分析可否用MANOVA?MANOVA分析与分类树的区别?6、决策树分析存在问题吗?主要问题是什么?