分类与决策树[1]课件.ppt

上传人(卖家):三亚风情 文档编号:3439783 上传时间:2022-08-31 格式:PPT 页数:58 大小:1.37MB
下载 相关 举报
分类与决策树[1]课件.ppt_第1页
第1页 / 共58页
分类与决策树[1]课件.ppt_第2页
第2页 / 共58页
分类与决策树[1]课件.ppt_第3页
第3页 / 共58页
分类与决策树[1]课件.ppt_第4页
第4页 / 共58页
分类与决策树[1]课件.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、2022-8-1分类与决策树1分类与决策树分类与决策树分类与决策树1银行个人住房贷款审批银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量数据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特降低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。征,以便对以后住房贷款申请的审批提供依据。2006年年底,由年年底,由SAS机构与招商银行启动了全机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。行个人住房贷款评分卡开发与推广项目。该项目利用客户

2、的历史数据构建评分卡模型,该项目利用客户的历史数据构建评分卡模型,然后将该模型应用到新客户上,最后决定是否接然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。受新客户的贷款申请。分析数据集应该包括哪些客户?分析数据集应该包括哪些客户?分类与决策树1银行贷款申请 IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYes

3、GoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1分类与预测 分类:分类:目标变量为非数值型目标变量为非数值型 预测:预测:目标变量为数值型目标变量为数值型 根据历史数据集(已知目标变根据历史数据集(已知目标变量),构建模型描述目标变量量),构建模型描述目标变量与输入变量之间的关系,并依与输入变量之间的关系,并依据模型来分类或预测新数据

4、(据模型来分类或预测新数据(目标变量值未知目标变量值未知)。分类模型也称为分类器。分类模型也称为分类器。模型应用模型应用建模建模规则规则1:If refund=no and marst=married then cheat=no模型评估模型评估分类与决策树1分类的过程数据集分区数据集分区 训练集训练集:建立模型:建立模型 验证集验证集:调整和选择模型:调整和选择模型 测试集测试集:评估模型的预测能力:评估模型的预测能力建立模型建立模型评估并选择模型评估并选择模型运用模型运用模型 新数据(打分集)新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?思考:分类模型在什么情况下不适合用于新数

5、据?分类与决策树1分类方法决策树方法决策树方法贝叶斯分类法贝叶斯分类法LOGISTIC回归回归神经网络方法神经网络方法K近邻分类法近邻分类法SVM分类法分类法.分类与决策树1RootLeafNode7决策树(decision tree)规则规则1:If refund=no and(marst=single or marst=divorced)and taxincome80k then cheat=yes分类与决策树1决策树 是一棵二叉或多叉树结构 每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出 叶子节点表示一个类标 决策树一般是自上而下生成的决策树一般是自上而下生成的

6、分类与决策树1l决策树基本思想决策树基本思想l建立决策树建立决策树l将决策树转换为决策规则并应用将决策树转换为决策规则并应用l相关问题讨论相关问题讨论内容分类与决策树1一、决策树思想将数据集根据某种测试条件分为将数据集根据某种测试条件分为2个或多个个或多个子集,使分裂后的子集在目标变量上具有更子集,使分裂后的子集在目标变量上具有更纯的分类纯的分类纯度与混杂度纯度与混杂度分类与决策树1混杂度的常用测度指标混杂度的常用测度指标 信息熵信息熵(Entropy)基尼指数(基尼指数(Gini Index)分类误差(分类误差(classification error)分类与决策树1Pj 是数据集合中类别是

7、数据集合中类别j的相对比例的相对比例.entropy=12信息熵信息熵(Entropy)什么情况下,熵最小?什么情况下,熵最小?什么情况下,熵最大?什么情况下,熵最大?lentropy=-1 log21-0 log20=0目标变量为二元变量:lentropy=-0.5 log20.5 0.5 log20.5=1分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7Mid

8、dleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的熵:银行贷款案例数据集的熵:Entropy(T)=6/15*log2(6/15)9/15*log2(9/15)=0.971分类与决策树1Gini 指数Pj 是数据集合中类别是数据集合中类别j的相对比例的相对比例.GI

9、NI最大最大=?GINI最小最小=?1-1/2 (目标变量为二元变量)(目标变量为二元变量)0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12Old

10、NoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的基尼指数:的基尼指数:gini=1-(6/15)2-(9/15)2=0.48分类与决策树1分类误差(分类误差(classification error)CE最大最大=?CE最小最小=?1-1/2 (目标变量为二元变量)(目标变量为二元变量)0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYe

11、s4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的分类误差:的分类误差:CE=1-9/15=6/15=0.4分类与决策树1二、建立决策

12、树二、建立决策树常用算法常用算法ID3-ID5,C4,C4.5,C5.0CART(Classification and Regression Trees分分类与回归树类与回归树)(C&RT)CHAID(chi-squared automatic interaction detection,卡方自动交互检测,卡方自动交互检测)二叉二叉 GINI 指数指数二叉或多叉二叉或多叉 信息熵信息熵二叉或多叉二叉或多叉分类与决策树1建立决策树建立决策树 树的生长树的生长 分裂属性及其条件的选择分裂属性及其条件的选择 何时结束分裂何时结束分裂 树的选择树的选择分类与决策树11.裂分目标与属性选择裂分目标裂分目

13、标 使分裂后数据子集的使分裂后数据子集的纯度纯度比裂分前数据集的纯度比裂分前数据集的纯度最大限度的提高最大限度的提高;即不同类别的观测尽量分散在不;即不同类别的观测尽量分散在不同的子集中。同的子集中。指标指标 信息增益与信息增益率信息增益与信息增益率 GINI指数的下降指数的下降 二分指数二分指数 卡方检验卡方检验 C-SEP、分类与决策树1信息增益Information Gain=裂分前数据集的熵裂分前数据集的熵 裂分后各子数据集的熵裂分后各子数据集的熵加权和加权和其中:权重为每个子集中的观测数在裂分前总其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例观测数中所占的比例分类与决策树

14、1案例数据集基于own_home属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14Old

15、YesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于ownhome属性划分划分后数据集的熵划分后数据集的熵EntropyOwn_home(T)=6/15*Entropy(T1)+9/15*Entropy(T2)=6/15*(6/6*log2(6/6)0/0*log2(0/6)+9/15*(3/9*log2(3/9)6/9*log2(6/9)=0.551 信息增益信息增益Gain(ownhome)=0.971-0.551=0.42Own_homeYesNoYes:6No:0No:6Yes:3 裂分前数据集的熵:裂分前数据集的熵:Entropy(T0)=6/

16、15*log2(6/15)9/15*log2(9/15)=0.971分类与决策树1案例数据集基于age属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12Ol

17、dNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于age属性划分裂分后数据集的熵裂分后数据集的熵EntropyAge(T)=5/15*Entropy(T1)+5/15*Entropy(T2)+5/15*Entropy(T3)=5/15*(3/5*log2(3/5)2/5*log2(2/5)+5/15*(3/5*log2(3/5)2/5*log2(2/5)+5/15*(1/5*log2(1/5)4/5*log2(4/5)=0.888 信息增益信息增益Gain(age)=0.971-0.

18、888=0.083AgeYoungMiddleOldYes:2No:3Yes:3No:2No:1Yes:4分类与决策树1案例数据集基于其它属性划分根据根据hasjob 和和credit划分后的熵分别为划分后的熵分别为EntropyHas_job(T)=0.647 EntropyCredit(T)=0.608信息增益分别为:信息增益分别为:Gain(hasjob)=0.324 Gain(credit)=0.363Gain(ownhome)=0.42Gain(age)=0.971-0.888=0.083has_jobYesNoYes:5No:0No:6Yes:4creditfairgoodexce

19、llentYes:1No:4Yes:4No:2No:0Yes:4Own_homeYesNoYes:6No:0No:6Yes:3分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNoOwn_homeYesNoNo:6Yes:3Yes:6No:0has_jobYesNoYe

20、s:3No:0No:6Yes:0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14

21、OldYesNoExcellentYes15OldNoNoFairNo信息增益方法偏向选择具有大量取值的属性信息增益方法偏向选择具有大量取值的属性分类与决策树1信息增益率信息增益率 假设按照属性假设按照属性S来划分来划分T,设,设S有有m个值,根据该属性的取值个值,根据该属性的取值将数据集将数据集T划分成划分成m个子集个子集T1,T2,Tm,设,设Tj的数据个数的数据个数是是tj。信息增益率可以通过如下公式计算得到:。信息增益率可以通过如下公式计算得到:其中,其中,如前面所定义,如前面所定义,的定义为的定义为 分类与决策树1信息增益率:案例数据集基于ownhome属性划分信息增益信息增益Gai

22、n(ownhome)=0.971-0.551=0.42SPLITI(ownhome)=-6/15*log2(6/15)9/15*log2(9/15)=0.971信息增益率信息增益率GR(ownhome)=0.42/0.971=0.433Own_homeYesNoYes:6No:0No:6Yes:3分类与决策树1GINI指数的下降 GINI指数的下降指数的下降 =裂分前数据集的裂分前数据集的GINI指数指数 裂分后各子裂分后各子数据集的数据集的GINI指数加权和指数加权和 其中:权重为每个子集中的观测数在裂其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例分前总观测数中所占的比例分类与决

23、策树1二分指数划分二分指数划分 对于在属性对于在属性s的划分的划分t,二分指数的改进量,二分指数的改进量为:(为:(j表示目标变量的取值)表示目标变量的取值)产生两个子节点间最大差异的属性产生两个子节点间最大差异的属性s被选择。被选择。分类与决策树1卡方检验划分 计算每个裂分的卡方值计算每个裂分的卡方值 选择卡方检验最显著的变量及其裂分分支选择卡方检验最显著的变量及其裂分分支分类与决策树1选择裂分属性及其裂分条件选择裂分属性及其裂分条件 测试每个属性及其可能的裂分条件,计算裂分测试每个属性及其可能的裂分条件,计算裂分指标,选择最佳者。指标,选择最佳者。注意:注意:对取值范围比较大的类别属性,可

24、考虑分组泛化对取值范围比较大的类别属性,可考虑分组泛化 对有序类别属性,划分不能改变其顺序性对有序类别属性,划分不能改变其顺序性 对数值型属性,理论上需要测试各种可能的划分条件,对数值型属性,理论上需要测试各种可能的划分条件,实际上可以进行实际上可以进行优化测试优化测试。也可以进行离散化处理。也可以进行离散化处理。34排序排序类标号改变的临界点中间值作为候选划分阈值类标号改变的临界点中间值作为候选划分阈值分类与决策树1PersonHair LengthWeightAgeClass Homer0”25036MMarge10”15034FBart2”9010MLisa6”788FMaggie4”2

25、01FAbe1”17070MSelma8”16041FOtto10”18038MKrusty6”20045M35分类与决策树1PersonHair LengthWeightAgeClassMaggie4”201FLisa6”788FBart2”9010MMarge10”15034FSelma8”16041FAbe1”17070MOtto10”18038MKrusty6”20045M Homer0”25036M分类与决策树1Weight=165?yesno划分前:划分前:Entropy(4F,5M)=-(4/9)log2(4/9)-(5/9)log2(5/9)=0.9911Entropy(4F,

26、1M)=-(4/5)log2(4/5)-(1/5)log2(1/5)=0.7219Entropy(0F,4M)=-(0/4)log2(0/4)-(4/4)log2(4/4)=0Gain(Weight=165)=0.9911 (5/9*0.7219+4/9*0)=0.590037分类与决策树12.裂分停止条件裂分停止条件每个叶子节点都属于同一个类别;每个叶子节点都属于同一个类别;有可能得到一个非常大的树,某些叶子节点只有可能得到一个非常大的树,某些叶子节点只包含很少的观测。包含很少的观测。节点包含的观测个数小于某个指定值;节点包含的观测个数小于某个指定值;裂分的目标指标(例如:信息增益、信息增益

27、率裂分的目标指标(例如:信息增益、信息增益率)非常小;)非常小;树的深度达到了预先指定的最大值。树的深度达到了预先指定的最大值。预剪枝预剪枝38分类与决策树13.树的选择树的选择 分类模型的优劣一般情况下可根据分类的准分类模型的优劣一般情况下可根据分类的准确度(或分类误差)来判断。确度(或分类误差)来判断。训练误差:在训练集上的误差训练误差:在训练集上的误差 泛化误差:在非训练集上的期望误差泛化误差:在非训练集上的期望误差在验证数据集上的预测误差是泛化误差的无偏估计。在验证数据集上的预测误差是泛化误差的无偏估计。分类与决策树1过拟合过拟合 好的分类模型:好的分类模型:低训练误差低训练误差 低泛

28、化误差低泛化误差 拟合不足:拟合不足:较高训练误差较高训练误差 较高泛化误差较高泛化误差 过拟合:过拟合:低训练误差低训练误差 较高泛化误差较高泛化误差分类与决策树1过拟合分类与决策树1过拟合处理策略过拟合处理策略-剪枝剪枝 给树剪枝就是剪掉给树剪枝就是剪掉“弱枝弱枝”(指的是在(指的是在验证数据上误分类率高的树枝)。验证数据上误分类率高的树枝)。为树剪枝会增加训练数据上的错误分为树剪枝会增加训练数据上的错误分类率,但精简的树会提高新数据上的预类率,但精简的树会提高新数据上的预测能力。测能力。分类与决策树1决策树剪枝决策树剪枝 预剪枝(提前终止裂分)预剪枝(提前终止裂分)在树没有完全扩张之前就

29、停止树的生长,即不要求在树没有完全扩张之前就停止树的生长,即不要求每个叶子节点内的每一个属性值都相同,或者属每个叶子节点内的每一个属性值都相同,或者属于同一类别。于同一类别。后剪枝后剪枝 用新的叶子节点(类标号为多数类)代替子树;用新的叶子节点(类标号为多数类)代替子树;用子树中最常用的分枝代替子树;用子树中最常用的分枝代替子树;分类与决策树1后剪枝训练集:验证集:训练后得到的决策树:colorcolorx2x2classclassredredsuccesssuccessbluebluefailurefailurebluebluefailurefailurecolorcolorx2x2clas

30、sclassredredfailurefailureredredfailurefailureredredfailurefailurebluebluesuccesssuccessfailure验证集误差:验证集误差:41分类与决策树1最小误差树与最佳剪枝树最小误差树与最佳剪枝树分类与决策树1三、产生分类规则并应用三、产生分类规则并应用对从根到叶节点的每一条路径创建一条规则:对从根到叶节点的每一条路径创建一条规则:沿着给定路径上的每个划分沿着给定路径上的每个划分 用逻辑用逻辑AND形成分类规则的形成分类规则的IF部分,对应叶节点的类别形成部分,对应叶节点的类别形成THEN部分。部分。例如:例如:R

31、1:IF Own_home=yes THEN Class=yesR2:IF Own_home=No AND Has_job=Yes THEN Class=YesR3:IF Own_home=No AND Has_job=No THEN Class=NoOwn_homeYesNoNo:6Yes:3Yes:6No:0has_jobYesNoYes:3No:0No:6Yes:0规则的覆盖率规则的覆盖率 准确率准确率分类与决策树1四、问题讨论四、问题讨论 缺失值问题缺失值问题 决策树叶子节点的准确含义决策树叶子节点的准确含义 决策树方法的特点与改进决策树方法的特点与改进 目标变量在数据集样本与总体的分

32、布不一目标变量在数据集样本与总体的分布不一致时如何处理?致时如何处理?分类与决策树1变量值缺失问题变量值缺失问题 训练集中的输入变量值缺失训练集中的输入变量值缺失 新数据中裂分变量值缺失新数据中裂分变量值缺失使用代理划分使用代理划分假定假定X*是节点是节点t的最佳划分的最佳划分s*的裂分变量,代理的裂分变量,代理划分划分s(划分效果最接近(划分效果最接近s*)使用另外一个输入)使用另外一个输入变量变量X。如果要预测的新记录在如果要预测的新记录在X*上有缺失值而在上有缺失值而在X变量变量上没有缺失值,则预测将使用代理划分上没有缺失值,则预测将使用代理划分s。分类与决策树1问题讨论问题讨论 缺失值

33、问题缺失值问题 决策树叶子节点的准确含义决策树叶子节点的准确含义 决策树方法的特点与改进决策树方法的特点与改进 目标变量在数据集样本与总体的分布不一目标变量在数据集样本与总体的分布不一致时如何处理?致时如何处理?分类与决策树1决策树叶子节点的准确含义PersonHair LengthWeightAgeClass Homer0”25036MMarge10”15034FBart2”9010MLisa6”788FMaggie4”201FAbe1”17070MSelma8”16041FOtto10”18038MKrusty6”20045MP(class=M)=100%P(class=F)=80%Wei

34、ght=165?yesno分类与决策树1问题讨论问题讨论 缺失值问题缺失值问题 决策树叶子节点的准确含义决策树叶子节点的准确含义 决策树方法的特点与改进决策树方法的特点与改进 目标变量在数据集样本与总体的分布不一目标变量在数据集样本与总体的分布不一致时如何处理?致时如何处理?分类与决策树1决策树分类方法的特点决策树分类方法的特点优点:优点:1)可以生成容易理解的规则;可以生成容易理解的规则;2)计算量相对来说不是很大;计算量相对来说不是很大;3)可以处理连续和离散变量;可以处理连续和离散变量;4)可以清晰的显示哪些变量比较重要。可以清晰的显示哪些变量比较重要。5)对输入变量的缺失值、噪声、冗余

35、属性不敏感对输入变量的缺失值、噪声、冗余属性不敏感缺点:缺点:1)对数值型变量需要进行离散化或候选划分较多;对数值型变量需要进行离散化或候选划分较多;2)模型稳定性受数据影响较大;模型稳定性受数据影响较大;3)一般的算法一次只能根据一个变量来裂分一般的算法一次只能根据一个变量来裂分分类与决策树1单属性裂分VS多属性裂分分类与决策树1决策树方法改进决策树方法改进提高算法可伸缩性提高算法可伸缩性RainForest(雨林)算法(雨林)算法 在每个节点,对每个属性维护一个在每个节点,对每个属性维护一个AVC(属性(属性-值,类值,类标号及其计数)集,将其存于内存中。标号及其计数)集,将其存于内存中。分类与决策树1决策树方法改进决策树方法改进 自助乐观算法自助乐观算法 可视化挖掘可视化挖掘基于感知的分类基于感知的分类(PBC)法法分类与决策树1问题讨论问题讨论 缺失值问题缺失值问题 决策树叶子节点的准确含义决策树叶子节点的准确含义 决策树方法的特点与改进决策树方法的特点与改进 目标变量在数据集样本与总体的分布不一目标变量在数据集样本与总体的分布不一致时如何处理?致时如何处理?分类与决策树1后验概率的调整-设置先验概率条件下2022-8-1分类与决策树1

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(分类与决策树[1]课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|