医学信息学论文SPSS分类树应用课件.ppt

上传人(卖家):晟晟文业 文档编号:3808205 上传时间:2022-10-15 格式:PPT 页数:88 大小:1.92MB
下载 相关 举报
医学信息学论文SPSS分类树应用课件.ppt_第1页
第1页 / 共88页
医学信息学论文SPSS分类树应用课件.ppt_第2页
第2页 / 共88页
医学信息学论文SPSS分类树应用课件.ppt_第3页
第3页 / 共88页
医学信息学论文SPSS分类树应用课件.ppt_第4页
第4页 / 共88页
医学信息学论文SPSS分类树应用课件.ppt_第5页
第5页 / 共88页
点击查看更多>>
资源描述

1、SPSS Classification Trees 分类树的应用分类树的应用深圳市医学信息中心深圳市医学信息中心罗春花罗春花内容内容基本概念基本概念快速入门快速入门知识拓展知识拓展一、基本概念一、基本概念什么是分类树?什么是分类树?对资料的要求对资料的要求用途用途如何确定变量的重要性、相互关系、交如何确定变量的重要性、相互关系、交互作用互作用分类树的优缺点分类树的优缺点分类树的运算法则分类树的运算法则1.什么是分类树?什么是分类树?分类树产生一个基于树状的分类模型;分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分

2、类分析测因变量;是探索性和证实性分类分析的有效工具。的有效工具。2.对资料的要求:任何类型对资料的要求:任何类型不要求解释变量不要求解释变量Xi 和结果变量和结果变量Y具有某种特具有某种特定的分布。定的分布。允许不同数据类型的解释变量一起进入模允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。型,可以使用不同数据类型的结果变量。传统方法对资料的类型和分布有相对严格传统方法对资料的类型和分布有相对严格的规定(如多元线性回归);不易处理共的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作线性问题和多水平变量之间复杂的交互作用(如用(如logistic 回

3、归)。回归)。根据解释变量对结果变量进行分类和根据解释变量对结果变量进行分类和预测。预测。识别影响因素间的交互作用识别影响因素间的交互作用3.用途用途1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素儿童肥胖症的儿童肥胖症的高危人群和低危人群高危人群和低危人群4.变量的重要性及变量的重要性及变量间的相互关系如何确定?变量间的相互关系如何确定?解释变量的重要性表现为该解释变量解释变量的重要性表现为该解释变量出出现在树干的起始部位,或离起始部位很现在树干的起始部位,或离起始部位很接近接近;另一方面,重要性还表现为同一;另一方面,重要性还表现为同一解释变量解释变量多次在模型中出现多次在模型中出

4、现。利用解释变量之间上下的关系分析解释利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变某些解释变量在单因素分析时与结果变量之间无明显关联,而在模型中的某些量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量局部有明显的效应,提示这些解释变量之间可能存在交互作用。之间可能存在交互作用。5.分类树的优缺点分类树的优缺点是一种新的多因素分析方法,其结果直是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布数据及变量

5、之间的共线性,对资料分布无任何要求。无任何要求。只适合大样本资料。如果结果变量是连只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。结果变量是分类资料,样本含量要大。6.运算法则运算法则 CHAID 结果变量:分类资料(最常结果变量:分类资料(最常用)用)、计量或等级资料、计量或等级资料Exhaustive CHAID:结果变量:分类资结果变量:分类资料(最常用)料(最常用)、计量或等级资料、计量或等级资料CRT结果变量:计量资料(最常用)、结果变量:计量资料(最常用)、分类或等级资料分类或等级资料QUEST

6、 结果变量:仅用于分类资料结果变量:仅用于分类资料二、快速入门二、快速入门 Quick Start1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素银行对客户的信贷风险评估银行对客户的信贷风险评估学生压力的影响因素分析学生压力的影响因素分析(一)结果变量是分类资料(一)结果变量是分类资料 例例1 1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素性别:男、女性别:男、女年龄组:年龄组:7-9岁,岁,10-12岁,岁,13-15岁,岁,16岁岁胆固醇:胆固醇:5.18(mmol/L),5.18(mmol/L)甘油三脂:甘油三脂:0.50(mmol/L),0.50(mmol/L)1.数

7、据文件数据文件2.SPSS过程过程单击单击OK(不必在此定义变量属性)(不必在此定义变量属性)右键单击变量,定义变量类型右键单击变量,定义变量类型定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:Scale定义变量定义变量“性别性别”Nominal定义变量定义变量“年龄组年龄组”Ordinal定义变量定义变量“胆固醇胆固醇”Nominal定义变量定义变量“甘油三脂甘油三脂”Nominal 定义变量定义变量“肥胖症肥胖症”Nominal肥胖症肥胖症Dependent Variable性别、年龄组、胆固醇、甘油三脂

8、性别、年龄组、胆固醇、甘油三脂 Independent VariableGrowing Method Exhaustive CHAID单击单击OK3.主要结果主要结果例例2 2 银行对客户的信贷风险评估银行对客户的信贷风险评估A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk.Based on various factors,including the known credit ratings of past custom

9、ers,you can build a model to predict if future customers are likely to default on their loans.1.数据文件数据文件2.To Obtain Classification TreesAnalyzeClassify Tree.3.Define Variable Properties定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:ScaleClassification Tree dialog boxDefine Variab

10、le Properties可对变量设置变量值标签可对变量设置变量值标签可更改变量类型和设置变量值标签可更改变量类型和设置变量值标签单击单击OK4.分类树分类树主主对话框对话框(1)Selecting CategoriesGrowing Method:CHAID(2)Force the first variable Influence variable 一般不选择这一般不选择这2项项(3)Validation 是否需要交叉核实和是否需要交叉核实和分开分开2样本核实?样本核实?默认:不需要默认:不需要 (4)CriteriaGrowth Limits、CHAID、IntervalsTree Dep

11、th:AutomaticParent Node:400;Child Node:200CriteriaCHAID,默认拆分及合并的检验水准均定位拆分及合并的检验水准均定位0.05CriteriaIntervals,对连续性变量,默认分为10个区间(5)Output treeTree in table format:非默认,可不选非默认,可不选Output StatisticsOutput Plots5.主要结果主要结果CHAID,Exhaustive CHAIDModel Summary:记录了主要操作:记录了主要操作Model SummaryCHAIDCredit ratingAge,Inco

12、me level,Number of credit cards,Education,Car loansNONE3400200Income level,Number of credit cards,Age1063Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild NodeSpecificationsIndependent VariablesIncludedNumber of NodesNum

13、ber of TerminalNodesDepthResultsTree Editor改变图形方向改变图形方向增大图形增大图形单击单击“”或右键或右键隐蔽子结隐蔽子结Hide ChildrenTree Table(非默认,可不选)(非默认,可不选)Tree Table102041.4%144458.6%2464100.0%Good45482.1%9917.9%55322.4%Bad0Incomelevel.000662.4572 Medium42256.7%32243.3%74430.2%Bad2Number ofcreditcards.000193.11315 or more5413.8%3

14、3686.2%39015.8%Good2Number ofcreditcards.000193.1131Less than 58017.6%37582.4%45518.5%Good3Number ofcreditcards.00038.58715 or more103.1%31296.9%32213.1%Good3Number ofcreditcards.00038.5871Less than 521180.8%5019.2%26110.6%Bad4Age.00095.2991 28.079205818990676Node0123456789NPercentBadNPercentGoodNPe

15、rcentTotalPredictedCategoryParent NodeVariableSig.aChi-SquaredfSplit ValuesPrimary Independent VariableGrowing Method:CHAID Dependent Variable:Credit rating Bonferroni adjusteda.Target Category:Bad子结子结1、8对区分对区分Bad的区分作用大的区分作用大Bad的比例的比例41.4(1020/2464)Index=Response/41.4*100%Gains for Nodes55322.4%4544

16、4.5%82.1%198.3%26110.6%21120.7%80.8%195.3%48319.6%21120.7%43.7%105.5%45518.5%807.8%17.6%42.5%39015.8%545.3%13.8%33.4%32213.1%101.0%3.1%7.5%Node189657NPercentNodeNPercentGainResponseIndexGrowing Method:CHAID Dependent Variable:Credit rating 246=2464*10%;493=2464*20%;如累计如累计Gain Percent快速接近快速接近100,则分类和

17、预测效果好则分类和预测效果好Gains for Percentiles 124620219.8%82.1%198.3%149340539.7%82.1%198.3%1;873960459.3%81.8%197.6%8;998674072.6%75.1%181.3%9123284883.1%68.8%166.2%9;6147890889.0%61.4%148.4%6172595193.3%55.1%133.2%6;5197198696.7%50.0%120.9%5;72218101299.3%45.6%110.3%724641020100.0%41.4%100.0%Percentile10203

18、0405060708090100NodesNNPercentGainResponseIndexGrowing Method:CHAID Dependent Variable:Credit rating 横坐标为调查总例数的百分比,纵坐标为目标分横坐标为调查总例数的百分比,纵坐标为目标分类如类如bad的百分比。的百分比。1009080706050403020100P ercenti l eP ercenti l e100%80%60%40%20%0%G ai nG ai nD ependent Vari abl e:C redi t rat i ngG row i ng M et hod:C H

19、 AI DTarget C ategory:B adTarget C ategory:B adFor a good model,the index value should start well above 100%,remain on a high plateau as you move along(说明区分度高的(说明区分度高的节点多)节点多),and then trail off sharply toward 100%.For a model that provides no information,the line will hover around 100%for the entir

20、e chart.从应答率或检出率的角度,说明各节点的作从应答率或检出率的角度,说明各节点的作用。如果多数节点的应答率接近用。如果多数节点的应答率接近41.4(1020/2464,没有建立模型的情况),则说,没有建立模型的情况),则说明模型效果不好。明模型效果不好。模型评价:总的正确率模型评价:总的正确率是是79.5,Bad的正确率的正确率是是65.2。Risk.205.008EstimateStd.ErrorGrowing Method:CHAID Dependent Variable:Credit ratingClassification66535565.2%149129589.7%33.0

21、%67.0%79.5%ObservedBadGoodOverall PercentageBadGoodPercentCorrectPredictedGrowing Method:CHAID Dependent Variable:Credit rating 小结:小结:Dependent为分类变量的操作为分类变量的操作单击单击OK选择选择CHAID;单击;单击CategoriesBad TargetOutput TreeOutput StatisticsOutput Plots是否需要交叉核实和分开是否需要交叉核实和分开2样本核实?样本核实?默认:不需要默认:不需要Criteria Growth

22、 Limits默认类别分默认类别分3层;母结层;母结100,子结,子结50;本例样本大,调整为本例样本大,调整为400,200如有过多的如有过多的Missing data:用用CRT or QUEST methods取代取代(二)结果变量是连续资料(二)结果变量是连续资料学生压力的影响因素分析(学生压力的影响因素分析(61例)例)性别:男;女性别:男;女专业:会计系;注册会计师系专业:会计系;注册会计师系专业满意:很满意;满意;一般;不满意专业满意:很满意;满意;一般;不满意学业成绩:很好;好;一般;较差学业成绩:很好;好;一般;较差压力总分:压力总分:0181.数据文件数据文件2.SPSS过

23、程过程单击单击OK定义变量定义变量“性别性别”、“系系”Nominal定义变量定义变量“专业满意专业满意”、“学业成学业成绩绩”Ordinal Growing Method:CRT;单击单击CriteriaParent Node:20;Child Node:10单击单击OK3.主要结果主要结果Parent NodeChild Node模型构建的主要参数如下模型构建的主要参数如下应变量为分类资料,选用应变量为分类资料,选用Exhaustive CHAID 或或CHAID算法。算法。拆分及合并的检验水准一般设置为拆分及合并的检验水准一般设置为0.05分类树的最大生长深度定为几层(默认分类树的最大生

24、长深度定为几层(默认为为3层,可最多设定层,可最多设定8层)?层)?设定母结点和子结点中的最少例数分别设定母结点和子结点中的最少例数分别为多少(默认:母结点为多少(默认:母结点100;子结点;子结点50)?)?知识拓展知识拓展对乳腺癌患者死亡的相关因素进行分类树分析对乳腺癌患者死亡的相关因素进行分类树分析主要操作主要操作主要结果主要结果在在Word中重新绘制的图形中重新绘制的图形2病理肿瘤大小(cm)2Node 1死亡率0.9%观察例数326Node 4死亡率19.1%观察例数89Node 5死亡率7.0%观察例数86Node 3死亡率6.0%观察例数439Node 0死亡率6.0%观察总例数

25、1207Node 2死亡率=4.1%观察例数2671.01.11.41.53.03.0未检测Node 6死亡率6.5%观察例数370Node 7死亡率15.9%观察例数69腋下淋巴结转移个数图1 乳腺癌患者死亡相关因素的分类树结果分类树方法及其结果的文字描述分类树方法及其结果的文字描述方法方法结果结果分类树分类树方法方法的文字描述的文字描述 采用分类树分析乳腺癌患者死亡的相关采用分类树分析乳腺癌患者死亡的相关因素。乳腺癌患者因素。乳腺癌患者1207例,因乳腺癌死亡例,因乳腺癌死亡72例。应变量例。应变量Y:乳腺癌死亡(:乳腺癌死亡(0:生存;:生存;1:死亡);自变量死亡);自变量X:病理肿瘤

26、大小(:病理肿瘤大小(cm)、)、腋下淋巴结转移个数、雌激素受体状态(阴腋下淋巴结转移个数、雌激素受体状态(阴性,阳性)、年龄(岁)和生存时间(月)。性,阳性)、年龄(岁)和生存时间(月)。用用Exhaustive CHAID法建立模型,用自法建立模型,用自动法选择分类树的深度,母节(动法选择分类树的深度,母节(Parent Node)和子节(和子节(Child Node)的最小例数分别为)的最小例数分别为100和和50。树节拆分及合并的检验水准均为。树节拆分及合并的检验水准均为0.05。分类树的深度有分类树的深度有2层(图层(图1),第),第1层为病理肿层为病理肿瘤大小,第瘤大小,第2层为腋

27、下淋巴结转移个数。终止节层为腋下淋巴结转移个数。终止节(Terminal Node)用方框表示,非终止节用椭圆)用方框表示,非终止节用椭圆表示。表示。病理肿瘤大小与死亡率关系最密切:在病理肿瘤大小与死亡率关系最密切:在1cm以以内,乳腺癌患者的死亡率最低(内,乳腺癌患者的死亡率最低(0.9),在),在3cm以以上,死亡率最高(上,死亡率最高(19.1)。)。腋下淋巴结转移个数也与死亡率有关联,而且腋下淋巴结转移个数也与死亡率有关联,而且与病理肿瘤大小存在交互作用。病理肿瘤大小在与病理肿瘤大小存在交互作用。病理肿瘤大小在1.5cm3.0cm的患者:腋下淋巴结转移个数在的患者:腋下淋巴结转移个数在2个个及以下,死亡率为及以下,死亡率为6.5;腋下淋巴结转移个数在;腋下淋巴结转移个数在2以上,死亡率为以上,死亡率为15.9。分类树分类树结果结果的文字描述的文字描述Thank you!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(医学信息学论文SPSS分类树应用课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|