1、生物医学数据挖掘生物医学数据挖掘Biomedical Data Mining2回顾第一章第一章 概论概论一、什么是数据挖掘一、什么是数据挖掘二、数据挖掘的过程二、数据挖掘的过程 三、数据挖掘方法的分类三、数据挖掘方法的分类预测型预测型描述型描述型3第一章 概论一、什么是数据挖掘一、什么是数据挖掘二、数据挖掘的过程二、数据挖掘的过程 三、数据挖掘方法的分类三、数据挖掘方法的分类四、数据挖掘性能评价四、数据挖掘性能评价1.1.评价准则评价准则2.2.样本的组织样本的组织3.3.预测型模型的性能评价预测型模型的性能评价4.4.描述型模型的性能评价描述型模型的性能评价4v评价准则:结果或模型评价准则:
2、结果或模型n准确性准确性n可理解性可理解性n性能性能n数据的噪声数据的噪声四、数据挖掘性能评价5v样本的组织样本的组织n所有样本属性已知所有样本属性已知n两类样本:相互独立两类样本:相互独立n学习样本学习样本/训练样本集:规律的总结训练样本集:规律的总结n测试样本集:评价、检验测试样本集:评价、检验四、数据挖掘性能评价6两类样本的分组7v随机分组法:随机分组法:通常:训练集通常:训练集(2/3),测试集,测试集(1/3)两类样本的分组模型评估8v交叉验证法:交叉验证法:如如 K折交叉验证法(一般随机分成折交叉验证法(一般随机分成10组)组)v留一法:适用样本数据更少的情况留一法:适用样本数据更
3、少的情况两类样本的分组9举例例例1.1.预测型模型预测型模型肺癌肺癌 干预干预(手术手术/手术化疗手术化疗)及预后(五及预后(五年生存)年生存)共共5 5万个样本,其中万个样本,其中1.71.7万干预后万干预后5 5年内死于年内死于肺癌肺癌如何组织数据进行数据挖掘?如何组织数据进行数据挖掘?10例例2.2.共共10001000个,其中个,其中315315个五年内死亡个五年内死亡如何组织数据?如何组织数据?例例3.3.共共4949个,个,1414个个5 5年内死亡,年内死亡,3535个存活个存活如何组织数据?如何组织数据?11总结:总结:n随机,分布与总体相近随机,分布与总体相近n计算成本的考虑
4、计算成本的考虑n样本要保证足够多,但不只是数量的多样本要保证足够多,但不只是数量的多少少12v预测型模型的性能评价预测型模型的性能评价n残差残差n混淆矩阵混淆矩阵 P10n灵敏度(灵敏度(sensitivity)n特异度(特异度(specificity)n分类正确率(分类正确率(accuracy)nROC(receiver operating characteristics curve)曲线)曲线四、数据挖掘性能评价13n灵敏度灵敏度n特异度特异度n分类正确率分类正确率四、数据挖掘性能评价FNFPTNTPTNTPaccuracyFNTPTPysensitivitFPTNTNyspecifici
5、t14例:例:ECG(electrocardiogram)诊断试验的结果诊断试验的结果 灵敏度灵敏度=?特异度特异度=?分类正确率分类正确率=?15v灵敏度与特异度灵敏度与特异度n取值:均在取值:均在0-1之间之间n缺点:单独使用,可能出现矛盾缺点:单独使用,可能出现矛盾n解决办法:解决办法:ROC曲线曲线 16vROC曲线曲线n灵敏度与特异度间的平衡灵敏度与特异度间的平衡(trade off)四、数据挖掘性能评价1特异度(假阳性率)特异度(假阳性率)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR灵灵敏敏度度机率线机率线(chance line)(diag
6、onal reference line)17完美结果完美结果0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR无用结果无用结果0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR18ROC曲线下面积(Area)高高 0.90-1.00=excellent(A)0.90-1.00=excellent(A)中中 0.80-0.90=good(B)0.70-0.80=fair(C)0.80-0.90=good(B)0.70-0.80=fair(C)低低 0.60-0.70=poor(D)0.50-0.60=fail(F)0.60-0.
7、70=poor(D)0.50-0.60=fail(F)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA0.664A0.8300.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA0.93819例例4.4.继续前例,继续前例,干预及预后(五年生存)干预及预后(五年生存)共共5 5万个样本,其中万个样本,其中1.71.7万干预后,万干预后,5 5年内死于年内死于肺癌,其余肺癌,其余3.33.3万存活。万存活。假定对上述数据分别建立了预测型模型假定
8、对上述数据分别建立了预测型模型A A和和B B,试比较两个模型的性能。试比较两个模型的性能。20v模型模型A Av模型模型B B21比较模型比较模型A A与与B B:22性能评价的作用:性能评价的作用:n如实表明,描述模型的性能如实表明,描述模型的性能n可以比较,模型性能的优劣、高低可以比较,模型性能的优劣、高低n同一问题可多个模型同一问题可多个模型n即使仅一个模型,可设计多个参数即使仅一个模型,可设计多个参数23总结第一章第一章 概论概论一、什么是数据挖掘一、什么是数据挖掘二、数据挖掘的过程二、数据挖掘的过程 三、数据挖掘方法的分类三、数据挖掘方法的分类四、数据挖掘性能评价四、数据挖掘性能评
9、价24第二章 数据采集与准备一、数据的采集和组织一、数据的采集和组织1.数据采集和管理数据采集和管理 2.数据的组织数据的组织 3.数据的类型数据的类型二、数据管理二、数据管理三、数据预处理三、数据预处理25一、数据的采集和组织1.1.数据采集和管理数据采集和管理n关系数据库关系数据库DBDBn既往的数据,如电子病例既往的数据,如电子病例n数据仓库数据仓库DWDWn面向特定目标的、集成的数据集合,面向特定目标的、集成的数据集合,如如HISHIS26一、数据的采集和组织2.2.数据组织数据组织n平面文件平面文件n记录:处理的对象记录:处理的对象n属性:一个特征属性:一个特征27一、数据的采集和组
10、织3.3.数据的类型数据的类型n数值:可运算,如年龄、血压数值:可运算,如年龄、血压n分类:文字或数字,不可运算分类:文字或数字,不可运算n二值型:二值型:对称:如性别:男、女对称:如性别:男、女非对称:如阳性非对称:如阳性1 1、阴性、阴性0 0n排序型排序型n数值型和分类型数据的转换数值型和分类型数据的转换28一、数据的采集和组织例例.采集原始数据采集原始数据姓名:姓名:IDID:性别:性别:年龄:年龄:血压:血压:肿瘤肿瘤TNMTNM分期:分期:29第二章 数据采集与准备一、数据的采集和组织一、数据的采集和组织二、数据管理二、数据管理1.Excel 2.关系数据库关系数据库三、数据预处理三、数据预处理30二、数据管理1.1.ExcelExcel数据管理数据管理n数据清单数据清单n排序、筛选排序、筛选n统计分析统计分析n分类汇总分类汇总31二、数据管理2.2.关系数据库关系数据库n数据定义数据定义n排序、索引和筛选排序、索引和筛选n查询和统计查询和统计