1、生物医学数据挖掘参考文献参考文献l1、生物医学数据挖掘(第二版)上海科学技术出版社l2、生物医学数据分析及其MATLAB实现 北京大学出版社l3、生物信息学 科学出版社生物医学数据挖掘2第一章第一章 概论概论31.1 什么是数据挖掘什么是数据挖掘l1.1.1数据、信息和知识l 数据是对客观事物特征状态的记录;数据也是信息及知识的载体。l如何从大量的数据中发现和找出以隐含方式存在于其中、有意义的信息和知识。生物医学数据挖掘4l1.1.2 数据挖掘的定义l 数据挖掘是对大量观察到的数据进行分析,以便从中发现事先未知的联系和规律的过程。l目的:让数据拥有者得到非常清晰而有用的结果(即信息和知识)生物
2、医学数据挖掘5生物医学数据挖掘6生物医学数据挖掘78数据挖掘分类挖掘任务挖掘任务挖掘对象挖掘对象挖掘方法挖掘方法常用聚类聚类分类分类关联关联回归与序列回归与序列生物医学数据挖掘8生物医学数据来源生物医学数据来源l人体生理信息的种类人体生理信息的种类形态形态身高、骨长、心脏、胃、肾等器官的几何形状、血管直径等身高、骨长、心脏、胃、肾等器官的几何形状、血管直径等振动振动心音、肠鸣音、呼吸音、血管音等心音、肠鸣音、呼吸音、血管音等压力压力血压、心内压、颅内压、胸腔内压、眼内压等血压、心内压、颅内压、胸腔内压、眼内压等速度速度血流速度、排尿速度、神经传导速度等血流速度、排尿速度、神经传导速度等流量流量
3、血流量、呼吸流量、尿流量等血流量、呼吸流量、尿流量等温度温度体表温度、口腔温度、血液温度、直肠温度、其他脏器温度等体表温度、口腔温度、血液温度、直肠温度、其他脏器温度等生物电生物电细胞电位、脑电、心电、胃电、肌电等细胞电位、脑电、心电、胃电、肌电等生物磁生物磁心磁、脑磁、胃磁等心磁、脑磁、胃磁等物理性质参数物理性质参数组织密度、对组织密度、对X射线的衰减系数、体内氢核分布、对超声波的声阻抗射线的衰减系数、体内氢核分布、对超声波的声阻抗等等化学成分化学成分O2、CO2、Na+等等生物量生物量酶、抗原、抗体、激素、神经递质、酶、抗原、抗体、激素、神经递质、DNA、RNA和蛋白质等和蛋白质等生物医学
4、数据挖掘91.2数据挖掘的应用及方法数据挖掘的应用及方法l1.2.1应用应用l1.(分类应用实例)乳腺疾病诊断(分类应用实例)乳腺疾病诊断l2.(回归应用实例)子宫颈癌患者存活率及其受各危险因(回归应用实例)子宫颈癌患者存活率及其受各危险因子影响模型子影响模型l3.(时间序列分析应用实例)胰岛素依赖性糖尿病变化趋(时间序列分析应用实例)胰岛素依赖性糖尿病变化趋势,变化周期势,变化周期l4.(预测应用实例)肾透析提高患者生存率(预测应用实例)肾透析提高患者生存率l5.(聚类应用实例)流行病学因素对肺癌患者临床医学状(聚类应用实例)流行病学因素对肺癌患者临床医学状况的影响况的影响l6.(关联规则分
5、析应用实例)患者住院期间感染影响患者(关联规则分析应用实例)患者住院期间感染影响患者健康健康l7.(序列发现,序列分析应用实例)基因比较(序列发现,序列分析应用实例)基因比较生物医学数据挖掘10l1.2.2方法方法l从学习对象和过程的角度看分为有指导学习和从学习对象和过程的角度看分为有指导学习和无指导学习无指导学习l有指导学习指学习样本的归属都是已知的,确有指导学习指学习样本的归属都是已知的,确定的。例如分类定的。例如分类l无指导学习指学习样本的归属事先并不确定或无指导学习指学习样本的归属事先并不确定或已知。例如聚类已知。例如聚类生物医学数据挖掘11l从学习方法的角度看,有多种数学工具可用:回
6、归分析学统计学方法,人工神经网络,决策树等l根据待解决问题的类型、要求,以及数据本身的特点,确定最佳方法。生物医学数据挖掘12数据挖掘技术数据挖掘技术数据挖掘任务的完成需要相应的数据挖掘技术。目前的数据挖掘算法主要来自3个领域:统计学、机器学习(人工智能)和数据库。数据挖掘的焦点是自动或半自动的挖掘模式。有些机器算法应用于数据挖掘,比如神经网络、遗传算法等。数据库技术是数据挖掘的第三种技术来源。因为数据挖掘需要处理大量数据,如何对大量数据进行处理,需要数据库技术。生物医学数据挖掘131.3生物医学数据挖掘的特殊性生物医学数据挖掘的特殊性l1.3.1医学数据的特殊性l1.原始数据数量大,且呈多样
7、性或异质性l2.有时很难以数学方式来表达其结构及特征l3.医学数据经常需要更新l4.采集医学数据很难完全避免噪声干扰l5.生物医学数据难免会发生丢失l6.医学数据可能包含冗余的、没有意义的或不一致的属性生物医学数据挖掘14l1.3.2伦理、法律和社会等方面对隐私敏感的问题l1.3.3医学的特殊性质生物医学数据挖掘151.4数据挖掘的评价数据挖掘的评价l1.4.1样本的组织l将原始样本数据组织成学习样本集和测试样本集的原则:尽可能使学习样本集和测试样本集中的样本分布和样本总体的分布一致,尽可能使学习样本集有足够多的样本。常用方法:生物医学数据挖掘16l1.随机分组法:将已知数据集合随机的分为互不
8、重叠的学习样本集和测试样本集。l2.交叉验证法:将原已知数据集随机的分为K组,依次以其中的一组数据为测试样本,而以其他数据为学习样本进行训练和测试。l3.留一法:是交叉验证法中当K等于原始样本数据量M时的特例。生物医学数据挖掘17l1.4.2有指导学习的评价(分类)被分类归于C1类被分类归于C2类被分类归于C3类实际属于C1类C11C12C13实际属于C2类C21C22C23实际属于C3类C31C32C333类分类的混淆矩阵生物医学数据挖掘18被分类归于阳性的样本被分类归于阴性的样本总计实际属于阳性的样本a,Ntpb,Nfna+b实际属于阴性的样本c,Nfpd,Ntnc+d总计a+cb+da+
9、b+c+d特异性和灵敏度的计算生物医学数据挖掘19l1.4.3无指导学习的评价l无指导学习数据挖掘目标往往不清晰,但有评价指导学习数据挖掘的一些原理,可沿用于评价无指导学习的性能。例如:聚类。生物医学数据挖掘20开源数据挖掘工具(平台)开源数据挖掘工具(平台)lWekalRlTanagralYALElKNIMElOrangelGGobi生物医学数据挖掘211.5数据挖掘的过程数据挖掘的过程l数据挖掘软件lIntelligent Miner(IBM)lClementine(SPSS)lEnterprise Miner(SAS)lMicrosoft SQL Server2005(Microsoft
10、)生物医学数据挖掘22l1.明确分析目的l2.组织及预处理数据l3.探索性分析数据l4.实施数据挖掘方法,并以此分析数据l5.评价和比较各种方法的性能,确定最终的结果l6.解释数据挖掘结果及其在本专业领域中的应用生物医学数据挖掘23生物医学数据挖掘24Wekal统计分析方面较弱,在机器学习方面要强得多生物医学数据挖掘25Rl用于统计分析和图形化的计算机语言及分析工具,支持系列分析技术,包括统计检验,预测建模,数据可视化生物医学数据挖掘26Tanagral使用图形界面的数据挖掘软件,强项是统计分析,提供了众多的有参和无参的检验方法,但缺乏高级的可视化能力生物医学数据挖掘27YALEl提供图形化界
11、面,提供了大量的运算符,包括数据处理,变换,探索,建模,评估等等环节。生物医学数据挖掘28KNIMEl采用类似数据流的方式来建立分析挖掘过程生物医学数据挖掘29Orangel提供大量的可视化方法,可对数据和模型进行多种图形化演示,并能智能搜索合适的可视化形式,支持对数据的交互式探索,弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。生物医学数据挖掘30生物医学数据挖掘31GGobil用于交互式可视化的开源软件生物医学数据挖掘32第二章第二章 医学数据采集医学数据采集与准备与准备332.1数据的采集与组织数据的采集与组织l2.1.1数据的采集、存储与管理l数据库系统(DBMS)是存储
12、,组织和管理数据的有效工具,由一组含有内部相关数据的数据文件和一组管理数据的软件程序组成,有时也简称为数据库(DB)。l数据仓库(DW)是一个面向特定研究目的、集成来自各个不同数据库的数据并相对稳定的数据集合,它是数据挖掘直接操作和处理的对象。生物医学数据挖掘34医院信息系统(HIS)药物信息数据库病房管理数据库临床检验数据库生物医学数据挖掘35l2.1.2数据的组织数据的组织l1.数据的结构数据的结构住院号住院号姓名姓名性别性别手术年龄手术年龄诊断诊断治疗方法治疗方法疗效疗效1001孙宝英孙宝英男男3先天性多指先天性多指手术矫形手术矫形优优1002吴立生吴立生男男1先天性并指先天性并指手术矫
13、形手术矫形优优1003王启勇王启勇男男12肱骨骨折肱骨骨折手术复位手术复位良良1004何俊峰何俊峰女女3髋关节脱位髋关节脱位手术复位手术复位优优2005王春章王春章男男7斜颈斜颈手术手术良良生物医学数据挖掘36l2.数据的类型l数值型:由有序数字构成的数据l分类型:表示对象类别归属的数据l二值型:只有两种取值的数据l布尔型:特殊的二值型数据l排序型:特殊的分类型数据生物医学数据挖掘37胃癌TNM分期原发肿瘤的部位及大小(T)1肿瘤局限于粘膜或粘膜下层2肿瘤侵及肌层3肿瘤侵及浆膜4肿瘤已穿透浆膜淋巴转移部位和数量(N)0无淋巴结转移1离癌灶最近,贴近于胃壁的第1站淋巴结有转移2远隔癌灶部位的第2
14、站淋巴结有转移3第3站淋巴结有转移是否已有远处转移(M)0尚无远处转移1已有远处转移生物医学数据挖掘382.2数据管理及数据管理系统的基数据管理及数据管理系统的基本功能本功能l2.2.1数据管理l是指对各种数据进行收集、分类、组织、编码、存储、查询和维护。(Excel Access)l2.2.2Excel的基本功能l1.数据的存储l2.数据的排序l3.数据的筛选l4.数据的统计分析l5.数据的分类汇总生物医学数据挖掘39l2.2.3关系数据库管理系统的基本功能l1.数据的定义和存储l2.数据的排序、索引和筛选l排序是通过字段有序的排列记录,以便更有效的进行查询;l索引的主要功能是用来加速记录的
15、存取;l筛选是让数据表显示符合条件的纪录,隐藏不符合条件的纪录。l3.数据的查询与统计生物医学数据挖掘40l进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。生物医学数据挖掘412.3数据预处理数据预处理l2.3.1数据预处理的目的l不完整性:指有些数据记录的某些属性或特征值缺少;l不一致性:指有些数据记录的若干属性或特征值在逻辑上互相矛盾因而可信度降低;l噪声:指有些数据的值有误差或表现出随机性的波动。l数据预处理一般包括数据清洗,数据整合,数据变换,数据精简等功能。生物医学数据挖掘42l2.3.2数据的分布特性l反映数据分布主要趋势的
16、参数:l均值:同类数据值的算术平均l中值:也称中位数l众数:原始数据集合中某个值出现的频数最多l半程位:原始数据集合中最大数值和最小数值的均数。生物医学数据挖掘43l反映数据分布散布性的参数:l全程范围:数据集合的最大数值和最小数值之和。l四分位数:是k百分位数的特例l四分位范围l标准差和变异系数生物医学数据挖掘44l例:有一个数据集合为:100,120,120,110,130,132,132,133,133,131,132,130,138,129,132,140,140,121,125,计算得到该数据集合的分布特征参数。生物医学数据挖掘45l2.3.3数据清洗l1.数据缺失l常用处理方法:l
17、(1)忽略含有数据缺失的记录;l(2)用一个常量或标识符号来取代所有缺失的数据值;l(3)以全体数据相同属性的均值取代某个记录缺失的该属性值;l(4)以最可能发生的值取代某个记录缺失的属性值。生物医学数据挖掘46l2.数据噪声l分组平滑:分组是将某项数据值按一定的顺序排成序列,然后将若干个连续排列的相邻数据组成一个组。l回归平滑:回归是将原始数据拟合为某种回归函数,以该函数的的值取代相应的原始数据。l聚类平滑:聚类是以原始数据各个相关特征属性值构成特征空间,根据原始数据在此空间中的分布状态。生物医学数据挖掘47l2.3.4数据整合l实体识别,也称对象匹配或设计方案整合。在不同的数据库中,可能采
18、用不同的名称、标识符号或代码来表示客观世界中的同一事物,要识别这些事物是否相同。l消除冗余,若数据的某个特征属性的值或状态,可从其他几个特征属性推导而得到,则产生信息冗余。l数据值冲突,在不同数据库中,对同一参数采用不同的单位可引起。生物医学数据挖掘48l2.3.5数据变换l数据变换是将原始数据的类型或取值范围变换到合适的形式,以便适应不同数据挖掘算法的要求。l一方面,原始数据类型根据数据反映的客观事物的性质不同而各异;l另一方面,生物医学数据反映的客观事物的生理或生化性质不同,量纲也各不相同,这导致了这些数据的数值变化范围会有很大的差异。生物医学数据挖掘49l一方面,生物医学数据反映的客观事
19、物的生理或生化性质不同,量纲也各不相同,这导致了这些数据的数值变化范围会有很大的差异;l另一方面,数据的取值范围对某些数据挖掘算法的性能也会有所影响。生物医学数据挖掘50l将原始数据的变化范围变换到另一个指定的取值范围,以取得更好的数据挖掘效果,这种变换数据取值范围的过程称为数据的归一化。常用的数据归一化方法:l十进计数法l最小最大归一法lZ分数归一法l对数归一法生物医学数据挖掘51l2.3.6数据精简l1.样本数据的选择l随机选取l典型性分数l2.数据特征属性的选择l逐一尝试l涉企相关性高的特征l舍弃分类型特征l舍弃数值型特征l特征复合生物医学数据挖掘52生物医学数据挖掘53生物医学数据挖掘
20、54生物医学数据挖掘55生物医学数据挖掘56生物医学数据挖掘57生物医学数据挖掘58生物医学数据挖掘59NoImage生物医学数据挖掘60分组分组分组分组1分组分组2分组分组3均值方差均值方差原数据原数据129,131,124136,131,132138,134,139132.674.69均值均值平滑平滑128,128,128133,133,133137,137,137132.673.91中值中值平滑平滑129,129,129132,132,132138,138,138133.003.97边界值边界值平滑平滑131,131,124136,131,131139,134,139132.894.73
21、生物医学数据挖掘61第三章第三章 回归分析回归分析623.1回归分析的功能回归分析的功能生物医学数据挖掘633.2常用的回归分析方法常用的回归分析方法l3.2.1线性回归l3.2.2Logistic回归l3.2.3人工神经网络l3.2.4回归树生物医学数据挖掘64生物医学数据挖掘65生物医学数据挖掘66生物医学数据挖掘67生物医学数据挖掘68生物医学数据挖掘69生物医学数据挖掘70第四章第四章 分类分类71第五章第五章 聚类分析聚类分析725.1聚类分析的功能聚类分析的功能l5.1.1聚类分析的定义与作用l聚类是一种数据分析方法,它面向一个数据集,将其中全体数据分别划归不同组别。l聚类依据原则
22、:同一类别内的各个数据相似性较高,不同类之间的数据相似性较低。l聚类作用:可根据其内在属性将数据归纳为不同的类别,并借此了解数据属性的分布规律;也可作为数据预处理的手段,为实施其他数据挖掘技术进行数据准备。生物医学数据挖掘73l例:现有若干个样本根据由6个特征属性构成,特征属性的名称及各样本数据的相应特征值如表,计算各个样本数据之间的相似程度。记录性别年龄组收缩压舒张压 糖尿病类型 心绞痛11220012010203180105213111108000生物医学数据挖掘755.2聚类分析的方法聚类分析的方法l5.2.1聚类分析方法l1、划分法l第一步:任选k个样本数据l第二步:进行第一轮聚类l第
23、三步:进行第二轮聚类l第四步:计算聚类误差El2、分层l分层聚类法可分为两种实施方案:凝聚性分层聚类,分裂型分层聚类l5.2.2高维特征空间中的聚类生物医学数据挖掘765.3聚类分析的应用聚类分析的应用住院患者住院患者人群分类人群分类l5.3.1研究目标l根据某地区若干医院住院患者的实际情况,将其划分为若干类别,并分析这些类别患者的某些共性。l5.3.2数据采集与处理l划分住院患者类别依据的特征:患者的年龄,主要诊断分类,住院时间,住院病区和收入水平等l5.3.3数据挖掘与分析生物医学数据挖掘77第第1类类第第2类类第第3类类第第4类类第第5类类第第6类类合计合计第第1类类8813054011
24、080.0%11.8%0.0%4.5%3.6%0.0%100%第第2类类118402701040.0%第第3类类1063002661.5%0.0%95.5%0.0%0.0%3.0%100%第第4类类2006923762.6%0.0%0.0%90.8%2.6%3.9%100%第第5类类4640570715.6%8.5%5.6%0%80.3%0.0%100%第第6类类0001022230.0%0.0%0.0%4.3%0.0%95.7%100%合计合计1061036777702745023.6%22.9%14.9%17.1%15.6%6.0%100%住院患者分类的测试结果住院患者分类的测试结果生物医
25、学数据挖掘78第六章第六章 关联规则关联规则79NoImage生物医学数据挖掘80Customerbuys diaperCustomerbuys bothCustomerbuys beer生物医学数据挖掘816.1关联规则的功能关联规则的功能l6.1.1关联规则的定义l关联规则主要反映了事物之间的关联性。关联规则挖掘就是发现大量数据中项集之间有趣的关联在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、聚集、分类等两种策略:1。商品放近,增加销量2。商品放远,增加其他商品的销量生物医学数据挖掘82
26、l6.1.2关联规则的质量和重要性l1、关联规则的支持度lSAB=NAB/Nl2、关联规则的置信度lCAB=NAB/NAl3、关联规则的提升度lLAB=CAB/SB生物医学数据挖掘836.2关联规则的分析方法关联规则的分析方法l6.2.1关联规则分析的基本方法l6.2.2剪枝和合并l剪枝:指将支持度小于预先设置阈值的特征属性过滤掉,不将其构成规则组合的过程。l合并:指将过滤后保留的特征属性加以组合,以精简最总所得的规则。生物医学数据挖掘846.3关联规则的应用关联规则的应用糖尿病患糖尿病患者的筛查者的筛查l6.3.1研究目的分析l从积累的大量数据中发现和糖尿病相关的模式和规则,以帮助医生加深对糖尿病的理解。l6.3.2数据采集及预处理l6.3.3数据挖掘与分析生物医学数据挖掘856.4关联规则的应用关联规则的应用院内感染院内感染检测控制检测控制l6.4.1研究目的分析l根据已收集到的住院病史记录数据,以关联规则分析为技术方法,从中寻找和发现与院内感染共生的抗生素耐药性等现象。l6.4.2数据采集及预处理l6.4.3数据挖掘与分析生物医学数据挖掘86第七章第七章 时间序列分析时间序列分析87第八章第八章 序列分析序列分析88