1、生物医学数据挖掘生物医学数据挖掘Biomedical Data Mining2第一章第一章 概论概论四四.数据挖掘性能评价数据挖掘性能评价第二章第二章 数据采集与准备数据采集与准备一数据的采集和组织一数据的采集和组织二数据管理二数据管理回顾3第二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三三.数据预处理数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状态 3.3.数据清洗数据清洗 4.4.数据整合数据整合5.5.数据变换数据变换6.6.数据精简数据精简4数据预处理1.1.目的目的 提高数据的质量n处理不好的数据n降低维数 数据质量的表现n完整性n合理
2、性n一致性v No quality data,no quality mining results!5第二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三数据预处理三数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状态 3.3.数据清洗数据清洗 4.4.数据整合数据整合5.5.数据变换数据变换 6.6.数据精简数据精简6数据预处理2.数据的分布状态数据的分布状态 用统计学工具可解决用统计学工具可解决 n分布趋势(分布趋势(P18P18):均值、中值、众数、半程):均值、中值、众数、半程位、位、n散布特性(散布特性(P19P19):标准差和变异系数、全程):
3、标准差和变异系数、全程范围、四分位数、四分位范围范围、四分位数、四分位范围7v例例 P19 收缩压,排序收缩压,排序8v例:两组数据例:两组数据nA A组组6,6,7,8,86,6,7,8,8nB B组组5,6,7,8,95,6,7,8,9n?两组数据的离散程度?两组数据的离散程度分布趋势和散布特性9v例:例:v例:某地男孩例:某地男孩n出生体重:出生体重:X1X1 3.30kg3.30kg,S1=0.44kgS1=0.44kgn1818岁体重:岁体重:X2X256.10Kg56.10Kg,S2=5.50KgS2=5.50Kgn?两组数据的离散程度?两组数据的离散程度10数据预处理的形式11第
4、二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三数据预处理三数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状态 3.3.数据清洗数据清洗 4.4.数据整合数据整合5.5.数据变换数据变换 5.5.数据精简数据精简12数据预处理3.数据清洗数据清洗目的:填写缺失值,平滑噪声数据目的:填写缺失值,平滑噪声数据数据缺失数据缺失n直接删除记录直接删除记录n丢弃属性丢弃属性n如何弥补?如何弥补?n取属性均值取属性均值n取同类均值取同类均值n用最可能的值用最可能的值13数据预处理3.数据清洗数据清洗 数据噪声数据噪声:随机性干扰随机性干扰&波动波动n分组平滑分组
5、平滑n均值平滑均值平滑n中值平滑中值平滑n边界平滑边界平滑n回归平滑回归平滑n聚类平滑聚类平滑14分组平滑例如:一位受试者检测得的收缩压原始数据例如:一位受试者检测得的收缩压原始数据序列是:序列是:129,131,124,136,131,132,138,134,139,。(。(P21)效果较差好15分组平滑例如:排序后的数据是:例如:排序后的数据是:4,8,9,15,21,21,24,25,26,28,29,34。16回归平滑17聚类平滑18第二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三数据预处理三数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状
6、态 3.3.数据清洗数据清洗 4.4.数据整合数据整合5.5.数据变换数据变换 6.6.数据精简数据精简194.4.数据整合数据整合目的:纠正不一致数据目的:纠正不一致数据基本任务:将多个数据源中的数据整合基本任务:将多个数据源中的数据整合方法:方法:n实体识别实体识别n消除冗余消除冗余n消除重复记录消除重复记录n数据值不一致数据值不一致20第二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三数据预处理三数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状态 3.3.数据清洗数据清洗 4.4.数据整合数据整合5.5.数据变换数据变换 6.6.数据精简数据精
7、简21数据预处理5.数据变换数据变换目的:变换原始数据取值范围或类型目的:变换原始数据取值范围或类型 类型变换类型变换n分类型数值型(神经网络)分类型数值型(神经网络)n数值型分类型(决策树)数值型分类型(决策树)22数据预处理MinoldMaxoldMinnewMinnewMaxnewMinoldvalueoldvaluenew_)_(_valueoldvaluenew_5.5.数据变换数据变换数值归一化数值归一化n十进计数法十进计数法 n最小最小-最大归一法最大归一法nZ-ScoreZ-Scoren对数归一法对数归一法23讨论例:若舒张压原始数据为:例:若舒张压原始数据为:90,110,1
8、05,140,220,138,182,205,105,110 则,进行下列数据变换后的新数据是?则,进行下列数据变换后的新数据是?(1)十进计数法十进计数法(2)最小最小-最大归一法最大归一法(3)Z-Score(4)对数归一化对数归一化 24第二章 数据采集与准备 一数据的采集和组织一数据的采集和组织二数据管理二数据管理三数据预处理三数据预处理1.1.目的目的2.2.数据的分布状态数据的分布状态 3.3.数据清洗数据清洗 4.4.数据整合数据整合 5.5.数据变换数据变换 6.6.数据精简数据精简256.数据精简数据精简 目的:减少冗余,提高模型性能目的:减少冗余,提高模型性能 样本记录数的
9、选择样本记录数的选择n精简冗余、保留典型精简冗余、保留典型 P33P33n随机选取随机选取n典型性分数典型性分数n弥补不平衡数据弥补不平衡数据n欠抽样欠抽样undersamplingn过抽样过抽样oversampling26数据预处理6.数据精简数据精简 样本特征属性的选择样本特征属性的选择 逐一尝试逐一尝试 舍弃相关性高的特征舍弃相关性高的特征 分类型特征分类型特征 舍弃预测性分数高的舍弃预测性分数高的数值型特征数值型特征舍弃舍弃fisherfisher系数低的系数低的27fisher系数 2121fisher28讨论例:构建模型,乳腺癌患者预后受哪些因素影响?如何影响?数据来源:NCI提供的SEER报告,长期收集美国的癌症患者数据,有三个数据库。原始记录779999条,特征属性115项,数据收集于1973-2004年间。对于这样一批数据,如何进行预处理?(1)来自于不同数据库,如何保证数据的一致性?(2)数据不完整,属性缺失,如何处理?(3)数据噪声如何识别?如何判别?(4)115项特征属性如何取舍?取舍依据?(5)样本数据如何组织?29数据预处理小结