1、苏静广西医科大学信息与管理学院College of information and management,Guangxi Medical University,Su Jing数据挖掘之医学信息挖掘The medical information mining of data mining010102医学数据挖掘的概念医学数据的分类目录0203医学结构化数据挖掘04中医药领域的数据挖掘01 医学数据挖掘的概念 The concept of medical data miningPART ONE031 医学数据挖掘的概念04 医学数据挖掘面向整个医学数据库或医学信息集合提供知识和决策,是医疗决策支持
2、系统的重要组成部分。02 医学数据的分类The concept of medical data miningPART TWO052 医学数据的分类06结构化医学数据:数据结构明确、内容经整理可有效存储和处理。如医学病历。非结构化医学数据:本身无规范结构、内容较复杂。如医学多媒体数据、文本数据等。03 医学结构化数据挖掘 Medical structured data miningPART THREE073.1 医学结构化数据的产生08 患者角度:登记挂号、就诊、开单检查 医院角度:各科室信息的统计和汇总。日常医疗实践,如医学影像处理的PACS系统、临床检验的LIS系统等信息化管理系统。3.2
3、医学数据挖掘的常用方法09统计分析和可视化技术:挖掘不同疾病在不同年龄段的至于时间、治愈率、平均费用等;不同疾病的地区分布情况等。决策树、神经网络、粗糙集等:对病历记录挖掘,构造相应疾病的分类模型,并对每种疾病找出效果较好的治疗方案。关联规则:挖掘哪些疾病并发的可能性较高,某些疾病与年龄、性别、居住地、职业、生活习惯等的关系。序列模型挖掘:病人的病情发展情况预测。3.3 应用举例10 刘丹红等人用上呼吸道感染病例的病案首页数据和决策树分析法建立病情危重度分类评价模型;利用贝叶斯神经网络找出抗精神病药物与心肌炎和心脏病发作的关系;粗集理论用于肺癌的诊断、宫颈癌病变的检测等。04 医学非结构化数据
4、挖掘 Medical unstructured data miningPART FOUR114.1 文本数据挖掘概念12 文本数据挖掘是从大量文本数据中抽取有效、新颖、可理解、最终可用的、散布在文本文件中的有价值的知识,并且运用这些知识更好地组织信息的过程。文本挖掘的独特之处:(1)文本结构本身是半结构化或非结构化的,无确定形式且缺乏及其可理解的语义;(2)涉及到多个学科领域。4.2 医学文本挖掘的分类13(1)文本总结(2)文本分类(3)文本聚类(4)文本关联分析(5)文本分布分析与趋势预测 4.3 文本挖掘的过程14(1)特征集的建立 描述性特征:文本名称、日期、大小、类型等;语义性特征:
5、文本作者、机构、标题、内容等。(2)特征集的缩减 对文本特征向量降维,缩减特征集,包括横向选择和纵向投影。横向选择:剔除有噪声文档或文档过多时仅选部分文档来挖掘;纵向投影:根据挖掘目标选取有用特征,获得代表文档集合的有效、精简的特征子集。4.3文本挖掘的过程15(3)学习和知识模式的提取 通过分类和聚类,提取面向特定应用目的的知识模式。(4)模式质量评价 对知识模式进行质量评价,若满足要求则保存;否则返回分析改进进行新一轮挖掘。4.4 应用举例16 分析古籍文献中治疗变应性鼻炎(AR)的处方用药及配伍规律 筛选古代医籍文献中治疗AR的方剂,进行信息标准化处理,应用数据挖掘技术中的频数与频繁项集及关联规则对筛选的方剂进行分析。关联分析结果显示,在治疗AR的方剂中紫苏常配甘草,附子常配细辛,白芷、细辛常配川芎,羌活、防风常配白芷。最终得出结论:古代医籍文献中治疗AR的处方药味不多而用药精当,内外兼顾,标本兼治,能为中医药临床治疗AR提供一定的借鉴与参考。苏静广西医科大学信息与管理学院College of information and management,Guangxi Medical University,Su Jing感谢各位的聆听 Thanks for Listening18