1、医疗大数据科研平台建设医疗大数据科研平台建设医院管理案例医渡云(北京)技术有限公司二十一世纪初期的认识:二十一世纪初期的认识:十几年前,葛大爷说”二十一世 什么最贵人才“马云提出:“人类正从人类正从IT时代走时代走向向DT时代时代”。IT是信息技术(Information Technology)DT是数据处理技术(Data Technology)IT时代是以自我控制、自我管理为主;DT时代,它是以 服务大众、激发生产力为主的技术。IT与DT两者之间看 起来似乎是一种技术的差异,但实际上是思想观念层面 的差异。二十一世纪是大数据的时代二十一世纪是大数据的时代从从IT到到DT时时代代2014年北京
2、大数据产业推介年北京大数据产业推介会会马云认为,马云认为,“从从IT时代走向时代走向DT时代的第三次技术革命是真正的大释放。时代的第三次技术革命是真正的大释放。”二十一世纪是大数据的时二十一世纪是大数据的时代代从从IT到到DT时时代代阿里云阿里云2015云栖大会云栖大会“第一次技术革命是体能的释放,是让人的力量更大,第二次技术 革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命 是IT时代走向DT时代,是真正的大大的释放。”“我们其实正在进入一个新的能源的时代,这这个时个时代代核心核心资资源源已已经经 不是石油,而是数据不是石油,而是数据。中国是一个计算机的大国,但是中国不是一 个计算
3、的大国,但我相信中国一定会成为一个计算大国,因为未来未来 的数据是一种生产资料的数据是一种生产资料,而未而未来来的生的生产产力就力就是是计算计算能能力和力和所所有有创创业业 者的创新能力,企业家者的创新能力,企业家精精神。神。”大数据浅大数据浅析析医渡云(北京)技术有限公司大数据时代大数据时代从从IT时代到时代到DT时时代代20世纪90年代出现概念2010年后广泛提及2013年“大数据元年”2016年“中国大数据元年”?定为国家战略,“十 三五”完成大数据爆发的因素:大数据爆发的因素:云大物移与云大物移与IOT7.90.81.21.8350510152025303540200920102011
4、20152020全球数据量ZB大数据的定义:大数据的定义:目前,业界对大数据还没有一个统一的定义,常见的大数据定义如下:”大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”麦 肯锡”大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集”维基百科”大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的 信息资产“Gartner大数据大数据的的特性特性:低价值率低价值率大数据分析的分大数据分析的分类类一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回 上亿行数据的分析,从而达到不影响用户体
5、验的目的。用于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用 离线分析的方式,通过数据采集工具将日志数据导入专用的分析平 台。离线数据分析离线数据分析按按 照照 数数 据据 分分 析析 的的 时时 间间 性性 要要 求求大数据分析的分大数据分析的分类类按按 照照 大大 数数 据据 的的 数数 据据 量量 数据量不超过集群的内存最大值。采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常 适合实时分析业务。对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。级别级
6、别 对于数据库和BI产品已经完全失效或者成本过高的数据量。海量级别海量级别大数据的影响:颠覆性观念转大数据的影响:颠覆性观念转变变大数据对科学研究、思维方式和社会发展都具有重要而深远的影响。在科学研究方面,大数据使得人类科学研究在经历了实验、理论、计算 三种范式之后,迎来了第四种范式数据。数据。在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关全样而非抽样、效率而非精确、相关而而 非因果非因果”等三大显著特征,完全颠覆了传统的思维方式。在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用 有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技 术和新应用的不断涌现。
7、大数据与医大数据与医疗疗19952002年:引入实验室信息系统(LIS)2006年:PACS系统、超声、内窥镜、核医学2010年:电子病历(EMR)、临床路径(CP)2011年:护理病历、电子医嘱单、数字认证 2012年:电子病历无纸化 2015年:电子病历归档 2016年:医大医生APP、医生门户系统、急诊信息化管理1996年:与IBM公司合作开发医院第一代HIS,实现门诊住院病人管理,医生站2008年:升级更新C/HIS系统,加强病人管理建设,包括导医系统、一卡通2013年:建设居民健康卡、自助服务体系2014年:互联网移动医疗、支付宝线上支付2015年:微信、12320健康通支付平台20
8、16年:分时段预约、自助检查预约2000年:财务核算与药品管理 2008年:药库、卫生材料、固定资产、物资管理2009年:全成本核算 2010年:人力资源、预算管理、基于财务管理的绩效考核 2014年:二级库存管理、高值耗材管理 2015年:设备效益分析、基于RBRVS的绩效管理、2016年:卫材系统升级、DRGS、财务HIS一体化 面向患者 面向临床 面向管理2000200520102015大数据与医疗:大数据与医疗:HIS/LIS/EMR数据库(数据库(2008-至至今):今):4.5TBPACS数据量(数据量(2006-至今至今):):300TB结构化数据仅占结构化数据仅占15%左右左右
9、全样本?大数据量?全样本?大数据量?种类多?变化快?种类多?变化快?价值率高?价值率高?or低?低?13HIS数据数据 量量医嘱医嘱214091条条医疗数据的主要来源:医疗数据的主要来源:业务系统HIS结构化LIS结构化EMR部分结构化价值数据RIS部分结构化PACS部分结构化大量数据价值数据?其他医疗医疗数据利用的尝试:数据利用的尝试:决策支持系统(决策支持系统(2010)商业智能BI数据仓库SPEEDMINER业务系统HISLISEMR医疗数据利用的尝试:医疗数据利用的尝试:科研随访系统科研随访系统(2012)医疗数据利用的尝试:医疗数据利用的尝试:科研随访系统科研随访系统(2012)目前
10、随访系统中在用项目13个,包括心脏外科科研信息库、心血管内科科研信息库、心 血管内科先心病介入库、心血管内科冠心病介入库、心血管内科射频消融库、心血管内科永 久起搏器植入库、心血管内科高血压库、肿瘤内科乳腺癌研究库、乳腺外科科研信息库、乳 腺外科二病区科研信息库、整形外科面骨骨折研究库、整形外科科研信息库、内分泌科糖尿 病库。各库工入组病例近20,000条,每天从HIS、LIS、PACS、EMR等系统采集病例数据。临床数据库数据模型:临床数据库数据模型:建建立以立以患患者为者为中中心的心的数数据模据模型型29个个院内业务表院内业务表(29)患者基本信息表患者出入转记录表患者证件表院内文档索引表
11、 患者主索引对应表医嘱记录主表患者地址表医嘱关联表患者就诊表医嘱记录子表患者诊断信息表医嘱状态结果记录表 就诊号对应表医嘱样本表检查报告表样本号关联表检查号关联表执行记录表检查医嘱关联表执行记录关联表检查报告号关联表执行记录状态变化表 患者过敏记录表临床文档库数据库架构临床文档库数据库架构及及相关相关文文档档互联互通文档结构(互联互通文档结构(53)自定义的院自定义的院 内文档内文档门(急)诊病历输血治疗同 意书阶段小结病历概要手术护理记录其他知情 同意书心外血气记录单西药处方住院病案首 页抢救记录急诊留观病 生命体征测量记 中医住院 历录病案首页中心血气记录单中药处方入院记录会诊记录治疗记录
12、交接班记录出院小 结抢救记录单检查报告24h内入出院 记录术前小结麻醉术前访 视记录出入量记录护理记录单检验报告24h内入院死 亡记录术前讨论心血管护理记录单一般手术 记录首次病程记术后首次病 录程记录新生儿记录单麻醉记录日常病程记 录出院记录麻醉术后访 高值耗材使用记 视记录录输血记录入院评估待产记录护理计划.一般护理 记录上级医师查 房记录录死亡记录阴道分娩记 出院评估与指导手术知情同疑难病例讨 意书论记录麻醉知情同 意书转科记录死亡病例讨剖宫产记录 特殊检查及特殊 论记录治疗同意书住院医嘱病重(病危)病危(重)通知护理记录书医疗数据利用的尝试医疗数据利用的尝试:CDR建设(建设(2014
13、)大数据建设初大数据建设初探探医疗数据的用医疗数据的用途途诊疗规范临床路径临床决策支持法律文档医疗管理质量控制经济管理运营管理病例随访流行病药理实验临床实验医疗数据利用存在的问医疗数据利用存在的问题题医疗数据医疗数据挖掘手段落后分散结构化程度低标准不统一人才与观念大数据时代大数据时代医疗数据处理:机遇还是挑战?医疗数据处理:机遇还是挑战?数据集成 Data Integration数据处理 Data processing数据应用 Data application应用场景多样(管理、科研、诊疗、教学)用户需求个性化、专业化安全性及合规性要求极高大量文本、图像等非结构化数据行业标准不统一,难以复用,
14、难以沉淀专业性强,细分领域多多系统异源异构数据数据质量参差不齐,不完整性显著数据分散、规模大、增长迅速、冗余性强大数据时代大数据时代医疗大数据?机遇还是医疗大数据?机遇还是挑挑战?战?我们的数据利用需求:数据集成与整合高速全数据域的检索全结构化或者后结构化数据挖掘与展现大数据分析的特点:全样本关注效率相关性分析大数据技术特点:分布式存储、分布式数据库基于搜索引擎的数据查询支持实时数据分析支持内存级别和BI级别的数据分析?建立整合院内外医疗建立整合院内外医疗数数据据的的大大数据数据 平台平台基于医院数据整合现状,在确保建设效果 和成果继承使用的原则下,平台对医疗数 据(包括但不限于PACS、LI
15、S、HIS、EMR、体检等各类数据)进行梳理、清洗、标准 化等处理,建立全面的患者信息页面,并提供智能检 索、发布、共享、数据安全、隐私保护等 方面的使用、控制和管理,实现数据集成,解决信息孤岛问题。平台服平台服务务-科研服务科研服务平平台台基于平台所采集的的医疗数据,利用搜索 引擎技术,为医生提供在院内外开展个性 化的科研数据分析平台。平台将为医生群体提供完整的大数据科研 分析工具,主要有病历搜索引擎服务、数 据统计分析、数据挖掘等服务,提升医生 开展医疗科研的效率和能力;针对医院的优势科室,开展深度定制化科 研服务,共同建立。基于肿瘤的专病库。项目规划:第一阶项目规划:第一阶段段 数据平数
16、据平台的扩台的扩展展 数据平台将从临床数据扩展 到其他系统数据(包括供应 链管理、人力管理等系统),进行数据的梳理、清洗、标 准化等处理,并提供智能检 索、发布、共享、数据安全、隐私保护等方面的使用、控 制和管理,实现数据集成。平台服平台服务务-临床辅助诊疗服临床辅助诊疗服务务 联合核心科室专家以及乙方 的大数据能力,在临床拓展 领域进行探索性研发,利用 大数据对疾病的治疗方案、患者的院内外管理等方面进 行优化,提升医院的学科地 位且扩大学科的影响和辐射。平台服平台服务务-医院管理服医院管理服务务 数据平台将从临床数据扩展 到其他系统数据(包括供应 链管理、人力管理等系统),进行数据的梳理、清
17、洗、标 准化等处理,并提供智能检 索、发布、共享、数据安全、隐私保护等方面的使用、控 制和管理,实现数据集成。项目规划:第二阶项目规划:第二阶段段大数据科研平台建设大数据科研平台建设项目项目里程里程碑碑设备进场完成数据处理修复产品测试平台产品测试签署合作协议产品问题修改平台上线数据上传数据更迭医疗大数据处理和应用医疗大数据处理和应用平平台台DPAP(Data Process&Application Platform)S2 数据互联互通数据互联互通S1 数据采集数据采集S3 数据集中数据集中S4 数据分析加工数据分析加工S5 数据应用数据应用数据 生长其他其他 定制定制化化 应用应用医院医院 管
18、理管理 应用应用患者患者 应用应用科研科研 应用应用HISESB(医疗信息交换层)标准数据层标准数据层ETL(数据抽取)标准化Schema应用数据集市应用数据集市聚合聚合 统计统计结构化结构化归一归一次数布尔分类检验症状疾病史性别诊断药品搜索搜索 应应用用私有云安全存储唯一标识EMPI大数据引擎大数据引擎分析挖掘分析挖掘知识图谱知识图谱机器学习机器学习CDR(临床数据中心)PACSLIS.院外数据数据 增值大数据科研平台建设内容大数据科研平台建设内容技术下的技术下的DPAP7个临床信息业务域16个业务活动记录分类62个业务活动记录行业标准行业标准DPAP平台标准电子病历基本架构与数据标准(试行
19、)电子病历基本数据集(2014)健康档案数据模型WS376.1-2013儿童保健基本数据集WS377.1-2013妇女保健基本数据集WS370-2012卫生信息基本数据集编制规范卫生信息数据元值域代码国家标准GB/T术语集ICD10ICD-9-CM-3LOINCHL7 Clinical Document Architecture,Release 2.0HL7 Reference Information Model Vers.2.07 7个临床信息业务域17个业务活动记录分类91个业务活动记录50+100000+91临床文档6000+数据元参照国内和国际标准术语集,参照国内和国际标准术语集,多机
20、构数据标准统一,利于共享应多机构数据标准统一,利于共享应用用汇聚医学知识 大量数据积累大数据科研平台建设内容大数据科研平台建设内容数据标准数据标准化化自然语言文本结构化数据结构化数据患者一般信息患者一般信息性别性别男年龄年龄69岁患者生命体征患者生命体征体温体温37.0 脉搏脉搏98 次/分呼吸呼吸22 次/分血压血压130/80 mmHg患者症状患者症状症状症状逻辑逻辑持续时间持续时间部位部位性质性质绞痛有4小时上腹部持续性发热无-恶心无-呕吐无-反酸无-烧心无-物理检查物理检查检查项目检查项目解剖部位解剖部位异常所见异常所见立位腹平片消化道穿孔立位腹平片腹腔积气立位腹平片腹腔积液实验室检查
21、实验室检查WBC11.59109/LNE%88.8%HGB155g/LPLT198109/L诊断诊断诊断诊断消化道穿孔大数据科研平台建设内容大数据科研平台建设内容结构结构化化技技术术注:*基于MESH(医学主题词)词表,主要面向科研检索等应用场景。大数据科研平台建设内容大数据科研平台建设内容诊断归一技诊断归一技术术根据目前医院的数据情况,建设大数 据平台及科研平台共投入14台服务器,服 务器放置在医院住院楼信息科机房内,并 随着数据量的不断增加。大数据科研平台建设内容大数据科研平台建设内容硬硬件件投投放放建立高效安全的医院专属私有云体建立高效安全的医院专属私有云体系系数据不出医院 三级等保符合
22、主管和责任部门的安全要求医院IDC医院私有云虚拟私有云医渡IDCVPN脱敏大数据科研平台建设内容大数据科研平台建设内容安全建安全建设设大数据科研平台建大数据科研平台建设设内容内容数据安全数据安全数据脱数据脱敏敏敏感数据隔离存储通过动态密钥加密且和EMPI-ID关联敏感数据通过医院权限管理审批使用患者 随访患者隐私信息(HIPPA)姓名电话号码电子邮件病历号出生日期驾照车证社会保险号健康医疗保险号住址其他独立识别码医生隐私信息姓名(Name)费用信息收费项目的费用明细(FEE)其他医院 管理STEP 1 敏感信息定义*STEP 3 敏感数据与权限管理敏感 字段动态 密钥DPAP敏感数据管理模块日
23、志记录权限 管理(医院可配置)STEP 2 数据脱敏管理专科 数据库数据脱敏后进入生产流DPAP程,机制上保证安全平台EMPI-ID 采用不可逆算法多次加密,不可破解*敏感信息在普通情况下全都是脱敏的,但是在特定应用场景下是可以根据严格授权看到原始数据的。不同的颜色表示出了不同的允许使用的特定场景和特定字段。大数据科研平大数据科研平台台建建设设接入接入数数据据范范围围数据来数据来源源HIS、LIS、EMR、PACS/RIS、手麻、病理、心电超声数据;数据期数据期限限2008年4月份至2018年5月份,历时10年的数据。数据处数据处理理 数据整理 数据关联 数据清洗 归一 结构化截止至2017年
24、1月大数据科研平大数据科研平台台建设建设门门门诊门诊数据数据量量统统计计截止至2017年1月大数据科研平台建设大数据科研平台建设住住院院数据量统数据量统计计截止至2017年1月大数据科研平台建设大数据科研平台建设临床数据量统临床数据量统计计六大专科疾病库建设数据生产阶段专科疾病库建设修复产品测试 及试运行阶段专病库产品测试调研阶段产品问题修改平台正式上线 交付使用数据校验阶段大数据科研平台建设大数据科研平台建设项目里程项目里程碑碑数据T+7自动更新中国医大一专科疾病数据库系统中国医大一专科疾病数据库系统建设目标与计建设目标与计划划序号项目名称阶段完成情况1全员数据支撑一期已完成2数据标准化生产
25、流程一期已完成3多种搜索模式支持一期已完成4数据导出支持一期已完成5患者EMPI技术一期已完成6数据沉淀复用一期已完成7结构化一期已完成8归一一期已完成9灵活权限定义一期已完成10研究项目数无上限一期已完成11主数据管理系统一期已完成12系统数据库一期已完成13大数据中心课题支持二期已完成14多中心协作支持二期未完成15CRF表单自动导入二期未完成16随访支持二期未完成中国医大一专科疾病数据库系中国医大一专科疾病数据库系统统HISEMRPACS病理手麻超声内镜心电接入院内2008年4月2018年5月 八大业务系统数据中国医大一专科疾病数据库系统中国医大一专科疾病数据库系统6大疾病领大疾病领域域
26、结直肠癌纳排人数:15624胃癌纳排人数:10590乳腺癌纳排人数:15101肝癌纳排人数:10752肺癌纳排人数:18735甲状腺癌纳排人数:11416探讨与反思探讨与反思大数据技术应用于医院数据集成和挖掘已经开 始起步,并初见端倪;对于医学科研的支撑可期待,效果有待于进 一步验证;对于临床及管理的支持有待于研究。探讨与反思探讨与反思目前单体医院收集数据的能力不足以成为大数据,我们处于大数据时代的初级阶段;基于公有云的大数据平台是提升医疗数据利用的捷 径,数据交换/交易是必然的发展趋势;数据时代数据资产、数据交易、数据利用是新课 题!拥有数据不一定是大 数据,但没有数据一 定不存在大数据。各种检测数据的缺 失,影响到大数据 平台效能的发挥。物联网技术欠 缺和IOT尚未普 及。大数据带来的问题与影响:大数据带来的问题与影响:与第三方合作开展医疗数据挖掘的潜在风险有待于”解决“;大数据带来数据安全与隐私保护更深层次的问题;大数据与信息化有关,与“信息中心无关”。