1、AlphaG 、医学决策支持与临临床大数据研究Study o Alphag , Medical Decision Making andClinical Big DataAlphaG 战胜战胜人类围类围棋大师师 1984年,电影终结者代表了第一代“人工智能”恐惧症 1997年,IBM蓝深击败卡斯帕罗夫,卡斯帕罗夫要求重赛,但没有得到回应 “专家”预言:计算机无法击败围棋大家,因为更难 2016年(19年后),AlphaGo战胜李世石(没给人类最聪明的人留面子,要砸他们的饭碗) 深度学习-统计学习算法,类似人类神经网络系统的学习算法 意义:Perfect Information环境下,机器可以完胜
2、人类 工具-人手的延长,计算机-人脑延长,人工智能-延长人脑的最前端研究人类类大脑脑研究 擅长模糊思维 存储和运算速度不如计算机 遗忘是学习的一部分,解决知识爆炸 感知能力(超大数据学习) 常识性知识 研究:认知心理学、认知生理学、认知神经学、神经生理学、神经病理学、神经生化学、神经免疫学、 人类脑科学计划 曼哈顿计划、阿波罗登月计划和人类基因组计划是划时代的三大科学工程 1997年,人类脑计划在美国正式启动 2013年,美国启动最大的“脑计划”。奥巴马在国情咨文中说:“希望和人类基因组计划一样,通过10年努力绘制出完整的人脑活动图。”神经经元学习习与记忆记忆Neuron Learning a
3、nd Memory)抽象化的蜜蜂脑神经网络神经经元、突触与神经经信号传导传导前突触后突触神经经元、突触与神经经信号传导传导 巴普洛夫神经反射:通过训练,构建强势连接 类似统计学习AlphaG 深度学习习 围棋算法:搜索树,遍历是组合爆炸问题,大约为2.08x10170组合,大型服务器需要计算几个月 AlphaGo深度学习算法(解决搜索组合爆炸): 蒙特卡罗树特卡罗搜索(Monte Carlo TreeSearch (MCTS) 选择方案(policy networks) 评价方案(value networks),提高搜素速度 AlphaGo的条件:完全信息(perfect informatio
4、n)高质量训练集数据(抽样代表全集),训练集偏集医学专专家系统统、医学人工智能、医学决策支持 1976年,美国斯坦福大学Edward Shortliife等人开发了MYCIN系统(基于规则的专家系统) 专家预测:人类十年后可以开发出具有人类专家水平的系统,但十年后,人工智能进入“黑暗期” 90年代初,神经网络的探索热-逆传播网(浅层学习-输入/隐含/输出层) 90年代末,人工智能/专家系统-决策支持 深度学习-统计学习方法,相对于规则的方法更适合, 演绎推理(MYCIN)/归纳推理(统计学习) 医学临床决策是典型的归纳推理为主,辅以演绎推理 HIMSS EHR评级,EHR Meaningful
5、l Use对决策支持的重视 基于规则的简单的临床决策支持系统-CPOE、用药咨询、临床质控、危机值报警、 基于循证医学的临床决策支持-临床指南、临床路径 医学大数据与医学决策支持 决策支持引擎和知识库 知识库的知识集成问题-知识库标准化医学决策知识结识结构树形医学知识诊断反馈循环:逐步求精过程医学知识识与医学决策支持CASNET疾病过程和治疗模型临床表现-诊断-治疗集合映射模型Medica Knowledge Model Analysis临临床知识识模型分析)Relationship among the disease ontology, findings ontology and termi
6、nology ontology临临床诊诊断与鉴别诊鉴别诊断临临床诊诊断与鉴别诊鉴别诊断 诊断相关因素是N维的,N趋向于无穷大 现实疾病空间是连续空间,包括维度和每维的刻度 疾病理论抽象是不连续空间,因为人类无法处理连续空间 疾病的鉴别诊断实际是在讨论N维空间中,疾病概念的内涵和外延医学知识识的不连续连续性和归纳归纳推理 人类知识来源是统计规律 归纳推理 逻辑推理:强的连接规律 医学知识网是不连续网络:医学过于复杂N过大,网络训练样本集过小,训练时间短 医学知识网的不完全连通性导致医学推理的局限性AlphaG 深度学习习与医疗疗大数据 围棋和医学都是诊断类问题(树形决策过程) 假设:有足够大量的
7、临床精确数据,深度学习可以训练出高质量的系统用于临床决策支持。 医学是不完全信息(imperfect information) 提高数据质量 解决局部问题AlphaG 深度学习习与人类类理解 由于是自学习,只能得出输入与输出的结果,人类无法理解决策网络的内部节点关系 不同系统学习的知识无法相互继承和发展 人类新知识的发现有赖于对既往知识的理解在原有知识网结构上构建新的片段 数据挖掘发现的关系经常无法解释,就是没有建立在原有的知识网基础上,因而无法理解 传统统计学的方法建立在对结果预期假设基础上,实际是建立在人类既往的知识网基础上 基于医学知识模型的自学习算法基于循证证医学的临临床决策支持过过程
8、临临床科研大数据(Clinical Research Big Data) 在互联网+医疗中最有可能带来医学革命的领域 传统临床科研方法与真实世界研究方法比较 我国在EHR半结构化应用方面的优势 基因研究与精准医疗 临床数据管理(CDM)与临床数据管理系统(CDMS) 语义互操作 国内临床科研大数据研究项目现状(专科疾病大数据研究项目多、热,缺乏深入研究) 临床科研元数据标准 Clinical Data Interchange Standards Consortium (CDISC) HL7 EHR Clinical Research Functional Profile (CRFP) Biom
9、edical Research Integrated Domain Group (BRIDG) Model:The goal is toproduce a shared view of the dynamic and static semantics for the domain ofprotocol-driven research and its associated regulatory artifacts.Clinical Data Interchange Standards Consortium (CDISC),the HL7 Regulated Clinical Research I
10、nformation Management Technical Committee (RCRIM) WorkGroup,the US National Cancer Institute (NCI)the US Food and Drug Administration (FDA) The Ontology of Clinical Research (OCRe) The Human Studies Database ProjectKnowledge Program in Cleveland Clinic美国克利夫兰兰医院的全结结构化电电子病历历Cleveland ClinicalKnowledge
11、 ProgramIn Neurological InstitutePatient completionof HSM questionnairesHealth care providerreviewDiscretetransmission ofsystem-generatedsummarytext for inclusionin the patientsEHRresponsedata storageinto the KPdataEPICEHRwarehouseKnowledge ProgramData Warehouse临临床科研数据结结构标标准(Clinical Research Data A
12、rchitecture Standard) 元数据标准(Metadata Standards) 数据元与数据集(Data Elements and Data Sets) 电子病历临床文档信息模型病案首页数据集临临床科研数据结结构标标准(Clinical Research Data Architecture Standard) CDA (Clinical Document Architecture,临床文档结构) CDA Level 3标准定义更严格、更标准,方便跨区域交换 符合卫生部的EMR结构标准,未必能符合CDA Level 3标准,但是符合CDA Level 3标准,一定能符合卫生部EM
13、R结构标准 HL7的FHIR要替代CDA临临床科研数据结结构标标准(Clinical Research Data Architecture Standard) CDISC(the Clinical Data Interchange Standards Consortium,临床数据交换标准协会)- Study Data Tabulation Model (SDTM,研究数据表格模)- Standard for Exchange of Non-clinical Data (SEND,)- Analysis Data Model (ADaM)- Operational Data Model (OD
14、M)- Laboratory Data Model (LAB)- Case Report Tabulation Data Definition Specification (CRT-DDS)- Clinical Data Acquisition Standards Harmonization (CDASH)- CDISC Terminology CDISC BRIDG model(The Biomedical Research Integrated DomainGroup (BRIDG) Model)- CDISC, ISO, US National Cancer Institute (NCI
15、), US Food and DrugAdministration (FDA)-为医学和生物制药产品的开发提供临床实验数据和元数据的取得、交换、提交以及存档的电子手段。Human Studies Database Project人类类研究数据库计库计划) Human Studies Database Project: Goal is a federated database of past and ongoing human studies T o enable large-scale computational reuse of human studies data forclinical
16、and translational research data mining systematic review planning future studies Start with federating descriptions of study designs Following the BRIDG and OCRe Project Team:疾病本体研究 Disease Ontology Studie )神经疾病本体症状本体 生命体征本体Symptom Ontology - Vital Sign Ontolog )Vital Sign Ontology Example (Godfain
17、et al 2011)ISO/TS 22789:2010 病人临临床表现现和临临床问题术语问题术语的概念模型ISO/TS 22789:2010 Conceptua framework for patient findingsand problems in terminologies )国内医学本体应应用研究(Domestic Research inof Medica Ontology Application) 方安等:临床疾病领域领域本体构建方法研究以手足口病本体为例.中国医学科学院医学信息研究所. 情报杂志 2009年11期 郭会雨:疾病领域本体模型构建研究. 军事医学科学院解放军医学图书馆
18、硕士论文 2011. 吕爽:基于叙词表的医学领域本体的构建研究.吉林大学情报学 硕士论文2011. 杨喆:临床信息的标准化方法及其在心绞痛病例中的应用.第四军医大学公共卫生与预防医学 硕士论文 2013。- 采用protg构建心绞痛疾病本体 胡迪:一种基于openEHR领域模型的医疗数据展现和录入软件生成方法.浙江大学生物医学工程硕士论文 2014.Medica Knowledge Model Analysis临临床知识识模型分析)Relationship among the disease ontology, findings ontology and terminology ontolog
19、y成熟度曲线线(The Hype Cycl )傻子吃烧饼Gartner公司的成熟度曲线(The Hype Cycle) 萌芽期:在此阶段,随着媒体大肆的报道过度,非理性的渲染,产品的知名度无所不在,然而随着这个科技的缺点、问题、限制出现,失败的案例大于成功的案例,例如:.com公司 19982000年之间的非理性疯狂飙升期。 过热期:早期公众的过分关注演绎出了一系列成功的故事,同时也有众多失败的例子。对于失败,有些公司采取了补救措施,而大部分却无动于衷。 谷底期:在历经前面阶段所存活的科技经过多方扎实有重点的试验,而对此科技的适用范围及限制是以客观的并实际的了解,成功并能存活的经营模式逐渐成长
20、。 攀升期:在此阶段,有一新科技的诞生,在市面上受到主要媒体与业界高度的注意,例如:1996年的Internet ,Web。 成熟期:在此阶段,新科技产生的利益与潜力被市场实际接受,实质支援此经营模式的工具、方法论经过数代的演进,进入了非常成熟的阶段。大数据应应用(Big Data Application)Hype Cycle for Emerging Technologies, 2014大数据应应用(Big Data Application)Hype Cycle for Emerging Technologies, 2015不同角色应对应对成熟度曲线线策略Strategy Dealing w
21、ith Hyper Cycle for Different Roles角色萌芽期(科研早期)过热期(科研期)低谷期(科研向产业过渡期)攀升期(产业化早期)成熟期(产业化时期)行领先型主管:领先型主管:领先型主管:领先型/跟随型主领先型/跟随型主业主管宣传、鼓励、研讨、科研投入、科研政策支持、宣传、鼓励、研讨、科研投入、科研政策支持、宣传、鼓励、研讨、科研投入、 管:管:科研政策支持、孵化、人才培养、科研试点、组织攻关研组织攻关研宣传、鼓励、研讨、 宣传、鼓励、研讨、产业投入、产业政策支持、产业化试产业化试点、点、产业化人才培养产业投入、产业政策支持、产业化产业化、产业化人才培养科研试点、孵化、
22、 科研试点、科研试点、孵化、 究究人才培养人才培养跟随型主管:开始关注、人才培养用户领先型用户:根据自己需求和能力参与科研、人才培养、科研投入领先型用户:根据自己需求和能力参与科研参与科研、人才培养、科研投入领先型用户:领先型/跟随型用领先型/跟随型用户:采用成熟技术采用成熟技术根据自己需求和能力参与科研、 户:掌握深度切入时机、当试点用当试点用户户跟随型用户:开始关注、人才培养参与研究、参与试点、采用新技术采用新技术开发商领先型开发商:宣传、研讨、忽忽悠主管领导悠主管领导、科研投入、人才培养、研究团队建设领先型开发商:宣传、研讨、忽忽悠主管领导悠主管领导、科研投入、人才培养、研究团队建设领先
23、型开发商:领先型/跟随型开发商:宣传、研讨、产业投入、产品开发、产品开发、用户试点用户试点、产业化应用推广领先型/跟随型开发商:成熟产品应用推广成熟产品应用推广宣传、研讨、科研投入、人才培养、组织攻关研究和产品开组织攻关研究和产品开发、用户试点发、用户试点跟随型开发商:开始关注、人才培养投资风险投资风险投资风险投资/实业投资实业投资实业投资技术术成熟度曲线组线组成部分依据成熟度曲线线的陷阱 陷阱一:采用过早HIT很多例子 陷阱二:放弃过快坚持一下 陷阱一:采用过晚互联网时代只有第一 陷阱一:拖延过久割肉 注意力过滤 回报递减沼泽区“注意力过滤”造成盲点拓展版技术成熟度曲线成熟度曲线线的其他类类型快速成长型技术成熟度曲线长期稳健型技术成熟度曲线成熟度曲线线的其他类类型快速成长型技术成熟度曲线长期稳健型技术成熟度曲线创创新产产品市场场接受程度创创新产产品市场场盈利曲线线Thanks谢谢谢谢!