1、大数据医疗培训资料大数据医疗培训资料目录目录m关于大数据的各种书籍简介m云计算和物联网m大数据在医疗行业的运用:文字、图像、视频、物联网m非结构化大数据分析手段:聚类分析、机器学习m计算机大数据算法m大数据算法工具2大数据医疗培训资料关于大数据的各种书籍简介关于大数据的各种书籍简介m关于亚马逊:贝佐斯创建的一个小书店发展成亚马逊,数据驱动型公司,建立了遍布全美的云存储器。优于淘宝之处在于控制产品质量,先行赔付,用户体验好。m关于谷歌:敏锐的聚焦网络搜索,搜索问题组成了非结构化数据库,以此为基础进行预测算法。Google Fitm关于苹果:HealthKit 3大数据医疗培训资料关于大数据的各种
2、书籍简介关于大数据的各种书籍简介m大数据营销:定位客户商业营销中大数据的使用,例如在广告中找到人们最关注的部分,扩大这个部分;分析客户构成等;精准营销,定位到人。m爆发大数据对历史发展的预测。m工业4.0大数据驱动工业发展,开启产品全生命周期管理模式物联网。m大数据时代作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;万事万物数据化,数据交叉复用。m努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。m大数据云图:对多个行业未来的展望,用计算机模拟来找到最优化解决方法。4大数据医疗培训资料云计算和物联网云计算和物
3、联网m云计算和物联网如今已是IT业界的两大焦点,它们有很大的区别,但同时也有着千丝万缕的联系物联网通过数量惊人的传感器采集到难以计数的数据量,而云计算可以对这些海量数据进行智能处理。可以说,云计算是物联网发展的基石,而物联网又是云计算最大的用户,二者的融合可谓珠联璧合,相辅相成。在大数据时代,云计算融合物联网将进一步推动数据价值的挖掘,促进产业爆发。5大数据医疗培训资料云计算云计算m云计算(cloud computing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模
4、拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。mIBM的创立者托马斯沃森曾表示,全世界只需要5台电脑就足够了。比尔盖茨则在一次演讲中称,个人用户的内存只需640K足矣。李开复打了一个很形象的比喻:钱庄。6大数据医疗培训资料大数据在医疗行业的运用大数据在医疗行业的运用m1、精细化医疗。m2、国家肿瘤中心开发的影像学和病理学自动识别软件,已超过医师平均水平。m3、各种砸钱不讨好的移动医疗,没有抓住痛点,没有找到经济增长点,无根之水。7大数据医疗培训资料有可能想象依赖于有可能想象依赖于“分子症状分子症状,而不是临床症状来,而不是临床症状来触
5、发治疗干预更积极的医疗实践触发治疗干预更积极的医疗实践。治疗未病治疗未病8大数据医疗培训资料大数据时代的非结构化数据分析在医疗中的大数据时代的非结构化数据分析在医疗中的运用运用前提前提m1、信息安全保障m2、病人唯一标识建立(MPI)m3、标准术语系统(1、2对于结构化数据依然需要)9大数据医疗培训资料大数据时代的非结构化数据处理在医疗中的大数据时代的非结构化数据处理在医疗中的运用运用文字分析文字分析m1、语言处理技术:m建立标准术语系统医学知识模型信息提取文本模块化m2、数据挖掘技术:m机器学习m统计学习m规则归纳m3、应用:电子病历数据挖掘支持临床决策、建立临床路径、临床指南,诊疗过程追踪
6、10大数据医疗培训资料大数据时代的非结构化数据处理在医疗中的大数据时代的非结构化数据处理在医疗中的运用运用图像图像m生物特征识别技术通常按照,扫描、数字化处理、分析、特征提取、存储、匹配分类几个步骤处理。目前扫描数字化处理已经相对成熟,主要的研究集中在分析和特征提取方面。m计算机辅助诊断技术:医学CAD1、图像预处理:灰度直方图、去噪、图像增强2、图像特征提取:边缘分割、灰度共生矩阵3、图像分类:支持向量机算法(神经网络的一种衍生算法)11大数据医疗培训资料大数据时代的非结构化数据处理在医疗中的大数据时代的非结构化数据处理在医疗中的运用运用图像之全息眼镜图像之全息眼镜12大数据医疗培训资料大数
7、据时代的非结构化数据处理在医疗中的大数据时代的非结构化数据处理在医疗中的运用运用物联网物联网m安大略理工大学的卡罗琳麦格雷戈(Carolyn McGregor)博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和血氧含量,这些数据可以达到每秒钟1260个数据点之多。在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的身体变化发出的感染信号。m穿戴设备m生命体征监测床14大数据医疗培训资料m如何用软件来实现这些大数据分析工作呢?以下讲一种机器学习的方法。15大数据医疗培
8、训资料大数据分析手段大数据分析手段 机器学习机器学习m机器学习:机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。m机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。m机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。m机器学习是人工智能的基础。16大数据医疗培训资料大数据分析手段大数据分析手段 机器学习分类机器学习分类m1、监督学习:给定输入即有唯一标准输出答案。例如支持向量机m2、学习理论:学习样本量的计算、模型准确率的计算等理论m3、无监督学习:对于给定输入并不能确定标准答案。例如聚类分
9、析m4、加强学习:类似生物反馈。17大数据医疗培训资料大数据分析手段大数据分析手段 聚类分析聚类分析m将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。m聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。m聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。m聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。18大数据医疗培训资料大数据分析手段大数据分析手段 聚类分析举例
10、聚类分析举例19大数据医疗培训资料m当你的数据达到TB级别后,硬件运算速度明显不能达到期望值(即时出现结果),这时,你需要求助于大数据算法和处理工具。20大数据医疗培训资料计算机大数据算法计算机大数据算法访问全部数据时间过长 读取部分数据时间亚线性算法数据难于放入内存计算 将数据存储到磁盘上外存算法 仅基于少量数据进行计算空间亚线性算法单个计算机难以保存全部数据,计算需要整体数据 并行处理并行算法计算机计算能力不足或知识不足 人来帮忙众包算法21大数据医疗培训资料计算机大数据算法计算机大数据算法 并行算法之并行算法之mapreducemapreducemMapReduce是一种编程模型,用于大
11、规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。m它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。m当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。(大规模数据集的并行运算。)22大数据医疗培训资料大数据处理工具大数据处理工具m1、2011年5月,IBM正式推出InfoSphere大数据分析平台,包括 BigInsights和Str
12、eams,二者互补,Biglnsights基于Hadoop,对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。mStreams采用内存计算方式分析实时数据。mInfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。23大数据医疗培训资料大数据处理工具大数据处理工具m2、2009年推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和应用可谓了若指掌,无论是中小型企业还是大型组织。m弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(A
13、mazon EC2)和亚马逊简单存储服务(Amazon S3)上。m这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。24大数据医疗培训资料大数据处理工具大数据处理工具m3、2011年甲骨文正式推出了Oracle大数据机。mOracle大数据机集成了硬件、存储和软件,包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL数据库和用于统计分析的R语言开源代码分发。m该产品被设计为能够与甲骨文Database 11g、Oracle Exadata数据库云服务器,以及
14、针对商业智能应用的新的Oracle Exalytics商业智能云服务器一起协同工作。25大数据医疗培训资料大数据处理工具大数据处理工具m4、BigQuery是Google推出的一项Web服务,用来在云端处理大数据。mGoogle曾表示BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。m大数据在云端模型具备很多优势,BigQuery服务无需组织提供或建立数据仓库。mBigQuery在安全性和数据备份服务也相当完善。26大数据医疗培训资料大数据处理工具大数据处理工具m5、2011年初微软发布的SQL Server R2 Parallel Data Wareho
15、use(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署级别数据的分析解决方案。m微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。该连接器是双向的,你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。m它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本的一部分。27大数据医疗培训资料参考来源参考来源m1、非结构化病例文档结构转换方法研究李伟m2、电子病历辅助临床决策m3、基于特征提取和机器学习的医学图像分析张旭亚m4、大数据算法中国大学moocm5、Defining digital medicine;Eric Elenko,Lindsay Underwood&Daphne Zohar;Nature Biotechnology 33,456461m6、机器学习网易公开课之斯坦福大学公开课28大数据医疗培训资料