医疗大数据和相关技术课件.ppt

上传人(卖家):晟晟文业 文档编号:3790167 上传时间:2022-10-13 格式:PPT 页数:41 大小:5.54MB
下载 相关 举报
医疗大数据和相关技术课件.ppt_第1页
第1页 / 共41页
医疗大数据和相关技术课件.ppt_第2页
第2页 / 共41页
医疗大数据和相关技术课件.ppt_第3页
第3页 / 共41页
医疗大数据和相关技术课件.ppt_第4页
第4页 / 共41页
医疗大数据和相关技术课件.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、Page 1n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。目录大数据简介大数据简介大数据相关技术大数据相关技术大数据挖掘大数据挖掘大数据平台大数据平台Page 2n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。摩尔定律,正在走向终结n摩尔定律:集成电路芯片上所集成的电路的数目,每隔18个月就翻一番,同时性能也提升一倍n单芯片容纳晶体管的增加,对制造工艺提出要求nCPU制造18nm技术,电子泄漏问题nCPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散)功耗太高Page 3n文档仅供参考,不能作为科学依据,请勿

2、模仿;如有不当之处,请联系网站或本人删除。并发计算发展成熟Page 4n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据时代正在来临1000+PB24亿网民亿网民1天产生的数据63%63%GAGR非结构化数据增长率非结构化数据增长率数据摩尔定律:Y=C2XX代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量3030+TBTB交易量交易量3000+万笔万笔/天天1PB/S1PB/SCERN:核爆产生数据的速度:核爆产生数据的速度Page 5n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。单位英语标识大小例子位Bit1或

3、0一个二进制数位:0或1字节Byte8Bit一个英文字母:8Bit千字节KB1024Byte一页纸上的文字:5KB兆字节MB1024KB一首普通MP3的歌曲:4MB吉字节GB1024MB一部电影:1GB太字节TB1024GB美国国会图书馆所有登记印刷版书本的消息:15TB2011年底,其网络备份的数据量为280太字节拍字节PB1024TB美国邮政局一年处理的信件大约为5拍谷歌每小时处理的数据为1拍艾字节EB1024EB相当与13亿中国人人手一本500页的书加起来泽字节ZB1024ZB截止2010年,人类拥有的信息总量大概是1.2ZB尧字节YB1024YB超出想象数据量的表达单位当前典型大数据的

4、处理量Page 6n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。传统数据 vs.大数据Page 7n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。传统数据处理技术面临的挑战l海量数据的高存储成本l数据批量处理性能不足l流式数据处理缺失l有限的扩展能力l单一数据源l数据资产对外增值数据扩展性需求和硬件性能之间存在差距传统框架:小型机磁阵商用数据仓库传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求小型机+DWH+SAN成本高企、扩容昂贵无法满足海量数据的离线分析和实时分析无法满足对非结构化数据的快速处理要求Scale

5、-Up已到极限,必须支持Scale-OutPage 8n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据处于成长阶段,即将广泛商用Page 9n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据是对数据更大的掌控和应用能力大数据是淘炼黄金而不是制造更多的石头“大数据”是数据存储、管理、处理和分析的技术和解决方案“大数据”带来数据分析能力的质变性增强,不仅是传统BI领域,也为新商业机会和新商业模式提供了更大的创新空间;“大数据”是“以数据为中心”,这不仅是技术需要,也是管理需要;存储、计算、分析合一的系统成为必然的需求、趋势“

6、大数据”的本质不在于更多(更快)的数据,而在于对数据中蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生产业务的开展过程“Big Data is nothing without Big Analysis”Page 10n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据要解决的问题Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转巨大的数据价值Page 11n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。目录大数据简介大数据简介

7、大数据相关技术大数据相关技术大数据挖掘大数据挖掘大数据平台大数据平台Page 12n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据与云计算、物联网、互联网之间的关系 云计算来源:互联网进化论物联网移动互联网传统互联网产生海量数据大数据是对海量数据的高效处理。云计算是硬件资源的虚拟化,是大数据分析的支撑平台。处理分析Page 13n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。需求技术描述Data WarehouseData Warehouse数据仓库ETL,Data QualityETL,Data Quality信息整合、元

8、数据Text Analytics EngineText Analytics EngineVisual Data ModelingVisual Data Modeling文本内容分词与分析Hadoop Hadoop Map ReduceMap Reduce分布式文件系统流计算引擎Streaming DataStreaming Data海量非结构化、结构化数据存储结构化数据处理实时数据处理非结构数据分析各类信息整合数据处理技术的变化:满足数据的多样化Page 14n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据技术n 成本可承受(economically)的情

9、况下n 通过非常快速(velocity)的采集、发现和分析;在大量化(volumes)、多类别(variety)的数据中提取价值(value)n 分析的数据越全面,分析的结果就越接近于真实n 能够从这些数据中获取新的洞察力,并将其与已知业务的各个环节相融合Page 15n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。计算存储数据库网络n单机单机集群文件存储单机设备间连接设备内连接关系型数据库10GE FC IB分布式数据库非关系型数据库块存储10GE SAS IB横向扩展块级虚拟化横向扩展分布式文件系统大数据带来哪些技术变革-技术驱动Page 16n文档仅供参考

10、,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据的基本技术 分布式文件系统HDFS(hadoop Distributed File System)并行数据处理MapReduce 非结构化数据表HBase 流式数据处理StreamingPage 17n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。MapReduce 分布式数据处理架构分组分组聚合聚合DATA计算(IOE架构)输入结果输出传统方式X86 服务器X86 服务器Page 18n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。HDFS 分布式文件系统架

11、构Hadoop 集群Page 19n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。HBase NoSQL数据库HBase的数据模型分布式的多维映射,以(row,column,timestamp)索引RowsCnnnnnntimestamps“contents:”“anchor:baidu”“anchor:google”“”t1“”t2“”Column FamilyTableletPage 20n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Streaming:流式数据处理-StormStorm 广泛应用于实时分析,在线机器学习,持

12、续计算等领域。VSPage 21n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据 的 预处理技术数据污染数据处理Page 22n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据 的 存储技术n 结构化数据:传统的关系数据模式 海量数据的查询、统计、更新等操作效率低n 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储n 半结构化数据 转换为结构化存储 按照非结构化存储Page 23n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。存储与分析融合,提升处理效率

13、拷贝共享存储分析存储拷贝导入存储数据生产数据共享数据分析数据生产数据共享数据分析n一份数据3次存储,浪费空间67%n一份数据2次拷贝,浪费时间2倍n一份数据1次存储,节省空间67%n一份数据0次拷贝,提升效率2倍存储资源池Page 24n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据 的 其他技术n 数据仓库 数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成n 联机

14、分析 联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析;“维”是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创建“万维”动态报表n 数据挖掘 通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。Page 25n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。大数据的分析挖掘技术技术方法分类 根据挖掘任务:分为分类或预测模型

15、发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等 根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web 根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。重点技术 可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果。数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引

16、擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。Page 26n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。目录大数据简介大数据简介大数据相关技术大数据相关技术大数据挖掘大数据挖掘大数据平台大数据平台Page 27n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。数据挖掘(DM)与 知识发现(KDD)顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息数据挖掘技术投入商用的三种基础技术已发展成熟(1

17、)海量数据搜集(2)强大的分布式并行处理技术(3)数据挖掘算法知识发现(KDD):从源数据中发掘模式或联系的方法KDD被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM,Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。数据挖掘所发现的知识有以下四类:广义知识:指类别特征的概括性描述知识 关联知识:反应一个事件和其他时间之间依赖或关联的知识 分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识 预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。Page 28n文档仅供参考,不能作为科学依据,请勿模仿;

18、如有不当之处,请联系网站或本人删除。数据挖掘流程及方法模型Page 29n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。数据挖掘的技术l技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律l数据挖掘技术 关联分析 序列模式 分类(预言)聚集 异常检测Page 30n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。关联买尿布的客买尿布的客户户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户Page 31n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本

19、人删除。序列n 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值n应用领域:客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制Page 32n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。分类&预测分类是发现 质变预测是发现 量变Page 33n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。聚类P

20、age 34n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。聚类(续)n将物理或抽象对象的集合分组成为由类似的对象组成的多个类n聚类在不同的应用领域,用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中;聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性n聚类与分类不同,聚类所要求划分的类是未知的Page 35n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。异常探测 异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著

21、不同于其它数据的对象。异常探测应用 电信和信用卡欺骗 贷款审批 药物研究 气象预报 金融领域 客户分类 网络入侵检测 故障检测与诊断等 异常的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。Page 36n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。目录大数据简介大数据简介大数据相关技术大数据相关技术大数据挖掘大数据挖掘大数据平台大数据平台Page 37n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。揭开Hadoop神秘的面纱n Hadoop是Apache基金会的一个项目总称,主要由

22、HDFS和MapReduce组成。n Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。n Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Page 38n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Hadoop已成为大数据事实标准第一阶段(第一阶段(2005200920052009年):模仿年):模仿GoogleGoogle的的“三驾马车三驾马车”,主导者是,主导者是YahooYahoo!,Facebook,Facebook等互联网厂商,相关等互联网厂商,相关项目项目第二阶段(第二阶段(20092009年年

23、):模仿):模仿GoogleGoogle的的“新三驾马车新三驾马车”,主导者是,主导者是ClouderaCloudera、HortonworksHortonworks等等HadoopHadoop发行版发行版厂商,厂商,IBMIBM、EMCEMC、IntelIntel、HuaweiHuawei等传统等传统IT IT厂商开始集成厂商开始集成HadoopHadoop,HaoopHaoop进入企业市场,相关项目进入企业市场,相关项目第三阶段(第三阶段(20122012年年):博采众长,吸纳):博采众长,吸纳AMP LabAMP Lab、流计算等成果,通过配套工具构筑大数据领域生态系统,形、流计算等成果

24、,通过配套工具构筑大数据领域生态系统,形成事实标准;相关项目成事实标准;相关项目。6 6大大Hadoop Hadoop 发行版厂商发行版厂商ClouderaCloudera、HortonworksHortonworks、MapRMapR、IBM IBM、EMCEMC、HuaweiHuaweiPage 39n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。数据处理技术与架构发展趋势传统数据仓库SQL、UPFSQL执行引擎行存、磁盘、单机/SE集群I/O存在瓶颈扩展能力差实时性差非结构化数据存储无法支持复杂计算数据处理能力弱UPF:User-defined Proce

25、ss FunctionSE:Share EverythingSN:Share Nothing并行批处理/HadoopSQL、Java、Python多种计算模型(MR、图计算、)HDFS、SN分布式解决“大、杂”多类型数据复杂计算模型灵活编程接口MPP数据仓库SQL、UPF向量迭代、并行列存、SN分布式内存分析数据库SQL、UPFMicroEngine、并行列存、内存流处理引擎CQL、规则网状算子执行内存解决“大、快”结构化数据快速查询、交互式实时查询One sizes fit all单一架构One sizes fit domain分离架构(四套系统)One stack rules them a

26、ll融合架构(四套变一套)统一持久层,数据减少移动统一管理,实现资源共享和管理自动化同一数据可同时进行批处理、流处理以及查询多种计算模型解决“快、杂”异构流数据实时处理MPP DB高级编程接口批计算流计算分布式文件系统资源管理开发IDE系统管理数据挖掘算法/建模/其他工具 Page 40n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。挖掘平台数据探索并行化机器学习算法库(Mahout/MLlib/HiGraph)建模分析统计报表行业应用使能器(Enabler)金融行业模型使能套件电信行业模型使能套件医疗行业模型使能套件特征工程l 特征工程:1.多人协作2.特征复用,可达1000万维度l建模算法:1.算法并行化效率(T+0)2.深度学习技术l 社交化1.社交化分析2.社交化发布l开放性1.支持PMML,可以与SAS、SPSS等对接2.支持SQL对Operator的扩展性3.支持与R对接挖掘平台的业务架构Page 41n文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。关注大数据技术研究关注大数据技术研究发现数据价值发现数据价值谢谢谢谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(医疗大数据和相关技术课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|