1、大数据 医疗&工程建设 演讲人:徐启雄 周聪资料收集:宋佳琪 马宇寰 邢洪达ppt制作:向琪工程管理1101班 2014年6月6日 PART 1 大数据在 医疗领域 的应用outline一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望医疗费用在不断上升GDP的占比非常高10-19%0-9%趋势分析:我们正处在医疗行业的一个重要转折点%of population over age 6030+%25-29%20-24%205
2、0WW Average Age 60+:21%Source:United Nations “Population Aging 2002”全球老龄化平均年龄60 +:目前的10%,到2050年将达到20%Source:McKinsey Global Institute AnalysisESG Research Report 2011 North American Health Care Provider Market Size and Forecast以美国为例:医疗大数据的价值3千亿美元/年,相当于每年生成总值增长0.7%0150001000050002010 2011 2012 2013 2
3、014 2015趋势分析:我们正处在医疗行业的一个重要转折点存储的增长医疗服务产生的数据总量(PB)AdminImagingEMREmailFileNon Clin ImgResearch医疗影像归档一个医疗系统案例的数据到2020年,医疗数据将急剧增长到35 Zetabytes,相当于2009年数据量的44倍增长Source:McKinsey Global Institute AnalysisESG Research Report 2011 North American Health Care Provider Market Size and Forecast一、医疗与大数据的趋势二、什么是
4、医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望大数据对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。4V:Volume(大量)Velocity(高速)Variety(多样)veracity(真实性)/Value(价值性)1.制药企业/生命科学3.费用报销,利用率 和 欺诈监管2.临床决策支持&其他临床应用 (包括诊断相关的影像信息)4.患者行为/社交网络医疗大数据简介数据来源包括哪些?我们如何利用大数据创造价值?(示例)2.临床
5、决策支持4.由生活方式和行为引发的疾病分析1.个体化医疗3.欺诈监测得以加强McKinsey Global Institute Analysis医疗大数据相关解决方案健康信息服务新兴的医疗服务应用数据分析及视觉化处理数据处理/管理分布式平台老龄社会肿瘤基因组学医疗影像分析医疗影像影像数据处理加速基础医疗服务临床决策支持类SQL的检索医疗记录存储优化个人健康管理个体化医疗机器学习基因数据安全和隐私一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望大数据的挑战不仅来自于数据量的增长.需要新技术的支持检验结果,费用数据,影像,设备产生的感
6、应数据,基因数据等数据量结构化数据,遵循标准的数据标准(如,HL7)非结构化数据,如口述、手写、照片、影像等类型实时有效的商业价值基于现有数据库中的数据进行分析,来支持不同种类的业务:如费用及报销、患者病史、归档影像分析、实时临床决策支持(数据分析)实时数据分析,而非传统的批量处理分析 数据以流的方式进入系统,进行抽取和分析 对于实时运行中的每个时间节点产生影响,而不是事后处理在传统的解决方案之上,引入新的数据及分析模型和技术,价值速度一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望传统解决方案环境ERP,CRM,Batch,OL
7、TP-DBData Center ProvisioningDiscreteVirtualCloud As A ServiceHPC关注数据的价值大数据存储的考虑传统存储方式大规模分析 Hadoop*海量数据库 Hive*大规模备份 Lustre*数据源文本-语音-视频-传感器Requesting Or M2M通讯批量 商业应用丰富的视觉化效果 安全的数据分析和缓存边缘服务器(Edge)分析同步端到端Machine-to-MachineSource-to-Source可行的解决方案体系(示例)Applications&ServicesVisualization File Structure&An
8、alyticalToolsData Delivery,Operational&GraphicalAnalyticsData Management&ComputationalAnalyticsCompute Storage&InfrastructurePlatforms高效的大数据访问途径 (客户端)“Know Me”“Free Me”“Express Me”智能手机移动医疗助理平板电脑笔记本,Ultrabook其他设备台式机数字标牌自助终端MobilityVital sign,I&O entryMedicationadministrationTemplatedata entryFree-for
9、mat textdata entryLarge diagnosticimagesData inquiryManageability“Link Me”大数据在中国医疗行业中的应用模式1.制药企业/生命科学3.费用报销,利用率 和 欺诈监管2.临床决策支持&其他临床应用 (包括诊断相关的影像信息)4.患者行为/社交网络药品研发对药品实际 作用进行分析;实施药品市场预测基因测序分布式计算加快基因测序计算效率公共卫生实时统计分析发现公共卫生疫情及公民健康状况新农合基金数据分析及时了解基金状况,预测风险辅助制定农合基金的起付线,赔付病种等基本药物临床应用分析分析基本药物在处方中的比例临床数据比对匹配同类
10、型的病人,用药临床决策支持利用规则和数据实时分析给出智能提示远程监控采集并分析病人随身携带仪器数据,给出智能建议人口统计学分析对不同群体人群的就医,健康数据实施人口统计分析了解病人就诊行为发现病人的特定就诊行为,分配医疗资源一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望案例分享:Regional Health Info Network ChinaReal-time Clinical Decision Support 实时的医疗数据处理(电子健康档案,医疗影像数据),支持医疗协同、临床决策支持和公共卫生管理 采用 Hadoop*(
11、HBase*/Hive*)来实现医疗数据分析和处理 未来将扩展到不同领域、不同区域/地区(包括数据交换、处理和分析)与本地的软件厂商及OEM厂商进行了广泛合作 技术挑战 Hadoop(HBase/Hive)与传统关系型数据库如何有效结合大数据在区域卫生信息平台中的切实可行应用场景PublicHealthHospitalPrimary care(Grassroots)HealthInformationDWEHRData&ServicesRegistriesData&ServicesLongitudinal Record ServicesHealth Information Access Laye
12、rCare CoordinationClinical decision supportData AnalyticR&DRHINAncillaryData&Services分布式数据服务系统展现层(报告,视图)区域医疗及基层医疗信息系统大数据解决方案(Hadoop*)集成的用户应用界面(居民、医生、卫生行政管理人员)数据挖掘(Mahout)分布式批量处理框架(Map/Reduce)区域卫生信息访问层区域卫生信息访问层(HIAL)医院信息系统医院信息系统语言和编译(Hive)实时数据库(Hbase)基层医疗信息系统医疗服务药品管理新农合医疗保险服务器虚拟化基础设施虚拟化基础设施虚拟化网络虚拟化 存
13、储虚拟化基于云的区域基层医疗服务系统多租户应用多租户应用分布式文件系统 协作 服务(HDFS)(Zookeeper)结构化数据采集器 日志数据采集器(Sqoop)(Flume)健康档案数据存储公共卫生运营管理Sequencing3 BillionBase PairsDataProcessingCloud StorageVisualizationMillions ofVariantsInterpretation&AnalyticsMillions of VariantsMillions of PatientsCommercializingTargetedTherapeuticsCompanion
14、DiagnosticsActionable Biomarkers案例分享:NEXTBIO基因数据分析Cost to sequence a genome has fallen by800 x in the last 4 yearsEach genome has 4 million variantsGrowth in the genomics data in the publicand private domainData available in variety of sourcesStructured,semi-structured,unstructuredNew aggregated dat
15、a growingexponentially案例分享:NEXTBIO病人相关性数据Novel DiscoveriesBiomarkersDisease MechanismDrug IndicationsClinical Trial ParametersPatient Care OptionsLarge content repository of public and private genomic datacombined with proprietary and patented correlation engine案例分享:NEXTBIONextbio&Intel 合作方向技术挑战:Imm
16、utable Data write once,never change,read many timesTraditional Bloom Filters worksHadoop*&HBase*well suited1 genome 10 million rows100 genomes 1billion rows1M genomes 10 trillion rows100M genomes 1 quadrillion1,000,000,000,000,000 rowsApp can dynamically partitions HBaseas data size grows英特尔对于Hadoop
17、提供的优化:Optimized Hadoop stack in opensourceStabilize HBase to provide reliablescalable deploymentOptimize and support scale-out asdata size dramatically growsExploring cluster auto tuning,Security&Compliance,etc.案例分享:Kaiser Permanente 大数据应用数据的发展趋势结构化数据80%非结构化数据全世界 80%的数据是非结构化的 (大量的移动终端设备,机器产生的数据)在未来十
18、年,数据将迎来 44 倍的增长 (35zettabytes by 2020)主要的数据 增长 来自于 非结构化数据 (在线的归档数据,医疗影像,在线视频和存储,照片等)全球数据的构成Kaiser的数据中,90%是非结构化的 (80%的EHR和影像数据)在未来十年,数据将会有 25 倍的增长 (Oneexabyte by 2020)主要的数据 增长 来自于 非结构化数据 (医疗影像,视频,文本,音频等)信息 给 实时个性化医疗服务带来了可能性(Requires Contextual device,environment,spatial,Demographics,Social and Behavi
19、oral profiles inaddition to medical information)Kaiser 正在评估大数据相关技术Kaiser的数据构成结构化数据90%UNSTRUCTURED 构化数据DATA非结信息 给各行业发展带来了新一轮的机遇 (零售,金融,保险,制造,医疗,)各行业已经开始采用 大数据技术 用于信息提取Source:KaiserMaster Integrate built/bought Real-time PredictiveAnalytical Solutions or Processing logicDiscontinuous ChangeSAN/NASSMP(
20、5$)SAN/NASIn-Memory(50$)Share-NothingDistributed Storage andCompute($)Fault-tolerant MasterSlave Architecturecapable of withstanding partial system failuresData is distributed across processing slavenodesResources containing data are not sharedMaster manages the data distribution,jobscheduling acros
21、s slave nodes and aggregatingresult setsSlave(s)DASSAN/NASMPP(10$)SAN/NASSMP(Disk Caching,High Speed Network)(10$)数据平台计算的趋势 分布式计算Kaiser is looking to exploitthis capability Structured,RelationalTabular Data Interactive Query Support Real-time Analytics SQL Transaction Data Unstructured,Non-tabularDa
22、ta Rich Ad Hoc Integration Real-time Analytics UQL ALL Data大数据平台需求分析处理的特性 Intuition(Simulation,Optimization,Stochastic Optimization)Information(Standard&Ad Hocreporting,Query,Alerts,Forecasting,Access)Interrogation(Clustering,Statistical,Quality,Semantics)Integration(Alignment,Semantics,Completeness
23、,Quality)Ingestion(Data Model,MetadataReference Data,Store)Information drives process optimizations withstrategic impact.Modeling business intuitionfrom data deluge.Ability to model information and transition frommultiple access methods to generating,sharing,collaborating and acting on insights anyt
24、ime,anywhere on any device.Support current BI tools focused on structuredinformation.Build/buy packaged unstructureddata processing and analytics tools.A portfolio of tools to manage(profile,cleanse,classify,synchronize,aggregate,integrate,share)ALL types of data.A unified information storage method
25、ologyenabling users to manage data from ALL sources.数据的特性数据量(Sensors,EMR,Claims,Pharmacy,Images)速度(SLAs,Real-timeDecision Support&ContextualIntelligence)类型(Structured,Text,Unstructured,Documents,Images)大数据 界定的标准DATA SIZEDATA TYPEDATA CLASSDATA CATALOGDATA VELOCITYDATA ACCESSDATABASE TYPEGigabytes,Te
26、rabytes,PetabytesStructured,Semi-Structured,UnstructuredHuman Generated,Machine GeneratedText,Image,Audio,VideoBatch,StreamingAnalytics,Search,Transaction(ACID,BASE)Relational,File Based,Columnar,NoSQL,Document,Graph,RDFFRAMEWORKSANALYTICSFinancial,Computer Vision Engine,Geospatial,Machine Learning,
27、Mathematical,Natural Language Processing,Neural Networks,Statistical Modeling,Time-Series Analysis,Voice EngineStandard Reporting,Ad hoc Reporting,Query/Drill downs,AlertsForecasting,Simulations,Optimization,Stochastic OptimizationsSERVERARCHITECTUREDISTRIBUTEDPROCESSINGSTORAGEARCHITECTURESMP,MMP,Ap
28、pliance,NAS,SAN,Distributed ProcessingCommodity Cluster(CC)1K nodesDirect Access Storage,Spinning Disks,Flash,SSD一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望36总结 我们正处在医疗行业大数据和分析的一个重要转折点 我们需要让大数据更为高效,可以便捷的访问 专注在创新,依赖产业链来提供企业核心能力之外的服务 采用标准和最佳实践,参考全球已有的成熟模型展望展望让我们一起让医疗大数据成为现实让我们一起让医疗大数据成为现实
29、:提供具有差异化的技术解决方案,探索开放标准和最提供具有差异化的技术解决方案,探索开放标准和最佳实践佳实践寻找可能的客户和产业链合作伙伴,共同探索医疗行寻找可能的客户和产业链合作伙伴,共同探索医疗行业的核心应用模式业的核心应用模式与产业合作进行验证,加速大数据的采用与产业合作进行验证,加速大数据的采用 PART 2 大数据在 工程建设 中的应用存在的问题工程建设行业在建造过程中会产生大量的数据大型项目从设计到落成大约有100G的信息量大型施工企业每年都会有上千的项目建筑业由于其项目的特点,每年都会产生巨大的数据量这些庞大的数据大多随着项目的完成而终结其使命很少有系统能够对其进行分析,从而导致数
30、据的流失或浪费 应用大数据在建筑领域的应用:从勘察设计、招投标、建设、运营等阶段,都可以运用到大数据勘察设计招投标建设运营 应用No.1 用大数据构建工程质量监管大平台p 利用“普适计算”技术,保证质量数据收集和应用的实时性 普适计算是信息空间与物理空间的融合,在这个融合的空 间中人们可以随时随地、透明地获得数字化的服务。p 实现各大平台的数据共享 应用No.2 大数据在工程造价中的应用我国工程造价只有居住和商业类比较成熟,而其他的方面都没有成熟的分类指标。应用No.3 帮助施工企业财务分析及处理 应用Thanks小组成员:马宇寰 宋佳琪 向琪 徐启雄 周聪 邢洪达树立质量法制观念、提高全员质
31、量意识。22.8.222.8.2Tuesday,August 02,2022人生得意须尽欢,莫使金樽空对月。15:13:4315:13:4315:138/2/2022 3:13:43 PM安全象只弓,不拉它就松,要想保安全,常把弓弦绷。22.8.215:13:4315:13Aug-222-Aug-22加强交通建设管理,确保工程建设质量。15:13:4315:13:4315:13Tuesday,August 02,2022安全在于心细,事故出在麻痹。22.8.222.8.215:13:4315:13:43August 2,2022踏实肯干,努力奋斗。2022年8月2日下午3时13分22.8.22
32、2.8.2追求至善凭技术开拓市场,凭管理增创效益,凭服务树立形象。2022年8月2日星期二下午3时13分43秒15:13:4322.8.2严格把控质量关,让生产更加有保障。2022年8月下午3时13分22.8.215:13August 2,2022作业标准记得牢,驾轻就熟除烦恼。2022年8月2日星期二15时13分43秒15:13:432 August 2022好的事情马上就会到来,一切都是最好的安排。下午3时13分43秒下午3时13分15:13:4322.8.2专注今天,好好努力,剩下的交给时间。22.8.222.8.215:1315:13:4315:13:43Aug-22牢记安全之责,善谋安全之策,力务安全之实。2022年8月2日星期二15时13分43秒Tuesday,August 02,2022相信相信得力量。22.8.22022年8月2日星期二15时13分43秒22.8.2谢谢大家!谢谢大家!