1、大数据的基本概念与应用前景大数据的基本概念与应用前景 内内 容容一、大数据的重要性二、大数据的基本特点三、大数据的相关技术与概念四、大数据的医学应用五、大数据的机遇与挑战不同国家的大数据战略不同国家的大数据战略国家国家/地区地区时间时间内容内容美国2012年3月启动由联邦政府六个部门组织的大数据研究计划,投资两亿美元。将“大数据战略”上升为国家战略,认为大数据为“未来的新石油”日本2012年7月面向2020年的ICT综合战略将“通过大数据应用促进社会发展经济增长”作为五大重点之一,并提出活力数据战略,提升日本竞争力欧盟2012年9月联合欧洲整体力量,制定大数据战略,作为欧盟Horizon 20
2、20战略一部分,加速追赶英国2013年1月英国把大数据作为八大关键技术领域之一,计划两年内向大数据关键技术投入1.89亿英镑,抢占先机澳大利亚2013年3月发布大数据战略报告,宣布将于2013年7月前完成政府大数据制定,促进大数据在政府中的应用中国2014年3月5日,“大数据”首次进入我国政府工作报告,11月15日李克强总理提出在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范。Source:Nigel Holmes 2012/Smolan&Erwitt:The Human Face of Big Data 内内 容容一、大数据的重要性二、大数据的基本特点三、大数据的相关技术与概
3、念四、大数据的医学应用五、大数据的机遇与挑战facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联网 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如
4、天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。大数据时代的演变大数据时代的演变大数据的大数据的4V特性特性YB:2的的80次方,次方,ZB的的1000倍倍ZB:2的的70次方,次方,EB的的1000倍倍EB:2的的60次方,次方,PB的的1000倍倍PB:2的的50次方,次方,TB的的1000倍倍TB:2的的40次方,次方,GB的的1000倍倍KB:2的的10次方,次方,1024=1KBMB:2的的20次方,次方,KB的的1000倍倍GB:2的的30次方,次方,MB的的1000倍倍一个英文字母=1字节(byte)绝大部分绝大部分应用在这应用在
5、这两个数量两个数量级级http:/ 2000年人类信息年人类信息75%是模拟数据,是模拟数据,2007年年是是6%,现在,现在1%?Value 价值价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低,是大数据的一个典型特征价值密度低,是大数据的一个典型特征.内内 容容一、大数据的重要性二、大数据的基本特点三、大数据的相关技术与概念四、大数据的医学应用五、大数据的机遇与挑战 大数据技术将被设计用于在成本可承受的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value)数据、信息、知识与
6、智能数据、信息、知识与智能DataInformationKnowledgeWisdom3939C39=FeverTake TylenolAcquisition StorageProcessingIntegrationRetrievalDisplay Descriptive:What happened?Disease categoriesAdverse eventsPredictive:What might happen?High-risk patientsGenetic risksPrescriptive:What should we do?Minimize readmissionsPerso
7、nalized therapeuticsBiomedical Discovery Healthcare Delivery Health Prevention数据采集数据储存与管理统计分析、预测与挖掘计算结果展示大数据的相关技术ETL工具(Extraction-Transformation-Loading,数据提取、转换和加载)数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库Hadoop云计算和云存储实时流处理标签云(Tag Cloud)聚类图(Clustergram)空间信息流(Spatial information
8、flow)热图(Heatmap)A/B Testing关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言白云下面数据跑蓝蓝的天上白云飘 如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。大数据与云计算(1)云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价
9、值性信息和预测性分析,为政府、医院等机构、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。大数据与云计算(2)Hadoop与Map Reduce的概念 Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行处理。Map Reduce则是一种可以用来并行处理大数据的编程模型。同一程序在Hadoop的框架下可以用各种不同的语言(Java,Ruby,Python等)按MapReduce的编程模型进行编写和运行。R语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上进
10、行分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流(Spatial information flow)是展示信息空间状态的一种可视化技术。热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。内内 容容一、大数据的重要性二、大数据的基本特点三、大数据的相关技术与概念四、大数据的医学应用五、大数据的机遇与挑战大数据应用大数据
11、应用公共卫生:公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。临床操作:临床操作:相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。科学科学研究研究与与发展:发展:在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。面临挑战面临挑战数据源结构化、半结构化(病历),非结构化(PACS影像)数据格式标准难制定,或不断变化数据量中型城市(1000万人口)存放50年会达到10PB 医疗信息
12、区域内准实时共享,医生可快速调阅病人信息信息共享提升效率基于病史的自动医疗、饮食等建议;针对病史和病症的OTC药物参考等个性化医疗疾病自动分类和诊断计算机辅助诊断趋势分析:例如,流行病扩展情况分析、癌症的历年趋势、药物效果分析决策辅助系统区域医疗健康档案系统区域医疗健康档案系统解决问题居民电子病历存储、查询解决方案HBase分布式数据库存放健康档案和PACS影像数据特点优势高速数据导入;实时数据查询;关键字搜索;分布式统计 Science杂志于2014年底和2015年初分别刊登了“公共卫生遇上了大数据”和“将大数据纳入公共卫生系统”,指出:“强大的流行病学基础、稳健的知识整合、循证医学原则以及
13、拓展的转化医学研究议程”可以推动大数据在公共卫生方面的应用。五、大数据的机遇与挑战五、大数据的机遇与挑战内内 容容一、大数据的重要性二、大数据的基本特点三、大数据的相关技术与概念四、大数据的医学应用五、大数据的机遇与挑战机遇机遇u大数据赋予我们洞察未来的能力 人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。大数据时代挑战挑战1:大数据时代赋予统计人员重大责任大数据时代赋予统计人员重大责任 数据的管理分析并不仅仅是提取,检索,汇总,总结。统计专业人员的参与也是必不可少的。数据本身的复杂性,使得分析的过程中充满了种种陷阱,误区。1.数据异质性(heterogeneit
14、y)。因素越多,建立普遍有效的统计模型的难度就越大。2.偏倚叠加(Biasaccumulation)3.虚假相关(spuriouscorrelation)4.无意义显著性(meaninglesssignificance)5.羊群效应(herdingeffect)没有一定统计方面的理论知识结构,就会出现分析上的偏差,或者数据利用低效率。挑战挑战2:大数据时代的个人能力要求大数据时代的个人能力要求u计算机科学计算机科学/数据开发的专业技能数据开发的专业技能:扎实的计算机科学基础及运用能力,明了大数据的基础框架设施u分析和建模能力分析和建模能力:在了解数据的基础上迅速分析并建立有效的统计模型。这不仅需要扎实的统计学,还需要有敏锐的思考和洞察力。u好奇心和创意的思考能力好奇心和创意的思考能力:这需要对数据有着一种渴望激情,善于全面敏锐的思考并挖掘问题。一些机构寻找人才就是看谁能在讨论数据时能够灵光一现。u突出的交流能力突出的交流能力:能清晰用非专业语言帮助客户理解分析结果,并做出决定。挑战挑战3:安全与隐私:安全与隐私 最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!