1、从从大数据到数据科学大数据到数据科学何晓丰华东师范大学软件学院华师大数据科学与工程研究院 Outline大数据Hadoop 与大数据华师大数据科学与工程研究院数据科学研究数据科学工程化探索“大数据”的内涵五个“V”Volume “大量”Variety “多样”文本,音频,视频,结构化,半结构化,非结构化Velocity “速度”Veracity “真实”Value “价值”低密度IBM究竟什么是“大数据”?海量不仅仅是数据知识工程数据=信息=知识搜集,存储,保存,管理,分析,共享技术4“大数据”的诞生2008年9月4日:Nature出版“Big Data”专辑讨论大数据技术问题及挑战2009年
2、7月:OReilly Media出版数据之美(Beautiful Data)一书地图和数据的融合进行城市犯罪趋势的可视化2009年10月:为纪念Jim Gray,微软出版了第四范式数据密集型科学发现 (The Fourth ParadigmData Intensive Scientific Discovery)实验科学=理论科学=计算科学=数据科学“大数据”的诞生2011年2月11日:Science出版“Dealing with Data”专辑,联合Science Signaling、Science Translational Medicine和Science Careers推出相关专题,讨论
3、数据对科学研究的重要性“大数据”的诞生2012年3月29日:白宫科技政策办公室(Office of Science and Technology Policy)宣布两亿美元的“大数据研究计划”(Big Data R&D Initiative)Joint with NSF,NIH,DoD,DARPA,DoE,USGS同一天,我国科技部发布“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位大数据的分类8分布、高性能大数据管理(海量数据的“云”管理)管理分析信息服务决策支持科学研究科学大数据p科学实验p科学观测p数值仿真决策大数据网络大数据Outline什么是“大数据
4、”Hadoop 与大数据华师大数据科学与工程研究院数据科学研究数据科学工程化探索大数据研究基础平台商用机集群数据处理Hadoop,NoSQL,Spark,数据分析分布式基于内存的计算行业应用Hadoop技术Hadoop:在商用机集群上快速、低成本地实现大数据的存储及处理Hadoop构成:MapReduce+HDFSMapReduce可实现高性能分布式数据处理HDFS提供可靠数据存储服务,低廉MPP(大规模并行处理),高容错、高通量,可伸缩用户可在不了解底层细节的情况下,开发分布式程序,充分利用MPP能力Hadoop的诞生GFS(Google文件系统)Sanjay Ghemawat,Howard
5、 Gobioff,Shun-Tak Leung:The Google file system.SOSP 2003:29-43MapReduceJeffrey Dean,Sanjay Ghemawat:MapReduce:Simplified Data Processing on Large Clusters.OSDI 2004:137-150BigTableFay Chang,Jeffrey Dean,Sanjay Ghemawat,et al:Bigtable:A Distributed Storage System for Structured Data.OSDI 2006:205-218
6、Hadoop的发展2004年:Doug Cutting和Michael J.Cafarella根据Google Labs论文实施,取名Hadoop。Cloudera公司,Hadoop商用版(Apache开源版)2005秋天:Hadoop 由Apache作为 Lucene的子项目 Nutch的一部分正式引入。2006年3月:Map/Reduce 和 Nutch Distributed File System(NDFS)分别被纳入 Hadoop 的项目中2006 2008:Web-scale Hadoop!(Yahoo!)Hadoop的局限Hadoop自身的弱点离线、批量的数据处理系统,不能应对实
7、时响应HDFS专门针对大文件的存储,等待时间较长,无法做到很高速的随即读写尽管如此,Hadoop在处理网络数据等方面取得巨大成功,从一门边缘技术发展为事实上的标准Outline什么是“大数据”Hadoop 与大数据华师大数据科学与工程研究院数据科学研究数据科学工程化探索数据科学(Data Science)1966年:Peter Naur(2005年图灵奖得主)提出datalogy代替计算机科学1996年:数据科学首次出现在国际学术会议2002年:国际科学理事会(ICSU)出版数据科学期刊(CODATA Data Science Journal)2011年12月:EMC(信息存储巨头)提出了“数
8、据科学家”的概念计算机科学=数据科学统计学+数学+计算机科学+机器学习+信息学+可视化+(领域知识)数据科学的系统架构18TLBPhys.Virt.CoreL1 cacheL2 cacheL3 cacheTLBPhys.Virt.CoreL1 cacheL2 cacheCPUTLBPhys.Virt.CoreL1 cacheL2 cacheL3 cacheTLBPhys.Virt.CoreL1 cacheL2 cacheCPU高速网络底层数据管理平台微博数据轨迹数据情感分析热点事件分析基于位置的服务底层数据管理平台 有效资源管理与任务调度 高效内存管理与数据容错 高吞吐、即席、实时响应123研
9、究目标研究目标面向实时商务智能的应用需求,突破内存系统的可靠性保障,非一致内存访问(NUMA)环境下的高效数据存取,大规模任务并行执行和调度等关键技术,研发基于内存集群的高性能数据管理与分析系统,支持实时交互式分析应用。行列存储数据容错分割布局高速网集群资源管理并发调度任务容错调度优化执行引擎并行优化交互分析实时响应即席分析集群内存内存数据分析平台-CLAIMSCLAIMS:CLuster-Aware In-Memory SQL query engine应用类型:关系型在线分析数据类型:关系型数据为主,可扩展到非结构化数据数据存储:按列存储查询接口:SQL,API,JDBCSQL支持嵌套子查询
10、索引,二级索引优化目标:实时分析,高可扩展性,高可伸缩性系统特点:基于内存集群计算,无需分库分表,采用廉价商用集群(commodity cluster)CLAIMS的定位CLAIMS与Shark(Spark),Hive(Hadoop)在同一层次上应用目标:对接现有MySQL客户端,R统计软件包,报表软件性能目标:对海量关系型数据实现实时分析数据来源:关系型数据HANAHDFSCLAIMSHDFSSparkHadoop MRSharkHiveTeradataApplicationSQL ClientReportR PackageSQLCLAIMS性能对比在10台HP DL388P,千兆网环境下的
11、性能对比微博数据分析微博:最容易获取的社交媒体数据公开使用广泛:具有普遍意义生态圈较完整内容、社交网络、位置签到、媒体、用户等具有较大影响力大V群体性或热点事件传播23灾难与情感分析24灾后对于死亡的情绪快速上升,但随后会下降,转而关心救灾效率。大约一周后(救灾基本结束),对于死亡的情绪再次上升。热点事件传播分析李庄案李庄案传播图传播图郭郭美美事件传播图美美事件传播图25社交媒体数据分析技术语义实体检测:时间、地点、人物、事件多源、异构数据分析:利用外部数据源数据质量:解决微博数据的低质量问题中文处理海量数据管理社交网络分析事件传播节点、传播途径分析易感人群可视化26基于位置的服务(LBS)位置数据来源社交媒体直接:签到间接:提到(需要自动识别)、照片的EXIFF信息等导航服务地图数据导航数据用户生成数据其它服务电商/出租车/点评和比价网站/交通监控/27位置服务应用Ride sharing 上海人口流动分析打车预测Point of Interest(POI)推荐新路发现地图重绘与修正导航辅助28位置服务应用技术特点空间属性数据分析依赖于地图时间属性节假日、上下班高峰期实时性数据存储、索引、查询算法隐私保护碎片化信息=个人完整生活轨迹个人安全隐患?29 谢谢!http:/