1、第一部分:云计算与大数据技术简介简要介绍云计算和大数据技术的发展背景、主要技术特点、现状与趋势第二部分:大数据研究涉及的层面和主要研究内容主要介绍大数据研究所涉及的各个层面以及各层面下的主要研究内容和热点问题第三部分:大数据并行处理技术研究简要介绍在大数据方面所开展的一些工作从计算模式的演变看计算技术发展的趋势计算技术发展的历史就是不同层面上计算模式发展和演变的历史;而相关支撑技术的成熟为计算模式的演变和实现提供了基础和条件计算模式的演进过程是受到一定的发展规律支配的,存在一定的必然性从计算模式的演变看计算技术发展的趋势计算模式变革的两大根本目标: 更方便快捷的使用方式 更强大的计算能力在提供
2、更强大计算能力的同时,提供更加方便快捷的使用方式,是贯穿整个计算技术发展的主线集中分散集中60-70s: 大型机(mainframe), 集中式、分时共享80-90s: 个人计算机人手一台95-06: 互联网/网格/集群 /数据中心 从计算模式的演变看计算技术发展的趋势l 60-70s: 大型机(mainframe), 集中式、分时共享 IBM创始人托马斯沃森 (Thomas J. Watson): “我认为全球大概只需要五台计算机就够了。” 60年代,比尔盖茨读中学时需要以每小时40美金的费用租用大型机终端做程序设计。从计算模式的演变看计算技术发展的趋势l 80-90s: 个人计算机(PC)
3、人手一台因此,比尔盖茨产生了一个伟大的梦想:“让每一张桌子上有一台电脑!”这个梦想成就了微软,推动了个人计算时代的来临。比尔盖茨,1981年表示: “640KB内存应该对任何人都够用了。”1980年微软开发DOS时曾认为:“DOS只能管理1MB的空间,因为我们无法想象还有什么应用软件会需要更多的内存。”从计算模式的演变看计算技术发展的趋势l 95-06: 互联网/网格/集群/数据中心 分离的PC需要互连以交换信息共享资源 互联网连接更多的计算资源以解决大的计算问题 网格计算用很多微处理器构建具有大型机处理能力的系统 集群很多的集群存储处理大量的信息 数据中心Yahoo,Amazon, Goog
4、le从计算模式的演变看计算技术发展的趋势l 2006年至今 “更分散同时也更集中” 前端更加分散:2006年后,一方面前端更加分散,以智能手机和IPad为代表的智能移动终端,推动移动计算技术发展 “PC太大了,每个人口袋里应该放一台!” 传感网络、普适计算、物联网概念和技术 “每一粒沙子都应该是一台计算机!”从计算模式的演变看计算技术发展的趋势移动计算和物联网l 2006年至今 “更分散同时也更集中” 后端更加集中:另一方面,后端更加集中,出现云计算概念和技术,让计算成为像水电一样的公共服务,便于资源共享,以及提供超大的计算能力从计算模式的演变看计算技术发展的趋势云计算从计算模式的演变看计算技
5、术发展的趋势从信息处理及其模式看物联网的发展信息是物理世界中对象和事物状态属性的抽象和表示信息处理是借助于计算机对信息进行加工处理的过程信息处理完成后将反作用于物理世界中的对象和事物计算机物理世界信息从计算模式的演变看计算技术发展的趋势从信息处理及其模式看物联网的发展 按照从物理对象获取和反馈信息的方式和对象与计算系统之间的耦合度,信息处理可分为4种模式: 早期计算模式主要是离线获取、离线反馈的松耦合模式,信息处理和使用的效率不高 离线 获取 在线 反馈从计算模式的演变看计算技术发展的趋势从信息处理及其模式看物联网的发展 而现在越来越强调对物理对象信息处理的普遍性、时效性和方便性,因此越来越需
6、要在线获取和在线反馈的紧耦合模式,这就产生“物联网”的概念和计算模式 人作为物理世界中一类特殊对象、以及控制和使用计算系统的主体,如果我们综合考虑人、计算系统和物理世界对象三者间的交互作用,这就产生“人机物系统”的概念和计算模式 从计算模式的演变看计算技术发展的趋势云计算与物联网物联网是前端计算能力向物理世界的前伸,使得计算系统与物理世界对象深度融合,获取信息更加快速和多样,信息量迅猛增长云计算则是计算系统后端处理能力的拓展,为快速有效处理大量物理世界的信息提供有效的计算手段和计算能力两者将相互结合,推动新的计算模式和计算技术发展Cloud Computing, Utility Computi
7、ng, Service Computing通过集中式远程计算资源池,以按需分配方式,通过集中式远程计算资源池,以按需分配方式,为终端用户提供强大而廉价的计算服务能力为终端用户提供强大而廉价的计算服务能力“The computation and the data and so forth are in the servers. We call it cloud computing.” (Erick Schmidt, 2006) “computation may someday be organized as a public utility” (John McCarthy, 1960)“云计算云
8、计算”的概念在的概念在2006年年由由Google公司正式提出公司正式提出但最初的思想雏形但最初的思想雏形可追溯到更早的时间可追溯到更早的时间 云计算的一个重要目标是,把计算能力变成像水电等公用服务一样,随用随取,按需使用。故此也有人把云计算称为“Utility Computing” 这里Utility不是效用、实用的意思,在英文里Utility有一个专门的含义,专指类似于水电煤气的公用服务,故Utility Computing应译为“公用服务计算”l透明的云端计算服务l“无限”多的计算资源,提供强大的计算能力l按需分配,弹性伸缩,取用方便,成本低廉l资源共享,降低企业IT基础设施建设维护费用
9、l应用部署快速而容易l软件/应用功能更新方便快捷l节省能源,绿色环保l集计算技术之大成,具有很强的技术性、工程型特点按云计算服务层面进行分类按云计算服务层面进行分类lSaaS:Software as a Service 提供各种应用软件服务lPaaS:Platform as a Service 提供软件支撑平台服务lIaaS:Infrastructure as a Service 提供接近于裸机(物理机或虚拟机)的计算资源 和基础设施服务按云计算服务层面进行分类按云计算服务层面进行分类按云计算系统类型进行分类按云计算系统类型进行分类美国联邦云计算战略报告中,定义了4中云:公用云:提供面向社会大
10、众、公共群体的云计算服务 如Amazon云平台,Google AppEng 公有云有很多优点,但最大的一个缺点是难以保证数据的私密性私有云:提供面向应用行业/组织内的云计算服务 如政府机关、移动通信、学校等内部使用的云平台 私有云可较好地解决数据私密性问题,对移动通信、公安等数据私密性要求特别高的企业或机构,建设私有云将是一个必然的选择按云计算系统类型进行分类按云计算系统类型进行分类l社区云:提供面向社团组织内用户使用的云计算平台 如美国航天局(NASA) Nebula云平台为NASA内的研究人员提供快速的IT访问服务混合云:包含以上2种以上云计算类型的混合式云平台应用需求推动力应用需求推动力
11、l大粒度应用系统日益增多,系统规模日益扩大l应用系统数据量爆炸性增长 中国移动全国每天的电话短信通联记录数据达到500TB;而中国移动一个流量最大的省每天的通联记录数据可达到65TB 阿里巴巴电子商务平台日处理数据量将达到500TB,目前淘宝交易总数据量已经达到1500PB 百度存储100-1000PB数据,每日处理10-100PB;存储1千-1万亿网页,索引100-1000亿网页 仅2011年,全世界产生1.8ZB(1.8万亿GB)数据,相当于每位美国人每分钟写3条Twitter,不停地写2.7万年 YouTube每分钟有13h视频上传,每天数据10TB相当于好莱坞每周发行57000部电影应
12、用需求推动力应用需求推动力l 大粒度应用系统日益增多,系统规模日益扩大l超大的计算量和计算复杂度 用SGI工作站进行电影渲染时,每帧一般需要12小时 一部2小时的电影渲染需要:2小时x3600秒x24帧x(12小时)/24小时=2040年! 特殊场景每帧可能需要60个小时(影片“星舰骑兵”中数千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染时,如果以每帧60个小时的速度,则1秒的放映量(24帧)需要60天的渲染时间,1分钟则需要100年!应用需求推动力应用需求推动力小粒度应用系统资源重复、无法共享 企业内大量的小粒度应用系统需要添置独立的硬件资源,但不同应用系统忙闲不均,忙时资源不够,闲
13、时资源空置,资源无法相互调配和共享,造成资源和资金浪费 淘宝网案例:后台设置约15万台服务器,服务于不同的应用系统;而不同应用系统的负载不同,忙闲不均;据淘宝测算,如能在不同应用间合理调配计算资源,大约可省去2/3约10万台服务器,以每台3万元计算,可节省约30亿元!技术发展技术发展推动力推动力 云计算是诸多计算技术发展成熟与自然进化的产物l计算机虚拟化技术、大规模并行计算、分布式存储、面向服务构架、公用服务计算等诸多技术广泛应用l计算机系统规模和处理能力迅速扩大l技术发展成熟与自然进化的结果“从美国来讲,云计算已经是无可争议的主流,美国整个信息工业都是以云计算为主流往前推动的。云计算对整个信
14、息技术和整个社会将带来非常非常大的影响。”微软全球副总裁陆奇,2012年10月29日,“中国云移动互联网创新大奖赛决赛颁奖典礼暨创新创业论坛”主题报告“是什么样的推动力产生云计算?什么样的大浪潮可以把云计算继续往前推动?我个人的体会,就是计算模式。一种计算模式,真正有强大生命力的话,是必须要产生强大的社会经济价值,市场价值,同时对社会造成公益。”微软全球副总裁陆奇,2012年10月29日,“中国云移动互联网创新大奖赛决赛颁奖典礼暨创新创业论坛”主题报告2011年2月8日美国奥巴马总统签署了联邦云计算战略报告,制定该报告的目的:The Federal Governments current In
15、formation Technology (IT) environment is characterized by low asset utilization, a fragmented demand for resources, duplicative systems, environments which are difficult to manage, and long procurement lead times.These inefficiencies negatively impact the Federal Governments ability to serve the Ame
16、rican public.Cloud computing has the potential to play a major part in addressing these inefficiencies and improving government service delivery. The cloud computing model can significantly help agencies grappling with the need to provide highly reliable, innovative services quickly despite resource
17、 constraints. 美国联邦政府部门计划用全部的800亿美元IT预算中的200亿作为云计算平台开发建设的费用。美国联邦云计算战略报告,2011/2/8美国联邦云计算战略报告认为:Cloud is a fundamental shift in ITCloud is a fundamental shift in IT Cloud computing enables IT systems to be scalable and elastic. End users do not need to determine their exact computing resource requireme
18、nts upfront.I nstead, they provision computing resources as required, on-demand.Using cloud computing services, a Federal agency does not need to own data center infrastructure to launch a capability that serves millions of usersCloud computing can significantly improve public sector ITCloud computi
19、ng can significantly improve public sector IT A number of government agencies are adopting cloud technologies and are realizing considerable benefits. For instance, NASA Nebula, through a community cloud, gives researchers access to IT services relatively inexpensively in minutes.Prior to adopting t
20、his approach, it would take researchers months to procure and configure comparable IT resources and significant management oversight to monitor and upgrade systems. Applying cloud technologies across the entire Federal Government can yield tremendous benefits in efficiency, agility, and innovation.
21、业界云计算技术的发展业界云计算技术的发展 自2006年Google公司提出云计算技术的概念后,全球IT著名企业纷纷予以极大关注,并投入了巨大力量进行云计算技术的研究开发。Google Cloud InfrastructureSchedulerChubbyGFS masterNodeNodeNodeUserGoogleAppEngineSchedulerslaveGFSLinuxNodeMapReduceFrameworkBigTableServerGoogle Cloud Infrastructure(Google AppEngine,PaaS型公用云平台)Google AppEngine提供
22、了一种PaaS类型的云计算服务平台,用户可租用该平台的计算资源,并使用AppEngine提供的各种应用开发和支撑软件平台开发和部署自己的应用软件S3EBSEC2EBSEC2EBSEC2EBSEC2SimpleDBSQSUserDeveloperAmazon Elastic Computing Cloud(Amazon EC2,IaaS型公用云平台)SQS: Simple Queue ServiceEC2: Running Instance of Virtual MachinesEBS: Elastic Block Service, Providing the Block Interface,
23、Storing Virtual Machine ImagesS3: Simple Storage Service, SOAP, Object InterfaceSimpleDB: Simplified DatabaseAmazon EC2提供了一种IaaS类型的云计算服务平台,在该平台上用户可部署自己的系统软件,完成应用软件的开发和发布。租用案例1 2007年,美国纽约时报租用Amazon云计算平台,用于将1851-1922年纽约时报的1100万篇报刊文章转换为PDF文件,供读者上网免费访问。 共租用了100个EC2节点,运行了24小时,处理了4TB的报刊原始扫描图像,生成了1.5TB的PDF
24、文件。 每节点每小时费用为10美分,整个计算任务仅花费了240美元(100节点 x 24小时 x $0.10)! 如果用自己的服务器,将需要数月和多得多的费用! Amazon Elastic Computing Cloud2022-6-16租用案例2 SmugMug(数亿张照片,几十万付费用户,仅50人)是一个在线照片存储公司,初期和传统公司一样,建立了自己的数据中心,并通过不断添置新的IT设备以适应业务量增长,但是很快发现业务量增长速度大大超过了设备添加的速度。 作为一家未完全盈利的新型公司,显然难以长期承受巨额的基础设施开销。最后公司选择使用Amazon的S3服务,结合公司实际情况,将最热
25、门的部分照片存储在公司自己的服务器中,剩下的绝大部分照片则转移到S3服务器中,由Amazon来提供照片的安全存储。 它把超过0.5PB的数据存储在Amazon的S3云存储中,由此节约的服务和存储成本接近100万美元。Amazon Elastic Computing Cloud2022-6-16Amazon Elastic Computing Cloud租用案例3Animoto公司为注册用户提供通过网站进行图片和音乐上传、在线视频制作和分享等服务。开始选择了一家web托管服务提供商来完成数据处理和信息存储。2008年年初网站每天用户数约为5000人,但到4月中旬,由于Facebook用户开始使用
26、Animoto服务,该网站在三天内的用户数大幅上升至75万人,所要求的服务器能力需要大约提高100倍,但该网站既无资金有无能力来建立规模如此巨大的计算能力,因此,该网站与云计算服务公司RightScale合作,设计了能够在Amazon云中使用的应用程序。这样,使得该网站大大提高了计算能力,而费用仅每小时每台服务器10美分。它使用Amazon EC2快速扩展处理能力,使用3 500个同时运行的虚拟实例,成功渡过了一次Web通信高峰期可能带来的系统瘫痪。Microsoft Cloud Services(Window Azure,私有云平台管理和服务软件) Azure Services Platfo
27、rmMicrosoft SharePoint ServicesMicrosoft Dynamics CRM ServicesIBM 云计算方案(私有云计算平台管理和服务软件)提供私有云计算资源管理软件平台,主要负责管理和调度虚拟计算资源,完成资源申请、调度和管理等整个生命周期管理其它国内外IT企业云计算研发 除以上几家全球著名的IT企业外,其它著名IT企业如Cisco、HP、EMC、VMWare等,都在大力推进云计算技术和系统研发。 国内各大著名IT企业,如中国移动、中国电信、中国联通、阿里巴巴、腾讯、百度、万网等,都在大力推动云计算技术和系统研发。 尤其是著名的网络设备制造商中兴通信和华为,
28、正在开始从传统的网络电信设备制造向计算技术领域转移,他们把云计算作为实现重大战略转移的一个重大契机中国移动Big Cloud云计算发展现状云计算发展现状目标是建立可为中国移动企业内部进行海量通信数据存储和处理的使用的私有云平台,以及为社会大众和群体使用的公有云平台。阿里巴巴“飞天”云计算平台已经有超过2万个上线租用企业用户中兴通信中兴通信云计算发展趋势云计算发展趋势l云计算将提供一种新的计算模式和服务模式。云计算将是计算技术的一次重大变革,作为今后计算发展的潮流将大大改变现有的计算模式,对计算技术领域本身以及各个应用行业都将带来重大的影响,提供更多的发展机遇l 通过云计算人们能获得前所未有的强
29、大计算能力,并能按需分配,按需付费,提升了本地计算能力但使用成本低廉,而且还能大幅削减不断升级软硬件系统的费用l通过云计算平台强大的计算和存储能力,人们将能完成传统系统所无法完成的计算和处理,开发出更强大的应用功能,提供更多智能化应用 集中管理的计算资源池基于资源共享的小粒度应用基于大规模计算资源的大粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用用一个集中管理的巨大的计算资源池,提供巨大的计算资源和能力1)为小粒度应用提供资源共享;2)为大粒度应用提供大规模计算能力基于云计算的共享应用与服务物理存储计算资源池虚拟化弹性资源调度管理虚拟资
30、源池小粒度应用与服务分布式存储并行计算框架查询分析挖掘并行算法云安全管理云计算管理大数据应用与服务云计算应用与服务主要包括以下关键技术主要包括以下关键技术l虚拟化技术:虚拟机的安装、设置、调度分配、使用、故障检测与失效恢复等l云计算构架技术:研究解决适合于云计算的系统软硬件构架l资源调度技术:解决物理或虚拟计算资源的自动化分配、调度、配置、使用、负载均衡、回收等资源管理l并行计算技术:针对大数据或复杂计算应用,解决数据或计算任务切分和并行计算算法设计问题主要包括以下关键技术主要包括以下关键技术l大数据存储技术:解决大数据的分布存储、共享访问、数据备份等问题l云安全技术:解决云计算系统的访问安全
31、性、数据安全性(包括数据私密性)等问题l云计算应用:面向各个行业的、不同形式的云计算应用技术和系统此外,还有云计算中心的节能和散热等工程技术问题怎样才算是云计算系统?怎样才算是云计算系统? 个人认为:一个计算系统必须具备以下两个特征才能算是云计算系统(至少具备第一个特征):资源虚拟化和弹性调度解决小粒度应用资源共享 基于虚拟化和弹性调度,以按需分配方式,为小粒度应用提供计算资源,实现资源共享大数据存储处理和并行计算服务提供大粒度应用计算能力 基于云端的强大而廉价的计算能力,为大粒度应用提供传统计算系统或用户终端所无法完成的计算服务。这些计算能力包括海量数据存储能力、以及大规模并行计算能力。Wi
32、ki百科百科:big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools 大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集IDC报告:Big data technologies describe a new generation of technologies and architectures, designed to economically extract
33、value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis. 大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值大数据(Big Data)应用需求 出现越来越多的大数据应用和行业需求。2008年,在Google成立10周年之际,Nature杂志出版一期专刊专门讨论未来的大数据(Big Data)处理相关的一系列技术问题和挑战。未来10多年数据将急剧增长
34、IDC研究报告研究报告Data Universe Study提出“数据宇宙”的说法描述海量数据2007年2008年2009年2010年2011年未来急剧增长的数据迫切需要寻求新的处理技术手段IDC报告报告Data Universe Study全世界权威IT咨询公司研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB,增长44倍!年均增长率40%!0.8ZB: 一堆一堆DVD堆起来堆起来够地球到月够地球到月亮一个来回亮一个来回35ZB: 一堆一堆DVD堆起来是地球到堆起来是地球到火星距离的一半火星距离的一半56美国联邦政府发布大数据研发专项研究计划美国联邦政府
35、下属的国防部、能源部、卫生总署等7部委联合推动,于2012年3月底发布了大数据研发专项研究计划 (Big Data Initiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具,把大数据研究上升到为国家发展战略。57“大数据研究的科学价值”李国杰,中国计算机学会通讯,vol. 8,no.9, 2012.92012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对
36、未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。58数据科学(Data Science) 国内外出现了“数据科学”的概念 l 图灵奖获得者Jim Gray: 2007年最后一次演讲中提出“数据密集型科学发现(Data-Intensive Scientific Discovery)” 将成为科学研究的第四范式 实验科学 理论科学 计算科学 数据科学l世界著名存储技术公司EMC提出了“Data Science”的概念,“Data Science teams will become the
37、 driving force for success with big data analytics” l 李国杰院士:“数据科学”研究的对象是什么?计算机科学是关于算法的科学,数据科学是关于数据的科学。大数据将带来巨大的技术和商业机遇 大数据分析挖掘和利用将为企业带来巨大的商业价值原始信息行业数据知识报表制图电子文档信息检索数据仓库海量分析知识挖掘信息化技术大数据分析PCPC时代时代互联网时代互联网时代大数据大数据时代时代60应用数据规模急剧增加,传统计算计算面临严重挑战l中国移动江苏省电话通联记录(CDR)数据每月达0.5-1PB,而整个中国移动每月则高达7-15PB数据;如此巨大的数据量
38、使得Oracle等数据库系统已经难以支撑和应对l南京市公安局320道路监控云计算系统,数据量为三年200亿条、总量120TB的车辆监控数据l中国深圳华大基因研究所成为全世界最大测序中心,每天产生300GB基因序列数据(每年100TB)l百度存储数百PB数据, 每天处理数据10PBl淘宝存储14PB交易数据, 每天新增数据40-50TB大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求,传统系统难以提供足够的存储和计算资源进行处理,云计算平台是最理想的解决方案。调查显示:目前,IT专业人员对云计算中诸多关键技术最为关心的是大规模数据并行处理技术大数据并行处理没有通用和
39、现成的解决方案对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发,但行业的大规模数据处理应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现现有数据处理能力大幅落后于数据增长速度l数据访问能力大幅落后于数据增长速度磁盘容量增长远远快过存储访问带宽和延迟:80年代中期数十MB到今天的TB量级,增长数十万倍,而延迟仅提高2倍,带宽仅提高50倍!100TB数据顺序读一遍需要多少时间? 设硬盘读取访问速率128MB/秒 1TB/128MB 约2.17小时 100TB/128MB = 217小时 = 9天! 即使用百万元高速磁
40、盘阵列 (800MB/s),仍需1.5天!l数据存储能力大幅落后于数据增长速度海量数据隐含着更准确的事实研究发现:大数据量可显著提高机器学习算法的准确性;训练数据集越大,数据分类精度越高;大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果,因此数据量足够大时有可能使用代价很小的简单算法来达到很好的学习精度。 例如,2001年,一个基于事实的简短问答研究, 如提问:Who shot Abraham Lincoln?在很大的数据集时,只要使用简单的模式匹配方法,找到在“shot Abraham Lincoln”前面的部分即可快速得到准确答案:John Wilkes Booth 结构特征 结
41、构化数据 非结构化/半结构化数据 获取和处理方式动态(流式/增量式/线上)/实时数据静态(线下数据)/非实时数据 关联特征 无关联/简单关联数据(键值记录型数据) 复杂关联数据(图数据)海量数据及其特点 (4个V): Volume: 大容量,TB-ZB Variety: 多样性 Velocity: 时效性 Veracity: 准确性Data connectednessData sizeTypical RDBMSSQL Comfort ZoneDisk-based Key-value StoreColumn StoreDocument StoreGraph DB 大数据问题的基本特点 大数据来自
42、应用行业,具有极强的行业应用需求特性 数据规模极大,达到PB甚至EB量级,超过任何传统数据库系统的处理能力 大数据处理给传统计算技术带来极大挑战,大多数传统算法在面向大数据处理时都面临问题,需要重写 大数据研究的基本原则 应用需求为导向 领域交叉为桥梁 计算技术为支撑 大数据研究的挑战 数据规模导致难以应对的存储和计算量 数据规模导致传统算法失效 大数据复杂的数据关联性导致高复杂度的计算 大数据研究的基本途径三个基本途径: 继续寻找新算法降低计算复杂度 降低大数据尺度,寻找数据尺度无关算法 大数据并行化处理69Hadoop MapReduce是目前大数据处理的主流技术和平台是目前大数据处理的主
43、流技术和平台l目前国际公认和广为接受、 最成功使用的大数据并行 处理主流技术和平台l精巧的设计和强大的功能分而治之的并行处理思想高层并行编程模型自动化存储计算软件框架l事实上的海量数据并行处理工业标准,国内外各大著名IT企业都在广泛使用,Google, Amazon, FaceBook, IBM, 百度,淘宝, 腾讯更多有关Hadoop MapReduce的基本设计思想、技术特点和工作原理,请参见本PPT168页开始的附录。 技术层面大数据行业应用/服务层应用开发层应用技术层智能化计算层并行编程模型与计算框架层数据存储管理层并行构架和计算平台层集群, 多核, GPU, 混合式构架 (如集群+多
44、核, 集群+GPU)云计算服务支撑平台大数据查询(SQL, NoSQL, 实时查询, 线下分析)大数据存储(DFS, HBase, MemDB, RDB)大数据预处理MapReduce, BSP, MPI, CUDA, OpenMP, 定制式,混合式 (如MapReduce+CUDA, MapReduce+MPI)并行化机器学习与数据挖掘算法社会网络,排名与推荐,商业智能,自然语言处理,生物信息媒体分析检索, Web搜索与挖掘, 3维建模与可视化电信/公安/商业/金融/遥感遥测/勘探/生物医药领域应用/服务需求和计算模型行业应用系统开发角色行业用户领域专家应用开发者计算技术研究和开发者 行业应
45、用系统和服务 行业应用系统 电信、公安、商业、金融、遥感遥测、地质勘探、生物医药 行业应用公共服务中间件 领域应用/服务需求和计算模型 领域应用问题和需求 领域应用问题计算模型 行业应用系统和服务 大数据应用开发环境和工具 大数据应用和服务集成框架和接口 大数据应用测试环境和工具 大数据应用发布和运行环境 社会网络 排名与推荐系统 商业智能 媒体分析检索 Web挖掘与搜索 3维建模与科学计算可视化 生物信息 自然语言处理 Google Knowledge Graph 综合应用案例基于搜索关键词语义理解和信息关联性的智能化搜索功能,可提供搜索对象相关的综合性和多样化信息(文字和媒体信息)。涉及到
46、前述大多数应用技术的综合性应用:l 一种深度搜索技术l 基于语义分析理解l 基于信息关联网络分析l 多样化排名与推荐l 基于图片内容的搜索目前 Google Knowledge Graph 已经有五亿个信息“对象”包括 35 亿个属性和相互关系;但目前只支持英文,不支持中文Google Knowledge Graph 综合应用案例社团发现 ( Community Detection )网络建模 (Network Modeling )中心分析和影响力建模 (Centrality Analysis and Influence Modeling )分类推荐 (Classification and R
47、ecommendation )隐私安全等 (Privacy, Spam and Security ) 社会网络社会网络常规排名(Ranking)多样性排名(Diversified Ranking)基于内容的推荐 (Content-based Recommendation )基于标签的推荐 (Tag-based Recommendation )协同过滤推荐 (Collaborative Filtering Recommendation ) 排名与推荐系统排名与推荐系统大规模图像检索 (Image Retrieval)大规模图像分类 (Image Classification)目标检测 (Obje
48、ct Recognition)视频异常行为检测 (Abnormal Event Detection) 媒体分析检索媒体分析检索深度Web搜索(Deep Web Search,精确化、智能化、综合化信息搜索)页面分类 (Document Classification)页面聚类 (Document Cluster)网页摘要 (Document Automatic Summarization) Web Web搜索与数据挖掘搜索与数据挖掘机器翻译 (Machine Translation)情感分析 (Sentiment Analysis )舆情分析 (Public Opinion Analysis)智
49、能输入 (Smart Input)问答系统 (QA) 自然语言处理自然语言处理IBM 智力竞赛机器人Watson是一个基于MapReduce数据并行处理和统计模型自然语言处理的成功应用。IBM智力问答机器人WatsonWatson收集了2亿页知识文本数据,并基于Hadoop MapReduce并行处理集群进行数据分析,采用了优化的并行体系结构和优化的知识和自然语言处理算法,可在1秒内完成对大量非结构化信息的检索,并实时回答知识竞赛问答题。IBM智力问答机器人Watson地质建模与分析 (Geological Modeling and Analysis)电影渲染 (Movie Rendering
50、 )大规模数据可视化分析 (Scale Visual Analytics) 3 3维建模与大规模数据可视化维建模与大规模数据可视化高通量基因序列比对 (High-Throughput Gene Sequence Alignment )生物网络建模与分析 (Biological Network Modeling and Analysis) 生物信息处理生物信息处理 大数据并行化机器学习和数据挖掘算法大数据并行化机器学习和数据挖掘算法大数据处理并行化学习和挖掘算法不同并行模型下并行化学习和挖掘算法并行化机器学习和数据挖掘工具和平台2001, 微软研究院的Banko and Brill*等发表了一篇