1、数据分析一体机目录1大数据概述大数据概述2一体机概述一体机概述23研发思路研发思路4应用分析应用分析大数据的4V特征“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无
2、模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的特征大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构 用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合数据
3、分析的价值 分析技术:数据处理:自然语言处理技术统计和分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真 大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等 存储结构化数据:p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 解决方案:Hadoop(MapReduce技术)流计算(
4、twitter的storm和yahoo的S4)数据采集数据储存数据管理数据分析与挖掘一些相关技术1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数
5、据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。领域共性问题大数据处理大数据处理技术手段技术手段String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/Re
6、portingCustomizedSolutionsDatabase/Data Warehouse较常见的较常见的解决方案解决方案大大数据储存数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据数据分析分析数据数据展现展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构存储与运算合一Big Data 运算与存储,单一架构解决9传统并行计算架构并行计算+分布式存储运算存储传统存储架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)利用利用
7、Hadoop 的特性的特性目录1大数据概述大数据概述2一体机概述一体机概述103研发思路研发思路4应用分析应用分析一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提升系统高可用性和可扩展性。11类型类型产品产品数据仓库一体机Oracle Exadata、Teradata、IBM PureData System(for nzsql)、EMC Greenplum数据库一体机Oracle Exadata、IBM PureData System(for DB2)、华为
8、FusionCube(for Oracle)中间件一体机Oracle Exalogic、IBM Pure Application System内存数据库一体机SAP HANA、Oracle Exalytics其他IBM Pure Flex System、HP VirtualSystem、思科 FlexPod等服务器服务器软件软件存储存储网络网络管理管理从IT基础设施发展角度看,复杂的系统集成模式已经成为业务创新的“绊脚石”简化(预集成)、优化的基础设施才能为业务应用“云化”提供更好的保障大型机一体化、预集成系统集成 一体化预集成 专有技术标准 运行专有软件 运维成本极高 分层(服务器、网络、存
9、储)现场集成 通用平台,缺乏对平台软件优化 开放的技术标准 集成及运维成本高 简化,将平台软件需要的基础设施预集成 优化,针对平台软件非功能需求进行优化 沿用开放的技术标准 运维成本低 平台即服务 软件即服务 数据即服务云云Gartner Data Center Conference presentationGartner数据中心大会专题讲座Will Fabric Computing Change the Concept of the Traditional Server?”,December 2011光纤运算是否会颠覆传统服务器的概念光纤运算是否会颠覆传统服务器的概念 2011年年12月月“
10、By 2015,35%of total server shipped value will be as integrated systems.”“到2015年,35%的服务器都将以集成系统方式交付”Unified Computing System(UCS)2012.42012.9FusionCubeExadata数据库一体机数据库一体机Exalogic中间件一体机中间件一体机Exalytics内存分析机内存分析机Big Data 大数据机大数据机从2008年开始,基于开放的技术标准,国内外厂商纷纷开始研制一体机。Oracle率先推出数据库、中间件、数据分析以及大数据等多款一体机产品一体机架构1
11、5负载均衡中间件数据库服务器存储单机,集群单实例,多实例横向、纵向扩展能力CPU/内存比高I/O配置单机HA,群集高随机,高顺序读写性能存储单机,多机串行,并行交易应用 数据应用 管理应用其他系统高端中端PC服务器刀片存储传统架构一体机架构一体机通过把传统架构中的主机、存储、网络、管理软件、数据仓库或数据库或中间件或虚拟化软件进行集成打包,形成一体化解决方案,降低总拥有成本(TCO),提升整体性能。一体机不是简单的将软硬件进行堆砌,而是在软硬件架构上对硬件性能、软件性能进行平衡优化,以克服传统解决方案在数据管理、I/O读写等方面的瓶颈,针对性的增强系统整体处理能力。一体机发展背景(一)-海量数
12、据分析驱动16 随着信息技术在人类各项生产生活中的应用不断拓展,可分析的数据呈现出爆炸式增长。高效高效、迅速迅速地从海量数据中挖掘出潜在价值并转化为决策依据已经成为各行业信息化面临的重大挑战挑战。海量数据分析海量数据分析 海量数据难以管理海量数据难以管理 系统性能难以保障系统性能难以保障 复杂分析难以支持复杂分析难以支持面临挑战面临挑战 硬件加速、扩充数硬件加速、扩充数据缓存据缓存 高速内联网络、高速内联网络、增强线性扩展能力增强线性扩展能力 分级存储、压缩存分级存储、压缩存储、列存储技术储、列存储技术 优化数据查询规则优化数据查询规则 动态负载监控与管动态负载监控与管理理 集群能力提升、异集
13、群能力提升、异地容灾地容灾解决思路解决思路17一体机发展背景(二)-大并发承载能力驱动随着信息系统的深入应用以及企业对信息系统的依赖程度增加,对软硬件平台的并发处理能力、海量数据处理能力、系统响应速度、软硬件平台稳定性、软硬件平台可扩展性等方面的能力有了更高的要求,且呈上升趋势。一体机发展背景(三)-简化IT需求驱动18由于前期IT技术与理念的局限性,信息化发展过程中形成了许多复杂的“竖井式”应用,对信息化管理带来极大挑战。通过简化IT基础架构,提高硬件资源利用率,减少投资采购成本、降低设备能耗和运维成本等措施提升信息化水平已成为共识。设备品牌型号繁杂集成复杂度高资源利用率低运维管理难度大面临
14、挑战面临挑战设备型号标准化工业化预集成负载动态均衡统一管理平台解解决思路决思路机房空间不足电力能耗大运维成本高面临挑战面临挑战简化IT架构提升软硬件集成度减少设备数量选用绿色节能设备解解决思路决思路软硬件资源池软硬件资源池19应对简化IT架构需求,目前业界有软硬件资源池与专业化一体机两种主流技术路线可供选择,相比较一体机产品适用于单一化(数据库、中间件、虚拟化之一)的场景,软硬件资源池适用于多用途的通用场景。海量数据分析简化IT 适用于专业性要求低的通用场景 开放性强 耦合度低 可采购软硬件自行集成搭建 适用于专业性强的场景 开放性弱 耦合度高 由专业厂商预集成封装专业化专业化一一体机体机一体
15、机发展背景(四)-技术路线目录1大数据概述大数据概述2一体机概述一体机概述203研发思路研发思路4应用分析应用分析存储管理分析可视化软硬件一体的创新数据处理平台针对不同应用的系列化产品业务支持团队提供全国产的自主可控方案数据获取重新设计软件体系结构研发思路:基于开源软件和国产硬件构建应用级一体机采用浪潮的设备做一体机的硬件支撑适用于大数据处理的计算单元有针对性设计和开发的适用于大数据处理的通用计算单元、轻量计算单元和重载计算单元。l 计算随数据分布l 弹性可扩展l 业务连续性保证在Hadoop上有一定拓展JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPU
16、CPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNodeNameNode主备备主备备主备备主备备数据本地化(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传输瓶颈。Job MapCPU计算和存储合一DataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNode主备备主备备主备备主备备CPU业务连续性保证 是传统分布式计算中最为复杂的开发目标。通常当系统规模扩展至百节点以上时,就必须应对计算单元失效,显式地保
17、存和恢复失败任务。浪潮大数据一体机能够智能识别失败任务,自动将其转移到备份数据节点。使用浪潮的底层保障优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能专注性能提升和优化目标:数据分析一体机(业务级)全环节覆盖存储、管理、展现、分析处理密集型的重载应用可重构加速器件或众核处理器,硬件加速数据处理应用计算能力、I/O能力、存储能力均衡视频处理等行业关键数据处理系统281.测试环境搭建测试环境搭建2.技术验证技术验证3.产品规划产品规划4.一体机原一体机原型样机详细型样机详细设计设计5.一体机一体机试试生产生产6.一体机一体机规模规模生产生产7.完成目标
18、完成目标设备到位基础环境搭建 概念规划2013.11.1-12.31一体机规划研究思路确定一体机0.1版2014.3.1-5.31一体机产品工艺完善10.1-12.312015.1一体机批量生产6.1-9.30软件平台测试、提升一体机整体设计概念验证2013.12-2014.2熟悉、掌握一体机研发组织实施包含测试环境搭建、技术验证、产品规划、一体机原型详细设计、一体机试生产、一体机规模生产等六个阶段。目前以人数上以学生主体,如果有应急需要,则以社会招聘为主体。目录1大数据概述大数据概述2一体机概述一体机概述293研发思路研发思路4应用分析应用分析Exadatav具有业内普遍认同的最强OLTP处
19、理能力、产品成熟度较高、采用shared-nothing+shared-disk的混合架构,IO吞吐能力强、存储智能化扫描、存储索引;v适用于OLTP与OLAP两种系统、与公司信息系统数据对接程度高;v性能扩展方面介于线性扩展与非线性扩展之间,最多可扩展至8个满配机柜(64台计算服务器);vOLTP场景测试表现良好,高传输性能,业界成功案例丰富,产品开放性较低,兼容性有待测评,整体拥有成本(TCO)相对较高。n华为FusionCube遵循开放架构标准,于12U机框中融合刀片服务器、分布式存储及网络交换机.并预集成了虚拟化平台及云管理软件;n实现了一站式交付、家电化安装;资源可按需调配、线性扩展
20、;n合作伙伴:SAP,TRS等。案例:拓尔思-华为信息采集一体机是一款软件与硬件集成并优化整合的产品,可实时监控、采集Internet网站内容,自动对信息进行过滤、分类、排重等智能化处理,全方位信息查询等功能。一体机软硬件进行了优化整合,在空间占用、采集性能、能耗、成本、管理等多方面具有优势。该信息采集一体机可用于政府、媒体、科研院所、军工、企业等各个应用行业和领域。IBM 的大数据平台31大数据企业引擎IBM 大数据解决方案大数据解决方案Internet 规模分析流分析开发人员开发人员最终用户最终用户管理员管理员大数据用户环境将大数据引入企业客户和合作伙伴解决方案客户和合作伙伴解决方案开源基础性组件Eclipse Hadoop HBase Pig Lucene Jaql 代理代理集成集成信息服务器市场营销市场营销仓库设备仓库设备数据仓库数据仓库数据库数据库内容分析内容分析业务分析业务分析主数据管理主数据管理InfoSphere 仓库Netezza/InfoSphere MDMDB2Cognos 和 SPSSUnicaECM数据增长管理数据增长管理InfoSphere Optim