1、大数据解决方案交流房树新国际商业机器(中国)有限公司Agenda从传统架构到大数据架构的转变几种典型方案介绍大数据案例分享企业级市场的大数据应用机会Key Industry Opportunity and TrendsTelecom, Banking and Government contribute the largest incremental Big Data & Analytics market size from 2013 to 2017 in GCG More rational than last year, not only focusing on Hadoop platform
2、 Telecom, Banking, Govt sectors will have more demands for advanced BD&A solutions Help customers begin their Big Data Journey Big data as services began to emerge in the market如何着手考虑大数据五个建议海量数据的处理方案三种分析与计算模式的整合传统分析方法和大数据分析方法的整合银行与金融市场行业的大数据的部分场景从传统数据处理到大数据,技术的变革SQL事务分析事务OldSQL分析NewSQL互联网NoSQL传统时代数据
3、处理一种架构支持多类应用(One Size Fits All)大数据时代数据处理多种架构支持多类应用架构多元化传统数据库的基本架构是30年前以事务处理为主要应用设计的。大数据时代应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。数据库行业出现三个互为补充的三大阵营,OldSQL、NewSQL和NoSQL。从传统数据处理到大数据,技术的变革数据管理能力 TBPBEB数据价值密度/实实时时性性高低OldSQLNewSQLNoSQL流计算/内存计算Stream/Storm/Spark内存关系数据库TimesTen/Altibase内存KV数据库Memc
4、ache/Redis内存数据分析DB2 BLU/HANA海量数据批处理Hadoop M-R/Spark海量数据管理MongoDB/SequoiaDB/Impala/HBase数据仓库/MPPDB2 DPF/GreenPlum/GBase传统事务处理Oracle/DB2/SQL Server大数据计算需要什么样的硬件平台?OLAPDW BigDataSQL NoSQL NewSQLRDBMS Hadoop Spark批处理交互分析流计算更大容量更低成本更大容量更低成本更快的处理速度更快的处理速度支持多样化的计算类型支持多样化的计算类型横向扩展的能力更大更多的磁盘更少机器更少空间和耗电更低的造价游
5、戏Map-ReduceHPC图像渲染云存储工业仿真计算计算密集密集消重/归档风险分析IOIO密集密集流计算实时分析/交互分析更快的CPU更多的线程并行更大的内存容量和带宽更大的IO带宽Flash加速大数据处理技术的发展,对硬件提出大数据处理技术的发展,对硬件提出了更高的要求了更高的要求灵活的硬件配比支持从计算密集到IO密集多种计算类型灵活定制硬件创新,CPU、GPU和混合计算多种计算负载的混合调度Power Linux 与Software 兼容需求软件软件软件产品软件产品软件类别软件类别商业运营公司商业运营公司应用客户应用客户操作系统Redhat /Suse/Ubuntucentos红旗Lin
6、ux中标麒麟OSLinux-likeLinux-likeLinux-likeBSDRedhat/Noval/Canonical普华基础软件/中移苏研红旗Linux公司中标软件 中移动政府政府数据库KingbaseESGBase达梦DMMongoDB*Memcache/RedisSequoiaDBMPP内存数据仓库MariaDBPostgresQL XC/XLMySQLHBaseFastDBOLTPMPP-OLAPOLTP文档数据库K-V文档数据库MPP-OLAPOLTPRDB-OLTPOLTPKV-列Inmemory DB人大金仓(普华控股)天津南大通用武汉达梦MongoDBNA广州巨杉公司威
7、讯柏睿(北京)NA亚信/中移苏研OracleNANA政府运营商/政府国网 OTT/银行/运营商金融证券OTT运营商OTT/运营商 Power Linux 与Software兼容需求软件软件软件产品软件产品软件类别软件类别商业运营公司商业运营公司应用客户应用客户中间件BESApache TomcatNginxRabbitMQApache ActiveMQLinux virtual serverJavaEEWeb serviceHTTP serverMessage QMessage QLoad Balance宝兰德NANANANANA运营商 OTT大数据Apache HadoopCDH Hadoo
8、p*HDP HadoopTDP HadoopBC-HadoopHuawei HadoopElastic Search/LuceneFlumeKafkaStormHadoopHadoopHadoopHadoopHadoopHadoop搜索引擎日志采集日志采集流计算NACloudera/IntelHortonworks星环科技华为中移苏研NAClouderaNANA 最多较多较少部分较少较多较多较多部分Linux社区贡献排名公司第社区贡献排名公司第2,主流主流Linux发行版均有发行版均有Power优化版本,优化版本,Power支持支持KVM虚虚拟化。拟化。IBM Power与开源的合作白金赞助商
9、,白金赞助商,19 个核心贡献个核心贡献者,贡献排名第者,贡献排名第2,超过,超过100个活跃开发者。个活跃开发者。IBM基础架构基础架构云全面以云全面以OpenStack为中心为中心。投入投入10亿美金亿美金发展发展 Linux及及相关开源技术相关开源技术。IBM发起创立软件发起创立软件定义网络开源联盟定义网络开源联盟Hadoop社区主要贡社区主要贡献者,提供献者,提供Hadoop发行版,发起成立发行版,发起成立ODP,提供,提供Hadoop增强方案。增强方案。IBM与国内实力最与国内实力最强的星环、亚信,强的星环、亚信,巨杉等新技术公司巨杉等新技术公司合作,开发合作,开发Power优化的优
10、化的Hadoop版版本和本和NewSQL数据数据库,与国内公司一库,与国内公司一起拓展开源商业生起拓展开源商业生态系统。态系统。IBM与与Redis合作,基于合作,基于IBM CAPI CPU硬件加速技术,硬件加速技术,建立创新的建立创新的Redis方案。方案。IBM 和和 Docker 宣布建立战略宣布建立战略伙伴关系,提供基于伙伴关系,提供基于Power的的Docker优化版本。优化版本。Power+PostgreSQL提供分布提供分布式事务处理数据库优化方案式事务处理数据库优化方案Power+HBase:大数据快速存储查询方案(磁盘KV数据库)磁盘KV型数据库,如(Hbase/Cassa
11、ndra/Hypertable/ Accumulo等),能够很好地实现对海量数据的实时读写访问,实时数据存储管理和实时简单查询。其目标是存储并处理大型的数据,是一个分布式的,多版本的,面向列的存储模型,存储的是松散型数据。-高可靠性-高效性-面向列-可伸缩IBM Power针对Hbase进行优化,提供更好地性能和安全性。目前已有多个基于Power的Hbase项目正在或已经交付。Power不仅能为开源Hbase提供更高运行性能,还能使用IBM Symphony软件对Hbase任务进行调度,进一步提高加载查询环节的性能表现。Why Power?-Power硬件在多线程,内存通道和IO带宽方面有更好
12、的性能,并有更高的可靠性-HBase在Powerlinux上有更好的性能适用场景:海量结构化数据的快速预置查询,海量非结构化数据的实时读写与存储。在某案例中,Power+Symphony+Hbase的组合,能够提升加载环节性能4倍以上,提升查询环节性能2倍以上。Power+文档型数据库:大数据实时查询分析方案MongoDB,最流行的开源NewSQL数据库面向文档存储完整的索引支持模式自由,可自由更新数据结构支持复制和故障恢复,易扩展主机主机主机主机CPU内内存存进程部进程部署署存储占存储占比比平均处平均处理效率理效率(条条/秒秒)CPU使使用情况用情况(使用占使用占比比)内存使用内存使用情况情
13、况(内存内存使用量使用量)X864*X86 24C,128GB3副本,共 6 0 个数 据 库(DB),启 动 1 6个 查 重进程共 测 试话 单 约26亿条,存 储 占用约360G3555340128GPower Linux4*PowerLinux8C,128GB5271740128GPower针对MongoDB优化,可提供更好的性能和安全性。以下为某客户实地进行的测试,Power平台上的MongoDB可比x86提供5倍以上的处理性能。SequoiaDB优秀的国产文档数据库产品 灵活动态的数据类型 并执行引擎 线性水平扩张 MPP 无单点故障 在压缩数据上执行SQL 保持数据接近CPU/核
14、以下为采用Power+SequoiaDB方案构建的某应用日志查询分析平台。明细日志源文件NAS存储存储模块模块SequoiaDB存储模块CRM应用服务器1CRM应用服务器2CRM应用服务器3CRM应用服务器4CRM应用服务器5 CRM应用服务器N文件工具脚本日志传输实时访问模块日志查询/简单分析日志复杂分析Hadoop分析模块Web展现模块Power+流计算:大数据实时分析计算方案StreamStormSpark StreamingIBM成熟的商用流计算技术,广泛的案例验证开源流式计算框架,简单实用大规模流式数据处理的新贵,基于Spark通用计算框架Streaming适用场景:实时监控告警分析
15、,实时营销分析触发,高速数据采集预处理,流式动态数据处理等。Power灵活支持商用和开源流计算方案,Power特性和流计算框架的结合,具有更好的性能和效费比。流式计算的原理是在内存里不间断地对流入的数据进行计算,通过多节点多核多线程并发已达到亚秒级快速处理大量数据的目的。因此,CPU的主频,并发多线程能力,cache大小,内存带宽和Java性能等方面都会直接影响到流式计算的性能表现。性能指标性能指标IBM Power 8Intel E5/E7 CPU主频主频3.74.3GHz1.72.8GHz超线程能力超线程能力8个2个CPU片内缓存大小片内缓存大小/每每core812MB L3 Cache2
16、2.5MB L3 Cache硬件事务性内存硬件事务性内存支持不支持内存带宽内存带宽2 3 0 4 1 0 GB/s5183 GB/sL4 Cache(内存缓(内存缓存)存)支持,128MB/CPU不支持单机可靠性设计指单机可靠性设计指标标99.999% 99.95%针对针对Streams的的Java库优化库优化有无IBM和x86针对流计算的性能指标对比Power+Redis:创新大数据缓存方案(内存KV数据库)Load Balancer500GB Cache Node10Gb UplinkPOWER8 ServerFlash Array w/ up to 40TBDifferentiated
17、NoSQL(POWER8 + CAPI Flash)New memory tier for POWER8 server- Up to 40 TB for NoSQL based applications - Cluster solution in a boxInfrastructure Attributes- 192 threads in 2U Server drawer- 40 TB of memory based Flash per 2U Drawer- Shared Memory & Cache for dynamic tuning- Elimination of I/O and Net
18、work OverheadTodays NoSQL in memory (x86)Infrastructure Requirements- Large Distributed (Scale out)- Large Memory per node- Networking Bandwidth Needs- Load Balancing基于Power8 CAPI接口的闪存创新方案,实现Redis在内存和闪存间的自由切换,相对于全内存方案,提供更加灵活的性能成本配置,并具有更少的资源占用。10Gb UplinkBackup Nodes500GB Cache Node500GB Cache Node50
19、0GB Cache Node512GB Cache Node24:1 Reduction in infrastructure2.4x Price reduction12x Less Energy12x Less rack space 40TB of extended memory4U适用场景:高并发实时缓存,如网站前端静态数据,用户/商品/订单查询系统,读写分离的读库等。海量数据批处理,共享资源多应用大数据处理框架-Power+ Hadoop M-R/SparkHDFSMap-Reduce/YarnGPFSSymphonyHBaseSpark物物理理层层平平台台层层工工具具层层HiveStor
20、mBigSQLStreamMap ReduceBigSheetSPSSPowerlinux:企业级环境的最佳选择,性能与成本最佳平衡的新一代硬件平台标准linux,Redhat / Suse 全面支持更加成熟、可靠与更高性能的分布式文件系统领先的大数据计算调度平台,多租户管理,更智能调度,更高性能、SLA管理,支持更多大数据计算类型多种大数据应用,共享资源,混合运行完全支持开源大数据版本Powerlinux是大数据计算的理想平台是大数据计算的理想平台多线程多线程: POWER7+ 每处理器核心有4线程, 而 Intel的处理器只有 2 线程高吞吐高吞吐: POWER7+ 有非常大的内存和 I/
21、O 带宽 (沃森成功的关键)依赖依赖Java应用应用: POWER7+ 提供了高度优化的JVM企业用户的大数据建设方向是:资源共享的大数据中心20 共享资源,提高资源利用率,提高投资收益 资源统一调度,为每个应用弹性供给 资源统一管理 应用统一管理 用户统一管理 数据安全统一管理统一的企业大数据中心平台业支网运O域分析B域分析开发商A应用1开发商A应用2开发商B应用1开发商C应用2任务1任务1任务3任务4任务5任务6任务7任务8 统一的基础平台层,统一的数据和应用接口,便于应用开发的标准化和开放化 独立的基础平台层,便于灵活引入各种力量进行应用层的开发创新 数据和应用的共享和重用,提高开发效率
22、,推动应用的迭代创新其关键是实现面向多租户的任务调度和资源管理IBM面向多租户的大数据共享平台实现场景IBM多租户大数据平台技术实现框架Platform Computing Symphony EGO (DCOS)(dynamic cluster resource management supporting diverse tenants)HDFS / GPFS / GPFS FPO(reliable, distributed storage your choice of distributed, or fast parallel POSIX file systems) ABB applicat
23、ion backbone Big Insights instance, Streams, Hbase, Oozie, Native SQL apps, Mongo DB, Cassandra Platform SymphonyPlatform SymphonySOAM, PSMRIBM Platform Cluster Manager(provisioning and management of distributed environments) HPA, Big Data, Analytic SPSS, Algo, R Big SQL, Pig, Hive, Data Explorer, .
24、 Platform LSFPlatform LSFSerialBatchMPIParallelSessionoriented HPC & Batch anywhere R, SAS, MatLab, DataStage Flow ManagementHypervisorPlatform Resource SchedulerExisting Data Center Provisioning TechnologiesPuppetRPMTPMKick-startPlatform PPMParallel SOAData AffinityParallel RecursionMap ReducePlatf
25、orm PPM Batch anywhere SAS, Integration w/Autosys, Ctrl M DAGPlatform Symphony Advanced Service ControllerYARNAPIPlatform Advanced Service ControllerMRAMRStreamsData ExplCognosBigSQL(online)HBase(online)YARN(Hadoop 2.x RM)MR BatchTezStormABBAppsIBM Symphony支持多种高性能计算,高性能分析,大数据和其它分布式框架实际生产环境验证的多租户,共享资
26、源框架。支持包括Hadoop在内的分布式负载。IBM Symphony提供面向多租户的资源调度多租户间基于策略的资源共享多租户间基于策略的资源共享多应用间可配置的资源共享策略多应用间可配置的资源共享策略 尊重资源拥有者 可独占 支持资源分组,应用可使用多个资源组,每组配置共享策略 基于时间的共享策略 可配置资源借出、借入策略 可配置抢占策略 具有保证租户SLA机制,去除资源共享的业务障碍多种负载、计算框架资源共享:可同时调度并执行MapReduce分析框架、SPARK内存计算、Stream/Storm流式计算、Hbase/MPP/NoSQL数据库、SOA实时计算,R/SAS等传统BI分析及ET
27、L应用等7种类型的负载某运营商流计算案例-Streams24网络质量实时监测数据规模大,大于10万/秒的信令实时洞察网络质量指标实时分析CDR 短频话单分析短频话单分析并按小区/号段统计切换频话单异常话单单通话单掉话率分析测试结果(CDR/秒)配置:2GHz * 4核 * 2台服务器单节点:702083两节点:140000按小区或号段纬度统计短频话单:按小区或号段纬度统计短频话单:1、占用时长小于15秒的通话,且同一主叫和被叫的两通通话间隔小于20秒重复小区切换话单.2、剔除业务台号码;3、按照小区维度统计满足条件1、2的话单数包含设备和业务种类多,涉及指标多,数据量大不断的增大等挑战需要有一
28、个实时分析平台解决实时分析网络质量问题,优化网络设备提高客户满意度某运营商移动流量经营和大数据分析平台硬件配置:IBM Power 70*7R1 Redhat v6.4 6 Cores, 128GB Mem Internal Disk: 2 * 300GB, 4 * 1.2TB EXP24s: 24 * 1.2TB SAS disk Network Adapter: 2 x 1000Gbps, 2 x 10000Gbps开源软件部分清单: Hadoop 2.3.0-cdh5.0.0 HBase 0.98. Spark(Spark stream) HDFS 2.3.0-cdh5.0.0 某省移动
29、企业级多租户大数据平台30台台7R1单台单台7R1配置:配置:8core128GB54SAS HDD410GE+41GE面向多租户资源SLA的统一平台应用之间,用户之间的资源的共享和隔离跨O域和B域的共享资源大数据平台,多个开发商并行开发并行运行,每日处理数据超过50TB资源隔离资源隔离:应用之间的隔离, 避免某些应用发生异常,抢占过多资源资源共享资源共享:应用之间的资源共享,提高资源的利用率某省移动日志分析系统明细日志源文件NAS存存储模块储模块SequoiaDB存储模块CRM应用服务器1CRM应用服务器2CRM应用服务器3CRM应用服务器4CRM应用服务器5 CRM应用服务器N文件工具脚本
30、日志传输实时访问模块日志查询/简单分析日志复杂分析Hadoop分析模块Web展现模块后端以NoSQL数据库结合Hadoop运行框架,前端以AJAX结合JSP搭建XX移动日志分析系统。该系统提供对XX移动应用程序日志的实时检索和批处理分析功能,通过分析应用程序日志的方式进行错误信息回溯以及进行业务审计的功能。(1)日志实时录入;(2)日志根据指定条件实时查询;(3)日志分析处理,包括错误信息回溯以及业务审计等。Citi银行Symphony网格计算平台在爱在爱Citi 网格运行分析网格运行分析Citi 计算和数据结合型网格系统计算和数据结合型网格系统,主要为风险分析主要为风险分析 在一个共享的网格
31、资源里运行着200 以上不同的 IB 和零售分析应用 全球动态共享的40,000 cores 能够持续维持70% 以上的利用率 超强的管理效率 管理者与主机的比为 1:400 作业吞吐量 400,000,000 作业 / 天14 条不同的业务线共享着全球的HPC资源 为每个商业业务单元确保SLA s时间指标, 实现广泛的资源共享4 个数据中心包含了异构的Linux & Windows 主机, 一处在伦敦,一处在香港,还有两处在美国 处理国内增长的风险,定价应用和其他的商务应用,与SAS, Murex 等集成. 异构的工作内容 (批处理, SOA, 计划部署 Map Reduce) 自定义服务,
32、 报表和退款实时的监控和管理主机, 所有全球资产的完全可视化针对整个企业相关应用和风险控制的全球资源分配方案在数据中心和功能域基础上的有关LOBs和应用的弹性的资源分配模式横跨整个地域的有关 LOBs 和应用的全球资源共享视图28实时数据分析方案-内存分析数据库-Power+DB2 BLUStand AloneSolutionAdvantageArchitecture:Open Solution is more preferred in China customersTechnology: Dynamic In-Memory, Actionable Compression, Parallel
33、Vector Processing, Data Skipping, etc.Performance:DB2 BLU on Power 7x better performance than SAP HANAPrice:DB2 BLU on Power 1/9 cost of SAP HANASizing720(8c, 128GB) 2.5-5TB740(16c, 256GB) 5-10TB750(32c, 512TB) 10-20TB720(4c, 64GB) 2.5TB38xAverage Acceleration of database queries for reporting(vs. p
34、revious version)实现10TB 数据亚秒级查询Power+DB2 BLU内存分析案例企企业业ETL应应用用DB2 BLU加速原来Row数据库中需要执行2小时20分的ETL过程缩减到3分30秒即可完成,整体提升性能30倍,硬件环境: Power7 16Cores;128GBOur BI solution is built on a Cognos/DB2,With BLU Acceleration, we have been able to reduce the time spent on pre-aggregation from one hour to two minutes. B
35、LU Acceleration is truly amazing.Yong Zhou, Sr. Manager of Data Warehouse & Business Intelligence Department, Taikang Life Insurance企企业业数据数据仓库应仓库应用,承担全行用,承担全行报报表表表表查询查询,数据供,数据供给给作为企业入门级数据仓库系统与Row数据库相比性能提升15倍。节省70%的存储空间,90%的表压缩率达到90%以上,其中最大的单表120G压缩后为15GB一一张张1400万万记录记录的表与一的表与一张张400万万记记录录的表做的表做left jo
36、in,3秒内秒内显显示示结结果果.*硬件环境: Power7 4Cores; 32 GB谢 谢IBM 方案 vs 纯开源方案相对于基于纯开源Hadoop修改的方案,IBM Symphony软件有以下特点: 三级粒度资源管理和调度能力,支持资源分组。 多样化的资源调度策略,如支持优先级、独占、按比例共享、点对点借还、抢占、按时间预留等。 完善的用户/租户定义和管理机制。 端到端的资源SLA保障机制。 对于服务器CPU/Mem/IO资源的细粒度精确管控能力,多维度调度资源,提高整体使用率。 基于用户的数据共享和安全隔离机制 健全的图形化监控管理用户界面 对开源版本Hadoop及各种新型数据工具的开
37、放兼容能力,支持一个平台同时运行多个Hadoop/YARN版本及实例。 对多种OS和硬件平台的开放兼容和异构支持能力 Symphony基于c/c+编写,经过多年优化,比纯开源Hadoop性能更好 Symphony具有更高性能,作业调度使用更高效的推送方式,而非轮询方式,相对开源实现在不同的场景下有40%-66倍的性能提升。 具有完整的报表功能,多角度搜集、分析分布式文件系统、并行执行框架、资源、作业数据,分析平台利用情况,发现性能瓶颈。 企业级技术支持IBM Symphony在大数据方案中的核心价值n灵活灵活 - 多租户环境实现资源共享n高效高效 - 更快速地得到计算/分析结果n强大强大 - 低延迟,高性能,高可扩展n经济经济 - 降低 TCO (基础设施和管理开销)n成熟成熟 - 经过大规模生产验证的解决方案n开放开放 - 丰富的API和应用支持n整合整合 - 集成管理工具,支持多集群和云环境n贴心贴心 - 强大的本地开发和技术支持团队资源调度资源调度C工作负载管理工作负载管理CCCCCCCCCCCDDDDDDDDDDDDCCCCCCAAAAAAAAAAAAAAAABBBBBBBBBBBBBBBBBB各种商业软件各种商业软件B自开发应用自开发应用C大数据分析大数据分析MapReduce / 内存计算D快速响应快速响应灵活扩展灵活扩展经济高效经济高效演讲完毕,谢谢观看!