1、,Inc.All rights reserved.1提纲数据正在驱动行业的发展以Hadoop为核心的大数据平台企业数据平台(Enterprise Data Hub)大数据安全平台大数据管理平台大数据技术支持总结无所不在的数据物联网及智能终端数据用户交互行为数据企业运营数据数据正成为企业的核心资产,数据可以帮助企业实现商业价值。数据价值挖掘体量大速度快多样性价值密度低日志社交数据 用户行为 机器数据 图片音频 视频 传感器运营数据Value 更好地理解并服务客 户 精细化运营管理 个性化医疗健康服务 公共事业服务 安全和合规性检查 用户标签 行为分析 文本分析 情感分析 图片分析 音频分析 轨迹
2、分析 DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabases/WarehouseOperationalApplicationsNew DataLimited DataNot efficient to keep existing data,let alone handle new data sources.Time consuming to transform datafor analysis in existing systems.Limited InsightsPow
3、er users struggle with data.Many users have no data.Compliance and PrivacyMore data,more users,and more tools create complexity.Need to balance business agilitywith security and governance.传统架构的劣势DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabasesOperationalApp
4、licationsNew DataKeep Unlimited DataFrom disparate and limited views,to unlimited information access.Unlock Value from DataFrom analytics for some,to insights for all.Manage ComplianceFrom risk due to regulations and customer privacy concerns,to trust in a secure and compliant platform.Unlimited Sto
5、rageEnterprise Data HubProcessDiscoverModelServeSecurity and Administration亟需新的数据平台架构企业级数据平台稳定性严格的测试被客户和开发者证明开源的模式易用性标准的API(Java,SQL,Python,Rest)标准的工具集成(MS,Qlikview,Tableau,Teradata,Netezza,Quest)一站式管理解决方案安全性企业安全标准集成统一的访问安全控制全面的数据保护,密钥管理可管理性部署、管理、监控、警告可治理性数据溯源数据发现数据生命周期管理灵活性不同的问题可以有不同的技术选择性能高吞吐的NoSQ
6、L存储原生的大规模数据处理引擎内存计算为X86平台做的原生优化最具创新的开源核心CDH Distribution for Apache Hadoop100%开源且开放标 准的Hadoop核心数据采集多样化的可扩展存储资源(负载)管理框架灵活多样的处理引擎全面的安全技术体系易用的Hadoop交互界面Workload ManagementProcessIngest Sqoop,Flume,KafkaTransform MapReduce,Hive,Pig,SparkDiscoverAnalytic Database ImpalaSearch SolrModelMachine Learning R,
7、Spark Mlib,MahoutServeNoSQL DatabaseHBaseStreaming Spark StreamingUnlimited Storage HDFS,HBaseYARNSentryCDHCDH全球最流行的Hadoop发行版最完整且稳定的版本,经过严格的行业检验具有最快的更新,更多新的功能方便开发者和集成商使用Hadoop和其他一些Hadoop发行版提供商对比做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成和Hadoop trunk最快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,无法保证兼容性所有组件的开发和专业支持能力
8、,其他厂商也仅仅跟随包含的版本进行集成,缺乏问题修复和专业支持能力HDFS分布式文件系统灵活性多样化数据的统一存储多样化数据的统一存储可扩展性良好的线性可扩展性良好的线性可扩展性高容错性设计之初就考虑了高容错性设计之初就考虑了高容错性开放性存储的数据格式和内容完全存储的数据格式和内容完全可见可见适合大文件的顺序读写,写一 次读多次Unlimited StorageEnterprise Data HubProcessDiscoverModelServeSecurity and AdministrationApache HBase构建在分布式存储上的NoSQL数据库和HDFS紧密结合,适合高并发随
9、机读写具有分布式存储的所有优点灵活性多样化数据的统一存储多样化数据的统一存储可扩展性良好的线性可扩展性良好的线性可扩展性开放性存储的数据格式和内容完全存储的数据格式和内容完全可可见见+在线数据服务Security and AdministrationUnlimited StorageEnterprise Data HubProcessDiscoverModelServeApache Kafka 每个节点称为 Broker 数据以 Topics方式写入Kafka 每一个Topic都可以被分片 分片分布在Broker上 分片可以有多个副本,其中一个 为Leader Producer,Consume
10、r都与partition直接进行数据交换Broker 1Broker 2Broker 3Partition 1 (Leader)Partition 2Partition 3Partition 2 (Leader)Partition 1Partition 3Partition 3(Leader)Partition 1Partition 2ProducerProducerConsumerConsumerKafka ClusterKafka+Apache Flume Kafka 可以被配置为 Flume 的Channel Flume Sources 和 Sinks 可以配置成Kafka的Consum
11、er和ProducerFlume Sources Consume from Kafka:Write data to HDFS,HBase,or SearchFlume Sinks Write to Kafka:Read from logs,files,jms,http,rpc,thrift,etc and write events to Kafka多样的工作引擎批处理引擎(MapReduce,Hive,Spark)-适合长时间的数据处理作业,高度 成熟可靠实时数据处理(Spark Streaming)-实时的数据同时,异常检测,预测分析等自助BI分析/交互式SQL(Impala)准实时的分析作
12、业,高效的数据探索式 分析,高并发的自助BI功能搜索(Search)-快速的跨应用数据搜索能力数据挖掘(Spark Mllib,R,Mahout)-适合数据分析人员的快速模型创建,迭 代在线服务(HBase)-提供实时的数据服务能力交互式分析引擎Impala构建于HDFS上的原生的分析型SQL易用性利用现有利用现有的的SQL语法,和绝大语法,和绝大多数多数BI工具完美集成工具完美集成高并发为高并发的随机分析而优化,为高并发的随机分析而优化,用用C+编写编写交互性提供交互式的体验提供交互式的体验原生和和Hadoop栈深度融合栈深度融合Enterprise Data HubSecurity and
13、 AdministrationUnlimited StorageProcessDiscoverModelServeApache Spark适合数据科学家的分布式内存计算引擎灵活多种接口,多种算法多种接口,多种算法高效内存计算,适合迭代是计算内存计算,适合迭代是计算易用好用且丰富的好用且丰富的API安全集成和数据平台的其他功能无缝和数据平台的其他功能无缝集成集成适合批处理、流计算以及迭代 式计算Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeSQL的实现途径Hive是一
14、个SQL解析和优化层,底层引擎可以是MapReduce或 是SparkSparkSQL是Spark生态系统的一 个SQL解析和优化层,也需要借 助于Spark引擎Impala就是一个原生的SQL解析、优化以及内存执行引擎,直接 操纵HDFSUnlimited Storage HDFSImpalaHiveMapReduceSparkSparkSparkSQL数据处理和分析多样化的SQL解决方案不同的需求需要不同的技术互补而不是替代实时监实时监控控交互式分析和探交互式分析和探和分和分析析索式分析索式分析批处理批处理时延要求时延要求 数秒到分钟 几十分钟以上数据源数据源交互式SQL性能0501001
15、50250200300PrestoHive-on-TezTime(in seconds)350Single User vs 10 User Response Time/ImpalaTimes Faster(Lower bars=better)Single User,510 Users,11Single User,2510 Users,12010 Users,30210 Users,202Single User,37Single User,775.0 x10.6x7.4x27.4x15.4x18.3xImpalaSpark SQLIndependent validation by IBM Res
16、earch SQL-on-Hadoop VLDB paper:“Impalas database architecture provides significant performance gains”Search大数据平台内的搜索引擎易用性实现了企业内数据平台的搜索引擎实现了企业内数据平台的搜索引擎标准化基于基于Solr的标准搜索实现的标准搜索实现灵活性实现了多种索引的构建方式实现了多种索引的构建方式安全和集成和企业级功能的紧密集成和企业级功能的紧密集成|Search所有人都知道怎么搜索Enterprise Data HubSecurity and AdministrationUnlimit
17、ed StorageProcessDiscoverModelServe实时数据处理实时搜索HDFSOnline Streaming DataEnd User Client App(e.g.Hue)FlumeRaw,filtered,or annotated dataSolrCloud Cluster(s)Indexed dataMapReduce Batch Indexing w/MorphlinesGoLive updatesHBase ClusterNRT Replication Events indexed w/MorphlinesOLTP Data ManagerSearch quer
18、iesNRT Data indexed w/Morphlines企业消息总线Hue专门为Hadoop打造的用户界面HDFS的浏览以及管理HBase的管理作业流设计,作业提交以及管理SQL操作前端定制化的搜索前端访问权限配置界面CDH发布模式领先于开源的版本 包含社区版本尚未发布的创新和稳定性功能更快获取问题的修复 强大的Committer团队保证客户问题得到更快的修复最广泛的测试 活跃的开源社区能让所有功能得到最全的测试CDH凝聚在开源的贡献有89位Hadoop以及相关生态的Committer,涵盖:Hadoop,HBase,Hive,Spark,Lucene/Solr,Flume,Sqoop
19、等项目提供了最多的企业级Hadoop功能HDFS/YARN HA,Hadoop Secure Communication,HDFS Short-Circuit,HDFS Caching,HDFS Transparent EncryptionHBase snapshots,HBase multi-tenancyHiveServer 2,Hive-on-SparkSpark Streaming exactly-once,Spark Shuffle OptimizationSolr+Hadoop Integration大数据安全安全的挑战越来越多的开发人员和业务人员会使用大数据平台企业数据平台正成为
20、黑客的主要目标Hadoop及衍生的众多项目缺乏统一的安全解决方案传统的应用层安全方案难以胜任新平台平台有多种接口给用户使用传统方案中各应用系统相对独立用户一旦突破应用层安全,数据平台就完全暴露数据没有任何保护访问没有任何限制全面的安全管控Apache Sentry,HDFS Encryption,Navigator,Key Trustee数据平台的安全不可或缺:多样化的数据导入方式多种引擎的协同工作多业务的并发多用户的访问和企业的基础设施集成符合行业的安全审查1.Perimeter Standards-based AuthenticationProcessDiscoverModelServe2
21、.Access Unified Role-based AuthorizationSecurity and Administration3.Visibility Auditing&GovernanceUnlimited Storage4.Data Encryption&Key Management安全技术架构认证,授权,审计,以及行业监管规范Perimeter限制什么样的用户可以访问集群Technical Concepts:Authentication Network isolationAccess定义用户或者应用可以访问什么数据Technical Concepts:Permissions Au
22、thorization ManagerApache SentryVisibility数据从什么地方来 以及数据是怎么被 用的Technical Concepts:Auditing Lineage NavigatorData敏感数据保护以防止为授权的访问Technical Concepts:Encryption,Tokenization,Data maskingNavigator Encrypt&Key Trustee|Partners多层次的安全多层级的身份认证(Manager,Kerberos,AD,Hue)管理平台,运维人员,客户端,BI工具统一的授权访问控制(Apache Sentry)
23、在平台上提供统一的访问安全控制策略数据保护(HDFS At-Rest Encryption,Navigator Encrypt,Navigator KeyTrustee)On-the-wire和at-rest数据保护,并内置有Key Management方案全面的审计(Navigator)不管以什么方式进行访问集群,都会得到审计使用者视图认证和授权认证和授权HiveServer2AuthNLDAPKerberosAuthZIdentityManagementKDCSentryBindingSentry ServicePolicy Definition/RetrievalEnforcementG
24、roupGroup MappingLocalGroupMappingShellLDAPHadoop UserGroupMapping数据保护底层文件系统的数据保护(Navigator Encrypt,Navigator KeyTrustee)临时文件,缓存到本地的中间计算结果,配置文件以及元数据文件HDFS文件的保护(HDFS Data-At-Rest Encryption,Navigator KeyTrustee)只能保护HDFS的文件或目录数据网络传输的安全性(TCP over SSL)基于SSL的节点间网络通信Navigator Encrypt/KeyTrustee(Gazzang)Na
25、vigator Encrypt全面高效的数据保护,Linux文件系统以下硬件指令加速(AES-NI)存储节点上的加解密方案Navigator KeyTrustee集中化的秘钥管理灵活的部署方式on-premise或者SaaS Navigator全面的审计功能对HDFS、Impala、Hive、HBase和Sentry的审计追踪提供集中式的配置管理接口查看用户/用户组对HDFS、Impala、Hive和HBase的访问权限以保证对隐私及合规的正确 配置数据发现和探索快速检索相关数据,加速数据发现流程自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类数据溯源帮助用户直观理解数据集
26、的上下游血脉关系,验证数据源头与数据演变过程可以导出数据溯源信息到其他的溯源信息管理系统中生命周期管理定义并自动化复杂的数据生命周期管理工作,包括分类,保留及加解密策略 一切都基 于Navigator丰富的元数据管理能力大数据平台-系统管理平台系统管理平台 Manager Manager 专注于 企业管理平台,而不只是一 个集群管理工具基于角色的管理视图丰富且可定制化的监控图表展现LDAP/Kerberos/SNMP/Rest API集成零宕机安装和升级复制和灾备多租户资源管理自动化的运营和诊断报告开放API可以集成第三方工具 滚动重启和升级集群灾备配置历史版本回滚智能的配置警告智能决策配置过
27、配置过期需要重启期需要重启客户端客户端配置过期配置过期全局时间线控制方便诊断极方便的全局时间线控制极方便的全局时间线控制启用Kerberos启用Kerberos启用Kerberos启用Kerberos通过 Manager管理用户自定义服务https:/ Manager Rest API多租户管理在多用户的环境下共享相同的系统或程序组件,且仍可确保各用户间数据、配置甚至计算资源的隔离性。各租户的资源保障租户间的细粒度的安全隔离租户资源请求的快速响应租户资源使用的报告多租户的优势数据共享方便运营提高资源使用率多租户的挑战开源版本已经实现的YARN的资源管理平台,可以实现对MapReduce、Spa
28、rk的动态资源管理基于Queue的资源抽象描述基于Queue的用户权限控制挑战只支持批处理的引擎对有时延要求租户的支持统一的权限控制模型没有对租户资源使用的详细报告平台的多租户资源隔离和管理保障租户对服务质量的要求,且有效利用集群的资源安全和管治平台提供了从身份验证、授权、审计和数据安全的全面保护,确 保租户之间的隔离性资源使用报告统计租户对资源的使用要求,优化租户的资源分配资源管理资源划分动态资源划分按需给租户提供满足服务质量的资源保障有效利用集群资源静态资源划分满足关键负载的作业保障配额管理磁盘空间配额文件、目录数量配额,以优化文件系统元数据静态资源管理通过Linux cgroup来静态划
29、分各服务所占用的资源支持HBase,HDFS,Implala,YARN保障关键作业的资源占用YARN 30%HBase 20%HDFS 30%Impala20%Product 2Mkt 1Developer 3静态资源管理配置HBase内部的资源管理对某个用户、某张表或某个表空间的访问进行限制(Throttling)将HBase上的作业按类型进行调度分析或查询读或写动态资源管理基于YARN的资源管理框架可以实现MapReduce,Spark以及Impala对资源的共 享通过Llama实现Impala和YARN资源的集成按租户的资源使用状况定期调整资源分配策略YARN/Impala 50%Pro
30、duct 1Business 3Developer 2Impala 4YARN/Impala 50%Product 1Business 1Developer 4Impala 4WeekdayWeekend资源使用状况统计租户对于资源的历史使用统计和趋势,以更好满足企业内部的Showback和Chargeback模式大数据平台-技术支持技术支持专业服务近百人的专业技术支持团队丰富的知识库基于大数据技术的预测支持及主动支持严格的问题修复流程专业服务预定义的企业服务内容驻场架构师和专人技术支持集群部署及 调优数据导 入及ETL 指导数据分 析指导安全指 导生产环 境就绪预测、主动技术支持资源管理YA
31、RN在线NOSQLHBASESYSTEM MANAGEMENT MANAGER存储各种类型数据批处理MAPREDUCE文件系统HDFS3RD PARTY APPSTABLEAU利用大数据平台技术,在客户集群还没发生问题之前就可以得到主动的预警付费客户可以定期向支持中心发送集群诊断包以获取主动支持基基于于的的EDH构建构建日志文件日志文件客户节点数据客户节点数据集群描述集群描述命令输出命令输出知识库知识库CRM数据数据支持记录支持记录Apache邮件列表邮件列表社区论坛社区论坛AN分 AL析 YTICS S Q Q L LIMPALA搜SE索A R引C擎HENGINESOLR硬件配置硬件配置严格
32、的问题修复过程 工工 程师修程师修复复问问 题并进题并进行行测测 试试客户发客户发现并现并 通过系通过系统报统报 告问题告问题 工工 程师重程师重现现问问 题题 在在Apache报告报告JIRA并提交并提交 补丁补丁committer 审审查并提查并提交补交补 丁到开丁到开源社源社 区区 把把 补丁放补丁放到到下下 一个版一个版本本发发 布布 给给 客户提客户提供供补补 丁程序丁程序客户通过客户通过的的无宕机无宕机滚动滚动 升级打升级打补丁补丁客户升级客户升级版版 本本总结 Enterprise专注于开源Hadoop的开发,保护用户的投资(Open Standard)最具创新的Hadoop发行
33、版(Innovation)最好用的企业数据平台(Usability)活跃的社区一站式的管理平台最完善的安全架构(Security)方便集成(Integration)全面可扩展(Extensibility)最专业的、可持续的技术支持与Apache开源项目比集成性:包含了20多个开源项目,组 件版本的兼容,解决了组件内部的配 置和组件间的配置集成12管理性:自动化的安装部署;智能的 配置优化;超级易用的监控诊断;企 业级的管理能力;基础设施的集成安全性:全面的安全技术架构;独有 的主数据管理能力帮助用户快速发现 数据并理解数据处理流程34技术支持:开源项目的发布周期不 定,会定期发布问题修复 版,
34、并提供快速的问题修复;同时开 源项目有时会破坏一些兼容性与社区版对比 Express Enterprise平台核心CDHCDH包含数据采集、存储、处理和分析等组件管理性基本的安装、部署、监控、告警等管理功能还包含一系列企业级功能:配置历史修改和回退平台运营历史报告 零宕机重启、升级 备份和复制定期诊断等等1.不需要花大把的时间去查看由于配置修 改导致的性能下降2.降低关键业务宕机的风险3.定期的诊断快照缩短解决问题的周期4.无意的数据损坏安全性有限的、松散的安全特性自动化的Kerberos部署 统一访问权限控制全面的审计整体的数据保护解决方案1.发现恶意的访问2.防止系统管理员直接通过底层文件
35、系统 去读取敏感数据数据治理无集群元数据的管理 数据溯源1.理解集群中有什么数据,快速发现数据2.数据的依赖关系,理解报表依赖的数据 源技术支持无主动的集群诊断、产品支持团队、客户可以访问的知识库、专业技术服务 定期的平台缺陷通知、路线图1.需要花费大量的时间来优化集群来满足业务需求2.系统持续稳定运行的技术保障与闭源厂商对比闭源闭源平台平台 Enterprise平台核心UnknownCDH闭源的组件或者功能缺乏和开源的持 续兼容;闭源特性没有社区支持增加 了用户使用代价管理性基本的安装、部署、监控、告警等 管理功能业界最好用,完全为Hadoop而开发的管 理工具 Manager安全性有限的、
36、松散的安全特性全面的安全解决方案,业界唯一一个符 合PCI(Payment Card Industry)安全标准的 平台数据治理无集群元数据的管理 数据溯源技术支持有但不可持续专业的产品支持团队,严格的问题修复 流程,主动的集群诊断和预测支持版本和服务免费版(Express)和按年订阅的付费版(Enterprise)免费版包含CDH和功能受限的 Manager付费版可以使用 Enterprise的所有功能,但根据可以享受的服务内容 不一样Basic Edition:只提供Hadoop核心和 Director的服务Flex Edition:HBase/Search/Impala/Spark/Na
37、vigator选择其一Data Hub Edition:所有组件都有服务提供Basic Edition只有5x8或7x24的标准支持Flex Edition和Data Hub Edition有5x8或7x24 Premium支持可选许可证模式不提供永久的许可证产品采取的是按年订阅许可证模式,假设用户订阅了三年的,则具 体的付费方式根据客户要求:一次性付费按三年平均,分三次付第一年可以付大部分费用,后两年以维保的名义付费订阅期结束之后,如果用户不再续订,则原有的功能都可以继续使用(包括 付费版才有的功能)订阅期结束之后,如果用户需要续订,则视为一次新的订阅期,此次订阅的 价格会视前次订阅的周期和
38、本次订阅的周期酌情考虑迅速体验 Express 完全免费全功能数据平台(CDH),无存储容量和节点数限制一站式的管理工具(Manager)获取社区支持 Community Enterprise Trial企业版60天的试用获取试用版许可证,得到专业的技术支持 Live在线的数据分析体验(Hue,Tableau,Zoomdata,Trifacta)开源模式可以防止被某一个提供商绑定,在后期可能需要付出高昂的维护和技术支持费用产品的稳定性更好,有更多的用户参与产品的使用和测试,使得产品存在的问题 更少安全性更好,有更多的人可以审查代码,任何代码的安全漏洞可以被很快地发现 和修复汇聚全球智慧,加速产
39、品创新;没有任何一个提供商能够提供比社区更快、更全 的产品更新开源比闭源能更好地遵守开放标准,不受专有的数据存储和处理引擎限制,方便 业务部门、企业间的互操作企业可以通过多种渠道快速解决问题,培养团队的自我技能企业需要开源Hadoop平台Hadoop及其生态的项目属性决定核心平台要开源,任何定制化开发最终损 坏的是客户利益开源是帮助客户解决问题的手段,不是目的对于任何开源项目的问题都能够以开源的方式解决,否则长此以往会和社区主流差异化越来越大,或者只能等下一个开源版本的发布有足够的解决开源问题的能力,这样可以更快的满足客户的需求领导Hadoop作为企业级应用的缺陷功能定义和开发-HDFS HA
40、,Short-circuit read,Network Encryption,HBase snapshots,Hive authentication,HDFS Caching,At-rest HDFS Encryption,Thank you大数据分析平台大数据分析平台帮助客户实现数据驱动帮助客户实现数据驱动大型数据存储计算平台大型数据存储计算平台开放、融合、跨平台、全过程按需组装开放、融合、跨平台、全过程按需组装产品定位大数据分析平台支撑多种数据源接入,可与RDBMS、JAVAAPI,工业OPC等接入,可制成企业级大数据存储架构在原有大数据数据仓库HIVE和列式数据库HBASE的基础上,自主
41、研发实时、离线大数据存储同一企业、行业、领域和产业链内进行迁移、共享、灵活扩展,大大降低应用成本满足分析应用实时性要求,提升企业管理和业务分析决策的敏捷反应能力,提高企业运营效率 支撑大数据实时处理与分析,充分满足企业科学和快速精准决策对于 信息的时效性和完整性要求作为平台级产品方案,可有效规避项目级方案应用交付和运维模式高成本的风险和问题3大核心功能模块 存储与计算 大数据可视化 数据挖掘开放式API和协议实时监控信息实时历史信息历史分析信息历史存储信息MPP分析计算集群NO-SQL搜索数据存储数据获取数据组织数据分析数据应用实时数据流处理服务器联合访问大数据平台产品创新 故障诊断均质生产能
42、源测算 实时监控 问题评价 透明感知企业级报告工具Ad hoc 即时查询 例外分析实时数据分析预测与挖掘数数据据集集群群处处理理ETL处理服务器RDBMSHiveHbase社交社交媒体媒体RSSWEB日志日志JavaOpc数据抽取数据清洗数据浓缩数据聚合数据分析数据挖掘hadoopspark大数据分析应用平台架构大数据分析应用平台架构内嵌一站式数据存储平台内嵌一站式数据存储平台核心的一站式数据存储平台,存储能支撑HADOOP,SPARK,HBASE,IMPALA等大数据平台。通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都
43、能比现有技术提供更快的性能;可以连接多种大数据存储平台可以连接多种大数据存储平台广泛支持连接各种大数据存储平台,例如:HDFS、HBase、Hive,spark,impala,S4,membase、MongoDb,EMC GreenPlum 等。数据挖掘优势数据挖掘优势大数据挖掘支持WEB在线可视化开发。整个挖掘流程,从数据集成、数据规范,到模型训练、模型评估、模型部署,都可以在线配置,每步运行都可以在控制台上监控信息,控制灵活,具有高度的动态性。大数据挖掘采用弹性分布式的数据集,允许在大型集群上执行基于内存的计算。将数据保存在内存中能够极大地提高性能,我们实现的迭代计算方面比Hadoop快二
44、十多倍高性能弹性计算可视化开发使用大数据挖掘,您可以从几乎所有的主流数据库中提取数据,包括关系型数据库如SQL Server、Oracle、DB2、Informix、My SQL、Teradata、PostgreSQL 等;大数据数据库如Hadoop、Hbase、MongoDB、Cassandra、Imala等。您也可以非常轻易地导入文档型数据,包括CSV、XML、JSON等。丰富的数据源大数据挖掘操作简单,让你瞬间成为公司顶级大数据分析专家、数据挖掘专家。无论是复杂的统计分析,还是高深的挖掘算法,通过界面化配置,轻松完成分析工作。平台简易性数据挖掘产品数据挖掘产品数据挖掘过程中数据的质量、数
45、量等各种问题使得该过程平均有75%以上的时间花费在数据预处理阶段,大数据挖掘平台提供多种数据处理节点,分析人员可以通过拖拉的方式实现数据的预处理,而不需要精通数据库语言。数据预处理与分析大数据挖掘集成了R语言算法,支持分布检验、均值向量与协方差阵的假设检验、方差分析、回归分析、判别分析、聚类分析、多因子分析、线性规划与整数规划、动态规划、不确定型决策和风险型决策等方面的内容。强大的统计分析大数据挖掘支持所有主流的数据挖掘/知识发现算法,如关联规则、决策树、神经网络、支持向量机、KMeans、关联规则等。支持所有主流的数据挖掘/知识发现算法,如关联规则、决策树、神经网络、支持向量机、KMeans
46、、关联规则等。丰富的挖掘算法大数据挖掘平台提供了多种图形化技术,帮助理解数据间的关键性联系,并指导以最便捷的途径找到问题的最终解决办法。大数据挖掘平台融合了3D、图形和动画等多种可视化技术来处理多维数据,使得数据所表现出的特征、模式和关联性等信息一目了然,可以生成散点图、分布图、直方图、堆积图、多重散点图、网络图等。图形可视化技术优势技术优势 大数据处理特点开放型平台将模型结果写入共享库将建模结果与其它人共享BS结构,一站式建模、评估、部署基于象形内存运算平台内存计算运算速度快GBPB83产品用最小的代价换取最大的价值简单部署降低硬件成本我们的产品和服务简介我们的产品和服务简介l BIl 数据挖掘l 云门产品l基于行业的商业智能咨询l信息化战略咨询l数据挖掘算法及实现l基于商业智能产品的实施l大数据管理、分析及优化l数据仓库建立咨询l售后服务l技术支持l客户培训l外包服务服务我们为您提供端到端的商业智能解决方案产品提供“专业产品(Base)”行业咨询“脑力服务(Brain)”技术服务“建设到位(Build)”外包服务“实际运行(Be in Motion)”我们的服务范围从产品提供、行业咨询、再延伸到系统实施和外包服务战略规划行业咨询系统实施用户培训系统维护84