大数据方案与案例.pptx

上传人(卖家):三亚风情 文档编号:3429029 上传时间:2022-08-30 格式:PPTX 页数:47 大小:3.25MB
下载 相关 举报
大数据方案与案例.pptx_第1页
第1页 / 共47页
大数据方案与案例.pptx_第2页
第2页 / 共47页
大数据方案与案例.pptx_第3页
第3页 / 共47页
大数据方案与案例.pptx_第4页
第4页 / 共47页
大数据方案与案例.pptx_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、大数据(大数据)时代来临Structured Database Spreadsheet File in record formatSemi-structured XML Docs Logs Click-stream Equipment/Device,RFID tagUnstructured Web Pages E-mail Multimedia Instant Messages Documents移动互联网Mobile Internet物联网Internet of Things1新量级、新处理模式、新企业智能大数据大数据 要解决的问题要解决的问题 VolumeVolume海量的数据规模海量的数

2、据规模Variety多样的数据类型多样的数据类型ValueVelocity快速的数据流转快速的数据流转巨大的数据价巨大的数据价值值3Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall LogLog什么是半结构化什么是半结构化/非结构化数非结构化数据据大数据大数据 带来的挑战带来的挑战不同不同“看看”数据的数据的方式方式需要需要更更高高性性价比的数据计算与储存价比的数据计算与储存方式方式不同的数据管理不同的数据管理策略策略超越企业现有超越企业现有 IT IT 的数据解决能量的数据解决能量4不同“看”数据的方式5可视:结构化资料 1

3、5%未视:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的10万 GB10万 TB需要更高性价比的数据计算与储存方式6数据库数据仓库计算更快 存储更省85%半/非结构化的Log/Web page/Email/PDF/Image/Full-text/MS-Office file 7不同的数据管理策略当我们想要扩充时,才发觉:架构只能 scale-up,scale-out 不易 处理时间过长,time-to-value 受限 成本过高,cost-efficiency 受限15%结构化的 DB/DW遗憾残缺每天几百 GB、几 TB 的资料,且持续成长中 在收数据的同时做必要的

4、前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)如何有效的避免因硬件毁坏所导致的资料损毁如何从中挖掘出所关注事件的 pattern 或 behavior超越企业现有 IT IT 的数据解决能量8大数据的储存与处理大数据的储存与处理/运算运算大大数据储存数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据数据分析分析数据数据展现展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构什么是大数据处理什么是大数据处理(大数据大数据 Processing)Word countHarry Porter (哈利波特)432,44

5、2Lord Voldemort (佛地魔)134,209Dumbledore (邓不利多)72,982Severus Snape (石内圤)28,252.Log file:1.5TB/dayHit 812,490,232,934,198,283,57,922,190.Hit CountWord Count 什么是大数据处理什么是大数据处理(大数据大数据 Processing)177.23.21.50-15/Nov/2011:00:07:45 GET/flower_store/product.screen?product_id=FL-10http:/ Mozilla/5.0(X11;U;Linu

6、x i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1604 1667233.77.49.54-15/Nov/2011:00:07:58 GET/flower_store/product.screen?product_id=K9-BD-01 HTTP/1.1 http:/ Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/

7、1.5.0.10 1803 2431i10.32.1.37-15/Nov/2011:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-01 HTTP/1 http:/ Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1025 4463192.168.11.38-IPActionTimeServerURL#.3rd partypre-defined Repor

8、tingFilterString Truncation Log file:1.5TB/day什么是大数据处理什么是大数据处理(大数据大数据 Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_I

9、DStart dateStart timeSession typeSource IPSource PortNAT IPNAT PortDest IPDest PortProtocalOutputIDStart timeEnd timeSource IPSource PortDest IPDest PortProtocalUpstreamDownstreamURLJoin1.1 TB per-day600 GB per-day什么是大数据处理什么是大数据处理(大数据大数据 Processing)SequenceDe-Normalize177.23.21.50-15/Nov/2011:00:07:

10、45 GET/flower_store/product.screen?product_id=FL-10http:/ Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1604 1667233.77.49.54-15/Nov/2011:00:07:58 GET/flower_store/product.screen?product_id=K9-BD-01 HTTP/1.1 http:/ Mozilla/5.0(X11;U;Lin

11、ux i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1803 2431i10.32.1.37-15/Nov/2011:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-01 HTTP/1 http:/ Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1

12、.5.0.10 1025 4463192.168.11.38-ABCDXYZOPQADACXEvent Sequence DiagramRDB dataEvent 范例被浏览的网页每笔网络交易所经历的每个程序或系统.Big Flat Filefor full text search什么是大数据处理什么是大数据处理(大数据大数据 Processing)SignatureMeta DataMeta DataTag ValueTag ValueAppAppAppAppMedia ExtractionFile Transformation什么是大数据处理什么是大数据处理(大数据大数据 Processi

13、ng)String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/ReportingCustomizedSolutionsDatabase/Data WarehouseEtu知意图的大数据解决方案知意图的大数据解决方案大大数据储存数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据数据分析分析数据数据展现展现分布式软件架构并行计

14、算框架分布式存储横向扩容(Scale-out)架构大数据处理的平台解决方案企业的资料云 硬件与软件一体/储存与运算合一大数据 运算与储存,单一架构解决Etu Appliance17传统并行计算架构并行计算+分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)Hadoop 的特性的特性Hadoop 不只是 Hadoop18关系数据库关系数据库 vs Hadoop关系数据库Hadoop资料量GB-TBTB-PB存取方式交互式与批次批次数据更新多次读

15、写一次写,多次读数据结构固定 schema无 schema资料一致性 高(ACID)低扩充性非线性线性连结关系数据库与连结关系数据库与 Hadoop 汇入与导出数据 Sqoop 查询与整合 Hive JDBC Driver(Java)Hive ODBC Driver(C+)Hive Add-in for Excel(by Microsoft)Thrift(C/C+,Python,Perl,PHP)Hive 简介简介 由 Facebook 开发 架构于 Hadoop 之上,设计用来管理结构化数据的中间件 以 MapReduce 为执行环境 数据储存于HDFS上 Metadata 储存于RDMBS

16、中 Hive的设计原则 采用类SQL语法 扩充性 Types,Functions,Formats,Scripts 性能与平水扩展能力兼具Hive SQL like Hadoop DatabaseDriver(compiler,optimizer,executor)metastoreData NodeData NodeData NodeData NodeHadoop ClusterM/RM/RM/RM/RWeb UICLIJDBCODBCCreate M/R JobSqoop SQL to HadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreate M

17、ap TasksSqoop 支援的支援的 RDMBS Oracle Netezza Teradata SQL Server Microsoft PDW MySql Postgre SQL传统的数据处理流程传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料探索式的数据处理流程探索式的数据处理流程新用户新订单新产品广告效益分析?促销活动分析?电子报效益分析?用户浏览日志营运信息数据仓库27Strictly NDA-Microsoft ConfidentialData WarehouseSensorsDevicesWeb LogCrawlersERPCRMLOB

18、APPsConnectors非结构化数据源非结构化数据源S S RS SSASBI PlatformFamiliar End User ToolsPowerViewExcel with PowerPivotEmbedded BIPredictive Analytics结构化数据源结构化数据源Hadoop企业的企业的 Hadoop 应用应用策略策略应用一应用一:参照参照 RDBMS RDBMS 中的数据表中的数据表 RDBMSCustomersWebLogsProductsHDFS应应用二用二 :脱机数据分析脱机数据分析RDBMSCustomersProductsHDFSSales Histor

19、yRDBMSHDFSSales 2008 Sales 2009 Sales 2010Sales 2008 ODBC/JDBC应应用三用三:历史数据与在线数据交互运用历史数据与在线数据交互运用应应用用四四:利用利用 Hadoop 进行数据汇总进行数据汇总 RDBMSWebLogsHDFSWebLog Summary应用五:利用 ODBC 连结 Excel&HiveExcel Hive Add-in在线资料:MS SQL Server历史资料:Hive其他应用其他应用-Etu Recommender-Etu Recommender建构在建构在 Etu Appliance Etu Appliance

20、 上的精准推荐系统上的精准推荐系统Etu RecommenderRecommendation Engine商品商品/内容内容关联性分析关联性分析客户行为客户行为相似性分析相似性分析客户海量量浏览数据客户交易数据其他或第三方资料推荐清单其他应用其他应用-Etu Recommender-Etu Recommender建构在建构在 Etu Appliance Etu Appliance 上的精准推荐系统上的精准推荐系统Web ServerUser DBProduct DBEtu Recommender商品浏览日志商品浏览日志用户数据用户数据产品目录产品目录推荐结果推荐结果API其他应用其他应用-Et

21、u Recommender-Etu Recommender建构在建构在 Etu Appliance Etu Appliance 上的精准推荐系上的精准推荐系统统Etu Recommender精准推荐应用系统个人化推荐清单个人化推荐清单个人化个人化EDM个人化账单个人化账单百货百货零售零售流通流通银行银行连锁连锁媒体媒体虚拟通路(在线)实体通路(线下)结账结账点击点击浏览浏览搜寻搜寻交易交易购物车购物车推荐清单的运用推荐清单的运用不光只是在线服务不光只是在线服务客户应用案例需求l 上亿个影像图文件l 每个影像图文件大小约1020Kl 须集中管理l 需满足图档的实时调阅与查询现状l 以SAN St

22、orage来储存与管理所有的影像图文件l 每个影像文件以档案目录方式来管理l 以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其他应用其他应用 海量小图档管理海量小图档管理其他其他应用应用 海量小图档管理海量小图档管理SANStorageDB应用程序应用程序应用程序应用程序l 大量的查询与搜索造成SAN Storage接口的效能瓶颈,响应时间太久l 数据库对上亿条数据以上的查询效能不佳l 无法支持全文搜索l 无法支撑大量的关连性计算与分析l 传统Storage对储存巨量小档案并不合适l 每日新档案的

23、导入响应时间太慢KeyMeta dataObjectFile IDFile name.导入Etu Appliance运用支巨量资料高平行读写和存储之非关系数据库,来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作为提供其高可靠性的底层存储支持图像文件及其特征值导入应用程序应用程序应用程序支持百亿笔资料之高平行查询其他其他应用应用 海量小图档管理海量小图档管理l 高可靠性l 线性扩展(scale-out),轻易快速扩容l 总持有成本低l 高并发与高吞吐率,处理、查询百亿条数据没有问题l 支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析的需求l 巨量存储,提供PB级

24、以上储存能立运用支持海量资料高平行读写和存储之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作提供其高可靠性的底层存储支持SANStorageDB应用程序应用程序应用程序其他其他应用应用 海量小图档管理海量小图档管理Hadoop 平台竞争要素Hadoop Disruption VectorsSource:GigaOM Pro,2012整合整合部署部署存取存取 延展:公有云等级的运算架构 可靠:电信等级的系统质量 效能:企业等级的创新绩效Etu Appliance 简介大数据 End-to-End Solution in a Box储存与运算一体,简化

25、与优化的优势机种:10 分钟内可部署 100+节点资料撷取能力 1U 胜过 8U大数据 运算处理最适化三种数据温度的整合:Hot/Warm/ColdHot Data在线结构化数据在线半/非结构化数据Warm Data在线半/非结构化数据Cold Data脱机资料Hadoop-based SolutionSAN/NAS/Scale-out NASOLTPOLAP43软硬件整合软硬件整合 管理维运功能全自动化部署不停机扩充软硬件全面优化中央丛集系统管理中央丛集系统监控完整的高可用性设计Etu Appliance 主要功能主要功能44Master nodeWorker nodeWorker node

26、Worker nodeWorker nodeSwitch(1Gb above)藉由 Worker Node 容易扩充的能力可轻易满足数据量成长的需求最小最小 package1 台台 Master Node+2 台台 Worker NodesEtu Appliance 的部属的部属Etu Appliance 软件架构Katta/LuceneMahoutHBaseHive QLMapReduceData Processing LibHDFSPigData Store LayerData Processing LayerFlumeApplication Layer(by SYSTEX)Monitor

27、ingLog ManagementAccount ManagementConfigurationManagementSchedulerHigh AvailabilitySearch APIData SourceHiveSqoopEtu OS for Hadoop(by SYSTEX)总结 关系数据库与 Hadoop 的连结是企业导入 Hadoop 的重要关键 Sqoop 及 Hive 提供企业延伸信息管理能力及于非结构化信息 关系数据库与 Hadoop 皆为工具,更重要的是整体的解决方案 精诚 Etu 团队是您整合 SQL 与 Hadoop 的最佳伙伴树立质量法制观念、提高全员质量意识。22.

28、8.222.8.2Tuesday,August 02,2022人生得意须尽欢,莫使金樽空对月。15:19:2915:19:2915:198/2/2022 3:19:29 PM安全象只弓,不拉它就松,要想保安全,常把弓弦绷。22.8.215:19:2915:19Aug-222-Aug-22加强交通建设管理,确保工程建设质量。15:19:2915:19:2915:19Tuesday,August 02,2022安全在于心细,事故出在麻痹。22.8.222.8.215:19:2915:19:29August 2,2022踏实肯干,努力奋斗。2022年8月2日下午3时19分22.8.222.8.2追求

29、至善凭技术开拓市场,凭管理增创效益,凭服务树立形象。2022年8月2日星期二下午3时19分29秒15:19:2922.8.2严格把控质量关,让生产更加有保障。2022年8月下午3时19分22.8.215:19August 2,2022作业标准记得牢,驾轻就熟除烦恼。2022年8月2日星期二15时19分29秒15:19:292 August 2022好的事情马上就会到来,一切都是最好的安排。下午3时19分29秒下午3时19分15:19:2922.8.2一马当先,全员举绩,梅开二度,业绩保底。22.8.222.8.215:1915:19:2915:19:29Aug-22牢记安全之责,善谋安全之策,力务安全之实。2022年8月2日星期二15时19分29秒Tuesday,August 02,2022相信相信得力量。22.8.22022年8月2日星期二15时19分29秒22.8.2谢谢大家!谢谢大家!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据方案与案例.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|