1、方案架构与案例研讨方案架构与案例研讨精诚集团提供 Big Data 解决方案的独立品牌在台北与北京设有研发与专业服务团队我们关注的不只是技术,更在意挖掘 Big Data 对企业的商业价值透过软硬件一体的整合,大幅简化与优化企业处理 Big Data 的种种问题意图与关联充满的 Big Data 世界Etu 帮您具体整合来呈现大数据(Big Data)时代来临Structured Database Spreadsheet File in record formatSemi-structured XML Docs Logs Click-stream Equipment/Device,RFID t
2、agUnstructured Web Pages E-mail Multimedia Instant Messages DocumentsBig Data Big Data PeopleDevicesSensors移动互联网Mobile Internet物联网Internet of Things4新量级、新处理模式、新企业智能Big Data 要解决的问题要解决的问题 VolumeVolume海量的数据规模海量的数据规模Variety多样的数据类型多样的数据类型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-stru
3、cturedAll the aboveValueVelocity快速的数据流转快速的数据流转巨大的数据价巨大的数据价值值6Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall LogLog什么是半结构化什么是半结构化/非结构化数据非结构化数据Big Data 带来的挑战带来的挑战不同不同“看看”数据的方式数据的方式需要更高性价比的数据计算与储存方式需要更高性价比的数据计算与储存方式不同的数据管理策略不同的数据管理策略超越企业现有超越企业现有 IT IT 的数据解决能量的数据解决能量不同“看”数据的方式8可视:结构化资料 15%未视
4、:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的10万 GB10万 TB需要更高性价比的数据计算与储存方式9数据库数据仓库计算更快 存储更省85%半/非结构化的Log/Web page/Email/PDF/Image/Full-text/MS-Office file 不同的数据管理策略当我们想要扩充时,才发觉:架构只能 scale-up,scale-out 不易 处理时间过长,time-to-value 受限 成本过高,cost-efficiency 受限15%结构化的 DB/DW遗憾残缺每天几百 GB、几 TB 的资料,且持续成长中储存Storing 在收数据的同时
5、做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的 pattern 或 behavior分析Analyzing超越企业现有 IT IT 的数据解决能量11大数据的储存与处理大数据的储存与处理/运算运算大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构什么是大数据处理什么是大数据处理(Big Data Proces
6、sing)abc/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2amazon/gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846books.tw/exep/prod/china/chinafile.php?item=CN10816425books.tw/exep/pr
7、od/china/chinafile.php?item=CN10759096news.yahoo/feds-issue-warning-unconven-sperm-donor-140811851.htmlLog file:1.5TB/dayLog file:1.5TB/dayHit CountWord Count 什么是大数据处理什么是大数据处理(Big Data Processing)abc/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2amazon/gp/product/B005OCFGTO/ref=s9_simh_gw_
8、p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846books.tw/exep/prod/china/chinafile.php?item=CN10816425books.tw/exep/prod/china/chinafile.php?item=CN10759096news.yahoo/feds-issue-warning-unconven-sperm-donor-140811851.htmlmystor
9、e.splunk/flower_store/cart.do?action=purchase&itemId=EST-13&JSESSIONID=SD7SL1FF9ADFFtech.qq/a/20191221/000094.htm24h.pchome.tw/?m=index&f=view&p=24hour&s=nlifeshopping.pchome.tw/?mod=store&func=style_show&SR_NO=DEAO45177.23.21.50-15/Nov/2019:00:07:45 GET/flower_store/product.screen?product_id=FL-10h
10、ttp:/mystore.splunk/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1604 1667233.77.49.54-15/Nov/2019:00:07:58 GET/flower_store/product.screen?product_id=K9-BD-01 H
11、TTP/1.1 mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1803 2431i10.32.1.37-15/Nov/2019:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-
12、01 HTTP/1 http:/mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1025 4463192.168.11.38-3 3rdrd party partypre-defined pre-defined ReportingReporting
13、FilterString Truncation Log file:1.5TB/dayLog file:1.5TB/day什么是大数据处理什么是大数据处理(Big Data Processing)Join1.1 TB per-day600 GB per-day什么是大数据处理什么是大数据处理(Big Data Processing)SequenceDe-Normalize177.23.21.50-15/Nov/2019:00:07:45 GET/flower_store/product.screen?product_id=FL-10http:/mystore.splunk/flower_stor
14、e/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1604 1667233.77.49.54-15/Nov/2019:00:07:58 GET/flower_store/product.screen?product_id=K9-BD-01 HTTP/1.1 mystore.splunk/flower_s
15、tore/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1803 2431i10.32.1.37-15/Nov/2019:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-01 HTTP/1 http:/mystore.splunk/
16、flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.8.0.10)Gecko/20190223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1025 4463192.168.11.38-ABCDXYZOPQADACXEvent Sequence DiagramRDB dataEvent 范例被浏览的网页每笔网络交易所经历的每个程序或系统.Big Flat Filefo
17、r full text search什么是大数据处理什么是大数据处理(Big Data Processing)SignatureMeta DataMeta DataTag ValueTag ValueAppAppAppAppMedia ExtractionFile Transformation什么是大数据处理什么是大数据处理(Big Data Processing)String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMedia
18、Web ClickstreamMobile AppsCall LogSplunkBI/ReportingCustomizedSolutionsDatabase/Data WarehouseEtu知意图的大数据解决方案知意图的大数据解决方案大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构大数据处理的平台解决方案企业的资料云 硬件与软件一体/储存与运算合一Big Data 运算与储存,单一架构解决Etu ApplianceEtu Appliance20传统并行计算架构并行计
19、算+分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)Hadoop 的特性的特性Hadoop 不只是 HadoopHIVEBig Data ApplicationsPig!ZooKeeperSQLRAW关系数据库关系数据库 vs Hadoop连结关系数据库与连结关系数据库与 Hadoop汇入与导出数据 Sqoop查询与整合 Hive JDBC Driver(Java)Hive ODBC Driver(C+)Hive Add-in for Ex
20、cel(by Microsoft)Thrift(C/C+,Python,Perl,PHP)Hive 简介简介由 Facebook 开发架构于 Hadoop 之上,设计用来管理结构化数据的中间件以 MapReduce 为执行环境数据储存于HDFS上Metadata 储存于RDMBS中Hive的设计原则采用类SQL语法扩充性 Types,Functions,Formats,Scripts性能与平水扩展能力兼具Hive SQL like Hadoop DatabaseDriver(compiler,optimizer,executor)metastoreData NodeData NodeData
21、NodeData NodeHadoop ClusterM/RM/RM/RM/RWeb UICLIJDBCODBCCreate M/R JobSqoop SQL to HadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreate Map TasksSqoop 支援的支援的 RDMBS Oracle Netezza Teradata SQL Server Microsoft PDW MySql Postgre SQL传统的数据处理流程传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料探索式的数据处理流程探索式的数据处理
22、流程新用户新订单新产品广告效益分析?促销活动分析?电子报效益分析?用户浏览日志营运信息数据仓库30Strictly NDA-Microsoft ConfidentialData WarehouseData WarehouseSensorsDevicesWeb LogCrawlersERPCRMLOBAPPsConnectors非结构化数据源非结构化数据源S S RS SSASBI PlatformFamiliar End User ToolsPowerViewExcel with PowerPivotEmbedded BIPredictive Analytics结构化数据源结构化数据源Hado
23、op企业的企业的 Hadoop 应用策略应用策略应用一应用一:参照参照 RDBMS RDBMS 中的数据表中的数据表 RDBMSCustomersWebLogsProductsHDFS应用二应用二:脱机数据分析脱机数据分析RDBMSCustomersProductsHDFSSales HistoryRDBMSHDFSSales 2019 Sales 2009 Sales 2019Sales 2019 ODBC/JDBC应用三应用三:历史数据与在线数据交互运用历史数据与在线数据交互运用应用四应用四:利用利用 Hadoop 进行数据汇总进行数据汇总 RDBMSWebLogsHDFSWebLog S
24、ummary应用五:利用 ODBC 连结 Excel&HiveExcel Hive Add-in在线资料:MS SQL Server历史资料:Hive其他应用其他应用-Etu Recommender-Etu Recommender建构在建构在 Etu Appliance Etu Appliance 上的精准推荐系统上的精准推荐系统Etu RecommenderRecommendation Engine商品商品/内容内容关联性分析关联性分析客户行为客户行为相似性分析相似性分析客户海量量浏览数据客户交易数据其他或第三方资料推荐清单其他应用其他应用-Etu Recommender-Etu Recom
25、mender建构在建构在 Etu Appliance Etu Appliance 上的精准推荐系统上的精准推荐系统Web ServerUser DBProduct DBEtu Recommender商品浏览日志商品浏览日志用户数据用户数据产品目录产品目录推荐结果推荐结果API其他应用其他应用-Etu Recommender-Etu Recommender建构在建构在 Etu Appliance Etu Appliance 上的精准推荐系统上的精准推荐系统Etu Recommender精准推荐应用系统个人化推荐清单个人化推荐清单个人化个人化EDM个人化账单个人化账单百货百货零售零售流通流通银行银
26、行连锁连锁媒体媒体虚拟通路(在线)实体通路(线下)结账结账点击点击浏览浏览搜寻搜寻交易交易购物车购物车推荐清单的运用推荐清单的运用不光只是在线服务不光只是在线服务客户应用案例需求l 上亿个影像图文件l 每个影像图文件大小约1020Kl 须集中管理l 需满足图档的实时调阅与查询现状l 以SAN Storage来储存与管理所有的影像图文件l 每个影像文件以档案目录方式来管理l 以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其他应用其他应用 海量小图档管理海量小图档管理其他应用其他应用 海量小图档管理海
27、量小图档管理SANStorageDB应用程序应用程序应用程序应用程序l 大量的查询与搜索造成SAN Storage接口的效能瓶颈,响应时间太久l 数据库对上亿条数据以上的查询效能不佳l 无法支持全文搜索l 无法支撑大量的关连性计算与分析l 传统Storage对储存巨量小档案并不合适l 每日新档案的导入响应时间太慢导入Etu Appliance运用支巨量资料高平行读写和存储之非关系数据库,来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作为提供其高可靠性的底层存储支持图像文件及其特征值导入应用程序应用程序应用程序支持百亿笔资料之高平行查询其他应用其他应用 海量小图档管理
28、海量小图档管理l 高可靠性l 线性扩展(scale-out),轻易快速扩容l 总持有成本低l 高并发与高吞吐率,处理、查询百亿条数据没有问题l 支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析的需求l 巨量存储,提供PB级以上储存能立运用支持海量资料高平行读写和存储之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作提供其高可靠性的底层存储支持SANStorageDB应用程序应用程序应用程序其他应用其他应用 海量小图档管理海量小图档管理Hadoop 平台竞争要素Hadoop Disruption VectorsSource:GigaOM Pro,
29、2019整合整合部署部署存取存取 延展:公有云等级的运算架构 可靠:电信等级的系统质量 效能:企业等级的创新绩效Etu Appliance 简介Big Data End-to-End Solution in a Box储存与运算一体,简化与优化的优势机种:10 分钟内可部署 100+节点资料撷取能力 1U 胜过 8UBig Data 运算处理最适化三种数据温度的整合:Hot/Warm/ColdHot Data在线结构化数据在线半/非结构化数据Warm Data在线半/非结构化数据Cold Data脱机资料Hadoop-based SolutionSAN/NAS/Scale-out NASOLT
30、POLAP软硬件整合软硬件整合 管理维运功能全自动化部署不停机扩充软硬件全面优化中央丛集系统管理中央丛集系统监控完整的高可用性设计Etu Appliance 主要功能主要功能Master nodeMaster nodeWorker nodeWorker nodeWorker nodeWorker nodeWorker nodeWorker nodeWorker nodeWorker nodeSwitch Switch(1Gb1Gb above)above)藉由 Worker Node 容易扩充的能力可轻易满足数据量成长的需求最小最小 package1 台台 Master Node+2 台台 W
31、orker NodesEtu Appliance 的部属的部属Etu Appliance 软件架构Katta/LuceneMahoutHBaseHive QLMapReduceData Processing LibHDFSPigData Store LayerData Processing LayerFlumeApplication Layer(by SYSTEX)MonitoringLog ManagementAccount ManagementConfigurationManagementSchedulerHigh AvailabilitySearch APIData SourceHiveSqoopEtu OS for Hadoop(by SYSTEX)总结 关系数据库与 Hadoop 的连结是企业导入 Hadoop 的重要关键 Sqoop 及 Hive 提供企业延伸信息管理能力及于非结构化信息 关系数据库与 Hadoop 皆为工具,更重要的是整体的解决方案 精诚 Etu 团队是您整合 SQL 与 Hadoop 的最佳伙伴50技术支持专业服务解决方案面向企业Big Data需求的一站式服务Big Data 应用程序Big Data 分析工具Big Data 处理框架Hadoop DistributionOS硬件