《大规模数据分析系统的搭建》课件.pptx

上传人(卖家):三亚风情 文档编号:3044567 上传时间:2022-06-25 格式:PPTX 页数:36 大小:3.59MB
下载 相关 举报
《大规模数据分析系统的搭建》课件.pptx_第1页
第1页 / 共36页
《大规模数据分析系统的搭建》课件.pptx_第2页
第2页 / 共36页
《大规模数据分析系统的搭建》课件.pptx_第3页
第3页 / 共36页
《大规模数据分析系统的搭建》课件.pptx_第4页
第4页 / 共36页
《大规模数据分析系统的搭建》课件.pptx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、大数据分析系统的建设推销两个观点 数据系统 分层设计 为什么推销这两个观点?数据系统Whatis a datasystem?Asystemthatmanagesthe storageandqueryingof data.Query=Function(Alldata).SometimesyouretrievewhatyoustoredOftentimesyoudotransformations, aggregations,etc.MapReduceisaframeworkfor computingarbitraryfunctionson arbitrarydata.nathanmarz,thea

2、uthorofStormMysql是数据系统,包括查询层(SQL)和存储层。HBase、HDFS、 NoSQL都至多算是存储层。分层设计 垂直分层 时效性库,小时库,天级库,周库 水平分层 OLTP,OLAP SQL,NoSQL 为什么分层? 减少设计复杂性 减少使用运维复杂性 资源效率使用最高实时计算层(Storm)实时存储层(HBase)批量计算层(MapReduce)批量存储层(HDFS)输入数据为什么推销这两个观点 小数据-大数据 大数据系统也是storage+query 大数据需要分层考虑输出数据最近两个趋势 NewSQL Interactive Analysis 说明了什么NewS

3、QL NoSQL太过原始,SQL容量性能有限Megastore:ProvidingScalable,Highly AvailableStoragefor InteractiveServices(Google2011)F1 - The Fault-Tolerant Distributed RDBMSSupportingGoogles Ad Business (Google 2012)NewSQLSQLNoSQLInteractive Analysis Hive响应太慢,数据库容量性能有限Dremel:InteractiveAnalysisofWeb-ScaleDatasets(Google 20

4、10)Tenzing : A SQL Implementation On The MapReduceFramework (Google 2011)PowerDrill: Processing a TrillionCells per Mouse Click (Google 2012)说明了什么 大数据的开源社区正在向数据库厂商发起挑战 OLTP: 难度会稍大,撬动更多的是mysql、postgresql的领地 OLAP: 很有希望成本昂贵稳定性要求低数据量大时效性低不是不可缺少的组件今天的重点:大数据分析Oracle ExadataEMC HawkSAP HanaTajo热词榜Amazon Re

5、dShiftTeradataEMC GreenplumIBM Netezza HP VerticaStadocitusdataImpalaStinger/TenzHPCC SystemPig/HiveSalesforce Phoenix大数据分析架构RDBMSRDBMSOLAP DBStatic ReportQuery ReportOLAP Reportand AnalysisReportingand AnalysisETL-2Dataware HouseETL-1Business IntelligenceDatamartOther文本分析DataMiningStaticQueryOLAPAd

6、hocData Mining大数据分析发展趋势从上往下:1. 数据量越来越大,维度越来越多2. 交互性越来越难做3. 技术难度越来越大4. 以人为主-以机器为主5. 用户专业程度越来越高,越来越少非结构化数据 非结构化数据进行结构化后,利用原有技术分析 直接文本分析百度热搜词 static report用户query分析 query report搜索引擎 OLAP多维分析MapReduce上的调研作业 adhoc新闻聚类 data miningOLAP技术难点 多维分析: rollup, drill-down, slicing和dicing 各类维度组合,并提供交互式响应OLAP技术难点 解决

7、手段 减少不必要的列读写 行列混合 列式存储 减少不必要的行读写 hyperdex 多维hash infobright knowledgegrid 压缩 预先计算 块级别的 物化视图减少不必要的列读写 -行列混合减少不必要的列读写 列式存储减少不必要的行读写 多维hash减少不必要的行读写 infobrightknowledge grid预先计算 块级别的 对每一个数据块,提前计算好其max,min, sum,count等。 物化视图 提前计算好需要的几个维度的rollup表Adhoc技术难点 任意维度分析: 存储优化,等同OLAP 交互式响应 MapReduce太慢 Impala 任意分析:

8、 简单的SQL可能并不好用 方便的查询分析编写环境和展现工具 数据可能导入OLAP做进一步分析数据分析系统搭建 小系统MS Excel (BI)MySQL/Postgres/InfobrightPentahoBI/SpagoBI大数据分析系统搭建 商业版 Oracle BIEE + Oracle Exadata 其它产品GreenplumSAP HANANetteza. .大数据分析系统搭建 开源版 开源还没有很成熟的产品来构建大数据下的OLAP 短期解决 商业产品 交互性强,访问量大:转为查询请求放入SQL或NoSQL中查询 交互性要求不高,访问量少的: 转为利用Hive/Impala来做中等规模分析方案 HPCC Systems谢谢Q&A

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《大规模数据分析系统的搭建》课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|