1、大数据概论核心内容大数据背景大数据案例大数据基本概念大数据技术大数据到底是个啥?就这半瓶水 你想到的是什么?仁者见仁一条裙子引起一场颜色之争 不同人看出不同颜色那大数据到底是什么?技术?概念?思维?时代?资深码农眼中的大数据资深码农眼中的大数据大数据当然是技术,一大堆的技术,so many 平台,那是相当复杂,分布式懂不?门槛绝壁很高Marketing与学术男 眼中的大数据VolumeBigDataValueVanityVelocity特征数据体量巨大PB级-EB级-ZB级数据类型多样文本|图像|视频|音频|价值密度低商业价值高速度要求快数据输出输入的速度Marketing与学术男 眼中的大数
2、据定义大数据是需要新处理模式才能具有更强大的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产大数据之定义够大、够多、够快才是大数据。大数据是不可逆的浪潮。你就站在浪潮之巅。大数据应该用在市场营销!大数据应该有准确的定义!Marketing与学术男 眼中的大数据为什么我们的星爷这几年拍的电影越来越少?“哲学”层面看大数据“哲学”层面看大数据典型因果关系,而这个社会很多事情是解释不清的!“哲学”层面看大数据“哲学”层面看大数据“哲学”层面看大数据大数据是一种思维方式,因果-相关.生活不只是眼前的苟且,还有诗和远方.思维要跟上一个时代,一场革命 这是一场革命,庞大的数据资源使得各个领域
3、开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。一个时代,一场革命是不是有点飘乎乎的感觉?大数据案例大数据基本概念大数据之核心1.数据的存储2.数据的计算(处理)全球信息数据概览n全球80%的信息是非结构化的。n非结构化信息正在以15倍于结构化信息的速率增长。n原始的计算能力正在以极高的速率增长,以至于现今的商用机器已开始展现出5年前的超级计算机的能力。n对信息的访问已民主化:它可供(或者应该供)所有人使用。n数据量已经达到PB级-EB级-ZB级传统的解决方案 甲骨文 Oracle数据库 IBM DB2数据库 开源的MySQL数据库 Sybase公司 Sybase数据库.一
4、般处理的能力的在GB级别Google GFS文件系统 The Google File System 首次发表于2003年10月,纽约 首个商用的超大型分布式文件系统 价值在于经验的分享,而不是架构的先进“这是可行的!”Google GoogleMapReduce 首次发表于2004年12月,旧金山 基于GFS 汲取了函数式编程的设计思想 把计算移动到数据Google Google BigTable 首次发表于2006年11月,西雅图 同样基于GFS 同样是告诉大家 “这是可行的!”Hadoop来了 Hadoop是 Apache开源软件基金会开发的 运行于大规模普通服务器上的 大数据存储、计算、
5、分析的 分布式存储系统和分布式运算框架 Hadoop2.0由三个部分组成 分布式文件系统HDFS 资源分配系统Yarn 分布式运算框架MapReduceGoogle论文 vs.Apache项目为何从Hadoop开始Hadoop在哪里?这么多?Hadoop分布式架构 Master/Slave Master节点 NameNode NN SecondaryNameNode SNN ResourceManager RM Slave节点 NodeManager NM DataNode DNHDFS 从下面开始 YARN到上面了大数据实战技术MapReduce 计算框架 将计算移动到数据硬盘存储成本不断降低传输速率提升不大磁头定位时间无提升 MapReduce的特性自动实现分布式并行计算容错提供状态监控工具模型抽象简洁,程序员易用MapReudce 分而治之MapReduce 函数式编程 Map 映射和分发 Reduce 汇聚和聚合MapReduce 执行流程Sogou搜狗海量日志分析需求统计“仙剑奇侠传”这款游戏在互联网上的热度,进而为粉丝推送更精彩的游戏。数据存储HDFS文件系统数据计算MapReduce计算框架那大数据到底是什么?