1、大数据人工智能时代:18世纪60年代英国发起的蒸汽技术革命,以蒸汽机为代表。:19世纪中期,以欧洲国家,美国,日本发起的电力技术革命,以1866年德国西门子发明的发电机为代表。:20世纪四五十年代,世界各个国家发起的计算机及信息技术革命,以计算机,航天技术,原子能为代表。:21世界初,以大数据人工智能为代表的全新技术革命。2016年3月9日-15日阿尔法狗大战围棋大师李世石开始爆发。大数据与人工智能大数据与人工智能关系图:关系图:大数据人工智能大数据是人工智能的基大数据是人工智能的基础础没数据不智能没数据不智能机器学习机器学习深度学习深度学习机器学习和深度学习机器学习和深度学习机器学习:抵达机
2、器学习:抵达AI目标的一条路径目标的一条路径机器学习就是用算法真正解析数据,不断学习,然后对世界中发生的事做出判断和预测。研究人员会用大量数据和算法“训练”机器,让机器学会如何执行任务。深度学习:实现机器学习的技术深度学习:实现机器学习的技术“人工神经网络(Artificial Neural Networks)”是另一种算法方法,神经网络(Neural Networks)的构想源自于我们对人类大脑的理解神经元的彼此联系。啤酒与尿布啤酒与尿布 微软大数据成功预测奥斯卡微软大数据成功预测奥斯卡21项大奖项大奖 Hadoop:离线的复杂大数据处理,存储在硬盘上。Spark:离线快速的大数据处理,存储
3、在内存上。spark streaming实时大数据处理。Storm:在线的实时大数据处理,存储在内存是上。MapReduce:分布式计算,对数据进行切割,计算,合并。HDFS:分布式存储。Yarn:集群资源管理系统。map端对数据进行切割端对数据进行切割 reduce端对数据进行合并端对数据进行合并土豆土豆白菜白菜辣椒辣椒茄子茄子山药山药土豆片土豆片白菜片白菜片辣椒片辣椒片茄子片茄子片山药片山药片满汉全席满汉全席Spark是开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但自
4、身还有一个优势:rdd(弹性分布式数据集)。RDD 只读、可分区,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。所谓弹性,是指内存不够时可以与磁盘进行交换。这涉及到了RDD的另一特性:内存计算,就是将数据保存到内存中。Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。据实时处理而非批处理。storm核心概念:核心概念:Nimbus:Storm集群主节点,负责资源分配和任务调度。我们提交任务和截止任务都是在Nimbus上操作的。一个Storm集群只有一个Nimbus节点。Supervis
5、or:Storm集群工作节点,接受Nimbus分配任务,管理所有Worker。Worker:工作进程,每个工作进程中都有多个Task。Task:任务,每个Spout和Bolt都是一个任务,每个任务都是一个线程。Topology:计算拓扑,包含了应用程序的逻辑。Stream:消息流,关键抽象,是没有边界的Tuple序列。Spout:消息流的源头,Topology的消息生产者。Bolt:消息处理单元,可以过滤、聚合、查询数据库。Stream grouping:消息分发策略,一共6种,定义每个Bolt接受何种输入。Reliability:可靠性,Storm保证每个Tuple都会被处理。阿里巴巴阿里巴巴ETET城市大脑城市大脑 “城市大脑”可以通过大数据的分析,来了解车辆频繁地段。从而智能的控制红绿灯的长短时间智能的控制红绿灯的长短时间。有效的提升通行速率,减少拥堵。还可以通过车辆的异常运行轨迹,自动分辨出事故现场自动分辨出事故现场,提升交警的出勤效率。基于阿里云的人脸鉴别技术,“城市大脑”还可以通过城市摄像头对人的体态进行分析,识别个体,从而防范肇防范肇事者逃离肇事现场,预防碰瓷者的碰瓷行为事者逃离肇事现场,预防碰瓷者的碰瓷行为。