1、张柯2016年5月云计算基础知识培训请各位领导和专家批评指正!提 纲云计算概述虚拟化简介大数据探究-3-云计算应运而生的新型IT架构业务部门IT部门应用层中间件物理层业务系统1业务系统2计算资源存储资源网络资源业务能力服务门户APIAPIAPIAPITCP/IP、HTTP协议业务部门IT部门业务系统n#扁平化#网络化#服务化#-4-云计算业界几个主流定义维基百科:云计算是一种动态扩展的计算模式,通过网络将虚拟化的资源作为服务提供;通常包含infrastructure as a service(IaaS),platform as a service(PaaS),software as a ser
2、vice(SaaS)。Google 的理念:将所有的计算和应用放置在“云”中,设备终端不需要安装任何东西,通过互联网络来分享程序和服务。微软的理念:认为云计算的应是“云+端”的计算,将计算资源分散分布,部分资源放在云上,部分资源放在用户终端,部分资源放在合作伙伴处,最终由用户选择合理的计算资源分布。市场研究机构IDC:认为云计算是一种新型的IT 技术发展、部署及发布模式,能够通过互联网实时的提供产品、服务和解决方案。美国国家标准与技术实验室:云计算是一个提供便捷的通过互联网访问一个可定制的IT 资源共享池能力的按使用量付费模式(IT 资源包括网络,服务器,存储,应用,服务),这些资源能够快速部
3、署,并只需要很少的管理工作或很少的与服务供应商的交互;到目前为止,云计算还没有一个统一的定义,业界对云计算定义达20多种。云计算领先者如Google、Microsoft 等IT 厂商,依据各自的利益和各自不同的研究视角都给出了对云计算的定义和理解。-5-云计算三种服务类型自建私有云公有云优势:安全可靠;支撑核心应用;面临的主要问题:投产上线时间长;弹性能力有限;优势:弹性扩展能力大;成本低;迈入公有云的顾虑:安全性有顾及;应用需要改造;无法支持复杂环境;混合云(虚拟数据中心)特点:提供企业所需的弹性扩展;TCO性价比更高;应用无需改造;支撑能力强,上线速度快;高安全级别,可实现物理隔离;可视可
4、控的运维管理;-6-云计算总体架构-7-云计算架构Level 0 视图云服务提供云服务提供面向云服务消费者,提供统一登录界面和访问根据云服务资源状况和消费者需求,包装云服务资源对云服务的消费设立服务等级,按需计费管理云消费者状态和请求简化和标准化云服务管理云服务管理运行维护云计算架构系统,保障云架构的稳定和可靠云服务资源云服务资源软件即服务SaaS平台即服务PaaS基础架构即服务IaaS-8-云计算架构Level 1 视图请各位领导和专家批评指正!提 纲云计算概述虚拟化简介大数据探究-10-虚拟化概念虚拟化技术是一个广义的术语,是指计算元件在虚拟的基础上而不是真实的基础上运行,是一个为了简化管
5、理,优化资源的解决方案。本质:物理硬件与操作系统分开,提供更高的资源利用率和灵活性。虚拟机和虚拟机监控器-11-虚拟化分类-12-传统IT问题传统架构面临的问题服务器性能没有得到充分利用;更换硬件或迁移应用,都要先停机物理硬件故障,应用随之崩溃操作系统崩溃,应用随之停止传统架构示意图-13-虚拟架构添加一个虚拟层单一物理硬件,可以对应多个操作系统一个操作系统崩溃,不会影响到另一个虚拟架构的优点应用和物理硬件都能够方便的添加或移除-14-虚拟化分类由解决x86体系缺陷的不同方法,分为以下三类:全虚拟化(不修改GuestOS内核)半虚拟化(修改GuestOS内核)硬件虚拟化(硬件支持)虚拟化技术V
6、MM向虚拟机模拟出和真实硬件完全相同的硬件环境。优点:不用修改GuestOS内核缺点:hypervisor给处理器带来开销。代表产品:VMware;Virtual PCVMM需要操作系统的协助才能够完成对x86敏感特权指令的虚拟化。优点:性能高。能达到与原始系统相近的性能.缺点:必须修改GuestOS代表产品:XenVMM需要硬件的协助才能完成对硬件资源的虚拟。优点:也不用修改GuestOS内核缺点:需要硬件支持。代表技术:Intel-VT;AMD-V-15-虚拟化分类类别类别全虚拟化全虚拟化半虚拟化半虚拟化硬件虚拟化硬件虚拟化修改Guest OS无需修改需修改无需修改兼容性好差好性能差高一般
7、(逐步改善)CPU虚拟化二进制代码翻译超级调用增加新指令内存虚拟化影子页表MMU半虚拟化影子页表3种虚拟化技术对比-16-主流虚拟化产品KVMXenVMware虚拟化方式全虚拟化半虚拟化,全虚拟化半虚拟化,全虚拟化与操作系统的关系Linux内核模块操作系统之上的模块操作系统之上的模块HostOSLinux(32位,64位)Linux,windows,Solaris,BSD(32位,64位)Linux Windows(32位,64位)GuestOSLinux,windowsLinux,Windows,Solaris,BSDLinux,Windows使用架构和硬件平台X86,x86_64(Inte
8、l-VT/AMD-V)X86,x86_64,安腾,ARMX86,x86_64,安腾,ARM技术成熟度高速发展中,技术先进,是未来的发展趋势技术成熟,历史久远商业级的技术,技术成熟,稳定性高支持厂商Linux社区,Redhat,Ubuntu,Novell,IBMCitrix,Oracle,NovellEMC,VMware可管理性命令行模式,桌面模式命令行模式,桌面模式可视化的操作界面,简单易用企业级特性支持程度需企业自己开发,商业级的有Redhat的虚拟化产品需企业自己开发,商业级的有Citrix的Xen Server功能性能最为强大,但价格昂贵-17-虚拟化误区误区1:服务器虚拟化会陷入多个鸡
9、蛋放到一个篮子的尴尬误区2:动态在线虚拟机迁移可以跨越任何硬件平台误区3:Intel和AMD都开始在CPU级支持虚拟化,已不需要再购买虚拟化软件了误区4:虚拟化技术仍然不成熟,数据中心虚拟化还不能提上议事议程请各位领导和专家批评指正!提 纲云计算概述虚拟化简介大数据探究-19-大数据时代volume(体量大)variety(模式多)velocity(速度快)value(价值大)海量数据的产生、获取、挖掘、整合,使之展现出巨大的价值。大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下,而发掘数据价值、征服数据海洋的“动力”就是云计算。大数据与云计算是一个问
10、题的两面:一个是问题,一个是解决问题的方法。大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为人们的使用而折旧和贬值。-20-数据是资源显微镜:能够让我们从微观视角看世界,得出一个更确切的宏观结论。很多事情不用猜了,客户的习惯和偏好一目了然,我们知道客户喜欢什么、讨厌什么,更有针对性。广角镜:让我们的宏观视角更宽阔,看到这个世界更多的联系,更多的机会,更多的流动的东西。资源:和油田、煤矿一样的资源,可以源源不断挖掘出巨大财富。和一般资源不一样的是:可重复使用,而且越挖掘越多、越挖掘越值钱的
11、,这是反自然规律的。-21-大数据案例1连续两年没有出车祸过去一年没有出车祸过去一年出一次车祸过去一年出两次及以上车祸驾驶习驾驶习惯惯驾驶路驾驶路线线路况信路况信息息违章记违章记录录维修记维修记录录事故报事故报告告车辆状车辆状况况汽车保险汽车保险-22-大数据案例2试穿次数销售量低销售量高RFID季节地域色彩-23-大数据技术路线离线大数据分析技术海量数据存储技术 在线大数据处理技术 海量数据存储技术HDFS、HBase、MongoDB、S3 离线大数据分析技术MapReduce、Hive、Pig 在线大数据处理技术Impala(内存计算)、Storm(流处理)、Spark(内存计算)、Red
12、is(内存数据库)-24-现状-技术瓶颈APCConsistencyAvailabilityPartition TolerancePick Two!ACRDBMSAPCouchDBCPHBaseMongoDBRedisCAP!-25-现状-大数据处理五项技术-26-大数据处理五项技术-高性能数据仓库-27-大数据处理五项技术-MPP-28-大数据处理五项技术-HADOOP/MR-29-大数据处理主要关注的五项技术-NoSQL-30-HadoopHadoop海量存储与计算平台海量存储与计算平台l作者:Doug Cuttingl受Google三篇论文的启发pGFSpBigTablepMapRedu
13、ce-31-Hadoop架构Hadoop Common:hadoop的基础,支撑其它模块的基本公共组件Hadoop Distributed File System(HDFS):分布式文件系统Hadoop YARN:集群任务资源管理及任务调度的框架Hadoop MapReduce:一种基于YARN的并行计算框架。Hive:构建在Hadoop 上的数据仓库基础构架 HBase:分布式非结构数据库 Pig:脚本语言,提供易于编程的并行计算框架 Mahout:一个并行化的机器学习和数据挖掘库。Zookeeper:一种管理分布式应用程序的高性能协调服务系统。-32-Hadoop MRMapShuffle
14、Reduce-33-Hadoop 总结 高度可扩展:线性扩展,可动态增加/削减计算节点,真正实现弹性计算。经济:以运行在任何普通的PC上 高容错能力:支持任务自动迁移、重试和预测执行,不受计算节点故障影响。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。就近调度算法。动态灵活的资源分配和调度:达到资源利用最大化,计算节点不会出现闲置和过载的情况;同时支持资源配额管理。优点 低延时访问不适用 HDFS是设计用于大吞吐量数据,Hbase有低延时要求的应用程序。大量小文件处理开销大 (1)Namenode把文件系统的元数据放置在内存中,文件、文件夹和Block等元数据每一个占据150字节左右的空间 (2)Map task的数量是由splits来决定的 不支持并发多用户写缺点融合智慧应用 畅享智慧未来谢谢!