海量信息存储课件.ppt

上传人(卖家):晟晟文业 文档编号:4106391 上传时间:2022-11-11 格式:PPT 页数:35 大小:1.02MB
下载 相关 举报
海量信息存储课件.ppt_第1页
第1页 / 共35页
海量信息存储课件.ppt_第2页
第2页 / 共35页
海量信息存储课件.ppt_第3页
第3页 / 共35页
海量信息存储课件.ppt_第4页
第4页 / 共35页
海量信息存储课件.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、第第11章章 海量信息存储海量信息存储2022-11-111物联网背景下如何适应海量信息存储的需求,物联网背景下如何适应海量信息存储的需求,数据中心数据中心将成为将成为解决海量数据存储的主要手段解决海量数据存储的主要手段介绍典型网络存储体系结构及数据中心的基本概念介绍典型网络存储体系结构及数据中心的基本概念11.1 物联网对海量信息存储的需求物联网对海量信息存储的需求11.2 网络存储体系结构网络存储体系结构11.3 数据中心数据中心11.4典型的数据中心典型的数据中心*11.5 Hadoop*11.6 数据中心的研究热点数据中心的研究热点第第11章章 海量信息存储海量信息存储2022-11-

2、11211.1 物联网对海量信息存储的物联网对海量信息存储的需求需求2022-11-11311.1 物联网对海量信息存储的需求物联网对海量信息存储的需求2022-11-11411.1 物联网对海量信息存储的需求物联网对海量信息存储的需求全球信息总量迅猛增长全球信息总量迅猛增长2007年产生的数据量为年产生的数据量为281 EB(1 EB=10亿亿 GB)物联网中对象的数量物联网中对象的数量将将庞大到以百亿为单位庞大到以百亿为单位物物联网中的联网中的对象积极参与业务流程的需求对象积极参与业务流程的需求高强度计算需求高强度计算需求数据的持续在线可获取特性数据的持续在线可获取特性导致导致网络化存储网

3、络化存储和和大型数据中心大型数据中心的诞生的诞生2022-11-11511.2 网络存储体系结构网络存储体系结构2022-11-11611.2 网络存储体系结构网络存储体系结构三种基本网络存储三种基本网络存储体系结构:直接附体系结构:直接附加存储,网络附加加存储,网络附加存储,存储区域网存储,存储区域网络络11.2.1 直接附加直接附加存储(存储(DAS:Direct Attached Storage)l将存储系统通过将存储系统通过缆线与服务器或工缆线与服务器或工作站相连作站相连l包括多个硬盘驱包括多个硬盘驱动器,与主机总线动器,与主机总线通过电缆或光纤通过电缆或光纤连连接接l存储设备和主机存

4、储设备和主机总线适配器之间不总线适配器之间不存在其存在其它它网络设备网络设备l实现了计算机内实现了计算机内存储到存储子系统存储到存储子系统的跨越的跨越2022-11-11711.2 网络存储体系结构网络存储体系结构11.2.2 网络附加网络附加存储(存储(NAS:Network Attached Storage)文件级文件级计算机数计算机数据存储架构据存储架构计算机连接到一计算机连接到一个仅为其它设备提个仅为其它设备提供基于文件数据存供基于文件数据存储服务储服务 的网络的网络NAS与与DAS的区别的区别DAS是对已有服务是对已有服务器的简单扩展,并器的简单扩展,并未未真正实现网络互真正实现网络

5、互联联NAS则将网络作为则将网络作为存储实体,更容易存储实体,更容易实现文件级别的共实现文件级别的共享享NAS性能比性能比DAS有有所增强所增强2022-11-11811.2 网络存储体系结构网络存储体系结构11.2.3 存储区域存储区域网络网络(SAN:Storage Area Network)通过网络方式连通过网络方式连接存储设备和应用接存储设备和应用服务器的存储架构服务器的存储架构由服务器、存储由服务器、存储设备和设备和SAN连接设连接设备组成备组成特点特点l存储共享存储共享l支持服务器从支持服务器从SAN直接启动直接启动2022-11-11911.2 网络存储体系结构网络存储体系结构D

6、AS:易管理,结易管理,结构简单;集中式体构简单;集中式体系结构,不能满足系结构,不能满足大规模数据访问的大规模数据访问的需求;存储资源利需求;存储资源利用率低,资源共享用率低,资源共享能力差,造成能力差,造成“信信息孤岛息孤岛”NAS:网络存储实网络存储实体,实现文件级别体,实现文件级别共享;性能依赖于共享;性能依赖于网络流量,用户数网络流量,用户数过多,读写过于频过多,读写过于频繁时性能受限繁时性能受限SAN:存储管理简存储管理简化,存储容量利用化,存储容量利用率提高;无直接文率提高;无直接文件级别的访问能力,件级别的访问能力,但可在但可在SAN基础上基础上建立文件系统建立文件系统2022

7、-11-111011.3 数据中心数据中心2022-11-111111.3 数据中心数据中心维基百科维基百科数据中心是一整套复杂的设施。不仅包括数据中心是一整套复杂的设施。不仅包括计算机系统计算机系统和与之和与之配套的设备配套的设备(如通信和存储系统),还包含冗余的(如通信和存储系统),还包含冗余的数据通信数据通信连接、环境控制设备、监控设备以及各种安全装置连接、环境控制设备、监控设备以及各种安全装置Google多功能多功能网络网络建筑物建筑物,容纳多个,容纳多个服务器及通信设备服务器及通信设备。这些设备。这些设备被放置在一起是因为它们具有相同的环境要求及物理安全需被放置在一起是因为它们具有相

8、同的环境要求及物理安全需求,并且这样放置便于维护求,并且这样放置便于维护2022-11-111211.3 数据中心数据中心大型机大型机微型机微型机大规模数据中心大规模数据中心(Mega Data Center)11.3.1 数据中心的起源及发展数据中心的起源及发展2022-11-111311.3 数据中心数据中心11.3.2 数据中心的相关标准数据中心的相关标准数据中心建设的难题数据中心建设的难题 如何规划一个新的数据中心?如何规划一个新的数据中心?怎样对数据中心进行升级?怎样对数据中心进行升级?数据中心的标准对相关经验进行了总结数据中心的标准对相关经验进行了总结ANSI/TIA/EIA-94

9、2(简称(简称TIA-942):数据中心标准):数据中心标准由电信产业协会(由电信产业协会(TIA)提出,并经美国国家标准学会)提出,并经美国国家标准学会(ANSI)批准)批准2022-11-111411.3 数据中心数据中心1、选址选址与布局与布局需要考虑的因素需要考虑的因素 建设和运营成本建设和运营成本 应用需求应用需求 政策优惠政策优惠布局布局按功能区域划分按功能区域划分2022-11-111511.3 数据中心数据中心(1)入口室:)入口室:放置互联网接入点设备的场所放置互联网接入点设备的场所(2)主分布区:)主分布区:核心区域,各个核心区域,各个LAN与与SAN结构的核心路由结构的核

10、心路由 器及交换机所放置的区域,同时放置光纤、电缆等器及交换机所放置的区域,同时放置光纤、电缆等(3)水平分布区:)水平分布区:主分布区的下层,水平缆线集中点主分布区的下层,水平缆线集中点(4)设备分布区:)设备分布区:放置服务器和其它设备的机架与机柜放置服务器和其它设备的机架与机柜(5)区段分布区:)区段分布区:水平分布区与设备分布区间的连接点,可水平分布区与设备分布区间的连接点,可 放置独立设备放置独立设备(6)主干缆线和水平缆线:)主干缆线和水平缆线:各个区域间的连接各个区域间的连接2022-11-111611.3 数据中心数据中心TIA-942规定了规定了缆线系统、能源系统、降温系统、

11、可靠性分级缆线系统、能源系统、降温系统、可靠性分级(四个等级,(四个等级,P228229,表,表11.1)缆线系统缆线系统规格规格如何放置如何放置能源系统能源系统外部电力外部电力供应供应电池组电池组发电机发电机降温系统降温系统降温设备降温设备架空地板架空地板冷通道与热冷通道与热通道通道2022-11-111711.4 典型的数据中心典型的数据中心*2022-11-111811.4 典型的数据中心典型的数据中心*11.4.1 Google数据中心数据中心每月将近每月将近3.8亿用户、亿用户、30亿次查询亿次查询每天处理每天处理20 PB数据、存有数十亿网页地址与个人资料数据、存有数十亿网页地址与

12、个人资料Google站点可靠性超过站点可靠性超过99.99%全球共建有近全球共建有近40个大规模数据中心个大规模数据中心 单个单个数据中心需要至少数据中心需要至少50兆瓦功率兆瓦功率,约等于一个小型城市,约等于一个小型城市所有家庭的用电量所有家庭的用电量 独特的硬件设备:定制的以太网交换机、能源系统等独特的硬件设备:定制的以太网交换机、能源系统等2022-11-111911.4 典型的数据中心典型的数据中心*选址考虑选址考虑 大量而廉价的电能大量而廉价的电能 有利于获得风能、水利等低碳电能有利于获得风能、水利等低碳电能 靠近大型水源,为降温设备使用靠近大型水源,为降温设备使用 较大面积空地,提

13、供缓冲带,增加保密性较大面积空地,提供缓冲带,增加保密性 与其它数据中心的距离,保证数据高速互连与其它数据中心的距离,保证数据高速互连 税收优惠税收优惠 自行研发的软件技术:自行研发的软件技术:Google File System、MapReduce、BigTable等等2022-11-112011.4 典型的数据中心典型的数据中心*11.4.2 Google File System(GFS)Google处理超大规模数据密集型应用的分布文件系统处理超大规模数据密集型应用的分布文件系统GFS的设计观念的设计观念 组件失效不再被认为是意外,而是被看做正常的现象组件失效不再被认为是意外,而是被看做正

14、常的现象 GFS的文件非常巨大的文件非常巨大 对文件的操作具有特定的模式对文件的操作具有特定的模式 文件系统文件系统应用程序编程接口(应用程序编程接口(API:Application Programming Interface)和应用程序的协同设计提高了和应用程序的协同设计提高了整个系统的灵活性整个系统的灵活性2022-11-112111.4 典型的数据中心典型的数据中心*GFS的设计架构的设计架构GFS集群包含集群包含一个主服务器一个主服务器和多个块服务和多个块服务器,器,并被多个并被多个客户端访问客户端访问文件分成固定大小的文件分成固定大小的“块块”。每个块创建时都由主。每个块创建时都由主

15、服务服务 器分配一个固定不变的器分配一个固定不变的64位唯一标识位唯一标识块服务器把块服务器把“块块”作为作为Linux文件存储在本地磁盘文件存储在本地磁盘上,并上,并 根据指定的块字节范围对数据进行读写操作根据指定的块字节范围对数据进行读写操作2022-11-112211.4 典型的数据中心典型的数据中心*主服务器维护所有文件系统的元数据,包括主服务器维护所有文件系统的元数据,包括名字空间、访名字空间、访 问控制信息、文件到块的映射信息以及块当前的位置。问控制信息、文件到块的映射信息以及块当前的位置。此此 外,主服务器还控制其它的系统级活动。主服务器周期性外,主服务器还控制其它的系统级活动。

16、主服务器周期性 与块服务器通信,以下达指令和收集状态与块服务器通信,以下达指令和收集状态 GFS客户端代码嵌入到每个应用中客户端代码嵌入到每个应用中,实现文件系统实现文件系统API、主服务器与块服务器的通信主服务器与块服务器的通信,从而代表应用实现读写操作从而代表应用实现读写操作 客户端与服务器交互客户端与服务器交互,从而实现元数据操作,但所有数据从而实现元数据操作,但所有数据操作都通过直接与块服务器交互而完成操作都通过直接与块服务器交互而完成2022-11-112311.4 典型的数据中心典型的数据中心*11.4.3 MapReduceMapReduce:一种针对一种针对超大规模数据集超大规

17、模数据集的编程模型和系统的编程模型和系统用用MapReduce开发的程序可在计算机集群上开发的程序可在计算机集群上并行执行并行执行、处理处理计算机计算机失效、失效、调度计算机间的通信调度计算机间的通信MapReduce的基本思想的基本思想 用户用户编编写两个程序:写两个程序:Map和和Reduce 一个在计算机集群上执行多个程序实例的框架一个在计算机集群上执行多个程序实例的框架2022-11-112411.4 典型的数据中心典型的数据中心*MapReduce的的执行流程(共执行流程(共7步,步,P235236)2022-11-112511.4 典型的数据中心典型的数据中心*11.4.4 Big

18、TableBigTable:在海量数据规模下(包含在海量数据规模下(包含PB量级量级数据和数千台计数据和数千台计算机)管理结构化数据的分布式存储算机)管理结构化数据的分布式存储的的系统系统应用应用 Google地球地球 网页索引网页索引 RSS阅读器阅读器2022-11-112611.4 典型的数据中心典型的数据中心*每个每个BigTable都是一个稀疏的、分布式的多维有序图,按行都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引键值、列键值和时间戳建立索引(P236238)2022-11-112711.5 Hadoop*2022-11-112811.5 Hadoop*Had

19、oop Apache开源开源发布发布的分布式计算开源框架的分布式计算开源框架 用于大型集群廉价服务器设备上运行数据密集型分布式应用于大型集群廉价服务器设备上运行数据密集型分布式应用程序用程序 早期是早期是Google文件系统与文件系统与MapReduce分布式分布式 计算框架及相关计算框架及相关IT基础服务的开源实现基础服务的开源实现包括多个子项目包括多个子项目HDFS、MapReduce、HBase、Chukwa、Pig、ZooKeeper2022-11-112911.5 Hadoop*HDFS(Hadoop Distributed File System)系统架构及特点)系统架构及特点(P

20、239240)设计前提与目标设计前提与目标 硬件错误是常态而不是异常硬件错误是常态而不是异常 流式数据访问流式数据访问 大规模数据集大规模数据集 简单的一致性模型简单的一致性模型 移动计算比移动数据更经济移动计算比移动数据更经济 轻便的访问异构软硬件平台轻便的访问异构软硬件平台2022-11-113011.6 数据中心的研究热点数据中心的研究热点2022-11-113111.6 数据中心的研究热点数据中心的研究热点2006年年Google在数据中心项目花费在数据中心项目花费19亿美元亿美元2007年该项支出增加到年该项支出增加到24亿美元亿美元Google俄勒冈州数据中心近俄勒冈州数据中心近1

21、00兆瓦的功率,满负荷运行时兆瓦的功率,满负荷运行时能能耗基本上耗基本上与与纽卡斯尔(纽卡斯尔(Newcastle)全全市所有家庭用电量一样市所有家庭用电量一样研究热点:研究热点:如何如何在保证服务质量的前提下在保证服务质量的前提下降低成本降低成本?2022-11-113211.6 数据中心的研究热点数据中心的研究热点基础设施基础设施包括能源系统、降温系统、各种防火设备、安保设包括能源系统、降温系统、各种防火设备、安保设备等。降低备等。降低该该部分成本涉及机械制造技术或政策优惠等,与部分成本涉及机械制造技术或政策优惠等,与计算机学科的关联程度较低计算机学科的关联程度较低在此,在此,分别从分别从

22、服务器,网络设备,能源服务器,网络设备,能源三个方面三个方面对造成高成对造成高成本的原因和目前的解决方法进行介绍本的原因和目前的解决方法进行介绍2022-11-113311.6 数据中心的研究热点数据中心的研究热点1、服务器成本(、服务器成本(45%)服务器的实际利用效率较低服务器的实际利用效率较低 分配到各服务器的应用不能完全利用某些组件分配到各服务器的应用不能完全利用某些组件 对应用需求的预测比较难,无法做到按需分配对应用需求的预测比较难,无法做到按需分配 为了提高系统的可靠性,一般都留有冗余设备为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的关键在于提高服务器利用率的关键在于

23、及时应对需求的动态变化及时应对需求的动态变化2、网络设备成本(、网络设备成本(15%)主要来源:传统数据中心使用树形结构,交换机与路由器主要来源:传统数据中心使用树形结构,交换机与路由器 构成流量瓶颈,且造价昂贵构成流量瓶颈,且造价昂贵研究热点:新的数据中心网络结构研究热点:新的数据中心网络结构 以交换机为中心的多层树形结构以交换机为中心的多层树形结构:例如:例如Fat-Tree 以服务器为中心的互联结构以服务器为中心的互联结构:例如:例如DCell2022-11-113411.6 数据中心的研究热点数据中心的研究热点3、能源成本(、能源成本(15%)研究热点研究热点 降低服务器工作能耗降低服务器工作能耗 降低同等性能设备能耗降低同等性能设备能耗 提高同等能耗设备性能提高同等能耗设备性能 可调整负载的服务器可调整负载的服务器减少降温系统能耗减少降温系统能耗 精细、精准的温度控制精细、精准的温度控制 集装箱式的模块化数据中心集装箱式的模块化数据中心2022-11-1135

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(海量信息存储课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|