1、二、硬件在线诊断技术二、硬件在线诊断技术 硬件在线诊断技术主要包括热插拔技术、内存保硬件在线诊断技术主要包括热插拔技术、内存保护、内存检查和纠错技术、内存镜像技术,内存热添护、内存检查和纠错技术、内存镜像技术,内存热添加加/交换技术、活动交换技术、活动PCIPCI技术,活动诊断技术等,下面技术,活动诊断技术等,下面我们分别介绍。我们分别介绍。1 1、热插拔技术、热插拔技术 热插拔技术就是指有些部件可以在系统带电的情热插拔技术就是指有些部件可以在系统带电的情况下对部件进行插、拨操作。这非常重要,因为有时况下对部件进行插、拨操作。这非常重要,因为有时我们发现一些部件已损坏,但因为提供了硬件冗余,我
2、们发现一些部件已损坏,但因为提供了硬件冗余,所以系统仍能继续保持良好运行。损坏的设备需要更所以系统仍能继续保持良好运行。损坏的设备需要更换下来,这时如果这些硬件不支持热插拔技术,则必换下来,这时如果这些硬件不支持热插拔技术,则必须关掉服务器的电源才能进行,这样就会严重影响服须关掉服务器的电源才能进行,这样就会严重影响服 务器所管网络的正常长期不间断运行。一般来说具有务器所管网络的正常长期不间断运行。一般来说具有热插拔性能的硬件主要有:硬盘、热插拔性能的硬件主要有:硬盘、CPUCPU、RAMRAM、电源、电源、风扇、风扇、PCIPCI适配器、网卡等。适配器、网卡等。2 2、内存查纠错技术、内存查
3、纠错技术 服务器中的内存我们知道一般来是采用带有服务器中的内存我们知道一般来是采用带有ECCECC技术的,技术的,ECCECC的英文全称是的英文全称是“Error Checking and Error Checking and Correcting”Correcting”,中文名为,中文名为“错误检查和纠正错误检查和纠正”,从这,从这个名称就可以看出它的主要功能就是个名称就可以看出它的主要功能就是“发现并纠正错发现并纠正错误误”。ECCECC比以前的奇偶校正技术更先进的方面体现在比以前的奇偶校正技术更先进的方面体现在它不仅能发现错误,而且能纠正这些错误,这些错误它不仅能发现错误,而且能纠正这些
4、错误,这些错误纠正之后计算机才能正确执行下面的任务,确保服务纠正之后计算机才能正确执行下面的任务,确保服务器的正常运行。但要注意的是它不是一种内存型号,器的正常运行。但要注意的是它不是一种内存型号,是一种内存技术,不仅以前的是一种内存技术,不仅以前的EDOEDO内存可以有、内存可以有、SDSD内内存也可有,现在主流的存也可有,现在主流的DDRDDR内存同样可以有。那是因内存同样可以有。那是因 为并不是一种影响内存结构和存储速度的技术,它可为并不是一种影响内存结构和存储速度的技术,它可以应用到不同的内存类型之中,就象我们在前讲到的以应用到不同的内存类型之中,就象我们在前讲到的“奇遇校正奇遇校正”
5、内存。但内存。但ECCECC技术只能纠正单比特的内技术只能纠正单比特的内存错误,存错误,IBMIBM还有一种更先进的特殊内存纠错技术,还有一种更先进的特殊内存纠错技术,那就是那就是ChipKillChipKill内存技术。内存技术。ChipkillChipkill内存最初是由内存最初是由2020年前的年前的IBMIBM大型机发展大型机发展过来的,过来的,ChipKillChipKill最初是为美国航空航天局(最初是为美国航空航天局(NASANASA)的的“探路者探路者”探测器赴火星探险而研制。它是探测器赴火星探险而研制。它是IBMIBM公公司为了解决目前服务器内存中司为了解决目前服务器内存中E
6、CCECC技术的不足而开发技术的不足而开发的,是一种新的的,是一种新的ECCECC内存保护标准。内存保护标准。ECCECC内存可以同时检测和纠正单一比特错误,但内存可以同时检测和纠正单一比特错误,但如果同时检测出两个以上比特的数据有错误,则一般如果同时检测出两个以上比特的数据有错误,则一般不能纠正。但随着基于不能纠正。但随着基于IntelIntel处理器架构的服务器的处理器架构的服务器的CPUCPU性能在以几何级的倍数提高,而硬盘驱动器的性性能在以几何级的倍数提高,而硬盘驱动器的性 能同期只提高了能同期只提高了5 5倍,因此为了获得足够的性能。服倍,因此为了获得足够的性能。服务器需要大量的内存
7、来临时保存在务器需要大量的内存来临时保存在CPUCPU上读取的数据,上读取的数据,这样大的数据访问量就导致单一内存芯片上每次访问这样大的数据访问量就导致单一内存芯片上每次访问时通常要提供时通常要提供4 4(3232位)或位)或8 8(6464位)比特以上的数据。位)比特以上的数据。一次性读取这么多数据,出现多位数据错误的可能性一次性读取这么多数据,出现多位数据错误的可能性会大大地提高,而会大大地提高,而ECCECC又不能纠正双比特以上的错误,又不能纠正双比特以上的错误,这样就很可能造成全部比特数据的丢失,系统就很快这样就很可能造成全部比特数据的丢失,系统就很快崩溃了。崩溃了。IBMIBM的的C
8、hipkillChipkill技术是利用内存的子结构方技术是利用内存的子结构方法来解决这一难题。法来解决这一难题。ChipkillChipkill技术内存子系统的设计原理是这样的,技术内存子系统的设计原理是这样的,单一芯片,无论数据宽度是多少,只对于一个给定的单一芯片,无论数据宽度是多少,只对于一个给定的ECCECC识别码,它的影响最多为一比特。举个例子来说识别码,它的影响最多为一比特。举个例子来说明的就是,如果使用明的就是,如果使用4 4比特宽的比特宽的DRAMDRAM,4 4比特中的每一比特中的每一位的奇偶性将分别组成不同的位的奇偶性将分别组成不同的ECCECC识别码,每个识别码,每个EC
9、CECC单单元可单独使用一个数据库来保存的,也就是说保存在元可单独使用一个数据库来保存的,也就是说保存在 不同的内存空间地址。因此,即使整个内存芯片出了不同的内存空间地址。因此,即使整个内存芯片出了故障,每个故障,每个ECCECC单元也将最多出现一比特坏数据。这单元也将最多出现一比特坏数据。这种情况完全可以通过种情况完全可以通过ECCECC逻辑修复,从而保证内存子逻辑修复,从而保证内存子系统的容错性,保证了服务器在出现故障时,有强大系统的容错性,保证了服务器在出现故障时,有强大的自我恢复能力。采用这种的自我恢复能力。采用这种ChipkillChipkill内存技术的内存内存技术的内存可以同时检
10、查并修复可以同时检查并修复4 4个错误数据位。个错误数据位。3 3、内存保护(、内存保护(Memory ProteXionMemory ProteXion)IBMIBM的内存保护技术就是保护由于意外的内存错的内存保护技术就是保护由于意外的内存错误而带来的损失,它比误而带来的损失,它比ECCECC内存错误纠正技术有效得内存错误纠正技术有效得多,同时它使用的是标准的多,同时它使用的是标准的ECC 168ECC 168内存。它的工作内存。它的工作方式有点像在方式有点像在Windows NTWindows NT的的NTFSNTFS文件系统下的在线备文件系统下的在线备份磁盘扇区一样,当操作系统在磁盘上检
11、测到坏的磁份磁盘扇区一样,当操作系统在磁盘上检测到坏的磁盘扇区时,它将在另外的扇区中写下这些数据放一边盘扇区时,它将在另外的扇区中写下这些数据放一边 留作备用,我们可以认为内存保护就是提供在线备份留作备用,我们可以认为内存保护就是提供在线备份 数据位。这内存错误的纠正是通过内存控制器来完成数据位。这内存错误的纠正是通过内存控制器来完成的,所以不会增加操作系统的工作量,也不需要操作的,所以不会增加操作系统的工作量,也不需要操作系统来提供支持,完全与操作系统无关。因为这是在系统来提供支持,完全与操作系统无关。因为这是在标准的标准的ECC 168ECC 168线内存起作用的,无需为这种保护增线内存起
12、作用的,无需为这种保护增加另外的开支。加另外的开支。内存保护(在其它系统中也有称内存保护(在其它系统中也有称“多余的数据多余的数据位位”)技术最初的发展是在)技术最初的发展是在IBMIBM大型机上,而且在大型机上,而且在Z Z系系列和列和I I系列服务器上使用了许多年。系列服务器上使用了许多年。IBMIBM的高可靠性测的高可靠性测试和分析使得带有内存保护技术的服务器每年因内存试和分析使得带有内存保护技术的服务器每年因内存出错的机会比使用标准的出错的机会比使用标准的ECCECC内存的少内存的少200200倍。举个例倍。举个例子,给同样子,给同样8GB8GB内存的服务器多台,用户希望经过测内存的服
13、务器多台,用户希望经过测试每试每132132台使用台使用ECCECC内存的服务器中每年只允许内存的服务器中每年只允许1 1台出台出现错误,而使用内存保护后就会看到每现错误,而使用内存保护后就会看到每2604226042台服务台服务器中每年只有器中每年只有1 1台因内存出错。台因内存出错。在一个在一个2 2路交叉存取的内存系统中,每路交叉存取的内存系统中,每2 2片片168168线线ECCECC内存包含内存包含144144位,但是只有位,但是只有140140位是用于数据存取位是用于数据存取和校验的。余下的和校验的。余下的4 4位是没有用上的,标准的位是没有用上的,标准的ECCECC内存内存可以检
14、测出可以检测出2 2位的数据错误,但它只能纠正一位错误。位的数据错误,但它只能纠正一位错误。如果在同时内存上有多位出错,那么这整个内存读取如果在同时内存上有多位出错,那么这整个内存读取就失败了,此时唯有使系统临时挂起来,以尽量减少就失败了,此时唯有使系统临时挂起来,以尽量减少内存容量的需求,直到这个节点被更换。如果具有内内存容量的需求,直到这个节点被更换。如果具有内存保护,那么就可以立即隔离这个失效的内存,重写存保护,那么就可以立即隔离这个失效的内存,重写数据在空余的数据位。通过这种方法可以在每数据在空余的数据位。通过这种方法可以在每4 4对(对(1 1个内存控制器,有的服务器不止包括一个内存
15、控制器)个内存控制器,有的服务器不止包括一个内存控制器)168168线内存中修复线内存中修复4 4个个4 4位连续的内存错误。当服务器位连续的内存错误。当服务器下次重启就会重新检查内存的状态,如果是内存软错下次重启就会重新检查内存的状态,如果是内存软错误(临时的),系统重启后内存的这些用于在线数据误(临时的),系统重启后内存的这些用于在线数据备份的数据位就重新释放了,恢复空的状态。如果是备份的数据位就重新释放了,恢复空的状态。如果是 属于硬故障,这些在线备份数据位还会继续用来备份,属于硬故障,这些在线备份数据位还会继续用来备份,直到更换为止。这种先进技术可以使减少停机机时间,直到更换为止。这种
16、先进技术可以使减少停机机时间,使服务器持续保持高效的计算平台。这对于大型的数据使服务器持续保持高效的计算平台。这对于大型的数据库系统中尤其重要。库系统中尤其重要。4 4、内存镜像、内存镜像 (Memory Mirroring)(Memory Mirroring)另一种防止服务器因内存错误的发生而导致整个服另一种防止服务器因内存错误的发生而导致整个服务器不稳定性事件发生的措施就是内存镜像。或许有可务器不稳定性事件发生的措施就是内存镜像。或许有可能服务器不知什么原因遇到了许多内存保护和能服务器不知什么原因遇到了许多内存保护和ChipkillChipkill修复技术都不能完全修复的情况,此时内存镜像
17、就会开修复技术都不能完全修复的情况,此时内存镜像就会开始在系统中运行。始在系统中运行。内存镜像很像磁盘镜像,就是将数据同时写入到两内存镜像很像磁盘镜像,就是将数据同时写入到两个独立的内存卡中(每个内存卡的配置者是一样的),个独立的内存卡中(每个内存卡的配置者是一样的),平时的内存数据读取只从激活的内存卡中进行。如图平时的内存数据读取只从激活的内存卡中进行。如图7 7所示的是所示的是CPUCPU同时把数据写入到两片内存中的示意图。同时把数据写入到两片内存中的示意图。在图在图7 7中如果一个内存中有足以引起系统报警的中如果一个内存中有足以引起系统报警的软故障,频繁报告系统管理员警告说这个内存条将要
18、软故障,频繁报告系统管理员警告说这个内存条将要出故障,或者整个内存条都要彻底损坏,服务器就会出故障,或者整个内存条都要彻底损坏,服务器就会自动地切换到使用镜像内存卡,直到这个有故障的内自动地切换到使用镜像内存卡,直到这个有故障的内存被更换。允许系统照常运行,直到方便的时候对出存被更换。允许系统照常运行,直到方便的时候对出故障的内存单元进行检测。镜像内存允许进行热交换故障的内存单元进行检测。镜像内存允许进行热交换和在线添加内存(因为镜像内存的存在,所以对于软和在线添加内存(因为镜像内存的存在,所以对于软件系统来说也就只有整个内存的一半容量是可用的,件系统来说也就只有整个内存的一半容量是可用的,如
19、果不希望镜像,在如果不希望镜像,在BIOSBIOS中进行禁止即可。)中进行禁止即可。)5 5、内存热添加、内存热添加/热交换热交换 (Hot-add/Hot swap(Hot-add/Hot swap Memory)Memory)热交换技术就是允许在服务器运行中将失效的内热交换技术就是允许在服务器运行中将失效的内存进行更换,热添加就是在需要的时候允许在服务器存进行更换,热添加就是在需要的时候允许在服务器 运行状态下添加新的内存。运行状态下添加新的内存。IBM XIBM X系列服务器已经允系列服务器已经允许服务人员在需要时在线进行热添加新的驱动器、适许服务人员在需要时在线进行热添加新的驱动器、适
20、配器、电源和风扇。配器、电源和风扇。在一个服务器上安装的内存越多,在系统中发生在一个服务器上安装的内存越多,在系统中发生与内存有关的错误的可能性也就越大。现在,由于服与内存有关的错误的可能性也就越大。现在,由于服务器可以容纳几十上百务器可以容纳几十上百GBGB的内存,可靠性就显得比以的内存,可靠性就显得比以前更重要了。就像磁盘容量的增加一样,现在的磁盘前更重要了。就像磁盘容量的增加一样,现在的磁盘容量远远超过容量远远超过2020年前用户希望寻找方法来提高硬盘性年前用户希望寻找方法来提高硬盘性能和保护他们的数据时所作的希望。这些都需要一个能和保护他们的数据时所作的希望。这些都需要一个确切的方法,
21、如离线存储、磁带驱动器一样。确切的方法,如离线存储、磁带驱动器一样。ChipkillChipkill修复技术、内存保护、内存镜像和热交换性修复技术、内存保护、内存镜像和热交换性能属于纯硬件方法,并没有依靠操作系统,而内存热能属于纯硬件方法,并没有依靠操作系统,而内存热添加技术需要进一步的软件支持。添加技术需要进一步的软件支持。这些内存保护机制都是经过试验为可靠的技术,这些内存保护机制都是经过试验为可靠的技术,已在已在IBMIBM大型机和其它大型系统中经过几年的考验。大型机和其它大型系统中经过几年的考验。最重要的一点就是这些技术都在普通的工业标准最重要的一点就是这些技术都在普通的工业标准ECC
22、ECC 168168线内存实现的,所以内存也不会特别贵。线内存实现的,所以内存也不会特别贵。6 6、Active PCI-XActive PCI-X(活动(活动PCI-XPCI-X)技术)技术 在说明这一技术之前我们要明白什么是在说明这一技术之前我们要明白什么是PCI-XPCI-X,它是一种新的过渡型的总线标准,它的主频带宽可以它是一种新的过渡型的总线标准,它的主频带宽可以比原来的比原来的PCIPCI总线宽一倍,可以提供更高的总线宽一倍,可以提供更高的I/OI/O访问速访问速度,现有一种更新的总线技术度,现有一种更新的总线技术PCI-ExpressPCI-Express接口将全接口将全面替代面
23、替代PCIPCI和和PCI-XPCI-X接口,当然不是现在。接口,当然不是现在。IBMIBM在成功在成功实现实现Active PCI(Active PCI(活动活动PCI)PCI)技术的基础之上,在基于技术的基础之上,在基于企业级服务器企业级服务器X X架构设计的一些架构设计的一些X X系列服务器中引入同系列服务器中引入同时支持时支持PCIPCI和和PCI-XPCI-X两种适配器接口的两种适配器接口的Active PCI-XActive PCI-X(活动(活动PCI-XPCI-X)技术。活动)技术。活动PCI-XPCI-X总线技术就为总线技术就为IBMIBM提提供了提升服务器总体性能的另一个解
24、决方案。活动供了提升服务器总体性能的另一个解决方案。活动PCI-XPCI-X的主要特性如下:的主要特性如下:热交换热交换 (Hot Swap)(Hot Swap)允许在不用关闭和重启允许在不用关闭和重启服务器的情况下更换适配器。服务器的情况下更换适配器。热添加热添加(Hot add)(Hot add)提供了一种容易的升级方提供了一种容易的升级方式,允许在服务器运行的状态下添加新的适配器(在式,允许在服务器运行的状态下添加新的适配器(在工业标准中工业标准中IBMIBM是第一个提供这种性能的)。是第一个提供这种性能的)。切换切换(Failover)(Failover)允许在主适配器出现故障允许在主
25、适配器出现故障的情况下极快地用另一个备用适配器接替原来适配器的情况下极快地用另一个备用适配器接替原来适配器的工作继续运行。的工作继续运行。7 7、Active DiagnosticsActive Diagnostics(活动诊断)技术(活动诊断)技术 活动诊断是活动诊断是IBMIBM企业级服务器企业级服务器X X架构的另一个特架构的另一个特征,这种特征将会在使用这种芯片的客户真正接近征,这种特征将会在使用这种芯片的客户真正接近“永远计算永远计算”的高性能水平。这在工业服务器市场中的高性能水平。这在工业服务器市场中是很少见的特性,而这个空白被是很少见的特性,而这个空白被IBMIBM企业级企业级X
26、 X架构技术架构技术填补了。填补了。IBM IBM在在19991999年与年与Intel Intel、PC-DoctorPC-Doctor公司一起努公司一起努力,引入工业标准中的扩展技术到通用信息模块来支力,引入工业标准中的扩展技术到通用信息模块来支持协作诊断。这个通用诊断模块是如何通过操作系统持协作诊断。这个通用诊断模块是如何通过操作系统去分界面协同诊断标准化(也称去分界面协同诊断标准化(也称“当前操作系统诊当前操作系统诊断断”,或者叫做,或者叫做“在线诊断在线诊断”),使所有通用信息模),使所有通用信息模块诊断应用常规化。因为现在诊断扩展到通用信息模块诊断应用常规化。因为现在诊断扩展到通用
27、信息模块,块,IBMIBM正在与独立的硬件生产厂商一起努力去重新正在与独立的硬件生产厂商一起努力去重新定义这种方法,建立协同诊断的工具,以使定义这种方法,建立协同诊断的工具,以使X X系列服系列服务器永远运行。务器永远运行。IBMIBM活动诊断是用通用诊断模块来执活动诊断是用通用诊断模块来执行的,结合行的,结合IBMIBM的预先失效分析技术,活动诊断和热的预先失效分析技术,活动诊断和热交换组件那就意味着再也不必关闭的交换组件那就意味着再也不必关闭的X X系列服务器去系列服务器去运行诊断或者更换热交换部件。活动诊断可以通过运行诊断或者更换热交换部件。活动诊断可以通过IBM Director IB
28、M Director 管理软件来提供一致的、非常容易地管理软件来提供一致的、非常容易地用管理界面来控制许多系统功能。用管理界面来控制许多系统功能。以上通过以上通过IBMIBM服务器的一些特性介绍了服务器的服务器的一些特性介绍了服务器的可用性特性的实现方法,通过这些技术可以看出,服可用性特性的实现方法,通过这些技术可以看出,服务器与我们常用的务器与我们常用的PCPC机之间的确存在非常大的区别。机之间的确存在非常大的区别。下一篇将继续介绍服务器的另两个重要特性下一篇将继续介绍服务器的另两个重要特性ManagbilityManagbility(可管理性)和可利用性(可管理性)和可利用性(AvailabilityAvailability),敬请关注。),敬请关注。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。