存储 频道

详解RAID内存引擎

        【IT168 技术】我们不难看出,HP热插拔RAID内存(HP Hot Plug RAID Memory)技术在概念上和RAID 4磁盘存储技术是相似的,在系统架构上就更像一个硬盘,所以采用了热插拔RAID内存保护模式的系统可以达到像RAID硬盘一样随意替换内存的效果。但在一些关键的性能上会有所不同,两者的实现方式也不一样。与磁盘阵列不同,HP热插拔RAID内存使用并行的点对点的连接方式写数据,而不是通过连接多块磁盘的串行总线,这种方式的优点是数据可以同时被写入多个存储区(内存盒),不存在延时(Mechanical delay),消除了因存储系统使用RAID技术而带来的写数据的瓶颈问题。而在一个磁盘冗余存储阵列中,通常情况下RAID控制器在写数据之前会先读现有的奇偶信息,如果有专门的奇偶校验驱动器做这项工作,那么就会带来瓶颈。

采用HP热插拔RAID内存方式的服务器使用5个内存控制器来控制5个内存盒(Memory cartridges)。每个盒中可以安装最多8个工业标准DIMM,当内存控制器向内存中写数据的时候,它们会把数据分成4块分别写入4个内存盒,并把计算所得的奇偶信息存放在第5个内存盒中。利用前4个内存盒中的数据和第5个内存盒中的奇偶信息,数据可以完全恢复,即使是任何 DIMM出现故障,或任何一个内存盒被拆掉了,也可以做到不丢失数据。

在读操作中,对每个从内存盒中读出的数据都会经过内存控制器和一个ECC设备进行错误检查。另外,其余4个内存控制器会重新生成一个值,RAID内存引擎会将读出的数据和这个生成值进行比较。

这个ECC设备使用的是新的8位ECC算法(由HP开发),它可以检测到X8内存(X8 memory modules)中发生的错误,可信度很高。ECC用一个信号将检查结果"好"(Good)或"坏"(Bad)送给多路复用器(MUX1)。

HP 热插拔RAID内存通过进一步的校验方法控制所有3个部分的错误,其余的4个ECC 设备(包括保存奇偶信息的内存盒)将它们保存的数据送给RAID内存引擎(RAID Engine)。控制引擎利用这些信息通过RAID算法重构数据1,然后将重构的数据1送到MUX1的比较设备中(奇偶比较),在这个设备里重构的值和 ECC传过来的数据1进行比较。如果两个完全相同,MUX输出数据1;如果不同,说明数据1有错误,比较设备会给系统发出一个"non-maskable interrupt"(NMI)信号,中止系统运行,禁止错误数据1的输出。

以上这个过程是重复进行的,因为在同一时间内还会从其他的存储盒中读数据。HP热插拔RAID内存方式的这个特性保证了采用这种方式时数据的高可靠性。在HP的热插拔技术中还应用到两个小技术,它们就是回写(Scrubbing)技术和热插拔容量(Hot-Plug Capabilities)技术。下面分别予以简单介绍。

1)回写技术
HP热插拔RAID内存提供了一个回写硬件方式,它可以确认ECC或RAID检查出来的软错误。HP技术尝试定位于在读内存时检查出来所有软错误,方法是把改正后的正确的数据写回内存中去。但此方法不适用于硬错误。

回写技术可以阻止软错误的累积,避免发生更严重的错误。它降低了ECC的工作量,提高了系统的性能。一些传统的系统采用的是软件回写,HP热插拔RAID内存使用硬件完成这个工作。

HP热插拔RAID内存会对错误生成错误日志,错误极限由软件设定。当记录的错误值达到错误极限的时候,软件会自动做出反应。例如,当超过错误极限的时候故障灯会自动亮,这就是由软件控制的。

2)热插拔容量(Hot-Plug Capabilities)技术
HP热插拔RAID内存还允许用户在不关闭服务器电源的情况下在线更换、在线扩展及在线升级DIMM,这就是HP的热插拔容量技术。

在线更换是指在系统运行的情况下更换出现故障的DIMM。HP热插拔RAID内存不需要操作系统的支持,服务器在购买的时候就具有支持在线更换的能力。在线扩展指用户在空的插槽上插入DIMM以扩展系统容量。在线升级是指用户用容量更大的DIMM替代旧的较小容量的DIMM。在线扩展和在线升级都可以使用户获得更大的系统内存容量。在线扩展和在线升级要求操作系统的支持,系统要认出新增的内存。

当在线内存操作完成后,如果工作在热插拔RAID内存模式下,那么系统会自动在所有的内存盒中重新放置数据(rebuild)。虽然这样做会暂时降低内存的工作性能(重新放置4 GB的数据花费的时间少于30s),但是只需要花费很少的钱就可以提高容错能力,并可避免系统检修期间带来的经济损失。

综上所述,在HP的以上3种新的AMP高级内存保护技术中,在线备份内存适合于那些不想仅因为内存错误就停机检修设备的用户,他们希望利用固定的设备检修时间更换出现故障的内存模块。热插拔镜像内存能够为此类用户提供更高的容错能力,而且用户也无须等到固定的设备检修时间才更换出现故障的内存,因为热插拔镜像内存可以让用户在不关机的情况下对内存进行在线替换。对于那些需要大容量内存支持且长时间不间断运行的应用程序而言,HP热插拔RAID内存的可靠性最高。它可以保证内存子系统运行正常,即使是在有一个内存设备完全出现故障的情况下也是如此,它支持工业标准DIMM的在线替换、在线扩展和在线升级。以上介绍RAID内存引擎。

0
相关文章