LSI存储专家：RAID6探秘-存储专区

LSI存储专家：RAID6探秘

作者：转载自网络编辑：李隽 2011-01-19 00:00 来源：51CTO

　　【IT168 技术】过去几年来，RAID 6不断推广，已成为购买RAID控制器时必须考虑的一项特性。本文将探讨人们对该技术兴趣不断提高背后的一些原因，说明有的原因是合理的，而有的则是盲信，并将给出具体模型与实施实例，分别说明其优缺点，为分析问题、明确解决方案奠定坚实的基础。

　　从最基本的角度来说，RAID就是指一组磁盘关联和相对应的数据布局，在某些组件发生读取错误的情况下仍能确保从系统检索到数据。RAID 0是基础条带化模型，不支持任何冗余，因此可最优化系统性能，但在数据故障情况下不能恢复数据。RAID 5 设计旨在从单次数据故障中恢复数据，通过添加一个冗余校验盘(“P”盘即奇偶校验盘)，作为对等数据 XOR 计算，从而实现数据恢复功能。从数学角度来说，我们把数据恢复可看作只有一个未知变量(也就是因读取故障丢失的数据)的线性方程式，并能通过基础代数方法轻松解出任何线性方程。

　　RAID 6扩展了RAID 5的功能，可在同一数据集上恢复两个数据错误。从数学角度来说，RAID 5使用一个方程式解出一个未知变量，而RAID 6则能通过两个独立的线性方程构成方程组，从而恢复两个未知数据。第一个方程与 RAID 5机制一样，也是通过添加P盘实现的，而第二个方程则有所不同，将创建一个盘，因此 RAID 6又称作“P+Q”盘机制。

　　从理论上说，这种回归计算可以无限延伸，可创建任意类型的M+N冗余，但实际应用通常仅限于N=2，也就是说数据条带上同时发生两个不同的故障，这也就是RAID 6所要解决的主要问题。

　　为什么需要RAID 6?

　　RAID 5可独立解决磁盘不能检索数据的两种情况：

　　一个磁盘损坏，也就是说不能对任何读写命令做出响应，需要更换。RAID 5能从保存的对等数据中恢复所有数据，重建缺陷磁盘。

　　磁盘组本身没问题，但其中一个磁盘上出现了坏块(即不能读取的块)，造成某些数据不能恢复。

　　请注意，从数学角度说，每个磁盘的平均无故障时间 (MTBF) 大约为 50 万至 150 万小时(也就是每 50～150 年发生一次硬盘损坏)。实际往往不能达到这种理想的情况，在大多数散热和机械条件下，都会造成硬盘正常工作的时间大幅减少。考虑到每个磁盘的寿命不同，阵列中的任何磁盘都可能出现问题，从统计学角度说，阵列中 N 个磁盘发生故障的机率比单个磁盘发生故障的机率要大 N 倍。结合上述因素，如果阵列中的磁盘数量合理，且这些磁盘的平均无故障时间 (MTBF) 较短，那么在磁盘阵列的预期使用寿命过程中，就很有可能发生磁盘故障(比方说每几个月或每隔几年就会发生一次故障)。

　　两块磁盘同时损坏的几率有多大呢(“同时”就是指一块磁盘尚未完全修复时另一块磁盘也坏掉了)?如果说 RAID 5 阵列的MTBF相当于MTBF^2，那么这种几率为每隔1015个小时发生一次(也就是1万多年才出现一次)，因此不管工作条件如何，发生这种情况的概率是极低的。从数学理论角度来说，是有这种概率，但在现实情况中我们并不用考虑这一问题。不过有时却是会发生两块磁盘同时损坏的情况，我们不能完全忽略这种可能性，实际两块磁盘同时损坏的原因与MTBF基本没有任何关系。

　　读取错误(不能恢复的ECC读取错误)从统计角度来说也比较少见，一般来说是指读取多少位后会出现一次读取错误。就 SCSI/ FC/ SAS 磁盘(SAS 是本文的重点，但同样的量化说明适用于所有这三种技术)来说，发生读取错误的几率为每读取10^15位(也就是约100TB)到10^16位(约 1000TB 或 1PB)，会出现一次错误。我们把这一几率称作误码率 (BER)。

　　不过，SATA磁盘的错误率要大一些，其BER比其它类型的磁盘要高出一两个数量级(即其BER为每读取10^14到10^15位出现一次错误，或者说每读取10/100TB 出现一次错误，具体取决于磁盘设计)。如果 SATA 磁盘容量为1TB，完整读取磁盘十次，就会发现新的故障块(假定这里的 BER 为每读取10^14位出错一次)。存储相同数据的相应两个块同时出现问题几乎是不可能的，几率为每读取 10^30 位发生一次。

第1页：LSI存储专家：RAID6探秘（上）第2页：LSI存储专家：RAID6探秘（下）

关注我们