存储 频道

寻找磁盘可靠性新标准

不吻合的三大原因

“现在,存储业界已经逐渐开始使用AFR来代替MTBF,以达到让用户更容易理解的目的。”Harris介绍说。同时,Carnegie Mellon研究中心的Bianca Schroeder也表示:“用户或许应该更想知道,在某一年中有多少比例的磁盘会出现故障。”

不过,据Carnegie Mellon的一项调查研究结果显示,磁盘的更换率也比存储厂商所提供的AFR数值高很多。厂商们提供的资料显示,AFR一般在0.58%到0.88%之间,但调查结果却表明,实际的年平均磁盘更换率超过了1%,一般来说在2%到4%之间,更高的甚至达到了13%。“在这里需要强调的是,我们在此次调查中搜集了许多大型存储系统更换磁盘的数据,其中涉及了10万个左右的SCSI、Fiber Channel和SATA磁盘,因此数据的可靠性还是有所保障的。”Schroeder补充说。

Schroeder还介绍说,研究发现,磁盘的更换率还会随着其使用时间而逐步升高,尤其是当磁盘使用了5年以后,磁盘驱动器通常就会开始老化。这项发现与很多用户的普遍看法非常吻合,但同时却与厂商所提供的AFR出现了很大程度上的不吻合。

对于出现这种不吻合的一种解释是,此项研究结果关注的是更换了多少磁盘,而AFR描述的是有多少磁盘预计会出现故障。“的确,故障与更换并不能划等号。举个例子,用户可能会在磁盘稍有异常的情况下就将其更换掉了,而这块磁盘其实仍然还可以使用。”Schroeder也解释说。

此外,出现这种不吻合的第二个原因可能是,存储厂商的测试环境一般都是十分理想的,而用户真正的使用环境通常就无法达到这样的水平。“用户在使用磁盘时,很多情况都可能会导致磁盘的损坏,比如振动、电涌、尘土和湿度等。”Zaffos介绍说。

而第三个原因可能就在于,存储厂商和用户对于故障的定义并不同。比如,当磁盘驱动器厂商拿到一块返厂的磁盘时,他们会把磁盘插进测试设备中,如果发现没有问题,就会贴上“no trouble found”或者“NTF”的标签。事实上,据统计,有20%到30%的返厂磁盘上都被贴上了“no trouble found”的标签。但如果用户拿一个这样的磁盘插进自己的服务器中,就会发现根本不能用。那么,对于用户来说,它就还是一块需要更换的坏磁盘。当然,客观地说,在对磁盘的好与坏的判断上,厂商和用户都没有原则上的错误。

这就正如Google的一项研究发现,磁盘的故障在很多时候是由于匹配不当所造成的,比如磁盘驱动器与控制器的不匹配。有的时候,用户在认为是坏了的磁盘驱动器中更换一个控制器后,就会发现仍然可以使用。据说,在Google的研究过程中,还发生了一件很有意思的事情:有一块在用户那里无论怎样都不能使用了的磁盘,在测试人员手中却始终显示一切正常。

伊利诺斯州立大学的一项研究也证实了这个发现。在分析了39000个商业存储系统和180万个磁盘错误记录后,得出了这样的结论:虽然存储系统出现的故障有20%到25%是由于磁盘问题所引起的,但系统的其他部分,比如物理连接或是协议栈等也是引起磁盘问题的重要原因——物理连接问题导致的故障占到了27%~68%;而协议栈问题导致的故障占到了5%~10%。
.


理论上的MTDL

另一个从MTBF衍生而来的参数是MTDL(平均数据丢失时间,mean time to data loss),MTDL是指一个组件可能失败使数据不能访问的时间,其主要是存储子系统厂商所使用的参数,磁盘驱动器厂商一般不会涉及,因为这个参数主要考虑的是所使用磁盘的数量、弹性、重建时间以及系统冗余的数量和类型。

Harris认为,MTDL是个相对来说更有用的数字,不过也只是停留在了理论阶段。实际上,伊利诺斯州立大学的一项研究同样也对这个参数提出了质疑。研究发现,存储子系统的故障表现出了很强的相关性,也就是说,在某一次故障发生以后,发生同样故障的几率要增大很多,且故障发生的时间也十分接近。

“而平均数据丢失时间的前提就是故障的随机不相关性。但事实上,故障却并不是随机的,且故障之间是高度相关的,因此理论计算结果也并不能与实际相吻合。”Harris说。

也许是因为磁盘驱动器是物理设备,既然是物理设备就一定会老化,也自然就会出现这种实际与理论上的不吻合。事实上,据Google和Carnegie Mellon的一项联合调研表明,一旦磁盘驱动器使用超过了三年,AFR的值就会开始增大。

“其实,使用过大容量磁盘的用户早就已经有这样的经验了。”Harris说,“如果用户只购买了200个磁盘,那么三年后,AFR这个数字对于他们来说就非常重要了,因为这个时候就要开始考虑更换磁盘了。”当然,是否真的要更换还取决于用户对于数据的重视程度和对于系统的稳定性要求,以及用户自身备份系统的好坏。

0
相关文章