不吻合的三大原因
“现在,存储业界已经逐渐开始使用AFR来代替MTBF,以达到让用户更容易理解的目的。”Harris介绍说。同时,Carnegie Mellon研究中心的Bianca Schroeder也表示:“用户或许应该更想知道,在某一年中有多少比例的磁盘会出现故障。”
不过,据Carnegie Mellon的一项调查研究结果显示,磁盘的更换率也比存储厂商所提供的AFR数值高很多。厂商们提供的资料显示,AFR一般在0.58%到0.88%之间,但调查结果却表明,实际的年平均磁盘更换率超过了1%,一般来说在2%到4%之间,更高的甚至达到了13%。“在这里需要强调的是,我们在此次调查中搜集了许多大型存储系统更换磁盘的数据,其中涉及了10万个左右的SCSI、Fiber Channel和SATA磁盘,因此数据的可靠性还是有所保障的。”Schroeder补充说。
Schroeder还介绍说,研究发现,磁盘的更换率还会随着其使用时间而逐步升高,尤其是当磁盘使用了5年以后,磁盘驱动器通常就会开始老化。这项发现与很多用户的普遍看法非常吻合,但同时却与厂商所提供的AFR出现了很大程度上的不吻合。
对于出现这种不吻合的一种解释是,此项研究结果关注的是更换了多少磁盘,而AFR描述的是有多少磁盘预计会出现故障。“的确,故障与更换并不能划等号。举个例子,用户可能会在磁盘稍有异常的情况下就将其更换掉了,而这块磁盘其实仍然还可以使用。”Schroeder也解释说。
此外,出现这种不吻合的第二个原因可能是,存储厂商的测试环境一般都是十分理想的,而用户真正的使用环境通常就无法达到这样的水平。“用户在使用磁盘时,很多情况都可能会导致磁盘的损坏,比如振动、电涌、尘土和湿度等。”Zaffos介绍说。
而第三个原因可能就在于,存储厂商和用户对于故障的定义并不同。比如,当磁盘驱动器厂商拿到一块返厂的磁盘时,他们会把磁盘插进测试设备中,如果发现没有问题,就会贴上“no trouble found”或者“NTF”的标签。事实上,据统计,有20%到30%的返厂磁盘上都被贴上了“no trouble found”的标签。但如果用户拿一个这样的磁盘插进自己的服务器中,就会发现根本不能用。那么,对于用户来说,它就还是一块需要更换的坏磁盘。当然,客观地说,在对磁盘的好与坏的判断上,厂商和用户都没有原则上的错误。
这就正如Google的一项研究发现,磁盘的故障在很多时候是由于匹配不当所造成的,比如磁盘驱动器与控制器的不匹配。有的时候,用户在认为是坏了的磁盘驱动器中更换一个控制器后,就会发现仍然可以使用。据说,在Google的研究过程中,还发生了一件很有意思的事情:有一块在用户那里无论怎样都不能使用了的磁盘,在测试人员手中却始终显示一切正常。
伊利诺斯州立大学的一项研究也证实了这个发现。在分析了39000个商业存储系统和180万个磁盘错误记录后,得出了这样的结论:虽然存储系统出现的故障有20%到25%是由于磁盘问题所引起的,但系统的其他部分,比如物理连接或是协议栈等也是引起磁盘问题的重要原因——物理连接问题导致的故障占到了27%~68%;而协议栈问题导致的故障占到了5%~10%。