理论上的MTDL
另一个从MTBF衍生而来的参数是MTDL(平均数据丢失时间,mean time to data loss),MTDL是指一个组件可能失败使数据不能访问的时间,其主要是存储子系统厂商所使用的参数,磁盘驱动器厂商一般不会涉及,因为这个参数主要考虑的是所使用磁盘的数量、弹性、重建时间以及系统冗余的数量和类型。
Harris认为,MTDL是个相对来说更有用的数字,不过也只是停留在了理论阶段。实际上,伊利诺斯州立大学的一项研究同样也对这个参数提出了质疑。研究发现,存储子系统的故障表现出了很强的相关性,也就是说,在某一次故障发生以后,发生同样故障的几率要增大很多,且故障发生的时间也十分接近。
“而平均数据丢失时间的前提就是故障的随机不相关性。但事实上,故障却并不是随机的,且故障之间是高度相关的,因此理论计算结果也并不能与实际相吻合。”Harris说。
也许是因为磁盘驱动器是物理设备,既然是物理设备就一定会老化,也自然就会出现这种实际与理论上的不吻合。事实上,据Google和Carnegie Mellon的一项联合调研表明,一旦磁盘驱动器使用超过了三年,AFR的值就会开始增大。
“其实,使用过大容量磁盘的用户早就已经有这样的经验了。”Harris说,“如果用户只购买了200个磁盘,那么三年后,AFR这个数字对于他们来说就非常重要了,因为这个时候就要开始考虑更换磁盘了。”当然,是否真的要更换还取决于用户对于数据的重视程度和对于系统的稳定性要求,以及用户自身备份系统的好坏。
寻找新标准
回到问题的本质,存储厂商该如何告诉用户他们所购买的磁盘究竟能够用多久?很多业内人士认为,MTBF还没有被抛弃的原因就在于,还没有找到能够替代它的参数。“其实,现在大多数用户都希望能有一种新的评价标准来表征存储产品的可靠性,但是要想找到这种新标准却并不容易。”Schroeder说。Smith也同意这个观点,不过,他也表示,总会找到一种方式可以用来区别不同磁盘驱动器的可靠性程度。
此外,Smith还认为,其实存储厂商们拥有更“确切”的数字,只是他们不愿意公布出来。“事实上,对于该如何更好地评价存储产品的可靠性,最为了解的莫过于大型磁盘阵列厂商了。但是,他们却不愿意更清楚地告诉用户,因为这样就会减少他们在‘解释这个数字’的过程中所创造出来的附加价值。”Smith说。
当然,还有一种办法就是使用实测的数据。“但是,这样也很麻烦,有研究发现,磁盘的使用时间越长,故障率就会越高。所以,从那些只使用了一年的磁盘上获得的统计数据也并不能应用到使用了多年的磁盘上。”Schroeder说。
“也许,我们应该测出磁盘驱动器每年的AFR,但即使是这样,仍然有很多因素会影响到这个数据的真实可靠性,如运行状况和工作负载等。”Schroeder补充说。的确,很多影响磁盘可靠性的因素使得存储厂商们也很难建立起符合现实的模型。
不过,Schroeder也同意Smith的观点,存储厂商们应该、也有责任提供更多的数据让用户更好地了解磁盘的真实可靠性,如实际的磁盘更换率和潜在的扇区错误等信息。目前,Carnegie Mellon就正在与Usenix合作建立一个记录不同种类、不同使用年数和不同容量的磁盘的故障信息数据库。
此外,Smith还介绍说,除了磁盘的可靠性以外,对用户影响最大的莫过于坏磁盘了,因为某个磁盘的故障可能还会牵连到其他磁盘。“这也就是为什么对磁盘的安装做物理分析非常重要的原因,因为这样会找到系统中的一些代码缺陷或是一些坏的部件。”Smith说,“当然,拥有成熟的服务和技术支持来跟踪系统运行并查找错误也非常重要。”(主要内容译自《Computerworld》)