存储 频道

寻找磁盘可靠性新标准

【IT168 资讯】大存储厂商一直都在强调磁盘可靠性对于整个存储系统的重要性,并用各种参数来说明自己的磁盘产品的高可靠性。但事实上,相比于用户对于可靠性的需求来说,目前存储系统的可靠性技术发展已经滞后了,并且,评价可靠性的各种参数也不再适应当今用户的需求了。因此,我们需要寻找新的标准来衡量磁盘的可靠性和使用年限。

  据统计,有20%到25%的存储系统故障是由于磁盘问题所引起的,而且,磁盘驱动器的实际故障率是厂商们声称的15倍甚至更高,用户更换磁盘的频率也远高于厂商的统计数字。上面这些统计数字让我们不得不更重视磁盘的可靠性,因此,用户在设计可靠性存储系统时应综合考虑更多的因素,如选择更可靠的磁盘类型和支撑架、使用冗余技术来应付组件故障、给不同的存储子系统配备独立的连接等。

  在存储领域,MTBF(平均 无故障时间,mean time between failures)和AFR(年平均故障率,average failure rate)一直都是存储厂商们自我评价的标准,同时也是用户在选购时非常关注的重要参数。

  那么,为什么存储厂商和用户都会如此地关注这两个参数呢?从存储厂商的角度来看,他们希望用这样的数字来表征技术的发展。现在,厂商们纷纷宣称自己的磁盘产品的MTBF已经达到了100万至150万小时的水平,相当于114年到170年,这样的年限甚至已经远超过了一般人的寿命。

  MTBF是用来衡量存储产品的可靠性指标,具体来说,是指相邻两次故障之间的平均工作时间。“但现在,MTBF这个参数已经变得越来越没有意义了,因为用户越来越弄不清楚这个数字究竟代表了什么。”Data Mobility的分析师Robin Harris说:“存储厂商们都在宣称自己的磁盘产品的平均无故障时间已经达到了100万小时,甚至更长的时间,但事实上,磁盘根本就坚持不了那么久,这让很多IT主管以及数据中心中的管理员们都感到十分困惑。”

  “这些被‘冠名’为MTBF或者是AFR的数字真的能够帮助用户衡量磁盘驱动器的好坏吗?”曾经是EMC员工,现在是一家咨询公司IT顾问的Steve Smith对此提出了自己的质疑。

  其实,甚至连存储厂商NetApp自己也承认了这一点。当有用户在分析机构Data Mobility所运营的StorageMojo博客上发表了一篇公开信来抗议实际的平均无故障率时间要比厂商标称的高出好几倍时,NetApp的回复是:大部分有经验的用户都知道,存储领域的磁盘故障率跟汽车厂商所标称的每公里耗油数的定义有些类似。也就是说,关于磁盘故障率的问题,就好比是开同样的车、使用相同的汽油,但是跑的公里数却不一样,在平均无故障时间上出现的偏差在很大程度上是因为用户没有在非常好的的环境中配置和使用磁盘。很明显,这样的解释不免有些牵强。
.

  MTBF已经过时

  最近,很多研究机构对MTBF和AFR等衡量存储特性的参数进行了新一轮的研究,研究结果可以用这样的一句话来总结:在磁盘的可靠性和故障率的问题上,用户和存储厂商显然是行驶在了不同的车道上。

  “事实上,MTBF确实是经过了实际的压力测试和科学的统计学推断而综合得出的数据。但是,大家不要忘了,当存储厂商们宣布自己的磁盘产品的MTBF为30万小时的时候,他们实际上是在说,在经历测试的所有磁盘中,经过30万小时的运行后,只有一半出现了故障。”Harris表示,“如果是这样的话,MTBF似乎对于某个磁盘驱动器能够使用多久并没有什么参考价值。也就是说,MTBF根本无法准确地表达出某个磁盘真实的故障率分布。”

  “MTBF参数就好比是某一地区女性的平均身高这类统计数据一样,我们并不知道这个身高平均值的基数以及具体某个人的身高。其实,当初MTBF成为了衡量存储性能的标准参数的原因也就在于,人们觉得其在表示了磁盘可靠性高低的同时,不用去了解那些让人弄不懂的具体细节。”Smith表示。
  
  “但是,在今天,MTBF这种简化了的参数已经不能再适应用户的需求了。”Smith补充说。Gartner的分析师Stan Zaffos也同意Smith的观点。不过,他也表示,MTBF还是能够比较准确地反映出存储厂商的技术发展水平,只不过这个参数对于用户来说理解起来比较困难,或者说这个数字对于用户来说意义已经没有以前那么大了。“要想真正地理解MTBF并不是一件容易的事情,它需要IT管理者有很多工程方面的经验和概率统计学方面的知识。”Zaffos补充说。

0
相关文章