存储 频道

实用:来自Google的磁盘系统使用报告

结论:现实与理想的差距

  • 磁盘的MTBF值往往都是大打折扣的阐述着磁盘的故障率。如果你计划的AFR要超过MTBF建议的50%以上,那你需要做大量的准备工作。
  • 一般的SOHO的用户,由于数据量一般而言不会太大,因此要考虑换掉还在使用的已经超过3年时间的磁盘,或者至少要非常严肃的面对数据备份问题。因为磁盘的替换需要做大量的数据迁移工作。
  • 企业级用户的磁盘采购者应该要求知道磁盘真正的MTBF值,然后记录下他们声称的值。比较典型的就是1,000,000小时以上。
  • SMART能够在发生一些问题的时候给你发出警报,但并不是全部的问题,一些工业用户已经认识到这个问题,并逐步为这些预警信息做一些事情。
  • 工作量与磁盘寿命的数值关系往往给一个体系架构的利用带来影响。例如MAID(大规模非活动磁盘阵列存储),它依靠给磁盘断电来提高磁盘使用寿命。Google调查人员没有研究其应用情况,但是如果是我来行销MAID,我一定会为一些硬件问题做大量准备。
  • 计划或者销售磁盘冷却系统的人们要准备面临棘手的难题了。因为测试中冷却好像不能让磁盘使用更好,但它却实实在在的带来成本的增加。
  • 磁盘在某些故障发生之前不会给我们任何的预警信息:一半以上的磁盘驱动器都可能在第一天出现故障坏掉,而其他另一半可能使用10年时间,但厂商提供的MTBF值却是相同的。

通过 “理想”情况界定,我们尝试着提出,如果随着时间的推移,磁盘故障的发生是均匀分布的,那么就将是每小时有一块磁盘出现故障。但是这是在一个非常大的假设面前。从Google的数据可以看出,在现实的世界中我们并不知道磁盘是如何发生故障的。我们也不能通过某种外在的因素来评测磁盘发生故障的概率。

1
相关文章