实用：来自Google的磁盘系统使用报告-存储专区

实用：来自Google的磁盘系统使用报告

作者：公主编译编辑：李隽 2008-10-13 11:43 来源：IT168�

结论：现实与理想的差距

磁盘的MTBF值往往都是大打折扣的阐述着磁盘的故障率。如果你计划的AFR要超过MTBF建议的50%以上，那你需要做大量的准备工作。
一般的SOHO的用户，由于数据量一般而言不会太大，因此要考虑换掉还在使用的已经超过3年时间的磁盘，或者至少要非常严肃的面对数据备份问题。因为磁盘的替换需要做大量的数据迁移工作。
企业级用户的磁盘采购者应该要求知道磁盘真正的MTBF值，然后记录下他们声称的值。比较典型的就是1，000，000小时以上。
SMART能够在发生一些问题的时候给你发出警报，但并不是全部的问题，一些工业用户已经认识到这个问题，并逐步为这些预警信息做一些事情。
工作量与磁盘寿命的数值关系往往给一个体系架构的利用带来影响。例如MAID（大规模非活动磁盘阵列存储），它依靠给磁盘断电来提高磁盘使用寿命。Google调查人员没有研究其应用情况，但是如果是我来行销MAID，我一定会为一些硬件问题做大量准备。
计划或者销售磁盘冷却系统的人们要准备面临棘手的难题了。因为测试中冷却好像不能让磁盘使用更好，但它却实实在在的带来成本的增加。
磁盘在某些故障发生之前不会给我们任何的预警信息：一半以上的磁盘驱动器都可能在第一天出现故障坏掉，而其他另一半可能使用10年时间，但厂商提供的MTBF值却是相同的。

通过 “理想”情况界定，我们尝试着提出，如果随着时间的推移，磁盘故障的发生是均匀分布的，那么就将是每小时有一块磁盘出现故障。但是这是在一个非常大的假设面前。从Google的数据可以看出，在现实的世界中我们并不知道磁盘是如何发生故障的。我们也不能通过某种外在的因素来评测磁盘发生故障的概率。

第1页：供应商的MTBF和磁盘AFR（平均故障率）第2页：认识供应商的MTBF规格和SMART预警第3页：工作负荷越高，磁盘寿命越短？第4页：温度越高，磁盘故障率越高？第5页：结论：现实与理想的差距

关注我们