存储 频道

实用:来自Google的磁盘系统使用报告

认识供应商的MTBF规格

供应商把它们产品的MTBF告诉我们之后,我们还需要知道什么吗?当然还有很多。因为供应商定义的故障和我们看到的故障是不一样的。如果供应商的MTBF能够达到的话,那么我们使用的磁盘产品还将可靠很多。

导致这个结果主要有两个原因:第一,供应商在进行磁盘寿命测试的时候非常关注哪些环境因素会对磁盘寿命造成影响,磁盘寿命测试基本在一个理想化的环境中进行,但是这些结果并不能反映出在实际应用环境中的使用情况。第二,供应商比较关注返修情况,而如果磁盘驱动器的返修在20-30%之间的话,供应商都会说没有发现问题,但对于磁盘使用者来说就完全不是这种情况了。

磁盘是由各个零件的组合而成,所以注定会导致故障时有发生,(例如独特的磁盘驱动器带有独特的控制器和线缆等等)...这许多的磁盘驱动器...将它们放在不同的测试环境中进行操作运转,我们观察到,如果被测试的磁盘驱动器的绿灯始终亮着,那么不久它就将出现故障。

因此,厂商给出的MTBF和其他存储性能统计量值一样,要想在实际应用中达到简直需要奇迹出现。

SMART能预警所有故障?

很多的行业都已经知道,SMART(自我监控、分析和报告技术)能够捕获磁盘驱动器上的数据,预知磁盘未来出现错误的可能,这样你就可以预先对其进行备份。

然而,SMART一直把焦点放在机械故障上,而大量的磁盘驱动器又是电子的,所以SMART不能够监控到一些突然发生故障的磁盘组件,例如电源故障。Google的研究小组发现有36%的磁盘故障不能在SMART的故障监控界面上显示出来。他们断定SMART对于预测单个磁盘驱动器故障时几乎起不到任何作用。所以在某些时候你的磁盘会在没有任何警告信息的前提下垮掉。

Google发现有四项关于磁盘故障的SMART参数可以帮助我们找到错误的一些关联信息:
• 扫描错误
• 重新分配数
• 离线重新分配
• 检验数

例如,通过第一次错误扫描,你会发现有些磁盘在接下来的60天里,要比普通磁盘发生故障的可能高39倍。其他三个相互关联的信息并不怎么显著,但是我们仍然觉得这些信息对以后的检测有很重大的意义。

注:SMART可以帮你找到一些存在的问题,但是也会遗漏点一些其他的问题,所以我们并不能完全的依靠它。所以你还是要有规律的去做备份,如果你发现磁盘出现以上一些小错误,你最好更换一个新的磁盘驱动器。

 

1
相关文章