存储 频道

悲情的存储工程师!两次SAN故障经历分享

  倒霉的现场技术人员

  在第二个案例中,生产存储阵列开始出现一些瞬时错误,这些错误似乎表明后端光纤通道循环出了问题,由于所有系统在控制器和磁盘之间的连接使用了多个冗余循环,不能立即确定究竟是哪里出了问题,但对进一步调查和修复行动提供了保证。

  这个阵列签订了高级支持合同,因此厂商很快就派遣了一位技术人员抵达现场,确定问题的根源,这位技术人员到了现场就立即投入到工作中,首先阅读了系统日志,并对硬件做了简单检查,看了看各种线缆和收发器是否连接正确。

  但他什么问题也没有发现,于是,他插上一根串口线,接到设备的维护端口,在管理软件中发出特定的命令,直接从控制器导出了原始性能数据,其目的是让控制器吐出详细的错误信息,以便更高级的工程师解码分析。

  串口和控制器的软件内核是直接相通的,输错一个字符就可能引起严重的后果,在这种情况下,如果你在终端模拟器按下Ctrl-Z,会导致两个冗余控制器同时重启,所有入站存储连接会被突然重置,会发生什么只有求佛主保佑。

  仔细看看你的键盘,你会发现Ctrl和Z键隔得并不远,如果事先不知道同时按下它们后果有多严重,或一不小心误按,我想你会一辈子记得这事的。

  和第一起案例一样,幸亏中断时间不长,也没有导致数据丢失或破坏,但还是花了几个小时才将各种应用程序重新上线。

  教训

  事后看来,不管文档上有没有明确说明,在固件不匹配的情况下做任何事情都是自找麻烦,此外,在处理大量数据迁移时不能掉以轻心,想一边喝咖啡一边操作还得悠着点。

  也许你从来没有想过一个完全冗余的企业级存储网络还会全部宕掉,是的,这种事情虽然很少见,但的确发生过。在众多存储事故中,我发现大部分都是人为因素造成的,有可能就是你,或你的同事,也可能是新进入的厂商。

  各路存储厂商都在努力让自己的管理系统变得更具吸引力,更友好的管理界面,但他们忽略了天天摆弄这些软件和硬件的IT人员,软硬件环境越来越复杂,谁也不能保证不会出现误操作。

  除了厂商要做好严格的保护设计,文档实时更新外,作为用户一方,也要加强自身维护队伍的建设,在不确定会引起什么后果之前,最好不要急着动手。

  原文出处:http://www.infoworld.com/d/data-explosion/tale-two-san-failures-224
  原文名:A tale of two SAN failures
  作者:Matt Prigge

0
相关文章