悲情的存储工程师!两次SAN故障经历分享-存储专区

悲情的存储工程师!两次SAN故障经历分享

作者：黄永兵译编辑：李隽 2011-04-01 05:00 IT168网站原创

　　倒霉的现场技术人员

　　在第二个案例中，生产存储阵列开始出现一些瞬时错误，这些错误似乎表明后端光纤通道循环出了问题，由于所有系统在控制器和磁盘之间的连接使用了多个冗余循环，不能立即确定究竟是哪里出了问题，但对进一步调查和修复行动提供了保证。

　　这个阵列签订了高级支持合同，因此厂商很快就派遣了一位技术人员抵达现场，确定问题的根源，这位技术人员到了现场就立即投入到工作中，首先阅读了系统日志，并对硬件做了简单检查，看了看各种线缆和收发器是否连接正确。

　　但他什么问题也没有发现，于是，他插上一根串口线，接到设备的维护端口，在管理软件中发出特定的命令，直接从控制器导出了原始性能数据，其目的是让控制器吐出详细的错误信息，以便更高级的工程师解码分析。

　　串口和控制器的软件内核是直接相通的，输错一个字符就可能引起严重的后果，在这种情况下，如果你在终端模拟器按下Ctrl-Z，会导致两个冗余控制器同时重启，所有入站存储连接会被突然重置，会发生什么只有求佛主保佑。

　　仔细看看你的键盘，你会发现Ctrl和Z键隔得并不远，如果事先不知道同时按下它们后果有多严重，或一不小心误按，我想你会一辈子记得这事的。

　　和第一起案例一样，幸亏中断时间不长，也没有导致数据丢失或破坏，但还是花了几个小时才将各种应用程序重新上线。

　　教训

　　事后看来，不管文档上有没有明确说明，在固件不匹配的情况下做任何事情都是自找麻烦，此外，在处理大量数据迁移时不能掉以轻心，想一边喝咖啡一边操作还得悠着点。

　　也许你从来没有想过一个完全冗余的企业级存储网络还会全部宕掉，是的，这种事情虽然很少见，但的确发生过。在众多存储事故中，我发现大部分都是人为因素造成的，有可能就是你，或你的同事，也可能是新进入的厂商。

　　各路存储厂商都在努力让自己的管理系统变得更具吸引力，更友好的管理界面，但他们忽略了天天摆弄这些软件和硬件的IT人员，软硬件环境越来越复杂，谁也不能保证不会出现误操作。

　　除了厂商要做好严格的保护设计，文档实时更新外，作为用户一方，也要加强自身维护队伍的建设，在不确定会引起什么后果之前，最好不要急着动手。

　　原文出处：http://www.infoworld.com/d/data-explosion/tale-two-san-failures-224
　　原文名：A tale of two SAN failures
　　作者：Matt Prigge

关注我们