悲情的存储工程师!两次SAN故障经历分享-存储专区

悲情的存储工程师!两次SAN故障经历分享

作者：黄永兵译编辑：李隽 2011-04-01 05:00 IT168网站原创

　　【IT168 专稿】一般来说，企业级主存储是相当稳定的，如果没有强壮的存储设备，就不能奢望应用程序可靠，它们本身就有一大堆问题，如果存储也闹别扭，事情只会变得更糟，这就是为什么企业愿意把大部分IT预算用于购买最好，最可靠的存储基础设施的原因。

　　冗余磁盘，冗余控制器，镜像缓存，以及冗余存储网络都旨在提供具备容错能力的存储基础设施，在关键任务环境中，这些都是必需的，但即使是最高强度的冗余存储架构在人面前也是毫无保障的。

　　在我接触过的企业存储设备中，只有一个没有因硬件故障导致灾难性后果，相反，我已经记不清有多少因文档糟糕、技术支持胡乱建议、培训不充分，以及软件或固件等原因导致存储灾难性故障，我想说的是，大部分都是人的原因造成的。

　　就在上个月，我就亲眼目睹了两起主存储崩溃事件。

　　在企业存储基础设施中，用户由两个独立的但同样重要的小组支持：设备小组和管理小组，故事就发生了他们中间。

　　固件版本不匹配

　　在第一起案例中，在现有存储环境中引入了新的存储设备，按照设想，新旧存储设备可以实现无缝整合，最终实现用新设备替换掉旧设备的目的。

　　由于新系统采用了最新的硬件，需要的固件版本比当前的旧系统要高，按正常情况，升级现有系统的固件版本，和新系统匹配是没有问题的，但它需要一个维护窗口。

　　根据相关文档的解释，这里使用的两个固件版本似乎可以共存，数据迁移可以平滑地从旧系统转移到新系统，因此数据转移工作就在两个固件版本不同的存储设备之间开始了。

　　起初，事情进展顺利，测试数据成功转移到了新设备，性能测试结果超出预期，没有发现任何问题，接下来，一些非关键的数据卷也成功迁移了，于是决定迁移所有的生产数据，由于数据量巨大，迁移过程花了几天时间才完成。

　　就在迁移完成大家终于松了一口气的时候(不到30分钟)，新存储设备(现在存储了组织的所有生产数据)从存储网络掉线了，变得完全不可访问，幸运的是，这事儿发生在周六早上，很少有用户注意到，但最终导致整个虚拟服务器基础设施无法使用。

　　重新给新设备加电后，它又返回到存储网络了，大家齐心协力花了几个小时将所有系统全部上线，最后还算幸运，数据未丢失，也未遭到破坏。

　　接下来的任务是找出究竟发生了什么，是新设备不可靠?难道有硬件或实施问题在测试期间未被发现?两周后，在厂家技术支持人员的帮助下，确定这起故障是两个设备因固件不匹配引起的，最后，厂家也修改了相关文档，建议任何时候应尽量将所有设备的固件版本升级为一致。

　　当然，在厂商提供的那些文档中，我们还是看到许多用词不明确的地方，给读者留下了许多想象的空间，从这个案例中我们总结出一个经验：文档不一定可靠，千万不要自以为是!

关注我们