存储 频道

悲情的存储工程师!两次SAN故障经历分享

  【IT168 专稿】一般来说,企业级主存储是相当稳定的,如果没有强壮的存储设备,就不能奢望应用程序可靠,它们本身就有一大堆问题,如果存储也闹别扭,事情只会变得更糟,这就是为什么企业愿意把大部分IT预算用于购买最好,最可靠的存储基础设施的原因。

  冗余磁盘,冗余控制器,镜像缓存,以及冗余存储网络都旨在提供具备容错能力的存储基础设施,在关键任务环境中,这些都是必需的,但即使是最高强度的冗余存储架构在人面前也是毫无保障的。

  在我接触过的企业存储设备中,只有一个没有因硬件故障导致灾难性后果,相反,我已经记不清有多少因文档糟糕、技术支持胡乱建议、培训不充分,以及软件或固件等原因导致存储灾难性故障,我想说的是,大部分都是人的原因造成的。

  就在上个月,我就亲眼目睹了两起主存储崩溃事件。

  在企业存储基础设施中,用户由两个独立的但同样重要的小组支持:设备小组和管理小组,故事就发生了他们中间。

  固件版本不匹配

  在第一起案例中,在现有存储环境中引入了新的存储设备,按照设想,新旧存储设备可以实现无缝整合,最终实现用新设备替换掉旧设备的目的。

  由于新系统采用了最新的硬件,需要的固件版本比当前的旧系统要高,按正常情况,升级现有系统的固件版本,和新系统匹配是没有问题的,但它需要一个维护窗口。

  根据相关文档的解释,这里使用的两个固件版本似乎可以共存,数据迁移可以平滑地从旧系统转移到新系统,因此数据转移工作就在两个固件版本不同的存储设备之间开始了。

  起初,事情进展顺利,测试数据成功转移到了新设备,性能测试结果超出预期,没有发现任何问题,接下来,一些非关键的数据卷也成功迁移了,于是决定迁移所有的生产数据,由于数据量巨大,迁移过程花了几天时间才完成。

  就在迁移完成大家终于松了一口气的时候(不到30分钟),新存储设备(现在存储了组织的所有生产数据)从存储网络掉线了,变得完全不可访问,幸运的是,这事儿发生在周六早上,很少有用户注意到,但最终导致整个虚拟服务器基础设施无法使用。

  重新给新设备加电后,它又返回到存储网络了,大家齐心协力花了几个小时将所有系统全部上线,最后还算幸运,数据未丢失,也未遭到破坏。

  接下来的任务是找出究竟发生了什么,是新设备不可靠?难道有硬件或实施问题在测试期间未被发现?两周后,在厂家技术支持人员的帮助下,确定这起故障是两个设备因固件不匹配引起的,最后,厂家也修改了相关文档,建议任何时候应尽量将所有设备的固件版本升级为一致。

  当然,在厂商提供的那些文档中,我们还是看到许多用词不明确的地方,给读者留下了许多想象的空间,从这个案例中我们总结出一个经验:文档不一定可靠,千万不要自以为是!

0
相关文章