关闭系统 将损失降到最低
“摆在我面前的有两个事实:我们的燃料只能支撑2个小时了,那时候所有M&M业务也将会被中断。另一方面,我们可以坚持下去,或许暴雨会停止,但是同时这也要冒着异常断电事故的发生,可能会导致数据丢失和更长的恢复过程。”
“根据经验来说,正常的关闭200台服务器大约需要1个小时的时间,我决定采取关闭系统的操作。”
“现在回想起来,假如我们当时不选择关闭服务器和发电机,所面临的风险可能是灾难性的,可能会面临更多的数据丢失,可能会有硬件故障发生,甚至有可能发生火灾。”
“随后所有的M&M的办公室被通知了系统关闭行动。由于系统关闭是在7月27日凌晨4点进行的,而且仅仅持续了4个小时,并没有对我们的企业业务带来什么大的影响。同时,我们把发电室的水清理了出去,并且找到了新的燃料,并用烘干机把发电机的面板烘干了。”
“这次事故开始让我们把灾难恢复中心从孟买迁移到印度的第四大城市晨奈(Chennai),也让我们理解了监视危机中的信号的重要性。这些信号可以让IT团队在危机过程中采取和合理措施,以将损失降到最低限度。”