存储 频道

2011年存储大事记:并购频发 艺龙宕机

  艺龙网宕机:引发企业对备份容灾的关注

  7月11日下午2点到12日下午4点,艺龙旅游网由于存储设备出现故障,进而引发大规模宕机事件,并长时间无法修复,导致其网站服务和呼叫中心业务也无法进行,据一些媒体计算,艺龙网这次直接损失超过14.7万营业收入,而其对客户造成的潜在影响无法估计。并在业内及网络上引起轩然大波。

  此次长时间宕机事件是由EMC CLARiiON 存储系统中一个硬件故障而导致的,当网友将“责备”的目光转向EMC,认为是“硬件厂商都是忽悠+钱多人傻惹的祸”时,EMC有口难言,继续保持沉默;而存储业内有相当一部分人士却认为不应该将所有过错都推在EMC身上,作为存储行业的老大,单个硬件不可能造成如此严重的长时间宕机事件,EMC的产品不会持续到几十个小时恢复不了。并有网友表示“做为EMC的竞争对手也不得不说,这不只是硬件的问题”。

  据参与了此次系统修复的IT服务公司中达金桥的孙巍表示,EMC存储硬件出现故障引发了整个事件,但由于艺龙对数据库的备份不足,存储层没有灾备方案,导致系统恢复缓慢,虽然硬件很快恢复正常,系统仍然无法工作。

  一般而言,企业在运营平台的系统设备架构中,为了应对突发硬件、软件故障,一般需要对各个层级的系统进行备份,比如在服务器端使用双机热备,在存储层完成灾备,在软件层做冗余工作。这样任何一个环节出现问题都可以及时找到替代。但艺龙的存储架构只预备了高性能架构的集群备份,灾备的准备依赖唯一的存储硬件,软件层也缺少冗余准备,这样存储出现问题,事先准备的灾备准备也就不起作用。

  对于一个在线服务提供商,时刻在线和稳定性成为消费者一种信赖和依靠,而出现系统完全停止服务将对客户感受造成较大的影响。此次宕机事件发生之后,艺龙CEO崔广福在微博上发出“英雄帖”,邀请咨询师、方案服务提供商、专家等为艺龙数据中心系统构架、灾备方案及运维管理会诊。

  从另一方面来说,这次事件对于灾备行业来说将是一次促进,企业在认识到意外发生的结果后会加大数据系统的投入。

0
相关文章