IBM第七级容灾让业务不中断-存储专区

IBM第七级容灾让业务不中断

作者：IT168 许振新编辑：许振新 2007-02-02 09:07

    【IT168 特别报道】2006年4月20日上午10时56分，银联通信网络和主机出现故障，造成银行卡跨行交易不能正常进行。经银联全力以赴抢修，到当天下午5时10分左右，全国大部分的成员机构和商户基本恢复正常。

    6个多小时的业务中断造成了大量跨行交易不能正常进行。后虽经查明故障的原因是由于银联新近准备上线的某外围设备的隐性缺陷诱发了跨行交易系统主机的缺陷，使主机发生故障，但此次事故也暴露了中国银联在容灾准备方面的不足。

    当前，在全球化经济特征日益明显的今天，容灾对企业的重要性已无需多言，没有一家企业能够承受宕机带来的业务中断，无论是计划的宕机（升级、维护和修复）还是突发的宕机（由于人为错误、处理故障、电源故障、甚至灾难事件）。

    而且，即使一些企业制订了在24到48小时内恢复核心应用的业务连续性计划，但一旦真正遇到意外，企业要实现全面恢复则需要数天或者数星期的时间。这样的恢复速度往往会让企业丢掉大量的客户和商业机会。因而，对于企业来说，建立安全、可靠的容灾系统迫在眉睫。

    谁在关心容灾？

    据Gartner的一项统计，在企业高层到技术人员的不同层面中，CEO和CIO对容灾的关注度最高，都为21.3%，接下来是COO和CEO，分别为13.2%和9.6%。由此可见，企业管理层对容灾的重视远大于基层的技术人员。

    究其原因，是数据已经成为企业越来越重要的资产。许多企业都致力于最大限度地降低宕机风险和避免业务中断的潜在影响，从而影响：

    生产力——由于系统闲置，企业的员工和业务运营都会造成收入损失。

    客户满意度——如果企业不能及时响应客户需求，只需点击一下鼠标，他们就会转向另一家供应商。
业务合作伙伴和供应商关系——经常性宕机会引发对企业业务的可靠性的质疑，从而驱使重要的合作伙伴和供应商与其它企业开展业务。

                           IBM系统存储部大中华区存储解决方案总监张英伟

     国外一家机构通过对数百起宕机事件的研究表明，一个典型的计算基础设施宕机的损失约为每小时42000美元。按照这样的比例，1%的可用性改进都可能导致通过降低风险和提高生产力创造数百万美元的收入。

    因而，容灾投入在整个企业预算中超过10%以上的企业的比例，从2003年的仅有7%，到2006年超过了25%。以上数据表明，企业对容灾的重视愈发关切。

容灾的七个层级

国际上对灾难恢复的等级划分，大概分七个层次，包括从最低级的磁带备份，到实时备份（如下图所示）。在我国，目前国务院信息化工作办公室也制订了一个中国自己的划分标准。这个等级划分的目的，是让企业清楚为什么要从业务层面做灾难恢复，不同业务应该采取什么样的手段。

最高的第七层级是高度自动化的集成解决方案。然而，专家也建议，企业不一定必须选择第七级的方式。实际上，只要选择一个最能满足其应用需求的方式就可以了。该方式不一定是较高级的方式，也可能是最低级别的方式。如果一个企业拥有很多的应用，专家建议企业首先划分成关键应用、重要的应用或者是一般应用，然后针对每个部分，采取不同的灾难恢复策略。

IBM作为灾难恢复的领先厂商，其系统存储部大中华区存储解决方案总监张英伟在谈及不同厂商的进展时认为，IBM是目前惟一能真正做到第七级容灾的厂商。目前大部分厂商的容灾技术只达到了第6级，只负责复制数据，没有自动接管和启动应用的功能。但很多用户真正追求的是第七级的容灾解决方案，即完全做到自动判断切换时机、自动切换、自动启动应用等，尽量减小容灾切换过程中的人为干预，从而减少人为的错误判断。IBM是目前惟一能真正做到第七级容灾的厂商。

    实现第七级容灾的方法

    张英伟介绍，目前IBM的存储容灾软件（Metro Mirror）和主机的双机软件（如AIX上的HACMP-XD）相结合，可以实现真正的第七级的容灾解决方案。    HACMP-XD同IBM存储的容灾软件Metro Mirror结合，集成了自主管理的功能。在保证数据一致性的同时，又增加了应用的自动恢复能力，使得系统和应用恢复的速度更快、更可靠。

    HACMP/XD 是一个为两个位于不同地点的主机相互备援而设计的软件技术。它延伸了HACMP在高可用性上的功能。根据灾难备份的定义，生产中心主机环境必须没有单点故障。但 HACMP只提供局域网内的高可用性，HACMP/XD就是在 HACMP 之上提供广域网应用程序的数据备份／重新启动的功能。

    HACMP/XD是HACMP概念上的延伸，因此适用于 HACMP的规则同样也适用于 HAGEO HACMP/XD。它同IBM存储服务器中的Metro Mirror（同步容灾）功能来实现异地的远程灾备功能，从而提高整个系统的可用性。通过HACMP的集群管理功能实现自动切换，从而减少出现灾难事件时系统宕机和恢复的时间。

    IBM的第七层容灾解决方案设计了允许群集资源在包含了主和备份数据副本的两个站点之间自动进行故障切换。主和备份数据副本由在存储系统上运行的Metro Mirror软件来提供。如果主站点的磁盘系统、网络或处理器发生故障，或者如果整个站点被破坏，恢复站点使用远程位置的数据副本在数分钟内自动重新启动应用程序，从而最大限度地降低最终用户的业务中断。一旦主系统或站点恢复正常，数据和应用程序可以自动回滚到主系统或站点。

    作为IBM 业务连续性解决方案的一个基本部件，Metro Mirror软件集成了IBM System Storage DS 磁盘系统家族。它支持广泛的IBM和非IBM操作系统，包括IBM z/OS、z/VM、OS/400、i5/OS、Microsoft Windows和AIX 5L操作系统，以及Linux、HP-UX、Sun SOLARIS、Novell NetWare和UNIX。

    Metro Mirror设计在城市区域的一个远端站点始终维持主位置数据的一个最新副本（通常使用密波分复用技术，最长可以相距300公里）。同步镜像技术设计在两个站点之间维持数据传播。

    在计划或突发故障期间，IBM CAW(Continuous Availability for Windows)自动将工作负载切换到一个备份系统，然后迅速重新启动重要的应用程序。由于镜像数据是与源数据时间一致的映像，这有助于在恢复业务运营之前，避免长期、复杂的数据恢复流程。

    此外，IBM还提供一种高级心跳机制，帮助对远程群集节点的状态进行监控，即使网络发生故障时也是如此。

关注我们