各单位CIO在准备建设远程容灾备份系统前,考虑好哪些数据需要进行容灾,哪些数据需要进行整个系统的全备份(像前面PKI生产系统的远程灾备那样);是否需要采用SAN架构(像一般的电力二次系统的容灾备份那样);是否要对数据库、文件和日志等进行全备份。
通常,容灾备份策略遵循以下原则:
◆ 对所有关键的业务,应至少保证各种必要的热备份机制,包括双机热备、磁盘镜像等。
◆ 对于所有业务,应提供磁带备份和恢复机制,保证系统能根据备份策略恢复至指定时间的状态。
◆ 数据备份采用全备份、增量备份或者结合两种方式。
全备份即备份所有文件,它的特点是恢复简单,全备份的缺点是备份时间长,介质浪费;增量备份是只备份新创建或者修改过的文件,它们一般和完整备份结合使用,从而极大的减少了备份时间,节省了备份介质。
一般结合这两种备份形式指定所需要的备份策略。
定期的系统恢复验证
远程容灾备份的目的在于:当业务系统出现故障时,能够及时、准确地恢复。因此,恢复的方式十分重要。
对于电力系统中的服务器,可以通过有如VERITAS Bare Metal Restore(裸机恢复)的功能,简化服务器的恢复过程,以完成系统的快速灾难恢复。
这样,当系统数据完全丢失时,系统管理员通过一个启动命令,就可以进行系统数据的完整恢复,不必进行操作系统重新安装、硬盘重新分区、IP地址重新设置以及备份软件重新安装等复杂操作。
远程容灾备份的定期恢复验证也非常必要。一方面,它可以验证容灾备份数据的可用性,没有经过验证的备份风险非常大,这样就可以发现备份有没有完成或者备份错误等;另一方面,也可以锻炼系统管理员的灾难处理能力,免得在出现故障时无从下手。
笔者建议,电力用户可以再配置一台服务器,安装所有系统涉及的应用软件(数据库、中间件等),专门用来做数据恢复的验证工作。同时,在容灾阵列上也要配置一定的空间,配合恢复操作。
详细的灾难恢复过程
当业务系统发生故障时,依据故障点的不同,有不同的恢复方式。但启动恢复过程有手工和自动两种。
自动恢复看起来是最为理想的解决办法,不需要人为的干预,可以及时地保证系统重新运行。
但是,对于一个重要的应用系统来说,尤其涉及到核心数据库的操作时,情况就变得复杂了,自动恢复有可能就适用。
例如,PKI生产系统发生数据库挂起故障时,正常的Shutdown无法执行,恢复自然无法进行;还有更严重的是数据库的崩溃,在没有验证数据的完整性之前,不能让用户继续使用,否则可能造成更严重的损坏。
笔者建议,恢复过程最好在分析出系统问题的基础上,判断对系统的影响程度之后,采用手工方式进行。
例如,在一般电力二次系统容灾备份系统中,连接到SAN上共用同一存储系统的业务系统(如电力市场和PC Server集群),由于可以实现同步的数据复制,其故障恢复过程如下:
◆ 一台服务器故障,另一台服务器接管应用;
◆ 磁盘阵列故障,手工切换到容灾系统的磁盘阵列;
◆ 数据库崩溃,数据不可用,利用备份磁带恢复。
链接
容灾备份的内涵
容灾备份有多种解决方案,随着系统重要程度的不同而不同。从距离上说,要实现容灾备份,容灾备份中心和生产中心间的距离就不能很近。
例如,15km的距离对雷击、火灾等有一定作用,但对于地震、洪水等自然灾害,容灾备份地点的物理距离还要加大。
目前,容灾备份系统基本可以分为数据容灾备份和应用容灾备份两种。采用哪种方式主要取决于企业对故障停机时间的设计要求,即对灾难发生后系统恢复时间的要求。
如果要求系统恢复时间很短,就要采用应用级的容灾备份,同时也要做好网络链路的冗余,以及与应用的异地接管。如果企业能够容忍较长一点的系统恢复时间,可以采用数据级的容灾备份。
从对数据一致性的要求上来说,容灾备份实现数据传输的方式又可分为同步和异步两种。同步数据复制将严格保持生产系统和备份系统之间数据的同步,灾难发生后,几乎没有数据的丢失,但对容灾备份距离和系统性能会有一定的影响。
异步数据复制将保持生产系统和备份系统之间数据在一定时间点的一致性,灾难发生后,数据有部分的丢失,但对容灾备份距离和系统性能的影响相对于同步要小。
由于传输带宽和响应时间的限制,同步复制选择容灾备份的地点和传输方式也十分重要。
例如,在距离为60km/1Gb的光纤传输条件下,数据库写操作的性能下降大于7倍以上。另一方面,当复制带宽远远小于I/O峰值时,容灾备份端数据滞后会较大。同时,系统的投资也会随着距离的增加而增加。