存储 频道

少花钱多办事 山东移动BOSS建容灾系统

  【IT168 专稿】建设IT应急(容灾)系统似乎是一件不讨好的事,花费很多钱只是为了防“万一”,“万一”不出现,大量的投入看起来就浪费了,但是又不得不预防“万一”。最坏的情况是,尽管花了不少钱,但真正出现“万一”的时候,应急系统却没有发挥作用。

  中国移动山东公司(以下简称“山东移动”)历经多年的建设,针对BOSS系统建立了相对完整的应急保障体系。2009年12月,山东移动的BOSS应急体系建设项目荣获中国移动集团“2009年度非常好的应急保障高效奖”。2010年1月,中国计费网(泰力信息)公布“2009中国电信业运营支撑&IT系统年度评选”结果,山东移动在BOSS应急体系建设中实施的云计算应用项目荣获“年度管理创新项目奖”。在此,我介绍一些应急体系建设的经验和体会,跟IT同行们参考。

  “三多一小”的应急体系

  山东移动的BOSS应急体系建设,概括起来就是“三多一小”,即多级冗余,数据为先;多级预案,逐步升级;多级联动,重点保障;实现业务最小化影响。

  多级冗余,数据为先。一是主机和磁盘阵列的冗余配置,主机的电源、内存、磁盘、光纤卡、网卡等都是冗余的,冗余的网卡、光纤卡要确保连接在不同的交换机上。二是机房、空调、电源的冗余,电源要配独立的双UPS和双电源线接入。三是物理传输路由的冗余,冗余光纤传输要来自不同的物理路由。四是数据中心的冗余,三个中心互为灾备,任何一个瘫痪,都可以由另外两个数据中心接管。

  多级预案,逐步升级。一级为业务应急预案,在业务本地运行模式下,系统出现故障时启动,以实现对业务的影响最小或者没有影响。通过业务部署、业务冗余处理模块等多种方式实现。二级为本地接管预案,在单点故障或设备主动维护时,BOSS各个业务系统均实现本地HA(高可用性)接管,关键系统如营业、计费、漫游、接口都实现了自动接管。三级为容灾切换预案,山东移动建设了负荷分担、互为备份的三中心容灾体系,数据库层采用1对2的架构,采用“存储底层同步复制+定时快照复制”技术,防止数据的物理或逻辑错误。

  四级为备份恢复系统,它提供生产数据快照及磁带备份,日常全备和增量备份均直接通过远程SAN备份到异地中心,用于严重事件的应急恢复工作。从第一级到第四级预案,故障带来的损害程度逐渐增大,处理时间也逐步增长,当然对业务的影响程度也逐渐增大。根据事件发生的性质和影响程度,优先采用影响业务小的预案,并视情况逐步升级应急预案,目的是使事件对业务的影响减少到最低。

  多级联动,重点保障。建立完善的应急管理制度,才可以保证在遇到突发事件时,应急管理组织体系能够有效运转。经过几年的实践,山东移动建立了应急监测预警机制、信息沟通机制、应急决策和协调机制、分级负责与响应机制。理顺了业务与IT部门在应对突发事件中的关系、应急指挥和实施部门的关系、综合应急部门和支持厂商的关系,建立了信息统一、管理对接、资源共享、协同有力的应急管理机制,调动各方面应急管理的积极性。一方面,梳通内部流程,打通省市间、账务中心与其它部门间的通道;另一方面,梳通厂家支持流程,与支持厂商建立合作关系,从而构建了“省-市-合作伙伴”多级联动的应急保障体系。

  不同业务及系统的应急代价是完全不同的,同时带来的应急手段差异也很大,需要以“最小的代价”进行系统的“最快应急”。对开户、缴费、业务变更等关键业务,山东移动自主独立开发了单独的关键业务保障小系统,独立于BOSS系统外,同时和BOSS系统建立自动接口,确保紧急情况下可以启用该系统,进行最关键业务的办理。在系统异常、版本上线、本地接管、容灾切换的过程中,可以启用关键业务保障子系统,进而打造一个关键业务不间断的BOSS系统。

0
相关文章