存储 频道

山东移动BOSS应急体系建设经验和体会

  【IT168 技术】建设IT应急(容灾)系统似乎是一件不讨好的事,花费很多钱只是为了防“万一”,“万一”不出现,大量的投入看起来就浪费了,但是又不得不预防“万一”。最坏的情况是,尽管花了不少钱,但真正出现“万一”的时候,应急系统却没有发挥作用。

  中国移动山东公司(以下简称“山东移动”)历经多年的建设,针对BOSS系统建立了相对完整的应急保障体系。2009年12月,山东移动的BOSS应急体系建设项目荣获中国移动集团“2009年度非常好的应急保障高效奖”。2010年1月,中国计费网(泰力信息)公布“2009中国电信业运营支撑&IT系统年度评选”结果,山东移动在BOSS应急体系建设中实施的云计算应用项目荣获“年度管理创新项目奖”。在此,我介绍一些应急体系建设的经验和体会,跟IT同行们参考。

  “三多一小”的应急体系

  山东移动的BOSS应急体系建设,概括起来就是“三多一小”,即多级冗余,数据为先;多级预案,逐步升级;多级联动,重点保障;实现业务最小化影响。

  多级冗余,数据为先。一是主机和磁盘阵列的冗余配置,主机的电源、内存、磁盘、光纤卡、网卡等都是冗余的,冗余的网卡、光纤卡要确保连接在不同的交换机上。二是机房、空调、电源的冗余,电源要配独立的双UPS和双电源线接入。三是物理传输路由的冗余,冗余光纤传输要来自不同的物理路由。四是数据中心的冗余,三个中心互为灾备,任何一个瘫痪,都可以由另外两个数据中心接管。

  多级预案,逐步升级。一级为业务应急预案,在业务本地运行模式下,系统出现故障时启动,以实现对业务的影响最小或者没有影响。通过业务部署、业务冗余处理模块等多种方式实现。二级为本地接管预案,在单点故障或设备主动维护时,BOSS各个业务系统均实现本地HA(高可用性)接管,关键系统如营业、计费、漫游、接口都实现了自动接管。三级为容灾切换预案,山东移动建设了负荷分担、互为备份的三中心容灾体系,数据库层采用1对2的架构,采用“存储底层同步复制+定时快照复制”技术,防止数据的物理或逻辑错误。四级为备份恢复系统,它提供生产数据快照及磁带备份,日常全备和增量备份均直接通过远程SAN备份到异地中心,用于严重事件的应急恢复工作。从第一级到第四级预案,故障带来的损害程度逐渐增大,处理时间也逐步增长,当然对业务的影响程度也逐渐增大。根据事件发生的性质和影响程度,优先采用影响业务小的预案,并视情况逐步升级应急预案,目的是使事件对业务的影响减少到最低。

  多级联动,重点保障。建立完善的应急管理制度,才可以保证在遇到突发事件时,应急管理组织体系能够有效运转。经过几年的实践,山东移动建立了应急监测预警机制、信息沟通机制、应急决策和协调机制、分级负责与响应机制。理顺了业务与IT部门在应对突发事件中的关系、应急指挥和实施部门的关系、综合应急部门和支持厂商的关系,建立了信息统一、管理对接、资源共享、协同有力的应急管理机制,调动各方面应急管理的积极性。一方面,梳通内部流程,打通省市间、账务中心与其它部门间的通道;另一方面,梳通厂家支持流程,与支持厂商建立合作关系,从而构建了“省-市-合作伙伴”多级联动的应急保障体系。

  不同业务及系统的应急代价是完全不同的,同时带来的应急手段差异也很大,需要以“最小的代价”进行系统的“最快应急”。对开户、缴费、业务变更等关键业务,山东移动自主独立开发了单独的关键业务保障小系统,独立于BOSS系统外,同时和BOSS系统建立自动接口,确保紧急情况下可以启用该系统,进行最关键业务的办理。在系统异常、版本上线、本地接管、容灾切换的过程中,可以启用关键业务保障子系统,进而打造一个关键业务不间断的BOSS系统。

  立足业务 自主创新

  山东移动BOSS系统的核心业务都是构建在EMC公司的设备和软件之上,包括EMC Symmetrix DMX存储阵列、SRDF/快照等。EMC在业务连续性保障方面也具有丰富的经验。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导,山东移动在BOSS应急体系建设中坚持自己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验,进行自主创新,取得了良好的效果。

  山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其它两个机房能够接管全部的业务。

  “多中心业务容灾”的关键在于,根据多年系统维护经验,提出对业务处理进行纵向拆分。业务处理纵向拆分,就是山东移动根据对业务应用的思考,自己做出的决定,目的是将故障对客户的影响减少到最低。这也是实现多中心良好运转的前提。这样,山东移动就将业务处理分布到三个数据中心,每个中心平时均有完整的BOSS系统,承担一个区的业务。当一个系统发生故障时,影响的只是该区域,而且可以切换到别的区域系统上应急处理。相比之下,横向拆分,是指让全省所有用户运行一个系统,例如全省的营业系统、全省的帐务系统,当一个系统发生故障时,会影响到全省。

  这样做也有利于提高应急平台的可用性。当业务处理系统处于“正常状态”时,业务负载均衡,应急系统处理压力不大,业务服务响应速度很快。而当某个数据中心的业务系统处于“应急状态”时,只需要数据中心的相关业务资源进行应急切换即可,可以很快做出应急响应。

  在具体拆分业务处理时,山东移动充分利用厂商资源,参照EMC的业务负载分析工具,对业务处理进行合理的拆分。

  从技术上,“多中心业务容灾”运用了虚拟化技术,将生产资源和容灾资源放在统一的资源池里,在节假日或业务突发时,将容灾资源动态分配给生产应用。这种做法,跟时下的热门话题云计算不谋而合,山东公司的做法也是云计算成功落地的典范案例。

  通过“资源动态管理”对应急管理手段进行创新,根据业务发展量和实际需要分配资源,为业务高峰、业务应急、重大赛事期间提供了临时集中资源保障方案,可瞬间提升系统处理能力,从而支持了应急系统的功效。如遇业务高峰期,或应用软件效率不高、HA接管等突发事件时,可以通过动态调整资源,保证系统运行稳定。例如,2008年12月1日,一台服务器CPU故障,造成系统宕机,营业一区数据库B结点切换至A结点,但由于月初业务量大,营业一区A结点机器压力非常大,通过将该结点所在的其它分区容灾资源动态调整给该机器使用,确保了前台系统的稳定运行。在月底夜间进行帐务处理或生产报表时,也可以将其它分区的资源调剂给帐务系统使用。任务完成后,再返回给原系统。

  通过发挥资源池的规模化效应,大大节省了资源。正常运转时,10%的资源给容灾。如果采用主备方式,需要将50%左右的资源给容灾。横向比较,全国的标准是,每增加一个用户,业务支撑系统的建设投资平均增加20元左右,而山东移动只需要10元左右。

  为关键业务开设“绿色应急通道”,是山东移动的另一项自主创新。BOSS系统的首要任务是服务好客户,提高客户满意度,提高缴费、开机的时效,做到业务影响最小化。山东移动对6个场景的8类业务开辟了绿色应急通道,例如缴费、开机延迟达到30秒时,从业务层面自动打开绿色通道,先为用户开机,系统恢复时再进行标准的流程处理。

  目前,山东移动为BOSS应急体系申请了9项专利。

  “功夫在诗外”

  山东公司领导对业务支撑系统的高度重视,是BOSS应急系统得以加强的动力和保障。公司领导要求BOSS系统使用最好的设备,所有的关键环节都要求有备份设备。通过加大系统的投入来保证系统运行的可靠性和稳定性,这也是实现公司“以客户为中心”服务理念有力保障。

  最后要强调的一点是,应急体系的建设不应该是狭义的。“功夫在诗外”,要强身健体,才能少生病,这也与中医的“上医治未病”理论一脉相承。建立完善的系统,不出问题,少出问题,让应急系统很少启用,才是应急体系的根本。例如,山东移动的话单查询系统和计费系统是分开的。我们这样有利于减轻系统的负荷,让计费系统轻装前进,保证缴费、开机的时效,这也属于应急体系的考虑范畴。山东移动还在BOSS系统上部署了EMC企业级闪盘,提高客户资料的读取速度,从而提高了整体系统的处理能力,这也属于应急体系的考虑范畴。

  此外,应急体系的演练也非常重要。山东移动每个季度都要进行一次演练。山东移动制定了6类应急场景,针对可实施场景进行了演练。每次演练都有大的收获。演练分为多个级别,小的方面,比如,关掉一个交换机,检查是否两个网卡在同一交换机,关掉一个UPS,关掉一个HA节点等;大的方面,比如把整个机房某个业务停掉,通过演练不断优化。在演练中发现,通过容灾导航软件进行系统导航,可以提高应急响应速度及处理准确性。

  山东移动应急体系正式建设以来,BOSS系统退服时间指标逐月下降,客户投诉率指标下降明显,BOSS系统客服满意度指标上升明显,话费信息获取速度、缴费成功率、开机速度都大大提高,营业厅很少遇到故障,应急系统的贡献明显。根据业务部门内部评价、集团考核和外部客户满意度调查的结果,山东移动BOSS系统的满意度处于全国前几名的位置。系统每天的计划外退服时长缩短了几十倍,应急系统建设之前,每年的退服时长在几百分钟,现在,每年的退服时间达到100分钟以内,用户端几乎感受不到系统停顿。每万用户的支撑类投诉比从0.4下降到0.05左右。缴费开机的速度也大大加快,由原来的几分钟达到目前的平均几秒数量级。

0
相关文章