存储 频道

少花钱多办事 山东移动BOSS建容灾系统

  立足业务 自主创新

  山东移动BOSS系统的核心业务都是构建在EMC公司的设备和软件之上,包括EMC Symmetrix DMX存储阵列、SRDF/快照等。EMC在业务连续性保障方面也具有丰富的经验。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导,山东移动在BOSS应急体系建设中坚持自己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验,进行自主创新,取得了良好的效果。

  山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其它两个机房能够接管全部的业务。

  “多中心业务容灾”的关键在于,根据多年系统维护经验,提出对业务处理进行纵向拆分。业务处理纵向拆分,就是山东移动根据对业务应用的思考,自己做出的决定,目的是将故障对客户的影响减少到最低。这也是实现多中心良好运转的前提。这样,山东移动就将业务处理分布到三个数据中心,每个中心平时均有完整的BOSS系统,承担一个区的业务。当一个系统发生故障时,影响的只是该区域,而且可以切换到别的区域系统上应急处理。相比之下,横向拆分,是指让全省所有用户运行一个系统,例如全省的营业系统、全省的帐务系统,当一个系统发生故障时,会影响到全省。

  这样做也有利于提高应急平台的可用性。当业务处理系统处于“正常状态”时,业务负载均衡,应急系统处理压力不大,业务服务响应速度很快。而当某个数据中心的业务系统处于“应急状态”时,只需要数据中心的相关业务资源进行应急切换即可,可以很快做出应急响应。

  在具体拆分业务处理时,山东移动充分利用厂商资源,参照EMC的业务负载分析工具,对业务处理进行合理的拆分。

  从技术上,“多中心业务容灾”运用了虚拟化技术,将生产资源和容灾资源放在统一的资源池里,在节假日或业务突发时,将容灾资源动态分配给生产应用。这种做法,跟时下的热门话题云计算不谋而合,山东公司的做法也是云计算成功落地的典范案例。

  通过“资源动态管理”对应急管理手段进行创新,根据业务发展量和实际需要分配资源,为业务高峰、业务应急、重大赛事期间提供了临时集中资源保障方案,可瞬间提升系统处理能力,从而支持了应急系统的功效。如遇业务高峰期,或应用软件效率不高、HA接管等突发事件时,可以通过动态调整资源,保证系统运行稳定。例如,2008年12月1日,一台服务器CPU故障,造成系统宕机,营业一区数据库B结点切换至A结点,但由于月初业务量大,营业一区A结点机器压力非常大,通过将该结点所在的其它分区容灾资源动态调整给该机器使用,确保了前台系统的稳定运行。在月底夜间进行帐务处理或生产报表时,也可以将其它分区的资源调剂给帐务系统使用。任务完成后,再返回给原系统。

  通过发挥资源池的规模化效应,大大节省了资源。正常运转时,10%的资源给容灾。如果采用主备方式,需要将50%左右的资源给容灾。横向比较,全国的标准是,每增加一个用户,业务支撑系统的建设投资平均增加20元左右,而山东移动只需要10元左右。

  为关键业务开设“绿色应急通道”,是山东移动的另一项自主创新。BOSS系统的首要任务是服务好客户,提高客户满意度,提高缴费、开机的时效,做到业务影响最小化。山东移动对6个场景的8类业务开辟了绿色应急通道,例如缴费、开机延迟达到30秒时,从业务层面自动打开绿色通道,先为用户开机,系统恢复时再进行标准的流程处理。

  目前,山东移动为BOSS应急体系申请了9项专利。

0
相关文章