存储 频道

访万国数据张权:业务连续性不仅是BCM

  【IT168 专稿】随着云计算、大数据等概念的深入人心,将分散的数据进行集中管理已经成为时代潮流。数据大集中后的优点显而易见,可以进行统一管理、将资源统一分配,以此提高资源利用率,更重要的是便于数据分析,以发现更好的商机。但万物有其利必有其弊,大集中之后也带来了风险的集中,数据安全的威胁日益凸显,在整合的大型数据中心中,硬件故障、人为误操作的影响范围大大增加,面向灾难事件的风险也极具攀升,一旦出现风险事件,造成的危害范围也更加扩大了,局限在一地的故障,也会衍变成全国性的事故。那么,如何保证IT系统的万无一失?

  业务连续性管理(简称:BCM)的话题并不新鲜,目前国内金融等敏感行业已经率先意识到灾备与业务连续性的重要性,BCM也已经逐步落地生根,并且国家也出台了相关的强制性法规进行指导。而随着云计算时代的来临,企业该如何保障数据大集中之后的业务连续性呢?在今年7月,万国数据推出了IT高可用性管理服务的方法论体系,这一体系如何保证云时代下的企业业务连续性呢?为此,IT168记者采访了万国数据副总裁、专业服务部总经理张权副总裁先生以及万国数据副总裁、云事业部总经理孙岗先生。

业务连续性不能仅仅依靠BCM
万国数据副总裁、专业服务部总经理张权先生(右)以及万国数据副总裁、云事业部总经理孙岗先生(左)

  业务连续性不能仅仅依靠BCM

  说起业务连续性,可能大多数人都会想起BCM(业务连续性管理),目前我国已经在金融行业强制性执行相关法规。但BCM更多强调的是如何面对小概率高风险事件,如飓风、地震、海啸等大自然造成的大范围灾难性事件,当然也包括诸如美国的911恐怖袭击事件。张权副总裁认为,BCM着重点在于灾后恢复,即强调的是事后处理,也就是如何在系统或数据中心被毁坏之后,迅速启用备用系统或数据中心进行业务恢复,以此来保证业务的持续运行。但随着IT在企业经营中扮演的角色越来越重要,事后的处理已经不能满足客户对IT的可用性要求,万国数据提出的IT高可用性管理体系则是一整套主动式预防IT系统故障的方法论体系,它所强调的是在事故发生前尽可能地降低事故发生的诱因,以达成整体的高可用性。谈到高可用这个概念,可能很多业内人士都觉得很熟悉。不过,张权副总裁认为,业内经常提到的高可用和万国数据所谈的有一定区别。大家过去谈到的高可用概念是狭义的技术层面的高可用,比如服务器的双机热备高可用技术、存储的镜像、冗余等提升可用性的技术,这些高可用主要是通过冗余等技术手段提升设备的可用性,而万国数据提出的高可用则是为了解决IT系统的高可用性目标而建立的“一套方法论体系,以达成企业业务要求的IT系统的可靠性与稳定性为管理目标,通过对可用性关键要素如基础设施、IT系统架构、灾难恢复、安全、运维管理、人员等众多因素的综合管理,并且利用量化指标体系不断持续改进,以达成可用性目标。前面谈到的狭义的高可用是这个方法论体系中的一部分,涵盖在IT架构要素之中”

  那么IT高可用性指标是如何衡量的呢?张权副总裁解释说,在企业业务要求的给定时段内,IT系统实际正常运行时间除以业务要求的IT系统必须保持在线的时间所得到的百分比,就是IT系统的可用性指标。张权副总裁进一步解释说,这个可用性指标作为IT服务的SLA要求,从用户角度是很容易测量出来的,但是要想达到一个高可用性的指标,比如大家常谈的4个9的高可用性,即99.99%,却是个具有相当挑战难度的目标,因为这意味着一年的停机时间仅有52分钟,而很多复杂系统宕机后重新启动的时间可能都不止这个时长。为了达成这样一个目标,仅仅从用户端进行测量是远远不够的。我们需要将影响这个指标的关键要素分别进行主动式管理,并且把这种管理通过量化指标体系纳入到一个不断持续改进的循环中,才有可能在实际操作中达成。

  造成IT系统不可用性的原因有多种,据Gartner一份调查数据显示,在造成系统停机的因素之中,比例最高的是硬件故障,占33%;其次是软件故障,占21%;再次是人为误操作,占12%;而环境因素包含灾难性事件仅占11%。其中,灾难性事件的占比很小,但一旦发生,造成的危害却最大,这种事件尤其是自然性灾难事件如飓风、地震等只能被动应对,这是DRP与BCM管理的范畴,而其他几个因素对日常的可用性影响也非常大,我们可以通过多种方式在事前进行预防,降低这些事件发生的概率,这也是GDS提出IT高可用性管理的一个目的,即整合主动式预防与被动式应对为一体,以提升IT整体的可用性。

${PageNumber}

  IT高可用管理体系如何强化业务连续性的实现

  业务连续性的实质在于减少IT系统中断时间,保障业务持续运行。我们常说的BCM(业务连续性管理)主要关注的是灾难事件发生后的快速恢复,其中灾备系统的日常运维以及技术与业务恢复预案是恢复工作中的重点环节。万国数据推出的IT高可用管理体系通过对日常运维的量化指标考核以及标准化、体系化的运维管理,从生产系统角度降低了可能发生故障的概率,而从灾备角度则大大提升了灾备系统的可用性。通过多角度多因素的控制,达到预防停机、减少停机时间,并且在一旦发生灾难事件时,可以快速切换的目的。

  IT高可用管理体系是一套方法论,那么其如何与实践相结合呢?张权副总裁举了一个简单的例子来体现标准化及量化管理对运维体系包括灾备运维体系的改善提升。在目前的数据中心中,监控体系是运维管理的核心体系,但是传统的巡检操作依然是数据中心保证可用性的一个重要手段。在一般的做法中,数据中心操作人员进行巡检的时候,往往是在数据中心内“走”一圈,看看设备情况、温湿度等机房情况,即使有严格的操作流程,这个过程的随机性还是比较强的。但依据万国数据的实践,巡检的动作非常标准化得以提升运维的质量,从而改善可用性。比如,通常数据中心内都采用的是42U高的机柜,IT设备的摆放也会有高有低,用户的某些重要设备有可能放置在比较接近地面的位置,那么在巡检的时候非常容易疏忽。而根据万国数据的标准化要求,操作人员巡检的动作有严格的规定,需要弯腰查看的,腰弯到什么角度,甚至针对机柜底部的重要设备,如何单膝跪地及头部动作都有要求,而这些动作都将由数据中心内安装的监控探头进行记录,而且每次巡检会有pad系统记录巡检的时间及间隔,巡检中发现的事件,定期会有统计分析报告,针对规律性的事件,会纳入问题处理流程,必须要找出根源,做到防患未然。

  在IT高可用性管理中,技术手段也是非常重要的组成部分。张权副总裁说:“本身就狭义的技术来讲,高可用性的存储、高可用性的服务器、以及本地服务器HA等等已经是很成熟的东西。但是技术的发展变化也非常快,有很多新的概念和技术出现。对于客户来讲,需要跟上技术的变化,并且采用成熟的技术来提升系统的可用性。在灾难备份与恢复行业,这两年也有很大的变化和发展。从技术架构上,过去的两地三中心方案中,同城双中心基本上是一主一备模式,灾备中心的资源在日常情况下处于闲置状态。但随着客户应用架构的改变,以及虚拟化等IT技术的发展,双中心同时运行生产系统而又互为备份的模式开始得到了应用。但是选择什么样的产品和技术,如何搭建系统架构,需要实际的经验才能避免实施及运营的风险。但更关键的问题是,两个生产中心同时运营,日常运维操作如何才能可靠地管理,在这种模式下如何进行切换操作?相关的运维制度是什么,如何配备人力资源,技能要求是什么,如何建立合理的KPI体系?这又涉及到了流程和管理的问题,非常复杂。”

  “我们可以看到,可用性管理涉及多种要素,如果片面地追求可用性,成本会非常高。对于很多企业来说,可能难以负担。因此,在高可用性管理中,如何设立适合企业业务需求的可用性目标是一件非常重要的工作。在我们的方法论中,设计了根据不同行业不同用户如何设立适合自己的可用性目标的方法,并且我们也在探索不同行业的非常好的实践经验。”

  这些做法都是通过万国数据多年的数据中心运营经验积累而总结出来的,张权副总裁在谈到IT高可用管理体系时说。数据中心以及IT基础架构的可用性管理中还存在人为主观因素的影响,为了从机制上完善制度,万国数据还建立了强力的审计制度,分别通过内审以及专业公司的外审,保证体系运行的质量。IT高可用管理体系是一个方法论体系,从可用性指标来讲,仅是一个简单的数字,但由于导致不可用事件的因素非常复杂,必须通过技术手段以及管理措施,通过一整套的体系化方法,主动预防,快速反应,,才有可能达到业务要求的高可用指标。

${PageNumber}

  IT高可用管理体系对于中小企业的作用

  尽管万国数据IT高可用管理体系起源于金融企业及大中型客户,但同样适用于中小型企业。中小型企业因为成本以及技术积淀方面的因素,在数据中心基础设施以及专业技术人才方面、甚至IT系统架构方面有很多天然的缺陷,但IT技术越来越渗透到各种企业中,很多中小企业的业务也严重依赖于IT系统。对于这些企业来说,一方面可以参照万国数据的高可用性管理体系,建立自己的高可用性IT指标从而达成业务要求的可用性;另一方面还可以利用近年来流行的IT外包服务。谈到这一点,万国数据孙岗副总裁说:“万国数据提供了多种IT管理服务产品包,通过内建的高可用性管理体系,提供适合这些企业的服务。比如,万国数据的管理外包服务,将整合的高等级数据中心以及标准化的管理运维服务提供给客户,客户只要通过SLA来要求相应的可用性级别即可达成自己的可用性要求。对于需要灾难备份的用户,万国数据还提供了云备份服务,通过将用户的数据甚至整个数据中心架构进行云备份,一旦发生停机,用户则可迅速启动由万国数据提供的虚拟备用数据中心,便捷完成生产重建,以此保证业务连续性。”

0
相关文章