存储 频道

告别买票难Rose助铁路局打造高可用平台

  【IT168 案例】在13亿中国人口的大背景下,火车已成为人们在交通方面不可缺少的交通工具,运输业面临着巨大的压力。为了给人们带来方便快捷的交通环境,铁路系统采取提高列车的速度,增加客运列车等等从而来满足大量的旅客的乘车需求。但是,在如今人多车多的情况下,如果再像是从前一样,在单一的地点售票这种传统的铁路票务管理已不能满足乘客及企业的需求。信息管理系统,正逐步深入地应用在铁路票务管理系统中。

  票务管理系统的出现能在很大程度上解决单一地点售票所带来的种种不便,并且能够给想要出行的旅客带来足够的相关信息,使旅客们不必非要到车站的售票处,甚至不用出门就能够知道是否有合适自己出行的车票。

  不过,由于访问量过大等问题而导致的频频瘫痪,却让人难以享受这份足不出户的便利。12306订票网站春运买票难的话题还未退热,今年7月上旬包括合肥在内的长三角多城市铁路售票系统又出现了短时“歇菜”,“系统全线崩溃,取不了票”、“虹桥火车站购票系统瘫痪,堵了好多人”。如此的故障造成损失巨大,如何保证信息系统7*24小时不间断工作,已经成为铁路局关注的焦点问题,这也愈发凸显了高可用性对于信息系统的重要性。

  双机热备为铁路票务管理系统保驾护航

  在对系统连续运营要求较高的系统中,我们通常有RAID、hot spare来保障存储系统以及数据的可用性和安全性,但是仅仅存储系统的安全就足够了么?为了防止服务器应用程序的意外宕机,我们通常还会通过两台服务器冗余,且互为备份共同执行同一任务的架构模式来防止服务器错误的发生。这种架构也就是我们通常所说的双机热备的架构模式。在众多对系统可靠性要求较高的业务环境中,双机热备系统都得到了广泛的应用,并发挥着重要的作用,为企业构筑高可用性系统提供了一种较为安全且成本相对较低的后台环境构架。

  双机系统的基本构成通常包括了2台互为备份的服务器,后台往往公用一台存储系统,两台互为备份的服务器之间一般有心跳线连接,用以监控另一台服务器的运行状态,同时2台服务器上还需要运行双机热备的系统软件。任何导致系统当机或服务中断的故障,都会自动触发双机热备的系统软件流程来进行错误判定、故障隔离,并通过联机恢复来继续执行中断的服务。这样,预先指定的备份服务器将首先接管被中断的服务,并继续提供原有的服务。在这个过程中,用户所感受的只是需要经受一定程度可接受的时延,而能够在最短的时间内继续访问服务。在具有关键业务环境的各行业用户中,交通行业对高可用性的需求尤为突出。

  某省铁路局为保障其铁路票务管理系统的业务持续不间断运营,决定和专业厂商合作来解决这个技术薄弱环节。“广撒网,多捞鱼”不能说是必然,但是在对厂商的选择上却是很好的帮助。经过多番对厂商方案的调研和接触,某省铁路局最后选定和Rose合作,为铁路票务管理系统保驾护航,防止关键业务数据丢失或破坏,依靠容错能力,确保永不停机,从而避免了停机造成的损失。

  通过对该铁路局需求的详细分析,经过细致的产品对比、慎重的方案筛选以及客户现有资源等因素的综合考虑,Rose公司推荐其采用基于共享存储的业务连续性旗舰产品—RoseHA,部署于铁路局各个站点铁路票务管理系统的业务连续性系统工程。

  RoseHA是目前市面上应用非常广泛的一款双机HA软件,它能够与Windows操作平台无缝集成,被广泛用于在X86服务器基础上构架双机热备系统,拥有较大规模的市场基础和使用人群。

  技术方案

告别买票难Rose助铁路局打造高可用平台

  1. 方案总体架构描述

  只需在各个站点的铁路票务管理系统上,分别安装RoseHA搭建基于共享存储的双机高可用系统,无需客户更改现有系统的任何环节。

  2. 具体实现过程

  以某一个票务站点为例作详细说明:

  首先,该站点的一台服务器A作为铁路票务管理系统Oracle数据库服务的主服务器,承担Oracle所有的业务访问工作,另一台服务器B作为铁路票务管理系统Oracle数据库服务的备份服务器。铁路票务管理系统Oracle数据库的所有数据均存放在连接A、B两台服务器的共享磁盘上。

  之后,服务器B作为服务器A的备援服务器,通过心跳线周期的监控主机的运行状态,即当铁路票务管理系统Oracle数据库服务出现任何不可修复的故障或需要脱机维护时,RoseHA自动将铁路票务管理系统Oracle数据库服务切换到服务器B上,继续为客户端提供不间断的服务,确保铁路票务管理系统的持续运营工作。

双机热备 为铁路票务管理系统保驾护航

  在RoseHA的保护下,该省铁路局的铁路票务管理系统实现了业务的连续性运营,铁路票务管理系统Oracle数据库数据是保存在共享磁盘上,保证了两台服务器使用的是同一份数据,不用担心数据的不一致。客户端通过活动IP访问应用服务。主、备服务器通过心跳线周期的监控对方服务器的状态,一旦主机出现故障不能继续为客户端提供应用服务,备份服务器就会自动的接管RoseHA所保护的应用服务,保证铁路票务系统的持续运行。

  3.方案所用产品

  2套RoseHA for Linux

  方案效果

  实现了服务自动监测、自动切换:

  当系统出现故障时(如:系统宕机、服务器硬件故障,应用进程被杀掉、RS-232/存储连线/网络线缆断开),RoseHA将确定由于某种故障而终止的应用,并将这些应用切换到备份服务器上。而故障服务器中未受影响的应用不会被切换,不受任何影响,也不需要系统管理员干预。并且,RoseHA具有两个核心进程,他们互相监控,如果其中一个进程失败,另一个进程会立即进行恢复,防止了因RoseHA自身单点故障而引起切换的发生。

  实现心跳冗余:

  可以将TCP/IP网线和RS-232串口线作为在集群系统上运行的RoseHA的心跳线。配置多条心跳路径可以避免系统的单点故障。两种心跳的类型没有限定,可以同时配置RS-232和网卡作为心跳,也可以单独配置网卡作为心跳,当然也可以配置两个RS-232作为心跳。

  提高网络可靠性:

  如果服务器的网络部分发生故障,会导致客户不能连接和访问到服务器,这同样是致命的故障。RoseHA可以利用服务器配备的冗余网络接口,使用它来恢复网络连接。在没有配备冗余的网络接口,或者所有的网络接口均出现故障时,HA会将该应用切换到另外一台服务器上。切换完成后,客户在短暂的切换过程后能够继续访问所需的服务。

  增强磁盘可靠性:

  RoseHA支持DAS,NAS,SAN的存储架构,然后将应用的共享数据存储在两台服务器都能访问到的共享磁盘中。使用磁盘阵列来存储数据,这样可以避免单点失败,而且便于对系统的容量进行扩充。对由VERITAS VolumeManager管理的磁盘阵列,RoseHA提供了相应的处理程序,以保证磁盘阵列及数据的可靠性。

  提高了应用可靠性:

  在本案中,同时配置了铁路票务管理系统Oracle数据库应用服务,当Oracle数据库应用服务故障时,RoseHA会将该服务转移到备份服务器上,保证业务系统持续运行,从而提高了整个应用的可靠性。.

  友好的管理界面,提高对故障进行监测、报警和恢复:

  RoseHA提供了友好直观的图形安装界面和监控管理界面。通过直观而又方便的管理界面,用户可以交互式地对集群系统进行配置、监控和管理,并可以网络对系统进行远程管理,实时地显示出主机系统及服务的状态。通过GUI管理界面,还可以设定发生故障时预警邮件,通知管理员。如果故障资源恢复正常,GUI界面会自动恢复到正常状态。

  灵活的Active-Active模式和Active-Standby模式:

  RoseHA支持Active-Active模式和Active-Standby模式。用户可指定每台服务器的作用(active or standby),指定要监控的服务和硬件部分,定义指定的服务发生故障后要采取的进一步行动(如是否重新启动该服务、允许的最大启动时间等)。

  通过实施此方案,Rose公司为该铁路局票务管理系统成功部署了新的业务连续性保护策略。利用RoseHA的高效简洁的GUI管理工具,以及对应用程序服务强大的管理监控能力,各站点票务系统实现了业务连续性运营,信息的利用率明显提高,工作效率也大大增强,有效地促进了铁路局的业务发展。

8
相关文章