存储 频道

用户观点:浅谈医院信息系统的灾备设计与应用

【IT168 资讯】随着时间的推移,医院信息系统已经成为医院的基本设施,HIS、LIS、RIS以及PACS等众多内容丰富、功能强大的应用软件,逐渐成为医院信息技术的核心。这些应用系统中的数据越来越多,数据价值也越来越大,数据丢失或系统停机造成的损失是用户不能接受的。如何有效保障及构架最有效率的医院信息系统体系,实现高效、面向发展、各系统紧密配合的一体化医疗信息系统,医院信息系统的容灾设计和建设成为各医院信息中心主管人员所关注的重中之重。

医院信息系统是一个数据量大、数据类型复杂和事务并发多的实时系统,由于医院业务的特殊性,任何人为或自然因素所导致的应用或中断,都会造成医院巨大的经济和声誉损失。因此,医院对IT系统的持续稳定,即业务持续性和系统稳定性提出了非常苛刻的要求。

在目前已经上线的医院IT环境中,绝大多数医院都采用了群集技术(即通常说的双机热备份)来保证服务的持续运行,或都在用户可以容忍的时间之内自动进行恢复。但是,随着集群技术的普及运用,它自身明显的不足也渐渐暴露出来。

1) 由于传统的群集解决方案多采用的是‘2+1'的模式,即两台服务器连接一台磁盘阵列。这种结构是为了在两台服务器之间共享数据。但是,单台磁盘阵列往往成了核心系统的一个单点故障,一旦磁盘阵列发生故障,则整个系统将发生停机,对于7X24小时营业的医院来说,这种意外停机是绝对无法忍受的。

2) 很多用户往往有一种不正确的认识,既然系统已经是双机热备份了,那么数据就不需要再备份了。这种认知使很多用户忽视了数据备份的重要性,结果整个系统的数据只有磁盘阵列中一个拷贝,等到磁盘阵列发生故障或人为的误操作导致数据丢失时,则后悔莫及。有些用户或许也做了额外的磁带备份,但是从磁带中恢复数据所需要的时间,则实在是不敢恭维,而且磁带备份有可能导致的当日数据根本不能恢复又使得实际上可行的信息系统保护技术应该是一种实时备份技术。因此可以说,传统的双机技术,传统的磁带备份技术都不是解决医院IT环境实时保护和抗击灾难的灵丹妙药。

3) 虽然容灾的话题已经提了多次,但由于购置成本及复杂性等种种原因,目前大多数国内的医院在建设IT系统时并没有过多的考虑。

那么针对目前医院信息系统的普遍现状和业务需求,要进行灾难恢复系统的设计我们应该主要考虑哪些因素呢?

容灾技术实现是一个灾备系统建立的最为重要的考虑因素之一,这一因素的考虑是否完善,甚至于决定了灾备系统的成败。因此,我们可以看到许多企业在下达了灾备系统建设任务之后,迟迟无法在技术方案的论证环节上达到统一,换句话说,就是无法找到一个完美的技术路线来全面满足其业务需求。

下面就以天津医科大学第二医院的灾备系统建设为例,主要介绍一下在我们在容灾系统设计及搭建过程中的一些经验与认识。

天津医科大学第二医院在部署灾备系统之前,采用的就是上面说的‘2+1'的模式将包括HIS、LIS及电子病例系统的全部数据保存在磁盘阵列中,这种传统的备份方式一直以来也基本上保证了我们医院的业务运行。但是,一次意外的磁盘阵列损坏,而造成的整个数据库瘫痪,着实给我们上了惨痛的一课,我们感到,传统的备份技术已经完全不能适应业务系统安全的要求,应该从迅猛发展的新一代存储技术和信息保护技术中来寻找答案。因此,容灾系统的搭建迫在眉捷。

在构建容灾备份系统时,我们首先考虑的是远程数据保护的机制,即结合我们的实际情况选择合理的数据复制技术。容灾系统的技术和工程可行性而言,选择合理的数据复制技术时主要考虑了以下因素:

(1)所防范的灾难范围

也就是明确计算机系统需要承受的灾难类型,系统故障、通信故障、长时间断电、火灾及地震等各种意外情况所采取的备份、保护方案不尽相同。根据政府行业的特点和国际上相关机构的调查,硬件故障、人为错误、软件错误居信息系统故障发生概率的前三位,自然灾害等属于小概率事件,但由于破坏力大,也是灾备系统必须防范的重要内容,危机管理和响应的重要考虑因素。从宏观上看,现在人们经常将灾难分为自然灾难和渐进性灾难(如人为的失误型故障、黑客攻击、断点等),容灾实现的技术保护手段在抗击这两类灾难时一般是有所区别的。传统的容灾手段一般重点集中在了大型站点类灾难的恢复能力上(主要指自然和电力等灾难),防范软件和人为错误的(如各类失误的恢复上)能力一般不具有,因此这类容灾系统并不具有涵盖全系列灾难防范的内容。新一代的CDP(连续数据保护)的容灾技术就加入了全面的灾难防御体系,而且将自然灾害、人的灾难等等要素都予以了相当全面的考虑。

(2)容灾系统对医院现有业务的影响程度

天津医科大学第二医院现有门户系统均为24小时在线的生产系统,在线系统的状况也可能略有不同,灾备系统的建设应首先不修改现有生产系统的结构(否则会可能产生对现有系统状态的破坏和增加不稳定因素,导致今后生产系统维护增加极大的难度),其次,容灾系统的实施应采取最为简易和快捷的方式,工程上应具有可操作性、周期的可控性,实施周期要短,这样才能最大限度地减小对原有在线系统的影响,提高容灾系统建设的成功率。

(3)灾难发生的业务停顿的容忍时间指标

必须明确当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,也就是定义用户对于计算机系统发生故障的最大容忍时间。这是设计容灾备份方案的重要技术指标。

(4)数据保护程度

是否要求数据库可以恢复所有提交的交易并且要求实时同步数据也就是数据的连续性和一致性,决定了容灾备份方案规模和复杂程度的重要依据。

(5)技术的维护难度

由于长期以来,容灾技术的复杂性和高成本性,使得大量的容灾系统建设都呈现出维护难度大、传输故障的防范能力低、灾备演习难度大的特征。因此,选择的容灾技术应考虑到技术实现和管理的友好性和简易性,灾备中心管理人员的本地可自行维护能力是一个重要的因素,这是故障快速响应和处理的一个基础,这样才能使得多极的维护体系更为有效率、处理故障的能力更为强大。

(6)最为容易忽略的一点,容灾的技术手段是否适合于现有的所有参与系统,能否面向今后可能加入的其他业务系统。

这一点,成为目前容灾体系技术路线的讨论中最为困扰的一个因素。混合系统容灾、开放设备的选择常常使得用户的理想与技术现实产生鸿沟。如果能够在本次建立容灾系统时,采用面向未来的技术,这样就可以形成一次构建,长期受益的良好架构,而且今后的系统改造成本将会十分轻微,达到为全系统服务的长期目标。

经过对多个市场上最为热门的灾难恢复解决方案及CDP数据保护技术的认真分析与对比,我们发现,尽管目前市场上声称具备CDP这一先进技术公司很多,其中也不乏众多知名企业,但是,我们最终还是选择了当今国际上最为流行的也是非常先进的飞康公司持续数据保护(CDP)技术来实现我们第一期的当前门诊楼网络中心的本地容灾建设,及与在建的门急诊综合楼之间的未来异地灾难互援系统,因为只有这种CDP解决方案才能完全满足我们的需求,为我们解决切实的难题。

0
相关文章