存储 频道

数据迁移技术及应用

您一定看过病吧?也许您不知道,当您病好了之后,您的病历还会完好无损地在医院里存放大约30~50年。据了解,就北京而言,目前几乎所有的医院都把这些病历以纸介质方式存放在病历室中,因为是手工操作,病厉量巨大,每调用一次,要花几十分钟。现在,有一种能让您快速查找病历又无须投入大量资金实施的存储技术开始走俏,它就是数据迁移技术。
 
耗人力、占空间、费时间,是传统医疗资料保管系统比较突出的弊端,除此之外,它还有一个最突出的问题,就是管理成本高。以北京为例,医院平均每年支出12万元用于病例保管,30~50年就是360万~600万元,这是一笔非常巨大的支出。有没有比较经济、简单又高效的解决办法呢?有,那就是将数据电子化,存储到相应设备中。
 
现代医院大多实现了计算机联网,网络中一般包含服务器和磁盘阵列(简称盘阵)。病历可以通过录入或照像先转为数字信息,再通过主机,存储于盘阵中。当调用某病历时,几乎是随调即到。如果以10tb的容量计算,购买盘阵需要150万~250万元。不过,如果未来数据进一步增长,还得涉及扩容问题。盘阵的扩容和维护比较复杂。而且80%以上的病历是不常被调用的,把它们长期放在盘阵上显然占用大量存储空间,也提升了单位盘片存储数据的成本。人们开始思考能否使用一种更为廉价的设备代替盘阵保存病历,而且又不至于降低调用速度。于是,数据迁移技术应运而生。
 
数据“搬家”
 
数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在带库、盘库等离线介质上,只在盘阵上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动的把这些数据回迁到盘阵中;同样,盘阵中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。
现在,许多医院可能没有磁带设备和盘库,如果要采用数据迁移技术,需要购置这些存储产品,最重要的还要购置数据迁移管理软件。这样,病历可以通过录入或照像先转为数字信息,再通过主机,存储于盘阵或带库和光盘库中。在管理软件的管理下,它会把三天两头到医院看病患者的病历信息保存在盘阵上,而把几个月或1~2年甚至更多时间才到医院看一次病的患者的病历保存在成本低的带库或盘库中。由于建立了这套存储管理系统,病人看病查询病历资料的速度大为提高。无论是常见病人还是罕见病人,查询病历几乎是即时的。不光快,还省钱呢。
 
我们再来算一笔账: 以10tb存储容量为例,如果购买一台相当容量的带库大约100万元,若是盘库,大约75万元,加上数据迁移软件(如legato公司的diskxtender)9万元,总投资成本是84万~109万元。虽然第一次投资比较大,但是可以用30~50年或更多的时间,比起人工管理的成本,花费只是其1/7~1/3。此外,如果与单纯用盘阵保管病历的存储方式比较,花费也是低的,数据迁移方式大概只占其总投入的1/3~1/2。
 
数据迁移与存储方式的联系

 
在这里,我们有必要解释一下数据迁移技术与san、das及nas技术的关系。数据迁移技术可以利用san、das和nas完成数据的迁移工作,san、das和nas本身不具备迁移功能,只是这些系统的末端挂接的带库、盘库可以承载被迁移的数据而已。特别地,nas设备中的数据可被迁移到带库等备份设备中,或从它们中迁出,它自己不可直连备份设备。
 
迁移的内幕
 
那么,数据怎样实现迁移呢?从原理上来讲,首先,文件先由数据迁移系统选择,再被拷贝到hsm介质上。当文件被正确拷贝后,一个和原文件相同名字的标志文件被创建,但它只占用比原文件小得多的磁盘空间。以后,当用户访问这个标志文件时,hsm系统能将原始文件从正确的介质上恢复过来。所有这些工作需要一定的策略来管理实施。
 
hsm软件提供多种数据迁移策略,目前主要通过高水位、低水位及清除位来设置符合存储原则的标识。当数据达到高水位时,hsm软件会将数据迁移至二级存储设备中或三级存储设备中,直至底水位才停止,然后,将在一级存储设备中的存储空间释放出来。另外,用户也可以自己建立相应地数据迁移策略,比如按文件访问的时间、大小等原则。
 
hsm软件都带有介质管理功能,通过此模块hsm软件可对磁带库、光盘库进行管理,从而实现数据的多层复制功能。同样它还提供自动的安排数据迁移时间,灵活方便的控制数据迁移日程。
 
“庐山真面目”
 
虽然实现数据迁移的原理较为复杂,但该系统组织结构非常简单。它由2部分组成,一个是管理数据迁移过程的管理服务器,一个是存储被迁移数据的存储系统。
 
管理服务器 主要服务于存储网络的数据迁移工作,它就像存储网络中的管理员,一旦发现数据达到规则设定的标准,便将数据从一级存储设备(盘阵)向下一级存储设备(盘库和带库)复制,并且释放出一级存储设备的存储空间。此外,它还负责制定所有数据的迁移策略,并驱动和管理带库等二级存储设备。
 
管理服务器通过安装hsm软件行使服务职能。目前比较知名和流行的hsm管理软件有legato diskxtender和veritas netbackup 。像legato diskxtender,可在unix/linux平台上根据用户创建的适合企业运营所需的文件管理规则,自动将不常用的数据迁移到较廉价的存储设备上,用户不受介质和设备类型及数据存储位置的限制,能够直接、透明的访问被保存的数据,并通过灾难恢复管理器组件在异地保存、管理和访问数据。
 
veritas storage migrator在功能和管理形式上与legato diskxtender有相似之处,也存在些差别: legato diskxtender支持的介质比较丰富,它允许数据被迁移到带机、带库、盘库、worm介质、dvd和cd盘片等,并且在windows平台和unix平台为独立的产品线结构,对于介质的管理完全由该软件自身提供,支持hp-ux/solaris/tru64/irix/linux/windows 2000/xp等多种操作系统,而veritas storage migrator 在进行数据迁移时需要其备份产品netbackup的帮助,支持在操作系统平台支持上目前还没有diskxtender丰富,但是在其自身的文件系统vxfs的支持上结合比较紧密;在数据库迁移方面,veritas storage migrator没有提供解决方案,而legato diskxtender支持oracle数据库,未来还将支持其他数据库的迁移;特别是在邮件服务方面,legato专门设计了emailxtender,它可自动将数据从邮件服务器迁移到存储系统,索引所有收发的电子邮件。
 
除了这两家第三方存储管理软件提供商外,一些存储设备提供商也设计了相应的数据迁移解决方案。像stk公司的 asm,它将磁盘缓存仿真成虚拟的带机和磁带介质,通过将磁带数据组写入一个磁盘缓冲器,加速数据写和读的速度。当数据被写入真正的单盘物理磁带时,asm将数据组顺序存入介质中,使得单盘磁带100%的容量都被使用起来。
 
存储系统 存储系统可以是san系统,也可以是das系统等。无论哪种系统,被迁移的数据最终存放在该系统的离线存储设备上。这些设备并不需要提供实时的存储服务,只在某一时刻的应用提出要求时才涉及,这种设备所保存的数据可进行离线管理。


适用行业
 
虽说数据迁移是个挺不错的技术,从某种意义上讲,它的应用范围还是比较有限的,不是所有的应用都有必要采用这项技术。只有当企业拥有超大容量的历史数据,或者需要保存的数据远远大于在线数据量、又具有需要时能较快速调出信息的特点,才选择数据迁移技术。那么,都有哪些典型行业适合采用这种技术呢?
 
医疗行业 正如我们开篇介绍的,医疗病历的保存是数据迁移技术的一个典型应用。
 
保险行业 保险公司每个保险项目都拥有众多受保人,其个人属性、投保款项、时间和金额等都是保险公司保存备案的重要信息,一旦突发事故,这些数据要随时调出以备核算赔偿细则。所以,保险公司非常有必要将投保人的相关数据保存下来,以便即时调用、查询。数据迁移是降低投资成本又不影响数据调用速度的较好选择。
 
专利行业 在信息技术快速发展的今天,专利技术也是层出不穷,在全国范围内,每天都有若干项专利产生,算上过去的老专利,形成一个规模庞大的数据空间。如果把它们单纯备份到带库中,将不利于急需时的快速调用,而数据迁移技术正好可以解决这个问题。
 
气象行业 历史气象资料是现代气象研究中非常宝贵的气象分析资源,虽然这些数据不常用,但会不定期地涉及。气象行业的用户可利用数据迁移技术将这些数据存放到便宜的备份设备中,同时保证研究人员随时查到所需信息。
 
电视行业 人们经常能在电视节目中看到一些历史资料,这些资料连同之后产生的各种历史事件的记录都被存放在存储系统中,一旦新节目需要,就要被调出剪辑。为了节目的快速制作,最好采用数据迁移技术完成对历史资料的保存。
 
电信行业 在电信营业厅,每天都产生成千上万的话单,时间一长,都成为历史数据需要保存起来,因为用户可能会随时查询。
 
澄清事实
 
数据迁移自问世以来,常常同备份混淆起来。备份是把在线数据保存为离线数据的一种数据保护方式,备份的对象是文件系统。当需要调到主机中时,需要运用数据恢复技术,恢复的时间极长,还需要人工干预。迁移则不同,它不仅可以把在线数据保存为离线数据,还把离线数据模拟成在线数据,也就是说,从用户角度看,数据“一直”在线,调用磁带设备上的数据只需2分钟,而且调用是全自动的。另外,迁移技术保存的是文件而不是整个文件系统,对磁盘和磁带数据的更新也是随时随地的。在投资上,也有差别,后者需要在前者基础之上购买迁移管理软件。
 
由此可见,数据迁移更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为it厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。所谓近线存储,是利用盘阵对数据的快速存储速度和成本大幅下降的优势,模拟带机、带库的海量存储空间,以满足用户对数据快速备份的需要。同是为降低用户投入成本,它与数据迁移还是有差异的。近线存储用磁盘备份数据,只有在长期不用的情况下才转到磁带设备上; 而数据迁移用磁带备份数据。
 
遥看未来

 
与其他存储技术相比,数据迁移属精密度高、复杂度大、专业性强的技术。尤其在利用带库模拟在线调用时,因为必须结合带库技术,使其具有难以克服的弱点。一方面,缺乏安全保障。与磁盘比较,磁带的安全性要差一些,当关键数据存放在其上,又遇到卷带等故障时,迁移软件将束手无策,势必影响业务运营。另一方面,查询与检索不够智能。
 
伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。

0
相关文章