存储 频道

搬家过后的数据迁移技术及应用解析

【IT168 资讯】您一定看过病吧?也许您不知道,当您病好了之后,您的病历还会完好无损地在医院里存放大约30~50年。据了解,就北京而言,目前几乎所有的医院都把这些病历以纸介质方式存放在病历室中,因为是手工操作,病厉量巨大,每调用一次,要花几十分钟。现在,有一种能让您快速查找病历又无须投入大量资金实施的存储技术开始走俏,它就是数据迁移技术。

  耗人力、占空间、费时间,是传统医疗资料保管系统比较突出的弊端,除此之外,它还有一个最突出的问题,就是管理成本高。以北京为例,医院平均每年支出12万元用于病例保管,30~50年就是360万~600万元,这是一笔非常巨大的支出。有没有比较经济、简单又高效的解决办法呢?有,那就是将数据电子化,存储到相应设备中。

  现代医院大多实现了计算机联网,网络中一般包含服务器和磁盘阵列(简称盘阵)。病历可以通过录入或照像先转为数字信息,再通过主机,存储于盘阵中。当调用某病历时,几乎是随调即到。如果以10tb的容量计算,购买盘阵需要150万~250万元。不过,如果未来数据进一步增长,还得涉及扩容问题。盘阵的扩容和维护比较复杂。而且80%以上的病历是不常被调用的,把它们长期放在盘阵上显然占用大量存储空间,也提升了单位盘片存储数据的成本。人们开始思考能否使用一种更为廉价的设备代替盘阵保存病历,而且又不至于降低调用速度。于是,数据迁移技术应运而生。

  数据“搬家”

  数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在带库、盘库等离线介质上,只在盘阵上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动的把这些数据回迁到盘阵中;同样,盘阵中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。

  现在,许多医院可能没有磁带设备和盘库,如果要采用数据迁移技术,需要购置这些存储产品,最重要的还要购置数据迁移管理软件。这样,病历可以通过录入或照像先转为数字信息,再通过主机,存储于盘阵或带库和光盘库中。在管理软件的管理下,它会把三天两头到医院看病患者的病历信息保存在盘阵上,而把几个月或1~2年甚至更多时间才到医院看一次病的患者的病历保存在成本低的带库或盘库中。由于建立了这套存储管理系统,病人看病查询病历资料的速度大为提高。无论是常见病人还是罕见病人,查询病历几乎是即时的。不光快,还省钱呢。

  我们再来算一笔账: 以10tb存储容量为例,如果购买一台相当容量的带库大约100万元,若是盘库,大约75万元,加上数据迁移软件(如legato公司的diskxtender)9万元,总投资成本是84万~109万元。虽然第一次投资比较大,但是可以用30~50年或更多的时间,比起人工管理的成本,花费只是其1/7~1/3。此外,如果与单纯用盘阵保管病历的存储方式比较,花费也是低的,数据迁移方式大概只占其总投入的1/3~1/2。


  数据迁移与存储方式的联系

  在这里,我们有必要解释一下数据迁移技术与san、das及nas技术的关系。数据迁移技术可以利用san、das和nas完成数据的迁移工作,san、das和nas本身不具备迁移功能,只是这些系统的末端挂接的带库、盘库可以承载被迁移的数据而已。特别地,nas设备中的数据可被迁移到带库等备份设备中,或从它们中迁出,它自己不可直连备份设备。

  迁移的内幕

  那么,数据怎样实现迁移呢?从原理上来讲,首先,文件先由数据迁移系统选择,再被拷贝到hsm介质上。当文件被正确拷贝后,一个和原文件相同名字的标志文件被创建,但它只占用比原文件小得多的磁盘空间。以后,当用户访问这个标志文件时,hsm系统能将原始文件从正确的介质上恢复过来。所有这些工作需要一定的策略来管理实施。

  hsm软件提供多种数据迁移策略,目前主要通过高水位、低水位及清除位来设置符合存储原则的标识。当数据达到高水位时,hsm软件会将数据迁移至二级存储设备中或三级存储设备中,直至底水位才停止,然后,将在一级存储设备中的存储空间释放出来。另外,用户也可以自己建立相应地数据迁移策略,比如按文件访问的时间、大小等原则。

  hsm软件都带有介质管理功能,通过此模块hsm软件可对磁带库、光盘库进行管理,从而实现数据的多层复制功能。同样它还提供自动的安排数据迁移时间,灵活方便的控制数据迁移日程。

  “庐山真面目”

  虽然实现数据迁移的原理较为复杂,但该系统组织结构非常简单。它由2部分组成,一个是管理数据迁移过程的管理服务器,一个是存储被迁移数据的存储系统。   

  管理服务器 主要服务于存储网络的数据迁移工作,它就像存储网络中的管理员,一旦发现数据达到规则设定的标准,便将数据从一级存储设备(盘阵)向下一级存储设备(盘库和带库)复制,并且释放出一级存储设备的存储空间。此外,它还负责制定所有数据的迁移策略,并驱动和管理带库等二级存储设备。

  管理服务器通过安装hsm软件行使服务职能。目前比较知名和流行的hsm管理软件有legato diskxtender和veritas netbackup 。像legato diskxtender,可在unix/linux平台上根据用户创建的适合企业运营所需的文件管理规则,自动将不常用的数据迁移到较廉价的存储设备上,用户不受介质和设备类型及数据存储位置的限制,能够直接、透明的访问被保存的数据,并通过灾难恢复管理器组件在异地保存、管理和访问数据。

  veritas storage migrator在功能和管理形式上与legato diskxtender有相似之处,也存在些差别: legato diskxtender支持的介质比较丰富,它允许数据被迁移到带机、带库、盘库、worm介质、dvd和cd盘片等,并且在windows平台和unix平台为独立的产品线结构,对于介质的管理完全由该软件自身提供,支持hp-ux/solaris/tru64/irix/linux/windows 2000/xp等多种操作系统,而veritas storage migrator 在进行数据迁移时需要其备份产品netbackup的帮助,支持在操作系统平台支持上目前还没有diskxtender丰富,但是在其自身的文件系统vxfs的支持上结合比较紧密;在数据库迁移方面,veritas storage migrator没有提供解决方案,而legato diskxtender支持oracle数据库,未来还将支持其他数据库的迁移;特别是在邮件服务方面,legato专门设计了emailxtender,它可自动将数据从邮件服务器迁移到存储系统,索引所有收发的电子邮件。

  除了这两家第三方存储管理软件提供商外,一些存储设备提供商也设计了相应的数据迁移解决方案。像stk公司的 asm,它将磁盘缓存仿真成虚拟的带机和磁带介质,通过将磁带数据组写入一个磁盘缓冲器,加速数据写和读的速度。当数据被写入真正的单盘物理磁带时,asm将数据组顺序存入介质中,使得单盘磁带100%的容量都被使用起来。   

  存储系统 存储系统可以是san系统,也可以是das系统等。无论哪种系统,被迁移的数据最终存放在该系统的离线存储设备上。这些设备并不需要提供实时的存储服务,只在某一时刻的应用提出要求时才涉及,这种设备所保存的数据可进行离线管理。  
0
相关文章