在线处理不一定比后处理好
重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(Inline),以及备份完成后执行重复数据删除的后处理(Post processing)两种,有些厂商宣称在线处理才是非常先进的技术,这其实是错误的观念。
事实上无论采用哪种数据处理方式,绝大多数重复数据删除技术都是基于业界标准的哈希算法(Hash),仅有少数采用自主开发的专利技术,其运行方式也都大同小异:追踪核对数据区块,当新数据写入硬盘前先经由系统的扫描与核对,判定硬盘上是否存有相同的副本,如果有的话,这部分数据将只存入一个指向该副本地址的指针,不会重复储存,进而达到节省磁盘空间的目的。两者的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
乍看之下,在线处理似乎是效率比较高,但是,有两个问题不可忽视:
1. 数据处理速度慢:在线处理在备份资料写入前,必须先暂时存在内存中执行内容比对与删除演算等工作,这些动作会消耗大量CPU资源,亦会不可避免的拖慢备份速度,某些产品的备份性能甚至比磁带机还差,这样很容易导致备份窗口不足,能在要求时限内完成备份的数据量也相对变少。
2. 可靠性令人担心:在线处理方式由于是在数据写入磁盘的同时进行比对、删除重复数据、保留文件指针,没有校验、核对的机制,也就是说,没有厂商敢保证文件经过重复数据删除后,恢复时的数据是100%正确无误的,万一数据处理的某个环节出现错误,系统内储存的备份数据就只是一堆无法识别的代码,不得不令人担心其可靠性问题。
相比之下,后处理方式的重复数据删除技术就不用担心性能和可靠性的问题了。还是以飞康FDS为例,由于备份数据传输过程不受重复数据删除运行程序的干扰,能充分发挥高速磁盘的I/O处理能力,如果搭配备份服务器的Hosted backup主机式备份功能,还能运用服务器内部的高速链路取代速度较慢的以太网,消除备份服务器到存储系统间的传输瓶颈,进一步提升备份的性能。在可靠性方面,FDS即将推出的一致性校验功能(Self integrity check),可在备份数据写入磁盘并执行重复数据删除后,进行文件指针与单一存储区块比对的工作,如果发现有任何错误便会自动修复,确保所有处理过的备份资料都能正确恢复,系统可靠性与数据安全性更有保障。