存储 频道

主流重复数据删除产品的全面对比解析

基于备份源与基于目标端的重复数据删除

  此外,我们还需要注意的是重复数据删除的另外两个概念,一种是基于备份源的,一种是基于目标端的重复数据删除。

  基于备份源的重复数据删除,可以在备份的时候,在备份端上agent就有重复数据删除的算法和功能,它可以在备份以前进行相应的切割和对比,只把一些新变化的数据传送到备份服务器上,这样可以大大降低我们的备份数据量,在网络传输过程中的数据量也会大大降低,这样可以降低整个备份网络的带宽要求,对企业来说也会减少它很大的日常运维成本。

  基于目标端的重复数据删除,主要是数据按正常的备份,备份到相应的磁带设备、磁带库或者是虚拟带库上,在那里进行相应的重复数据删除的算法、对比,然后把一些相应新的数据块元素保留下来,然后把相应的DNA图也保留下来,这样保证在存储目标端的数据是没有重复的。

  现在主要的产品有几类。像基于备份源的有EMC的Avarma,它是基于备份源的。

  Veritas、PureDisk是可以实现基于备份源也可以基于备份目标的。

  针对备份目标的主要有datadomain、IBM diligent、CommVault的simpana。

  CommVault的simpana实际上它的实现方法是,它有一个media server,通过它实现重复数据删除,但它实际上可以认为是备份目标的,因为它在备份raid的时候并没有做重复数据删除,只是做一个相应的切割算法,然后把所有切割下来的片再加上这个文件的组成DNA指针一起传到media server,在media server上进行相应的对比,只把一些唯一的数据块传下来,然后再把DNA图传下来,所以说它还是一个基于目标的重复数据删除解决方案。

  此外重复数据删除的另外一种解释是带内和带外。所谓带内,就是说重复数据删除这个过程发生在备份这个流程过程中,比如像EMC的Avarma,它就是在备份的时候先做重复数据删除,然后把重复数据删除过以后的基准数据块备份走,这样的话等于在备份过程中进行了重复数据删除的过程。

  另外一种是带外,在备份过程中是没有做重复数据删除这个动作的,只有说这个数据备份到了目标端,在目标端的设备里,通过重复数据算法,只保留一些基准的数据块源,这叫做带外的。实际上可以看到,带内的效率反而比带外的高,因为带内计算以后,可以大大降低数据的备份量和网络带宽的需求,和在目标端的效果是一样的,同样只保留UNIX的数据块。

  实际上带内的方法比带外的效率高。

1
相关文章