主流重复数据删除产品的全面对比解析-存储专区

主流重复数据删除产品的全面对比解析

作者：IT168 李隽编辑：李隽 2009-06-01 17:24 来源：IT168�

基于备份源与基于目标端的重复数据删除

　　此外，我们还需要注意的是重复数据删除的另外两个概念，一种是基于备份源的，一种是基于目标端的重复数据删除。

　　基于备份源的重复数据删除，可以在备份的时候，在备份端上agent就有重复数据删除的算法和功能，它可以在备份以前进行相应的切割和对比，只把一些新变化的数据传送到备份服务器上，这样可以大大降低我们的备份数据量，在网络传输过程中的数据量也会大大降低，这样可以降低整个备份网络的带宽要求，对企业来说也会减少它很大的日常运维成本。

　　基于目标端的重复数据删除，主要是数据按正常的备份，备份到相应的磁带设备、磁带库或者是虚拟带库上，在那里进行相应的重复数据删除的算法、对比，然后把一些相应新的数据块元素保留下来，然后把相应的DNA图也保留下来，这样保证在存储目标端的数据是没有重复的。

　　现在主要的产品有几类。像基于备份源的有EMC的Avarma，它是基于备份源的。

　　Veritas、PureDisk是可以实现基于备份源也可以基于备份目标的。

　　针对备份目标的主要有datadomain、IBM diligent、CommVault的simpana。

　　CommVault的simpana实际上它的实现方法是，它有一个media server，通过它实现重复数据删除，但它实际上可以认为是备份目标的，因为它在备份raid的时候并没有做重复数据删除，只是做一个相应的切割算法，然后把所有切割下来的片再加上这个文件的组成DNA指针一起传到media server，在media server上进行相应的对比，只把一些唯一的数据块传下来，然后再把DNA图传下来，所以说它还是一个基于目标的重复数据删除解决方案。

　　此外重复数据删除的另外一种解释是带内和带外。所谓带内，就是说重复数据删除这个过程发生在备份这个流程过程中，比如像EMC的Avarma，它就是在备份的时候先做重复数据删除，然后把重复数据删除过以后的基准数据块备份走，这样的话等于在备份过程中进行了重复数据删除的过程。

　　另外一种是带外，在备份过程中是没有做重复数据删除这个动作的，只有说这个数据备份到了目标端，在目标端的设备里，通过重复数据算法，只保留一些基准的数据块源，这叫做带外的。实际上可以看到，带内的效率反而比带外的高，因为带内计算以后，可以大大降低数据的备份量和网络带宽的需求，和在目标端的效果是一样的，同样只保留UNIX的数据块。

　　实际上带内的方法比带外的效率高。

第1页：文件级与数据块级的重复数据删除第2页：定长切割模式VS 非定长切割模式第3页：基于备份源与基于目标端的重复数据删除第4页：不同重复数据删除方案的对比第5页：不同条件下重复数据删除效果对比第6页：选择重复数据删除的原则

关注我们