存储 频道

主流重复数据删除产品的全面对比解析

  【IT168 资讯】重复数据删除如今已经不是新鲜的话题了,基本我们看到,市面上大部分备份产品已经具备重复数据删除功能,基本上已经成为备份领域产品的一项必备的选项。

  但是市面上重复数据删除的产品林林总总,有备份软件类的,也有集成在虚拟带库中的重复数据删除,而一些重复数据删除的概念也让用户感到迷惑,比如全局重复数据删除?比如带内和带外重复数据删除……对于用户来说,面对如此繁多的产品究竟该如何选择呢?

  本文将梳理市场上大部分主流重复数据删除的产品的特点,并分析优劣势,帮助用户选择合适的重复数据删除产品。

文件级与数据块级的重复数据删除

  首先我们看一下重复数据删除的定义。所谓重复数据删除,就是说我们要把一些相关的数据,它是一些重复性的,把它从一些生产上删除掉,这样可以大大节省我们生产空间的增长速度,从而降低我们的电耗,而且降低整个管理成本。

  目前来说,大部分重复数据删除都采用了相似的处理过程,首先是通过特定的算法,把一个文件切割成不同的小块,其次是比较这些块的不同性,把一些重复的删除掉。

  对于文件级的数据来说,组成文件的数据块其实是存在重复的,当文件被切割成更小的数据块后,重复率就大大增加了,然后系统在每个切割的数据块前面增加指针和索引,记录这些块是怎样组合成文件的。

  再有文件记录进来,文件被打碎成小的数据块,系统就只会记录和已经存储的数据块不同的数据块。并能够根据数据块前面的索引信息,将打碎后保存的唯一的数据块组合成文件。

  将文件打碎成小的数据块,删除重复的数据块后,只存储唯一的数据块。文件打碎前需要保存39个数据块,打碎后唯一的数据块只有6个

  以上是大部分重复数据删除的工作过程,当然也有不打碎成数据块的重复数据删除技术,但那样只能对整个文件进行比对,在文件级别进行扫描,比如文件的特性、文件的修改时间,通过这些小的不同对文件进行相应的备份,保证每次只备份同一个文件。如果说这个文件做了一些小的修改,整个文件还是需要备份的,所以它的力度是非常低的,它是文件级的。

  目前来说,采用文件级重复数据删除技术的产品主要是一些归档的产品,例如EMC的centera,就是文件级进行相应的归档,把相应的重复的文件只留一个小的存根,每次恢复的时候只需要根据指针把相应的数据进行恢复。

  当然更多的重复数据删除都是针对我们刚才所讲的子对象级,也就是数据块级的。这种重复数据删除技术拥有更高的效率,有非常突出的删除比。

1
相关文章