三、在线方式和后处理方式的重复数据删除处理技术各有哪些优劣?
在线方式的重复数据删除处理在性能方面是很难达到一个很好的效果的。但是如果你能够达到很好的性能,那么这将对你的应用非常有利。因为一旦你完成了重复数据删除的这部分处理工作,你的全部工作也就完成了。这也就意味着没有太多的负载并且你也不必为后续工作的容量计划而费神,也不用关心哪些资源本应该是可利用的。
相反的,对于后处理方式的重复数据删除处理,当你的数据通过备份应用软件保存到磁盘时,没有过度的负载消耗,但是在这之后用户就需要关心一下他们的数据,因为在这之后还有很多对性能有影响的后处理工作需要完成。
当你看完以下的内容时,你就非常容易理解了。后处理方式的重复数据删除处理会导致磁盘子系统的活动情况就像副产品一样迅速增长。最简单的原因就是你必须把所有的数据都写入磁盘,然后再进行读取和其他操作。因此这大量的数据库数据及其索引信息是让人非常头疼的,它也使整个处理过程变得非常缓慢。
由于这些原因我们可以断定,如果你在线方式的重复数据处理可以达到300-400MB/s的话,你就不要考虑使用后处理方式的重复数据删除技术,因为这会导致你的磁盘处在一个高I/O负载的环境,它会使你的系统性能降低。
早期的一次beta测试支持的结果显示,当你有一个非常大的数据量需要处理的时候,我们的后处理技术就显得非常缓慢。这个非常大的数据仓库,尤其是使用基于哈希算法的方式的时候,它会导致许多索引和目录难以置信的活跃,影响整体的性能。我们所说的大数据量,都是20、30或40TB的数据。