一、什么是重复数据删除技术?
重复数据删除技术的含义就是存储数据时,检查和比较已存在的数据。如果它们是相同的,那就过滤掉这部分数据的备份,然后通过指针引用已存在的数据。重复数据删除技术对备份这样的应用是非常突出的,同时也产生了大量重复数据删除技术的副产品。这些应用都是重复数据删除技术首选的目标。
我们来举个例子,说明一下如何使用一个支持重复数据删除技术的产品,当我们要通过Exchange邮件服务器将一个具有相同附件的邮件发给20个接收者的时候,我们就可以只保留附件的第一个实例,然后其他的接收者可以通过不同的指针指向第一个实例来看这个附件。
在这种方案设计下,不同文件的许多部分都可以像那样只存储一次。举个例子,如果一个文档的前几行包含这个文档的路径名,那么这个路径通常和这个文件夹中其他所有文档的具有相同的名字。
如果这个路径名只有40个字符长,并且前29个字符和其他所有文件的是一样的,所以所有的这些文件的前29个字符将只保留一个实例,其他都用指针来代替。因为许多类型的文件,其架构原理都是相似的,像PowerPoint 和PDF文档都很可能包含许多和原始的Word文档相似的文本,并且这些相似的字符串在许多文档中循环使用。