重复数据是如何删除的?
我们很难理解重复数据删除的具体工作原理。对于用户来说,与之相关并且容易混淆的概念包括全量备份和增量备份。顾名思义,全量备份是拷贝整个磁盘卷的内容,我们很容易想象系统经过多次全量备份后会产生多少的重复数据。增量备份是针对于上一次备份(无论是哪种备份):完成上一次备份后,所有发生变化的文件。当然用户往往会根据自身的情况设定备份策略,交叉使用多种备份模式。
重复数据删除要比增量备份走得更远:增量备份将备份量减到最小,只复制了每次完全备份操作之后有变化的数据块,而重复数据删除只复制了那些变化后的不同的数据块。理想情况是,重复数据删除是在数据写入到存储系统之前完成的(例如Asigra和Avamar),或者是在数据写入到存储系统的过程之中进行的(例如Data Damain和Diligent),但是,如果你更加注重数据的保真度,也可以在数据写入到存储系统之后进行,这样就可以避免意外删除一些宝贵的唯一数据。
重复数据删除的过程就是从存储数据中删除相同的电子邮件信息或者文件。一些厂商会在备份软件中集成重复数据删除的功能,如RenewData的ActiveVault,在备份输出时没有必要执行额外的重复数据删除。另外一些厂商则选择将重复数据删除删除作为一个单独的过程来执行,因为他们在自己的系统中没有单一实例存储模型。
以电子邮件的应用为例,标准输出恢复选项通常包括:
全部恢复(相当于不执行重复数据删除)
本地电子邮件:电子邮件文件包括给目标用户的所有信息,这其中包括了在所有位置的复制信息。
本地用户文件:用户目录里包含了所有目标用户的文件,这其中包括了在所有位置的复制文件。
单一实例目标用户恢复(使用重复数据删除)
本地电子邮件:电子邮件文件包括一个实例,每一条信息在文件夹中都是以字母顺序排列的,因此,如果信息1存在于两个文件夹中,文件夹A和文件夹B,然后一次输出,信息1将只存在于文件夹A中。
本地用户文件:用户目录只包含了一个每一个文件在所有位置中的实例。
单一实例文件夹或路径目标用户恢复(使用重复数据删除)
本地电子邮件:电子邮件文件包括一个实例,每一条信息属于任意文件夹。因此,如果信息1属于两个文件夹,文件夹A和文件夹B,那么一个实例中,信息1将分别包含在每个文件夹中。
本地用户文件:用户目录只包含了一个每一个文件在各自文件夹中的实例。
全局单一实例恢复(全局使用重复数据删除)
本地电子邮件:只有一个实例,包含了所有目标用户的每一条信息。
本地用户文件:只有一个实例,包含了所有目标用户的每一个用户文件。