对于那些不想改变现有备份系统,也不想牺牲应用性能的企业用户来说,目标端重复数据删除无疑是非常好的的方式。
在线处理
在线处理的重复数据删除,是指重复数据删除服务器/设备从备份软件开始传输数据,数据还没有写入磁盘之前,即执行重复数据删除。它的重要优势是经济高效,可以减少存储容量的需求。它不需要用于保存还未进行重复数据删除的数据集的临时磁盘空间。
尽管在线处理的重复数据删除减少了备份数据的数量,但处理本身会减慢备份的速度。因为重复数据删除是在写入到磁盘之前进行,重复数据删除处理本身就是一个单点故障。因此,如果企业需要保留他们备份数据的冗余的时候,是不能选择在线处理的方式的。
后处理
后处理的重复数据删除,也被称为离线的重复数据删除,是指在备份处理完成后再执行重复数据删除。备份数据先被写入到临时的磁盘空间,之后再开始重复数据删除,最后,将经过重复数据删除的数据拷贝到末端磁盘。
后处理方式有一个很小的问题在于它需要额外的磁盘空间来保存全部还未删除重复数据的数据集。但是,低成本的SATA磁盘可以用作这部分,因此,对于大多数企业来说,这根本算不上什么问题。
后处理的重复数据删除方式带了诸多优势:
● 由于重复数据删除是备份完成后在单独的存储设备上执行,因此完全不会对备份处理造成影响。管理员可以随意制定重复数据删除的进程,无论是怎样的频率都可以,性能更加可靠、可控。
● 先将备份数据保留在磁盘上进行重复数据删除,企业在需要时则可以更加快速的恢复最近备份的文件和数据。
某种角度上讲,在线处理方式也许更适用于小型企业的需求,而后处理方式对于中型及大型企业来说,是更佳的解决方案。
选择重复数据删除的五大要点
一、能够与当前环境相整合
一个高效的重复数据删除解决方案应该对当前IT环境的影响/中断越小越好。许多企业都选择利用VTL备份来避免影响/中断,以在不改变企业当前备份策略、处理或软件的情况下提升备份质量。因此,基于VTL的重复数据删除技术在部署时对环境影响也应该是最小的。它将更多的注意力集中在了备份这个巨大的重复数据存储池上。
基于VTL的t重复数据删除解决方案通常要求使用专用设备,但这并不影响部署的灵活性。一个充分灵活的重复数据删除解决方案应该即可以以软件包形式提供给用户,也可以提供给用户整体的解决方案(Turnkey Appliance),从而最大限度的使用户的现有资源得以利用。
二、具备可扩展能力
由于重复数据删除解决方案是用于长期的数据储存的,在容量和性能方面的可扩展能力也是非常重要的考虑因素,而且至少要考虑未来五年甚至更长时间的增长计划。那么,在保证快速访问的前提下,你希望有多少数据保存在磁带上?你需要怎样的数据索引系统呢?
优秀的重复数据删除解决方案提供的架构,无论是在初始部署时,还是面对未来系统的长期增长,都应该能保证最优化(Right-sizing)、最经济的架构规模。集群可以帮助用户满足不断增长的容量需求---即使是N多Petabyte数据增长的环境---而且不会降低重复数据删除的效率或系统的性能。
这个架构还为存储库保护的部分提供了故障切换(Failover)功能。

三、支持分布式应用
重复数据删除技术,不只是能为单个数据中心带来利益,对于具有多个分支机构或多个站点的大型企业来说,它可以让整个企业的分布式应用受益无穷。一个包含复制和多级重复数据删除的解决方案可以将这一技术的优势发挥到极致。
举例来说,一个企业由1个总部和3个区域代表机构构成,可以在区域代表机构部署一台具备重复数据删除功能的容灾设备,使本地存储及向远程中央站点的复制更为高效。这种解决方案使数据复制到中央站点的带宽需求降到最低,它只不过是用来确定远程的数据是否已经包括在中央的存储库中。所有站点中,只有唯一的数据会被复制到中央站点或是容灾站点,否则所需的带宽就会增大。
四、能够对存储库提供实时保护
保证对删除重复数据的存储库的访问是非常关键的,因此它不能允许有单点故障发生。一个优秀的重复数据删除解决方案应该包括可以在本地存储故障发生时提供保护的镜像功能,同时也应该具备复制功能以在灾难发生时从提供保护。这种解决方案还应该在出现节点故障时具备故障切换能力,即使是一个集群中的多个节点出现故障,企业也必须能够及时恢复数据同时还要保证业务持续运营。
五、满足绿色环保的要求
近期的Gartner 报告显示,2008年,将有50%的数据中心出现电力及制冷不足以运行他们高密度的设备的情况。IDC的研究报告也显示,IT部门正在将硬件1/4的成本花在电力上。 而MAID这项创新的存储技术,可以利用大型的磁盘驱动器组,而这些磁盘驱动器只在任意设定的时间才工作。这便减少了电力消耗。当关掉一些磁盘驱动器时,MAID可以提供卓越的电力节约能力,可以为企业的电力成本节省高达1/3。目前市场中的有些解决方案充分结合了MAID技术,帮助数据中心减少至少20-30%的电力成本。
找到最适合的整体解决方案
由于业务应用需要和法律法规的要求,存储的数据量还在不断的增加,重复数据删除也快速上升到至关重要的地位。在大幅消除数据量、削减存储需求、最小化数据保护成本和风险方面,重复数据删除可说是唯一的应对办法。
尽管重复数据删除技术所带来的利益多多,企业还是应该抵御住不时出现的针对这一技术的大肆抄作。无论是哪种方式,重复数据删除的删除比率都可以根据数据自身的格式和保护策略的不同而发生变化。
为了使重复数据删除技术的利益最大化,企业应该从上面提到的几个标准出发,充分考虑,仔细评估,找到真正适合自己的重复数据删除解决方案,而不应该简单的听信于宣传的重复数据删除比率的理论数值。