集群式重复数据删除是新的技术发展方向
从性能的角度看,只能提供单台重复数据删除服务器/设备的解决方案根本无法满足每天需要备份成百TB数据或每天需要多次备份的大型企业的需求。在这种情况下,重复数据删除反而会造成瓶颈。一些企业考虑用两台或多台设备完成这一工作,但由于每台设备都保留了它自己的Hash索引,设备根本不能鉴别出重复的数据是否已经由另一台设备备份。这种方法不仅会影响到重复数据删除的比率,还会增加维护的工作量。
单台重复数据删除服务器/设备也会成为单点故障。如果重复数据删除服务器/设备发生故障,所有的备份工作则都将失败,更糟的情况是造成恢复过程中的失败。尽管单台重复数据删除服务器/设备在实际应用过程中出现故障的情况非常罕见,但这对企业来说还是一个潜在的、无法接受的风险。
其实,针对这个难题有一种解决办法,就是重复数据删除集群,即利用双工故障切换架构。在集群的重复数据删除架构中,2或4台重复数据删除设备被虚拟化为一台,为用户提供了双倍或四倍的吞吐及处理能力。如果他们中的任意一台出现故障,另外的设备就会自动的接管它的工作负荷,以确保处理的连续性。由于集群仍然保留的是单个的Hash表,因此它不会影响到重复数据删除比率。
以行业知名的美国飞康软件公司的SIR技术为例,飞康SIR是应用于业界领先的飞康VTL解决方案的重复数据删除技术。飞康SIR可在一个性能集群中支持4个节点并可应用于所有的飞康VTL节点,从而优化了管理能力和扩展能力。这个集群架构通过统一性的添加节点,使企业可以扩展到最大容量(最多4个节点,每个节点64TB,合计256TB)和速度(每个节点的重复数据删除约为300MB/秒,合计最大1.2GB/秒)。内置的N+1故障切换功能,SIR重复数据删除引擎是后处理方式,在不影响恢复或备份窗口的情况下减少了存储成本。此外,由于SIR解决方案基于飞康历经验证的IPStor® 技术平台,包括了它的虚拟化和供给容量功能,因此,用户可以在任意时间添加存储而不用中断处理。
根据需求选择重复数据删除方式
目前市场中的重复数据删除解决方案提供了多种删除重复数据的方式,如果想找出最适合用户需求的方式,需要考虑两个关键性因素:在哪里进行重复数据删除(源数据端还是目标端);在备份处理的哪个阶段删除重复数据删除(在备份过程还是备份之后)。
源数据端
一些重复数据删除产品在源数据端工作,这意味着它们是位于主机或应用服务器上的。这种方式要求为每一台需要进行备份的机器安装重复数据删除系统。当数据传送到备份软件之前即识别重复数据并删除。这种重复数据删除方式具有如下优点:
● 数据在网络传输前就减少了,改善了传输性能,节省了网络带宽。
● 从扩展性角度讲,整体性能与客户端的数量无关,因此,在进行扩展时不会影响到备份性能。
● 由于是重复数据删除处理的同时传输数据,因此在处理过程中不再需要额外的存储设备。
然而,这种处理方式也有它的缺点:
● 必须在每一台备份服务器上安装重复数据删除系统。在大型企业环境中,特别是具有分布于各地的分支机构的大型企业,软件的安装和维护工作极为复杂
● 重复数据删除处理运行于应用服务器上,会消耗服务器的运算能力,影响到应用性能。这对于大多数企业来说是不可接受的。
● 有些重复数据删除解决方案在设计之初并没有考虑到与用户已经安装的备份软件相集成,因此,用户必须为了使用它而更换备份软件,这便增加了部署解决方案时的工作量及风险,对于那些具有大量归档数据的企业用户来说,这种方案并不可行。
目标端
目标端的重复数据删除处理通常是运行于一台独立于主机或应用服务器之外的设备(服务器或工具)之上。下面是几种典型的目标端重复数据删除方式:
● 具备重复数据删除功能的虚拟磁带库(VTL)
● 具备重复数据删除功能的磁盘设备
● 具备重复数据删除功能的备份软件
值得一提的是,目标端重复数据删除解决方案可以与现有的备份软件相整合,运行于备份服务器上。备份数据先发送到重复数据删除设备,重复数据删除在后端完成。相对于源数据端方式,它的优势在于:
● 企业无需改变其当前的备份系统。
● 这种架构无需更换应用服务器。由于它不会消耗应用服务器的运算能力,应用性能不会受到任何影响。
● 重复数据删除服务器/设备能够从不同的备份客户端删除所有冗余数据。这对于具有大量应用或数据库服务器的企业来说,是非常经济高效的解决方案。