存储 频道

重复数据删除生存指南(一)

【IT168 资讯】我们将要介绍重复数据删除解决方案中部署的技术和实施策略:

  ● 第一部分将关注重复数据删除的基本定位——独立设备、VTL解决方案或者是主机软件。

  ● 第二部分将讨论实施重复数据删除的时机。这涉及到在线处理(in-line processing)和后处理(post-processing)之间的比较。

  ● 第三部分将涉及标准化和密封式(siloed)重复数据删除技术之间的比较,探索使用单个供应商提供的包含所有辅助数据的相同的解决方案的好处,并比较其与部署独特的适用各种数据类型的重复数据删除技术之间的区别。

  ● 第四部分将讨论性能问题。很多重复数据删除技术供应商宣称,高速系统几乎是不可能实现的,我们将要探索如何对这一宣称作出解释。

  重复数据删除市场上最初出现的产品都是基于特定系统的,关注的焦点在于提高磁盘到磁盘备份解决方案的价值,同时使组织对磁带的依赖性降到最低。

  随着重复数据删除技术的不断普及,少量的主存储器供应商已经开始尝试将这项技术作为一种附加功能添加到其产品中,尤其是在虚拟磁带库(VTL)中。备份软件厂商也正往其解决方案中添加这一功能。如今,可用的重复数据删除技术很多,IT经理们可以有很多选择,然而,新的问题在于:在哪里部署重复数据删除过程最合适呢?

  当你在阅读这篇文章时,要记住,重复数据删除技术的核心焦点是辅助存储器而不是主存储器,包括归档和备份。还要注意,重复数据的构造可能并不是非常明显。例如,Oracle数据库可以有多种备份方法:使用内置RMAN实用工具;使用企业备份软件应用程序;或者是使用Oracle专用的备份实用工具。这几种方法中,每种方法都要创建自己的数据集。由于这些数据集都是同一个Oracle数据库的备份,每一个数据集中的数据从本质上来说是一样的。

  通用重复数据删除系统

  包括Data Domain和Quantum在内的几家厂商都提供了不与特定的虚拟磁带库或备份设备相关联的重复数据删除产品。这些设备可以称为通用重复数据删除系统。

  使用通用重复数据删除存储系统得好处在于,它的设计就是为了删除重复数据的。这种设计带来的好处是,这些系统具有数据源中立的特点,也就是意味着,源备份数据可以来自多个不同的应用程序,包括备份软件、应用程序工具、归档应用程序、或者是直接来自用户。

  通用型系统提供了多种数据访问协议(NFS、CIFS或是磁带仿真),而且还提供了多种不同类型的物理连接(以太网或光纤通道)。在真实的数据中心中,存在很多不同的备份数据源,数据源中立能够带来显而易见的好处。

  尽管在通用系统中,数据输入可以来自多个不同的源,但是,重复数据删除过程却是对所有源都起作用的。例如,管理员可以通过备份应用程序将微软的SQL环境备份到一个通用型重复数据删除系统上。然后,同样的数据可以被放入SQL DBA的重复数据删除系统。之后,通过使用VMware备份工具,该数据还可能作为VMware镜像的一部分被获取,并转移到重复数据删除系统上。

  在以上讲述的例子中,所有的数据都是相似的,而且在存储数据之前,来自每一个源的冗余的部分都会被删除。注意,这个例子是针对每天都有微小变化的文件。这种多保护模式在当今的数据中心中并不少见,因此,在一周或一个月内节省的空间是让人震惊的。

  通常,通用型重复数据删除系统具有在线重复数据删除的能力,因为一般来说,这是最有效率的处理方式。理想情况下,重复数据删除系统还应该具备辨别长度可变的数据部分的能力,从而提供最有效的重复数据删除效果。例如,它应该能够只鉴别和存储数据库中那些发生改变的数据部分,而不是在每个备份上重新存储整个文件。

  最后,包含复制功能的通用重复数据删除系统为用户提供了将备份数据复制到远程站点的非常好的方法。利用重复数据删除技术,重复数据删除系统只需要通过网络复制新的数据片段就可以了。

  最有效率的系统将是那种能够在多个站点之间通过在线处理重复数据删除进行复制的系统。到目前为止,Data Domain是最符合这个要求的。此外,在线重复数据删除系统能够在系统刚开始接收数据的时候就启动复制过程。这与虚拟磁带库系统不同,后者通常是使用后处理方式的重复数据删除,因此复制过程开始之前会存在一定时间的延迟,从而使得灾难恢复数据存在一定的风险。

0
相关文章