存储 频道

备份中重复数据删除应用状况(上)

        【IT168 应用】  重复数据删除技术能够识别并消除冗余的数据段,从而使得备份消耗的存储空间大幅减少。这使得企业可以存储数月的备份数据以确保快速地恢复以及更频繁地备份,创建更多恢复点企业同时还可以通过减少磁盘容量和优化网络带宽节省更多经费。

  重复数据删除技术首次被企业采用是应用于缩短备份窗口并减少磁带的使用。其中用户最主要的顾虑在于是否可以和现有的备份技术和流程无缝衔接,并能够简易地进行部署。

  在下一波应用中,关注点转变为扩展容量并改善性能。供应商在磁盘容量、性能、网络连接和系统结构方面进行强化,并同时改善了重复数据删除技术的流程。恢复方面则通过应用优化的复制技术进行改善。

  在数据持续增长以及高度分布式的环境中,企业和重复数据删除供应商通过其它途径优化数据的重复删除,包括新体系架构、分包技术以及重复数据删除技术。

  颇具吸引力的重复数据删除技术

  基于ESG的一项调查显示,重复数据删除技术的应用正在不断增加。2010年,38%的调查反馈表示已经采用了重复数据删除技术,而在2008年这个数字为13%。到2012年,另外40%的调查反馈计划采用这一技术。(ESG 2008年1月和2010年4月发布的题为数据保护趋势的调查报告)

  此外,根据ESG 2011年IT开销用途的调查报告,1/3的大型企业(超过1,000名员工)将降低数据量列为第一位的存储技术关注点。

  当仍有诸多有关重复数据删除技术细节上的争论,比如在文件上还是虚拟磁带库接口上、从数据源还是在目标,硬件方式还是软件方式,联机还是后处理,数据块大小是固定的还是非固定的,重要的是确保所有的重复数据删除技术都以降低整体数据量为目的。

  目标重复数据删除系统

  在备份数据路径中最后端进行重复数据删除的产品称之为目标重复数据删除系统。他们通常是存储上的一项应用或是可以和任何磁盘配对的网关。

  目标重复数据删除技术的供应商有EMC、ExaGrid、FalconStor、Fujitsu、GreenBytes、HP、IBM、NEC、Quantum、Sepaton和Symantec。通常通过其底层体系架构来区别各自产品。撇开是应用还是网关的方式(EMC,FalconStor和IBM提供网关方式),其提供单节点还是多节点配置是另一项关键因素。

  在单节点的体系,性能和容量的扩展受限于配置的最大阈值。虽然其中的一些产品可以配置来处理大规模系统所需的扩展性,但你在初期就必须采购过量的配置以满足未来的需要。而当系统达到最大扩展性时,必须将原有系统全部“铲”掉或增加额外的重复数据删除单元,以升级至更高的性能或容量。而后一种方式会导致重复数据删除之间的“孤岛效应”因为备份数据在系统冗余中无法交互。

  采用单节点体系架构的供应商有EMC、Fujitsu、GreenBytes和Quantum。EMC提供Data Domain Global Deduplication Array (GDA),一个包含两个DD880设备的复合系统,作为一个备份应用的单节点系统。EMC可能会说GDA可以满足多节点配置的条件并具备全局重复数据删除功能,其包含2个控制器,2个重复数据删除目录以及2个存储池。不过该设备并不具备高可用性配置,事实上,假设一台DD880发生故障,另一台也无法正常运作。EMC同时将一部分重复数据删除功能分布在备份媒介服务器,不过只能用于支持Symantec OST (OpenStorage Technology)的备份应用程序。在媒介服务器,EMC进行预先处理,创建1MB的数据块用于和重复数据删除目录比较。当数据块中涵盖的内容有冗余时,数据会被分解为更通常的8KB的数据块,压缩后传输至DD880或其它控制器用于之后的处理,这取决于在哪里更容易消除冗余数据。

  而在一个多节点的体系架构中,这类产品可以统一管理多个重复数据删除系统。这种方式同样提供了吞吐量和容量线性的扩展方式,高可用性和负载均衡。这可以降低管理成本,并且更重要的是其通常提供全局化的重复数据删除。ExaGrid 的EX系列, FalconStor的File-interface Deduplication System (FDS),HP的Virtual Library Systems (VLS),IBM的ProtecTier,NEC 的Hydrastor,Sepaton的DeltaStor以及Symantec的NetBackup 5000系统都有多节点的配置并提供全局重复数据删除。这些产品模块化的体系架构提供了很强的整体性能并使你的系统可以无缝升级。

  Symantec通过和华为合作,创新地推出其在目标端的重复数据删除系统方案。Symantec在数据保护市场占据重要的地位,并且是唯一的在自有软件和硬件备份产品中提供整合的重复数据删除的供应商,也是其通过OST接口在目录级别整合了第三方供应商的备份目标设备。

  备份软件中的重复数据删除技术

  虽然原来只有在称为“下一代”备份软件,比如EMC的Avamar中才包含重复数据删除功能,但这在目前的备份软件中已经非常普遍了。带有重复数据删除功能的备份软件产品包括Arkeia 的

  用软件方式时,客户端软件运行在应程序服务器中,其识别并将唯一性的数据传输至备份媒介服务器和目标存储设备上,这样降低了网络传输。另一类软件解决方式在备份服务器上对备份流进行重复数据删除,以消除生产应用服务器端潜在的性能影响。重复数据删除域仅限于通过备份应用程序来进行数据保护;同一环境中的多备份应用程序创建了重复数据删除池。

  全局重复数据删除技术无法通过软件方式实现。首先,并非所有供应商都采用同一识别重复数据的技术。一些重复数据删除产品采用德尔塔差分(比如Asigra),其比较同一备份数据段的设置。德尔塔识别从当前集合和以往备份的集合中比较,选取唯一性的数据块并仅仅传输这部分数据。但其不能够跨不同的数据集进行比较。(比如,不支持全局重复数据删除)

  另一种方式是采用哈希算法。一些供应商将备份数据流分为固定大小的数据块(从8KB到256KB),产生一个哈希值并将其在之前数据块哈希计算目录中比较。唯一的哈希表示唯一的数据应当进行存储,而一个重复的哈希值表示冗余数据,因此只有指向唯一数据的指针会被存储。另外的供应商通过变化大小的数据块提高文件修改后通常字段被检测到的概率。这种方式找到文件中可能产生的自然模式或中断点并以此分配数据。即使数据块随着文件变更而迁移,这种方式更易于找到重复的部分。交替数据段长度变化的方式较每个字段唯一编号,需要供应商更多的跟踪比较工作,而这也会影响目录的大小和计算所需的时间。

  Arkeia Software使用另一种其称为高级重复数据删除技术的方式。通过滑动窗口数据块大小和一种分两步的高级匹配技术优化其重复数据删除技术。文件并分割成固定的数据块,不过数据块会有重叠,这样当文件修改后,这些数据边界容纳了插入的字节。Arkeia基于文件类型,通过自动分配固定数据块大小(1KB到32KB)增加了另一层优化。该技术同时使用滑动窗口来判定重复数据块位于文件中每个字节的具体位置。高级重复数据删除技术可以实现高比率的删除率并在加速流程的过程中最小化错误发生。

  TechTarget中国原创内容,原文链接:http://www.searchstorage.com.cn/showcontent.aspx?aid=55714

0
相关文章