【IT168 技术】重复数据删除技术能够识别并消除冗余的数据段,从而使得备份消耗的存储空间大幅减少。这使得企业可以存储数月的备份数据以确保快速地恢复以及更频繁地备份,创建更多恢复点企业同时还可以通过减少磁盘容量和优化网络带宽节省更多经费。
重复数据删除技术首次被企业采用是应用于缩短备份窗口并减少磁带的使用。其中用户最主要的顾虑在于是否可以和现有的备份技术和流程无缝衔接,并能够简易地进行部署。
在下一波应用中,关注点转变为扩展容量并改善性能。供应商在磁盘容量、性能、网络连接和系统结构方面进行强化,并同时改善了重复数据删除技术的流程。恢复方面则通过应用优化的复制技术进行改善。
在数据持续增长以及高度分布式的环境中,企业和重复数据删除供应商通过其它途径优化数据的重复删除,包括新体系架构、分包技术以及重复数据删除技术。
颇具吸引力的重复数据删除技术
基于ESG的一项调查显示,重复数据删除技术的应用正在不断增加。2010年,38%的调查反馈表示已经采用了重复数据删除技术,而在2008年这个数字为13%。到2012年,另外40%的调查反馈计划采用这一技术。(ESG 2008年1月和2010年4月发布的题为数据保护趋势的调查报告)
此外,根据ESG 2011年IT开销用途的调查报告,1/3的大型企业(超过1,000名员工)将降低数据量列为第一位的存储技术关注点。
当仍有诸多有关重复数据删除技术细节上的争论,比如在文件上还是虚拟磁带库接口上、从数据源还是在目标,硬件方式还是软件方式,联机还是后处理,数据块大小是固定的还是非固定的,重要的是确保所有的重复数据删除技术都以降低整体数据量为目的。
目标重复数据删除系统
在备份数据路径中最后端进行重复数据删除的产品称之为目标重复数据删除系统。他们通常是存储上的一项应用或是可以和任何磁盘配对的网关。
目标重复数据删除技术的供应商有EMC、ExaGrid、FalconStor、Fujitsu、GreenBytes、HP、IBM、NEC、Quantum、Sepaton和Symantec。通常通过其底层体系架构来区别各自产品。撇开是应用还是网关的方式(EMC,FalconStor和IBM提供网关方式),其提供单节点还是多节点配置是另一项关键因素。
在单节点的体系,性能和容量的扩展受限于配置的最大阈值。虽然其中的一些产品可以配置来处理大规模系统所需的扩展性,但你在初期就必须采购过量的配置以满足未来的需要。而当系统达到最大扩展性时,必须将原有系统全部“铲”掉或增加额外的重复数据删除单元,以升级至更高的性能或容量。而后一种方式会导致重复数据删除之间的“孤岛效应”因为备份数据在系统冗余中无法交互。
采用单节点体系架构的供应商有EMC、Fujitsu、GreenBytes和Quantum。EMC提供Data Domain Global Deduplication Array (GDA),一个包含两个DD880设备的复合系统,作为一个备份应用的单节点系统。EMC可能会说GDA可以满足多节点配置的条件并具备全局重复数据删除功能,其包含2个控制器,2个重复数据删除目录以及2个存储池。不过该设备并不具备高可用性配置,事实上,假设一台DD880发生故障,另一台也无法正常运作。EMC同时将一部分重复数据删除功能分布在备份媒介服务器,不过只能用于支持Symantec OST (OpenStorage Technology)的备份应用程序。在媒介服务器,EMC进行预先处理,创建1MB的数据块用于和重复数据删除目录比较。当数据块中涵盖的内容有冗余时,数据会被分解为更通常的8KB的数据块,压缩后传输至DD880或其它控制器用于之后的处理,这取决于在哪里更容易消除冗余数据。
而在一个多节点的体系架构中,这类产品可以统一管理多个重复数据删除系统。这种方式同样提供了吞吐量和容量线性的扩展方式,高可用性和负载均衡。这可以降低管理成本,并且更重要的是其通常提供全局化的重复数据删除。ExaGrid 的EX系列, FalconStor的File-interface Deduplication System (FDS),HP的Virtual Library Systems (VLS),IBM的ProtecTier,NEC 的Hydrastor,Sepaton的DeltaStor以及Symantec的NetBackup 5000系统都有多节点的配置并提供全局重复数据删除。这些产品模块化的体系架构提供了很强的整体性能并使你的系统可以无缝升级。
Symantec通过和华为合作,创新地推出其在目标端的重复数据删除系统方案。Symantec在数据保护市场占据重要的地位,并且是唯一的在自有软件和硬件备份产品中提供整合的重复数据删除的供应商,也是其通过OST接口在目录级别整合了第三方供应商的备份目标设备。
备份软件中的重复数据删除技术
虽然原来只有在称为“下一代”备份软件,比如EMC的Avamar中才包含重复数据删除功能,但这在目前的备份软件中已经非常普遍了。带有重复数据删除功能的备份软件产品包括Arkeia 的
用软件方式时,客户端软件运行在应程序服务器中,其识别并将唯一性的数据传输至备份媒介服务器和目标存储设备上,这样降低了网络传输。另一类软件解决方式在备份服务器上对备份流进行重复数据删除,以消除生产应用服务器端潜在的性能影响。重复数据删除域仅限于通过备份应用程序来进行数据保护;同一环境中的多备份应用程序创建了重复数据删除池。
全局重复数据删除技术无法通过软件方式实现。首先,并非所有供应商都采用同一识别重复数据的技术。一些重复数据删除产品采用德尔塔差分(比如Asigra),其比较同一备份数据段的设置。德尔塔识别从当前集合和以往备份的集合中比较,选取唯一性的数据块并仅仅传输这部分数据。但其不能够跨不同的数据集进行比较。(比如,不支持全局重复数据删除)
另一种方式是采用哈希算法。一些供应商将备份数据流分为固定大小的数据块(从8KB到256KB),产生一个哈希值并将其在之前数据块哈希计算目录中比较。唯一的哈希表示唯一的数据应当进行存储,而一个重复的哈希值表示冗余数据,因此只有指向唯一数据的指针会被存储。另外的供应商通过变化大小的数据块提高文件修改后通常字段被检测到的概率。这种方式找到文件中可能产生的自然模式或中断点并以此分配数据。即使数据块随着文件变更而迁移,这种方式更易于找到重复的部分。交替数据段长度变化的方式较每个字段唯一编号,需要供应商更多的跟踪比较工作,而这也会影响目录的大小和计算所需的时间。
Arkeia Software使用另一种其称为高级重复数据删除技术的方式。通过滑动窗口数据块大小和一种分两步的高级匹配技术优化其重复数据删除技术。文件并分割成固定的数据块,不过数据块会有重叠,这样当文件修改后,这些数据边界容纳了插入的字节。Arkeia基于文件类型,通过自动分配固定数据块大小(1KB到32KB)增加了另一层优化。该技术同时使用滑动窗口来判定重复数据块位于文件中每个字节的具体位置。高级重复数据删除技术可以实现高比率的删除率并在加速流程的过程中最小化错误发生。
随着重复数据删除技术的日趋成熟,用户已经逐步经历了不少应用中的痛点。数据量的不断增长使备份和恢复对性能和扩展性有越来越高的要求,这进而使得重复数据删除技术的横向扩展解决方案越受关注。而在远端或分支机构中取代磁带设备的应用方式形成了优化站点之间的复制,以及在备份目录中跟踪这些复制卷的要求。
在ESG最近一次数据保护趋势调查报告中,其调查了最终用户在采购重复数据删除技术时最为关注的标准和成本。一些会影响成本的因素列举如下:
• 一些备份软件供应商在其产品中免费添加重复数据删除功能(比如CA和IBM的TSM),而其它的则要收费。
• 有一些隐性成本,比如在重复数据删除系统之间激活复制功能可能会额外收费。以及备份站点需要和生产站点一样(或至少近似)建立这一系统,这使得成本翻倍。当然也有例外,比如Symantec 5000系列产品,其免费包含了设备到设备之间的复制功能。Symantec同时给予前端被保护的数据容量收取许可证费用,而非根据后端数据存储的容量进行收费,因此对复制拷贝并不产生额外成本。
• 目标重复数据删除系统供应商将软件捆绑在其存储硬件上,因此当更新硬件平台时你就重复购买了软件部分。同样,Symantec采用一种不同的方式,对软件和硬件分别收费。
用户驱动的新去重技术的发展
Arkeia的高级重复数据删除方式只是一个例子而已,其他公司都在推动重复数据删除技术。CommVault在物理磁带媒介上进行重复数据删除可以作为另一个例子。尽管目前的宣传都集中在基于磁盘的数据保护并暗示磁带可能走向消亡,对于很多企业而言,事实是对于数据的长期保存,磁带仍是一种低成本的方式。重复数据删除技术被认为是针对磁盘的技术,因为需要重复数据删除的目录,以及所有的唯一性数据在其存储媒介上可以重新组成并被访问。这意味着将重复删除后的数据从磁盘拷贝或移动至磁带时,必须被重新构建,这和数据降低这一最终目的相抵触。不过CommVault Simpana软件能够使得重复删除后的数据拷贝出来归档,而不需重新构建,从而降低了磁带媒介的容量要求。更重要的是,数据可以从磁带媒介上进行恢复而无需先将整盘磁带恢复到磁盘上。
源端的重复数据删除方式正在逐步流行起来,其最大优势在于端到端的高效备份更接近于数据源(提供内容无关,网络带宽节省以及更快速地备份),以及将重复数据删除的处理流程分布在整个环境中(而和目标端重复数据删除系统那样容易产生瓶颈)。以上两种优势在HP的StoreOnce和EMC的Data Domain重复删除产品中充分体现。
虽然HP的Data Protector备份体系架构中在今天还没有内置重复数据删除功能,但用户可以通过StoreOnce重复数据删除产品获取该项功能。StoreOnce是一个模块化的部件,可以在文件系统中作为一项服务运行。其可以和HP的Data Protector备份软件和HP横向扩展文件系统集成,或植入HP的体系架构组件之中。StoreOnce的运算包含两个步骤:采集大量数据序列(约10MB)来判定数据重复的可能性,将其排序成重复数据删除的非常好的节点,然后通过一次哈希算法来比较更小的数据块。HP的重复数据删除策略比较特别,其可移植,可扩展并且是全局化的。这也意味着重复数据删除的部署可以通过局域网或城域网扩展到整个存储系统中,而无需在重复数据删除层之前转化数据。
EMC的Data Domain Boost选项可以激活Data Domain在NetBackup和Backup Exec OST环境的媒介服务器以及和EMC NetWorker站点中实现重复数据删除的预处理操作。Data Domain软件组件安装在媒介服务器上。通过将重复数据删除工作负载分布式进行,这项操作可以改善性能并提升媒介服务器和Data Domain目标重复数据删除系统之间的网络效率。
重复数据删除技术的未来
基于磁盘的数据保护解决了备份窗口的问题,而重复数据删除技术解决了备份配置中硬盘的成本问题。不过最新的一些技术,比如基于阵列的快照技术,正逐步融合在现有技术中以满足那些要求零备份窗口或很短下线时间要求的企业的高性能需求。在许多情况下,数据块级别增量备份技术和重复数据删除组合在新的快照产品之中。NetApp的Integrated Data Protection产品(SnapVault、SnapMirror和SnapProtect),配合NetApp基于FAS产品线的重复数据删除技术,可以消除在备份软件中重复删除或目标重复数据删除的需要。
类似的,Actifio VirtualData Pipeline (VDP)可以进行全镜像级别的备份和之后持续的数据块级别的增量备份,并通过重复数据删除和压缩技术,因此无需为降低数据量购置额外的第三方产品。Nimble Storage公司也采用类似的方式。其在单一解决方案中组合了主存储和次存储,利用快照和复制类型的数据保护,并采用容量优化来降低所需备份的数据。这种方式正在逐步取代传统的备份方式,以及传统的重复数据删除技术。