存储 频道

存储基础详解:重复数据删除非常好的实践

  【IT168 技术】重复数据删除技术是一种通过减少备份环境中的冗余数据来降低对存储需求的技术。仅有一份数据的副本保留在存储介质上,冗余的数据被替换为指向唯一数据的指针。重复数据删除技术通常将数据集分成更小的数据块,并且使用某种算法给每一个数据块分配一个哈希标示值,通过将其与之前存储的标示值对比决定数据块是否已经存储了。一些厂商使用德尔塔差分(delta differencing)技术,即在字节层次上将当前的备份数据与之前的数据对比,以删除冗余的数据。

  重复数据删除技术给存储和备份管理员提供了许多便利,包括降低了存储空间需求,更加有效的使用磁盘空间,以及减了少在远程备份、复制和灾难恢复时通过WAN发送的数据量。Taneja集团的高级分析师Jeff Byrne表示,重复数据删除技术可以带来快速的投资回报(ROI),“在你的环境中,如果可以做到减少70%到90%的备份容量需求,你可以很快的得到这些重复数据删除解决方案的投资回报。”

  虽然总体上数据重复删除技术的概念相对来说比较容易理解,但是有许多不同的技术用来完成消除冗余备份数据的任务,而且很可能其中的某种技术更适合你的应用环境。因此,当你准备对重复数据删除技术进行投资时,考虑下面的技术差异和数据重复删除技术的非常好的实践,以确保你对你的需求使用了非常好的的解决方案。

  在本重复数据删除技术非常好的实践指导手册中,学习相关知识来选择可以满足你的数据备份和恢复需求的重复数据删除技术。了解源端、目标端重复数据删除技术,在线(联机)与后处理重复数据删除技术,以及全局重复数据删除技术的优点和缺点。

  重复数据删除非常好的指南:选择合适的重复数据删除技术

  源端重复数据删除VS.目标端重复数据删除

  重复数据删除可以由运行在服务器(源端)上的软件或者备份数据存储位置的设备(目标端)来执行。如果在源端进行数据的重复删除,冗余数据就会在传输到备份目标端之前被删除。“如果你在源端进行了合适的重复数据删除,你就会获得让更小的图像,更小的数据集通过网络传输到目标端的好处,”Byrne说道。源端重复数据删除技术使用客户端软件来对比主存储上的新数据块和先前备份过的数据块。先前存储的数据块不会被传输。基于源端的重复数据删除技术占用更少的带宽进行数据传输,但是它增加了服务器的负载并且可能会增加完成备份任务所需要的时间。

  企业战略集团(ESG)的高级分析师Lauren Whitehouse说,源端重复数据删除技术非常适合对较小的和远程的站点进行备份,因为CPU利用率增加不会对备份过程产生较大影响。Whitehouse还说,由于在虚拟机磁盘(VMDK)文件中有着大量的冗余数据,虚拟化环境同样是进行源端重复数据删除的“优秀用例”。然而,如果你有多个虚拟机共享一个物理主机,同时进行多个哈希运算可能会使得主机I/O资源过载。

  现在大多数知名的数据备份软件包含了源重复数据删除功能,包括赛门铁克公司的Backup Exec 和 NetBackup,EMC集团的Avamar,CA公司的ArcServe Backup,以及IBM的Tivoli Storage Manager (TSM) 和 ProtecTier。

  目标端重复数据删除在备份设备上——通常是一个NAS设备或者虚拟磁带库(VTL),删除冗余数据。目标端重复数据删除降低了备份数据对存储容量的需求,但是没有减少在备份时通过LAN或者WAN发送的数据量。“一个目标端重复数据删除解决方案是一个特制的设备,因此需要将硬件和软件堆栈调整到非常好的的性能,”Whitehouse说道,“因此,当你有大量的备份集或者小备份窗口时,你不希望降低备份操作的性能。对于一定的工作负载,一个基于目标端的解决方案或许更加适合。”

  如果你使用多个备份应用程序和一些没有内置重复数据删除功能的软件,目标端重复数据删除或许更适合你的环境。基于目标端的重复数据删除系统有昆腾的DXi系列,IBM的TSM,NEC的Hydrastor系列,飞康软件的File-interface Deduplication System (FDS),以及EMC的Data Domain系列。

0
相关文章