存储 频道

存储分析:常见重复数据删除系统问题

  【IT168 应用】有人说我们从来没有真正解决任何IT问题,我们只是转移了这些问题。重复数据删除同样也不例外。虽然重复数据删除系统使得我们的备份和恢复变得更加简单,但同样也存在许多挑战。精明的存储或者备份管理员能够通晓这些挑战,并且尽一切可能来解决它们。

  你的备份系统有三种不同的创建重复数据的方法:重复所有文件系统或应用的备份;重复文件系统或应用增加的备份;以及备份到多个地方(例如:位于同样操作系统或应用程序的多台机器)的文件。基于Hash的重复数据删除系统(例如:CommVault Systems公司, EMC 公司, FalconStor Software, Quantum公司, Symantec公司)能识别和删除所有三种类型的重复数据,但是粒度级别受限于它们的块大小,典型的块大小是8K或者更大。基于Delta-differential的重复数据删除系统(例如: IBM公司, ExaGrid Systems, Sepaton公司)则只能识别和删除前两种类型的重复数据,但是它们的粒度级别能够小到byte级。这些差异在重复数据删除率方面通常打成平局,但在某些特定的环境中能产生明显的差异,这就是为什么大多数专家建议你测试多种产品的原因。

  由于在绝大多数的备份数据中大约有一半的重复数据来自于多个完全备份。使用IBM的Tivoli存储管理器(TSM)作为备份产品的用户相比于使用其他备份产品的用户,能获得更低的重复数据删除率。这是因为TSM的逐步增量功能,用户无需在TSM备份的文件系统上再进行全备份。然而,由于TSM用户对他们的数据库和应用执行了全备份,并且由于全备份的数据并不只在重复数据被发现的地方存在一份,TSM用户依然能够受益于重复数据删除系统——他们的重复数据删除率将会更小。

  第二种类型的重复数据来自于增量备份,增量备份包含着自最近一次完全备份以来,文件或者应用程序的多个版本。如果一个文件每天都被修改和备份,而且备份系统的备份保留期为90天,那么这个备份系统中将会存在该文件的90个版本。一个重复数据删除系统将会识别这90个不同版本中的唯一数据片段和冗余数据段,并且只保存唯一的数据片段。然而,有些文件类型不存在不同的版本(例如视频,音频,照片或图像,以及PDF文件),每个文件其自身就是少有的,并且不会和同一个文件的先前版本有重复。拥有这些类型文件的增量备份将完全包含这些唯一的数据,因此没有任何重复数据可以删除。考虑到重复数据删除存储的相关成本,一些拥有此类文件占很大比重的用户考虑不将这些数据存储在重复数据删除系统上,因为除了增加成本,他们得不到任何好处。

  重复数据删除系统和加密:你需要注意什么

  重复数据删除系统通过查找和消除的模式工作;加密系统通过消除模式工作。不要将你需要备份的数据在发送到重复数据删除系统之前进行加密——-否则你的重复数据删除率将是1:1。压缩工作有点像加密,它同样是查找和消除模式,只是采用了不同的方法。绝大多数压缩系统的这种方法将导致数据的不规则性从而产生像加密一样的效果;它同样可以使你的重复数据删除系统完全失去处理这些数据的能力。

  压缩的挑战经常会导致想要备份变得更快的数据库管理员和希望进行重复数据删除的备份管理员之间的僵局。因为数据库经常产生容量很大但实际数量很少的数据,因此它们非常需要进行压缩。这就是在打开了备份压缩功能后通常会比没有压缩快2到4倍的原因。避开这个特殊挑战的唯一办法是使用一个备份软件产品,这种产品集成了数据源重复数据删除和客户端压缩的功能。例如CommVault的 Simpana, IBM的 TSM 或者 Symantec 的NetBackup。

0
相关文章