NetApp重复数据删除应用案例
自推出重复数据删除技术以来,NetApp 一直在衡量重复数据删除在实际环境中的优势。最常见的用例是 VMware 和 VDI、主目录数据及文件服务。该技术也在迅速应用于 Microsoft SharePoint 和 Exchange 2010。
我们已经在 Tech OnTap 上刊载了多篇文章,重点介绍重复数据删除技术在 VMware 和 VDI 环境中的独特优势。在此类环境中,由于每台虚拟机使用几乎相同的操作系统环境,因此数据重复的程度自然是很高的。下表汇总了各种环境下的典型结果。

▲表 1) 利用重复数据删除技术通常可节省的空间。
在典型的 VMware 或 VDI 环境中,可能有大量的虚拟机 (VM) 全部安装着几乎相同的操作系统和应用程序,产生了大量的重复数据。
如果有 100 台 VM 运行相同的操作系统,每台虚拟机需要 10 GB 到 20 GB 的存储,就会有 1 TB 到 2 TB 的存储被几乎相同的副本专门占用。应用 NetApp 重复数据删除可以删除大部分本质上冗余的数据。
大体上说,如果将 X 台虚拟机分配给存储卷,执行重复数据删除之后,所需操作系统存储量约占未经过重复数据删除的环境中所需存储量的 1/X。显然,获得的实际结果取决于卷中 VM 的数量及其相似程度。
实际上,客户在 ESX VI3 环境中通常能够节省 50% 甚至更多的空间,有些客户的存储节省多达 90%。这是对整个 VMware 存储环境(不仅包括操作系统,还包括应用程序数据)执行重复数据删除的情况下得出的结果。在 VDI 环境中,客户通常节省空间多达 90%。
NetApp 也一直在研究重复数据删除为常见工程和科学应用程序创建的非结构化文件数据的存储库带来的益处,下面以 Siemens Teamcenter PLM 软件、IBM Rational ClearCase SCM 软件和用于地震数据分析的 Schlumberger Petrel 软件为例进行说明。
Teamcenter 使用了一个相对较小的元数据数据库和一个用于存储工程设计文件的大型“存储库”。每当工程师在 Teamcenter 中保存设计时,程序就会在存储库中保存该设计文件的完整副本,即使仅对设计做出十分细微的更改也会如此。
NetApp 与 Siemens PLM 密切合作,使用 Siemens 的性能和可扩展性基准工具模拟正常使用时为大量设计文件创建多个修订版本的操作,据此评估重复数据删除在 Teamcenter 环境中的价值。对生成的存储库执行重复数据删除可节省 57% 的空间。鉴于在许多情况下,文件修订版本数量可能多于我们模拟的数量,因此实际节省的空间量可能还会更高。(当然,一般来说,使用模拟方法来衡量重复数据删除可能节省的空间时,必须非常谨慎。在许多情况下,由于关注的通常是性能而不是数据形态,因此模拟的数据会人为地造成非常多的重复数据。)
与 Teamcenter 类似,领先的软件配置管理解决方案 IBM Rational ClearCase 也包含元数据数据库和用于存储文件的大型“版本化对象库”,简称 VOB。在需要创建 VOB 副本时,对 ClearCase 执行重复数据删除是最有帮助的。此外,实验室环境中的初步结果表明,存储完整的文件时,在 ClearCase 环境中执行重复数据删除可节省空间 40% 甚至更多。
Schlumberger Petrel 用于地震数据解析、油气藏可视化和模拟工作流。它会创建包含大量文件的项目目录。用户创建、分发和归档数据时,会在多个存储设备中存储重复数据对象。通过对此类项目目录应用重复数据删除,NetApp 节省了大约 48% 的空间。