存储 频道

为数据瘦身 三大重复数据删除利器大PK

  【IT168 专稿】你有没有想过硬盘的容量为什么越来越大?你是否告诉过管理层未来3年需要的存储容量会减少?也许最近3年,你公司存储的数据已经翻了4倍,GB级很可能会变成TB级,然后再变成PB级。

  幸运的是,有一种方法来减缓不可避免的数据扩张:在你的存储系统上使用重复数据删除技术。重复数据删除是在存储介质分析数据块或段,以找出和删除重复数据,用占位符替换它们的过程,可以大大减少总体存储需求,在规划备份和灾难恢复需求,或未来数年的在线备份需求时,重复数据删除技术将显得非常重要,通过这项技术可以增加20,40或60%的存储利用率,现有存储投资将可以获得更大的回报。

  四款重复数据删除设备产品概览

  市场上有众多的重复数据删除解决方案,本文将对四个重复数据删除设备进行评测,它们分别是飞康FDS 304,NetApp FAS2040,Spectra Logic nTier v80和nTier vX,这四个设备都提供了良好的扩展性,性能和重复数据删除功能。每个解决方案都有其自身的一些个性,一个看起来象一个机架式磁带驱动器,另一个象大型网络附加存储系统,第三个象直接连接的光纤通道设备。

  飞康的FDS 304是一个2U高的NAS(网络附加存储)设备,使用SATA硬盘,提供千兆和万兆以太网接口,FDS 304通常作为磁盘到磁盘备份的搭档,或基于磁盘的备份方案,但它也可以作为主线存储。NetApp的FAS2040高度也是2U,可以部署为千兆NAS,光纤通道,IP SAN或FCoE设备,它也可以作为基于磁盘的备份和数据复制目标,当然也可以作为通用的存储介质。对于那些已经在物理带库或准备虚拟化带库的企业来说,Spectra Logic的nTier产品家族是最好的选择,它的虚拟带库(VTL)设备使用了飞康的重复数据删除引擎,nTier可以代替物理磁带系统,或在消除重复数据时与物理带库并行运行。

  这些设备都易于部署和管理,都提供了高效的重复数据删除功能,适用于任何企业级网络环境,我使用高度重复的Windows和Office文件进行测试,注意,如果你打算删除重复的系统备份集和原始文件,需要确保重复数据删除引擎与你的备份软件兼容。

四款重复数据删除设备产品概览
图 1 测试中心记分卡

  飞康FDS 300: 文件接口重复数据删除

  这款产品一般用于磁盘到磁盘备份和归档,飞康FDS(文件接口重复数据删除系统)设备可无缝集成到数据中心,不需要对现有网络做任何改造,它提供了良好的性能,数据复制和重复数据删除功能,可作为CIFS,NFS,赛门特克OpenStorage(OST)等服务的存储目标设备,它具有灵活的重复数据删除策略引擎,允许IT人员控制是否以及何时删除重复数据,需要时甚至可以从重复内容中排除无需删除的文件夹,删除重复数据的性能表现和Spectra Logic的产品相当,因为Spectra Logic原本就使用的是飞康的重复数据删除引擎。

  在测试时,我收到的送测产品型号是FDS 304,最大存储容量4TB,支持热插拔,SATA RAID 6阵列,通过外部存储最大可扩容到32TB,标配4个千兆以太网接口(2个扩展槽),可以增加更多千兆接口(4个端口扩展卡)或一个万兆以太网接口。FDS 304和FDS家族的其它产品一样,都是通过千兆或万兆以太网接口连接到LAN的,它也可以作为iSCSI存储目标,和其它设备一样,它也提供了两个热插拔电源,FDS 300还有其它三个型号,标配容量升级到18TB,通过增加外部存储最大可以扩大到32TB。

  飞康的FDS设备为VMware ESX/ESXi 3.5 update 4和vSphere 4提供了预配置的虚拟化版本,它也为远程分支机构提供了一个无需增加额外硬件就可以使用重复数据删除的方法,在1TB和2TB版本中也提供了虚拟化FDS,使得给远程或分支机构部署重复数据删除技术变得更简单。

  FDS 304的核心用法是作为基于磁盘的存储和备份系统,虽然飞康提供了VTL设备,但FDS家族更适合于CIFS和NFS客户端的文件共享,这也是为了取代传统的基于磁带的备份系统,FDS家族可以和赛门特克的NetBackup OST或其它OST产品紧密集成,由于条件受限,我没有测试NetBackup,飞康声称在万兆以太网上使用OST时入站速度最大可以达到500MBps(注意是大B)。

  我在测试时将FDS 304作为备份和CIFS文件共享目标,虽然可以使用iSCSI作为本地存储在FDS上挂载数据共享,但我决定从一台Windows Server 2008 R2和4个Windows Server 2008 R2虚拟服务器上将各种共享映射成本地盘符,测试表明,从任何服务器上操作共享的文件都没有问题,和我们平时在Windows共享中的操作没有区别,我也使用另一个共享作为赛门特克Backup Exec的备份目标。

飞康FDS 300: 文件接口重复数据删除
图 2 使用飞康的FDS管理工具,管理员可以快速了解存储了多少数据,以及有多少重复数据

  在我的整个测试中,我运行了5个Windows服务器的多个日常备份,一点问题都没有,和NetApp FAS2040不一样,FDS在删除重复的Backup Exec备份集时没有遇到问题,一般的重复文件和重复文件夹删除速度都非常快,在高度重复的数据上减少了近90%的存储需求。备份集是完整的系统备份,包括Windows,安装的软件和Microsoft Exchange数据,此外还掺杂了一些Word和Excel文件,我发现无论是一个文件集还是Backup Exec归档,删除重复数据的性能表现都差不多。

  飞康FDS 300: 定时删除或实时删除

  删除重复数据时有两种选择:定时删除或实时删除(当数据写入磁盘时),我创建了一个夜间定时执行重复数据删除的调度任务,在测试期间没有出现任何问题,当然也可以手动删除重复数据,而实时删除策略会在数据写入磁盘时进行分析,发现属于重复数据则使用占位符代替真实数据,实时删除对性能有一点影响,但我在测试时发现可以忽略。

  我尝试重命名文件和文件夹,以及修改文件扩展名来欺骗重复数据删除引擎,但所有设备都能准确识别出重复的数据块,这是因为重复数据删除引擎是工作在数据块级的缘故,它分析的是文件结构而不是文件名。

  飞康的管理界面和Spectra Logic的几乎一样,我很快就熟悉了,但它没有NetApp的系统管理器直观,我在创建文件共享,定义重复数据删除策略和监控系统性能时遇到了一点麻烦,除此之外,我能轻松查看存储使用情况报告,重复数据量和删除重复数据后存储空间回收的百分比,这些报告将帮助IT人员了解总体的存储使用情况和重复数据删除的性能。

飞康FDS 300: 定时删除或实时删除
图 3 飞康控制台中的仪表板展现了磁盘使用趋势的概况

  NetApp FAS2040:存储与备份的一体化设备

  NetApp的FAS2040提供了多个安装选项,包括作为SAN或NAS目标,或通过光纤通道直接连接的目标,和飞康的设备一样,NetApp FAS 2040可以作为数据存储,备份设备,或两者兼得。

  FAS2040提供了两个独立的存储控制器,除CIFS和NFS协议外,FAS2040还可以将NFS数据存储自动输出到VMware ESX服务器,减少了给VMware环境在线增加磁盘空间的时间。NetApp的重复数据删除策略和飞康的灵活性不在一个档次,但它在减少磁盘使用量方面做得很好,不过在赛门特克Backup Exec创建的备份集上,它仍然没有取得进展。

  我拿到的这个FAS2040有12块300GB SATA硬盘,2个热插播存储控制器,每个带有4个千兆以太网接口和2个4Gb光纤通道端口,两个电源,在双奇偶校验RAID中配置了两个阵列(每个控制器对应一个),为了满足大多数需求,FAS2040还提供了对光纤通道和SAS硬盘的支持,通过接入外部驱动器,FAS2040原始存储空间最大可以达到136TB,远远高于本次送测的其它几个产品。

  我在千兆以太网测试网络中安装了FAS2040,两个控制器使用了相互独立的连接,我将两个阵列分成多个卷和共享,将其中部分定为CIFS文件共享,其它则定为iSCSI目标(和其它送测产品一样,NetApp也允许你为Linux/Unix客户端提供NFS共享),我使用NetApp的各种CIFS共享作为NAS文件存储,并用它作为我Windows Server 2008物理和虚拟机的备份目标,在测试期间,我从物理和虚拟服务器使用驱动器映射和UNC连接到FAS2040都没有出现过问题,使用Windows Server 2008中的iSCSI启动器将iSCSI共享挂载为本地存储也没有遇到麻烦,每个装入的卷表现和本地存储几乎一样。

  我真正喜欢FAS2040的一个地方是它的双存储控制器,根据你的需要和配置,可以组成“主动/被动”故障转移配置,如果一个控制器遭遇灾难性故障,另一个控制器可以透明地实现接管,如果你希望同时使用两个控制器,提供独立的存储,那么可以配置成“主动/主动”模式。

  我测试的部分内容包括复制文件到NetApp上的共享,使用NetApp作为多个Backup Exec作业的目标,NetApp的文件和文件夹重复数据删除功能给人印象深刻,不管是检测重复数据还是删除重复数据的表现都很优秀,如果遇到高度重复的文件共享,通过消除重复数据后,空间占用可以降低90%,但是我在用它处理Backup Exec备份文件时却遇到了一点麻烦,让我非常吃惊。

NetApp FAS2040:存储与备份一体化
图 4 使用NetApp的系统管理器,可以轻松为每个磁盘共享定义重复数据删除策略

  在我的测试中,我在一个NetApp CIFS卷上存储了各个服务器的多个备份集,不管重复数据删除引擎如何或何时分析存储的备份文件,在卷上存储的数据减少量从未超过8%,Exchange邮件存储情况稍好一些,磁盘使用量平均减少了12%。

  NetApp FAS2040:易用性是独特优势

  就这个问题我咨询NetApp时,得到的答复是重复数据删除引擎工作使用的块大小是4KB,Backup Exec家族会向备份文件插入元数据,它会打破4KB边界的一致性,使得NetApp很难定位重复的字节段,赛门特克在它的Enterprise Vault 8.0中做出了改变,以适应NetApp引擎的块对齐要求,因此并非所有赛门特克产品都存在这个问题,其它备份软件厂商的软件很聪明地自动与4KB数据块边界保持一致。

  管理员可以基于每个卷定义重复数据删除策略,虽然没有提供太多的选择,但完成任务是足够了,当然也可以定义一个策略手动执行,或当卷上的新数据达到指定量时自动执行,或基于指定日期或星期几执行。我可以创建一个每日重复数据删除策略,从早上9点到晚上10点,每小时执行一次,除非在极端情况下应该这么设置,一般情况下不用这么频繁执行,当然如果确实有这个需要,它还是工作得非常好的。

  管理FAS2040有两种选择:Web浏览器和独立的管理控制台,即NetApp系统管理器。虽然基于浏览器的管理门户直截了当,但我发现还是系统管理器更方便和直观,甚至比飞康的管理界面还好用,两个存储控制器都出现在管理工具中,每个主要功能都分成独立的任务组,使得定位具体项目变得很简单。

  与飞康和Spectra Logic一样,NetApp也没有提供特别的报告引擎,但它提供了一些有用的图表和数据点,如卷详细资料和空间节省情况。NetApp在系统管理器上下足了功夫,它展示的信息都很实用。

  在硬件和管理方面,NetApp FAS2040都给我留下了深刻的印象,它很容易和我的网络集成,并且使用也很简单,重复数据管理也很简单,删除文件系统上的重复文件和文件夹都很快速。我唯一想抱怨的是删除重复的Backup Exec备份集时给出的结果少得可怜,当然,无论你选择哪个重复数据删除解决方案,你都希望确保它能兼容你的备份软件。

NetApp FAS2040:易用性是独特优势
图 5 在这个特殊的iSCSI卷上,通过删除高度冗余的文件数据可以减少92%的磁盘空间占用量

  Spectra Logic:以磁带为备份目标

  Spectra Logic重复数据删除设备nTier家族与飞康和NetApp的产品关注点略有不同,他们的目标市场是那些使用磁带和带库作为备份系统的企业用户,nTier产品线也采用了VTL机箱,看起来就象是磁带机,它们可以在备份过程中轻松增加重复数据删除功能,他们是高度可扩展和模块化的,允许就地升级,因此设备的寿命比较长,nTier家族使用了飞康的重复数据删除引擎,在减少数据备份的总体占用空间方面做得非常出色。

  我们收到的送测产品型号是nTier v80和nTier vX,nTier v80高度3U,存储容量8TB-16TB,使用的是SATA硬盘(RAID 6阵列),nTier vX高度达到了4U,存储容量10TB-60TB(RAID 6),可从10TB增量升级。它们都支持SCSI,光纤通道和iSCSI(千兆)接口连接主机,采用的是英特尔双核至强处理器,带有冗余电源和充足的风扇。

  Spectra Logic解决方案和它现有的磁带备份系统关系紧密,每个VTL重复数据删除设备都可以模拟大量的物理磁带驱动器和带库。在我的测试中,我选择了IBM Ultrium TD-3(LTO-3)格式,为6个虚拟磁带驱动器定义了21个虚拟磁带。Spectra Logic支持8种不同类型的磁带驱动器和10种不同类型的磁带库。

  和前面一样,我使用iSCSI将我的Windows Server 2008服务器连接到nTier v80和赛门特克Backup Exec 2010处理备份任务,nTier vX被设置为nTier v80的一个复制伙伴,当备份任务结束时,在nTier v80上执行重复数据删除,而复制设置在夜间运行。在我的测试中,这两个设备都运行得很好。

Spectra Logic:以磁带为备份目标
图 6 Spectra Logic的许可包含重复数据删除引擎和FDS管理控制台,从本图可以看到VTL定义和存储系统使用情况概况

  磁带重复数据删除的非常好的选择

  我在4个运行于Microsoft Hyper-V上的Windows Server 2008 R2虚拟机,以及一台物理Windows Server 2008 R2服务器上运行了Backup Exec代理,在完成首次备份后,重复数据删除引擎开始检测每个后续备份的冗余数据,我试图通过重命名文件夹的名字来欺骗它,毫无疑问,我没有得逞,在任何情况下,重复数据删除引擎都能准确识别重复数据,极大地减少备份集大小。在我的测试配置中,重复数据删除是在备份结束后执行的,但它也支持和备份任务并行执行,也就是所谓的实时删除重复数据,这样有一点性能损失,对于大多数用户来说,设置为备份完成后执行是可接受的。

  当备份目标是虚拟磁带驱动器时,写入到虚拟磁带的数据格式和写入到物理磁带的数据格式相同,这样可以保存一个副本,在nTier设备上删除重复数据,然后输出到物理磁带进行场外归档。使用VTL的一个巨大的优势是,IT人员已经学会使用物理磁带驱动器和带库,不需要学习新的备份系统,他们可以继续使用相同的备份方案和他们已经习惯的调度计划,同时,由于每个备份包含一个数据目录,因此可以很容易从VTL定位和恢复文件。

  Spectra Logic许可包含飞康的重复数据删除引擎和飞康的管理用户界面,其它方面的管理都是通过Spectra Logic自己的BlueScale管理平台完成,BlueScale提供了跨nTier和其它Spectra Logic存储系统的通用用户界面。从BlueScale的用户界面可以看到重复数据删除引擎的工作效率,也可以通过它管理和维护虚拟带库,定义复制调度计划等。在使用了几分钟后,我发现整个界面还是很直观的,进一步情况还需探索。

  Spectra Logic nTier家族为物理磁带驱动器和磁带库提供了优秀的重复数据删除方案,它允许从物理磁带迁移,也支持作为迁移到物理磁带的媒介,通过iSCSI,让每一个虚拟驱动器看起来都象是一个物理驱动器,并且重复数据删除引擎也工作得很好。管理界面也很直观,但定义一个虚拟带库稍有点麻烦,对于那些想保留磁带存储,但又想迁移到基于磁盘的重复数据删除的企业,nTier家族是最好的选择。

磁带重复数据删除的非常好的选择
图 7除了VTL组件外,Spectra Logic的管理控制台外观和功能与飞康的很相似,提供了磁盘使用情况和重复数据删除统计快速视图

  四款产品对比总揽

  下表显示了本次测试的几款产品概览:

四款产品对比总揽
产品对比总揽

0
相关文章