【IT168 技术】几年前,重复数据删除(Data Deduplication)还被认为是存储领域的一个边缘技术。但在2009年,由于很多企业受经济不景气的影响而削减IT开支,重复数据删除因为能帮助企业大幅降低成本而大受欢迎。逐渐成为存储领域的一个主流技术。
重复数据删除(Data Deduplication)是一种数据缩减技术,旨在减少存储系统中使用的存储容量。全球知名调研机构lnfoPro对全球1000多家企业的IT经理做过一项调查,多数受访者都对重复数据删除和虚拟带库表现了极大的关注。特别是重复数据删除技术,被业界列为十大存储热门技术之一。
存储厂商们也纷纷通过收购或OEM等手段,在产品中添加重复数据删除功能。比如,不久之前,EMC高价与NetApp竞购Data Domain,最终以21亿美元成功收购Data Domain.这一举动实际上向市场传递了一个信号,即:重复数据删除作为数据存储优化的一个技术,将成为未来的存储领域的主流。此前,EMC已收购了 Avamar,IBM则收购了Diligent来扩充自己在重复数据删除产品线。
依据数据处理方式的不同,重复数据删除技术可分成两种:其一是在线处理(In-line),Data Domain就是这一技术的代表厂商。这一方式中,数据在读进来之后,当存到磁盘之前就已经进行了重复数据删除;其二是以昆腾作为代表的后处理(Post- Processing)。采用这一方式的话,数据在存到磁盘上后才会进行重复数据删除,在存到磁盘前,数据没有减少。
这两种方式各有优缺点:In-line的优势是节省了磁盘空间,同时重复数据删除一步到位,特别简单。但缺点是对CPU的损耗非常大,会占用大量CPU资源,导致性能下降。相比之下,Post-Processing对CPU的占用会小很多,但缺陷在于重复数据删除的环节会比较复杂。
在这两种处理方式的基础上,现在还出现了一种适应性重复数据删除技术(Adaptative Data Deduplication)。这一方式结合了之前两种方式的优点,在性能要求比较低的环境下采用In-line方式,性能要求比较高的时候则采用 Post-Processing的方式。
如果从重复数据删除发生的位置来看,则可以分为基于主机的;基于备份的;基于主存储的重复数据删除等。就目前来看,Avamar的技术主要是基于主机的重复数据删除,Data Domain是基于备份的重复数据删除,国外一些新兴厂商Ocarina以及Storwise则致力于基于主存储的数据删除。
国内存储厂商SOUL在重复数据删除方面也有独到之处,其基于Storage-On-Chip平台的嵌入式芯片级的连线重复数据删除技术,具有高效率、低能耗等优势,使重复数据删除在主存储中的应用变成可能。此前,业界通常认为,重复数据删除过程会使系统性能有所衰减,所以更适合于二、三级存储。应该更多地被应用于备份和归档中,而非主存储。
对于用户来说,现在重复数据删除是存储领域的主流,那他们在选择重复数据删除相关的产品或解决方案时,有哪些注意事项?对此,ESG中国区总经理王丛的建议是:最终用户应该先弄清楚自己的重复数据在哪里发生的最多,再决定是不是在那个位置来进行重复数据删除。她举了两个例子来作为说明。比如银行,虽然每天有很多用户,会发生很多次交易,但这些交易都是一次性的,因此就不应该在主存储上来做重复数据删除。假如是在一个企业内部,发件人给所有员工发了一封带附件的邮件,这些数据都是存储在主机上,这种情况下可以采用基于主机的重复数据删除。