存储 频道

捂紧钱袋,删除备份系统中的重复数据

    编者按:就在昨天,NetApp公司宣布已经将块级“重复数据删除(de-duplication)技术”加载到其FAS 和 NearStore R200生产线上;而前不久赛门铁克也宣布在其整体备份方案中增加重复数据删除功能,越来越多的厂商已经把重复数据删除技术与备份产品结合,重复数据删除已经不再是厂商实验室的白皮书。

    实际上,最早开始研究重复数据删除技术的厂商包括Sepaton,早在2003年Sepaton就开始涉足这方面技术的研究,但当时,几乎所有研究重复数据删除的厂商都不愿意公布他们的研究成果。因为重复数据删除可大幅度减少用户对备份存储空间的需求量,直接影响到这些虚拟带库厂商的磁盘销售额。这些厂商虽然有能力研发这样的技术,却宁愿束之高阁,不愿意推广。

    今天,重复数据删除已经成为业内公开的秘密,其对于削减空间成本方面的突出优势使之充满特殊的魅力,被誉为“改写经济规则”的新技术。那么重复数据删除,究竟如何删除重复数据的呢?重复数据删除是否存在性能和数据安全方面的隐患?用户在部署重复数据删除需要考虑哪些方面的问题?本文将带你透视重复数据删除技术的工作原理,并分析选择重复数据删除时所需要考虑的因素。

参考文章:NetApp加快重复数据删除步伐
                    赛门铁克备份方案新增重复数据删除

    【IT168 专稿】就在几年前,一提起备份大家就自然而然地想到磁带,但是在数据量爆炸式增长的今天,磁带技术由于其性能以及可靠性方面的固有缺陷变得越来越不能满足不断变化的业务需求,加之磁盘设备价格的下降,已经有越来越多的用户采用磁盘备份的解决方案。

    这在解决了性能和可靠性问题的同时又引入了新的问题——磁盘不能够象磁盘那样离线保存,不可能无限制的扩充容量,而用户数据增长的趋势却是无限的,并且由于其不能离线保存也导致了远程容灾数据的传送需要占用大量的带宽,这些都在经济上给用户造成了极大的压力。那么有没有办法来缓解甚至解决这种磁盘容量的有限性和数据增长的无限性造成的矛盾呢?答案是“重复数据删除(Data de-duplication)”技术。

    “重复数据删除”也称为“单实例存储(Single Instance Repository,简称SIR)”或者容量优化(Capacity Optimization),顾名思义,其根本作用是消减存储中的重复数据,以使任何一份数据只保存一份实例,达到充分利用存储空间的目的。

    它是近年存储领域涌现出来的一门新兴技术,各大竞争厂商都生成其重复删除比可以达到 1:20 左右甚至更高,被专家誉为是一种“将会改写存储行业的经济规则”的技术。然而在实际和用户的接触中,大多数用户对该技术还存在许多疑问,诸如:“和增量备份有何区别”、“会不会造成数据损害”、“会不会影响备份性能”等等。所以,在这里我们就详细探讨一下重复数据删除的工作原理。

区别重复数据删除与增量备份
    首先,“重复数据删除”和“增量备份”是完全不同的概念。“增量备份”是指只备份变化的文件;“重复数据删除”则是指只备份不重复的数据。举个简单的例子说明它们的区别:比如有一个文件型数据库 Access的文件 finance..mdb ,如果向该库中新插入了几笔记录,那么则意味着该文件发生了变动。当采用增量备份时会检查该文件的标志位,并将该文件整个重新备份;而如果使用“重复数据删除”技术,则只会备份新插入记录的数据。

    从工作原理上讲,重复数据删除技术可以分为两大阵营,一种是基于哈希(Hash)算法的重复删除,一种是基于内容识别的重复删除。

0
相关文章