存储 频道

解答有关重复数据删除的七大疑问

二、重复数据删除技术实施上有何不同?

重复数据删除技术可以执行在文件、数据块以及数据子块的级别,当然也有一些厂商把它们叫做"blocklet"、"chunklet",数据每一个chunk的尺寸越小,重复数据删除技术的效果就越明显,但是额外的进程和较大的数据库都会增加其相应的成本。

如果重复数据删除执行在文件一级别,那么全部的文件必须作相同的重复删除处理;如果执行在数据块一级别,那么不管数据块大小为512字节或者4096字节,全部的数据块也必须同等的被指针所替代;如果执行在blocklet级别,那么只有少数的24个字符能够被同等的指针所替代,从而达到最大、最有效的压缩比。

达到这种不断减少的效果最关键的是,使用索引和进程来存放一些大量的短字符串占用的空间要远大于使用短指针替代重复的字符串占用的空间,而且越来越大。

除了以上介绍的几种重复数据删除技术处理的级别,还有一种通过虚拟磁带库进行重复数据删除处理的方式,这种方式其他技术相比最主要的不同是,它像数据移动一样,不管数据在传输过程中是否进行了重复数据删除处理,都将移动到虚拟磁带库中,然后在其内部进行重复数据删除的操作,或者说是进行后处理操作。

在这些不同的实现的基本方法中,最粗略的分类可以分为两类:一种情况,你先接收到所有的数据并他们写入磁盘,然后将来的某个时候通过重复数据删除处理将这些数据重新读取并处理一次,另外一种情况是当接收数据的时候就直接进行及时地内部处理以达到重复数据删除的处理。这就是大家常说的在线处理和后处理。

0
相关文章