七、重复数据删除原理上有哪些不同?
目前市场上大家讨论比较多的重复数据删除技术主要有三种形式。一种把数据看成一种不可知的形式并且以相近的方法搜索数据流。一旦相近的数据被发现,一个比对不同的算法程序将被执行,以确保哪些数据和已存在的数据相同,需要过滤掉。只有新的数据被存储。
另一种是通过哈希技术或者哈希算法把数据打碎分片成一些摘要。例如一个8字节大小的数据,那么我们就通过一个哈希算法生成一个指向数据的摘要,那么数据就保存好了。如果这个签名或者哈希值由一个新的数据流重计算得出,那么这个计算结果就被认为是已经存在的数据,可以通过原有数据进行引用。这样他就不需要消耗更多的存储,也因此减少了存储磁盘阵列的消耗。
第三种是把数据流看作成内部的逻辑内容,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。
因此,做重复数据删除处理有好多种基本的方法,实施这些方法也有好多种不同的方式。目前Quantum/ADIC, Data Domain and FalconStor使用哈希算法和由此衍生出的一些新用法。Sepaton使用的则是第一种内容自感知的方式。