【IT168 专稿】4月11日,以“引领潮流 直面未来”的英特尔全球高水平技术论坛活动——英特尔IDF大会在北京国家会议中心拉开帷幕。在此次会上,作为全球IT技术的领导者,英特尔再次针对未来的技术趋势及发展做了讲解,这之中包括云计算、下一代数据中心、lvy Bridge微架构以及固态硬盘等内容。
▲英特尔IDF大会现场直播,点击图片进入直播专题查看更多内容
RAID是存储系统中必不可少的数据保护方式,但是随着企业数据尤其是大数据的不断增长,RAID技术越来越难满足存储性能对于数据保护的需求。现在单块磁盘的容量已经突破了2TB,如果阵列当中均采用2TB的大容量硬盘,并用RAID对数据进行保护,一旦某块硬盘故障,需要对数据进行重建的话,其通常需要长达几个小时甚至数周的时间,一旦在这个重建过程之中,又有硬盘损坏,那么必然导致企业数据丢失。这并不是假设,而是海量数据背景下极有可能发生的情况。
一般来说,硬盘都会都会有故障率,这是完全无法避免的。在目前情况,硬盘故障导致的数据丢失的风险概率可以从下面这种图中看出:
▲上图中所展示的红线为消费级硬盘的数据丢失风险,即在2009年时,消费级硬盘的数据丢失风险大概在16%左右,其表示的意思是当这整块硬盘进行数据转移,大约6次之后就有几率发生故障,其就意味着数据丢失。而按照目前的数据增长速度,其在2015年的时候极有可能没转移一次就会导致数据丢失
当然对于消费级用户而言,这也许并不会造成太大的影响,如在转移视频时发生数据读错,这个数据丢失可能导致的后果可能只是视频播放过程当中会减少1帧或者2帧。尽管在硬盘故障率方面,目前的企业级硬盘由于采用了更高级的技术,其几率会减小,但随着数据的海量增长,这个时间点只是会稍微推迟而已,并不能完全避免,这就使得我们必须寻找另外一种数据保护技术,当数据丢失之后能够快速地重建。并且在大量的硬盘部署情况下,某几块硬盘同时故障,也能使其迅速重建(目前的数据保护最好的RAID 6也仅能保证在两块硬盘同时损坏的情况能够对丢失数据进行重建)。
擦除编码就是为了解决海量数据背景下所产生的数据保护难题而诞生的。目前市面上有很多种类型的擦除编码,如喷泉码、飓风码等。擦除编码是一种前向纠错技术,其并不是现在就有的,最早曾用于通信行业,并有着几十年的历史。为我们所熟知的例子就是CD、VCD,为了是有划痕的VCD依旧能正常播放内容,就在其中引入了擦除编码这项技术。而今天所要讲解的擦除编码则是可被应用于海量存储系统或者说云存储系统中的数据保护技术。
擦除编码的设计原理是对写入的大块数据(如10M的数据块)进行切割、编码,在对小的数据块再进行切割、编码,经过数次同样的切割、编码之后就会产生大量的冗余数据块。最后对不重复的数据块和编码进行存储。
与传统的数据保护方式RAID相比,RAID 5最多只能对阵列中一块故障硬盘进行重建,RAID 6最多只能对阵列中的两块故障硬盘进行数据重建,而擦除编码则可对阵列中的对个故障硬盘进行数据重建。如在一个有16块硬盘组成的存储阵列中,如果采用擦除编码的话,即使有6块硬盘同时故障,也能对丢失的数据进行重建。
为了对擦除编码的实际性能进行测试,英特尔采用之前推荐的大型对象存储参考架构进行了验证(关于大型对象存储参考架构详细内容可查看《IDF 2012:揭秘云存储使用模式与模型》http://storage.it168.com/a2012/0411/1336/000001336235.shtml ),其结果如下表所示:
从上表可看出,不管是在存储效率、可用容量还是在数据丢失概率、成本方面,相比于传统的RAID技术,擦除编码都有着无可比拟的优势。