【IT168 导购】集群存储不同于传统的SAN和NAS 架构,它就像一列高速驰骋的“动车组”,车厢增加了,速度也丝毫不受影响。这就是集群存储,容量扩展的同时,性能同步提高。
为非结构化数据而生
信息高速增长势不可挡。据IDC的报告显示,现在全球数据量每18个月就要翻一番,每年全球产生的数据量已经高达40EB(1EB=1000PB)。而这些疯狂增长的数据主要来自非结构化数据。结构化数据主要是指那些数字的或能用统一的结构来表示的数据,如存储在数据库中的数据,这些数据基本上是以块(Block)的形式呈现;不言而喻,非结构化数据是指那些无法用数字或统一的结构来表示的数据,像文本、图像、视频、音频、报表、网页等都是非结构化数据,它们大多以文件(File)的形式保存;另外,还有一种介于结构化和非结构化之间的半结构化数据,电子邮件就是半结构化数据。正是网络的发展和数字化程度的提高,使我们的生活发生了变革,更重要的是,企业的业务数据类型正在发生着巨大的变化,非结构化数据所占的比例越来越高,而且增长速度远超过结构化数据。
根据Gartner的统计,2008年,基于文件的存储系统容量出货量以微弱的优势首次超过了基于块的存储系统容量的出货量。根据以上趋势,到2012年,基于文件的存储系统容量将占到总容量的70%。而IDC也同时预测,鉴于基于文件类型的非结构化数据的增速极快,到2012年,全球存储市场的总出货量中将有80%的容量被文件级数据所覆盖。
如此看来,非结构数据快速增长且占据总数据量的多数已毋庸置疑。而摆在企业用户面前的难题是如何去应对这些无法预计的数据存储需求,同时,过去传统的存储架构基本上是为块级存储而设计的,很难适应当前存储的变化和新的需求。因此,集群存储应运而生,并迅速发展起来。
捷华润公司技术经理陈爽认为,数据规模的爆炸性增长和由此产生的对存储I/O性能的更高要求使集群存储有了更广阔的发展空间。无疑,高性能、高容量以及可扩展性是集群存储得以发展的最得人心的特征。
NetApp公司大中华区总经理陈文俊则从另一个角度阐述了集群存储发展的驱动力,他认为,运行于Linux和Unix上的计算集群具有极高的存储要求,性能要求通常在每秒GB级范围内,而容量可以增加到PB级。为避免热点并且最经济,人们非常希望能够在不中断应用的情况下,在存储系统之间或不同类别存储之间移动数据,并可以方便而有效地管理存储环境。
惠普相关人士则认为,随着文件级存储市场的发展,集群NAS在很多文件级的应用中,比如数据文件检索,拥有着极大的优势,这也将成为驱动集群NAS系统发展的重要原因。
对于集群存储,专注于集群存储领域的Isilon公司中国区技术部总监杨峰认为,一般来说,集群存储有两种实现方式。一种是在现有硬件基础架构上加上软件,典型的代表是SAN架构+并行文件系统。这种架构是折衷的解决办法,面向的是已经采用了大量SAN、NAS架构的存储用户。在现有硬件架构之上+并行化文件系统,并不能跨越原有硬件架构的局限性,只不过是局部的改良而已。另一种是专用集群存储,采用独特的开放式架构,通过分布式操作系统实现集群存储,这是完全并行化的解决方案,从硬件到软件都实现了并行化。