【IT168 专稿】在英特尔的推动下,IT系统通信带宽和计算能力遵循摩尔法则不断创下历史新高,保持了每12-18个月翻一番的发展速度。与此同时,IDC最新“数字宇宙”研究预测:数据增长速度将超过摩尔定律,2011年将达到1.8ZB;未来10年,企业将管理50倍于现在的数据量,文件量将增加75倍。在数字宇宙飞速膨胀的背景下,“大数据”的概念也应运而生。
详解Big Data
其实,大数据和云计算是两个相生相伴的概念,尽管业界暂时并没有关于大数据的官方定义,但其实,各厂商对大数据的理解已经达成共识。
EMC信息基础设施产品部总监兼首席运营官Pat Gelsinger认为:大数据应该包括三个要素,首先,大数据是大型的数据集,一般在10TB规模左右,有时候多个数据集集合在一起会形成PB集数据量。其次,这些数据集往往来自于不同的应用和数据源,要求系统能够把半结构化、非结构化和结构化的数据很好地融合起来;最后,大数据还具有实时、可迭代的特点。
IDC全球存储及大数据项目副总裁Benjamin Woo则提出,大数据有四个基本要素,Volume、Variety、Velocity、value。首先,数据在容量上是海量的;其次,大数据是由大量的人提供的庞大数据集,具备多样性特征;此外,无论是企业还是遍布世界各地的个人用户提供数据,这些数据的价值是非常高的,此外,从系统要求来说,希望获得数据的速度是非常快速的。所以用四个V来概括大数据特点。
此外,EMC对大数据和云之间的关系做了更为深入的诠释:大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。
“当我们打造云设施的时候,就会想云设施上应该跑什么样的应用,大数据就是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据离不开云。” Pat Gelsinger如是说。
传统存储的瓶颈
如今,大数据的概念已经日益清晰,但解决大数据的存储问题仍然是摆在每个用户面前的一道难题。不仅如此,整个IT领域技术飞速发展,很多20年以前的新技术、新架构,如今面临淘汰甚至已经消失在技术发展的浩瀚长河中;而今天的很多新技术,20年后还将面临同样的命运,存储领域的技术更迭相比其他任何一个领域都表现的格外明显。
存储领域的关键技术SAN和NAS架构如今也已经有了近20年发展历史,并从十年前开始取代DAS成为企业存储的主流标准架构。然而,SAN和NAS平台本质上不过是对 DAS 的改进,并未突破传统存储技术的瓶颈。传统存储架构依然存在根本性的体系结构缺陷:
首先,传统的存储架构是静态的,其设计在可扩展性方面先天存在着不足,在进行扩展时,往往只能磁盘数量扩展,背板、内存和处理器资源却无法随之扩展。企业若想要满足不断增长的容量和性能要求,就不得不花费大量成本,且面临的数据风险也不断增加。最后的结果是,用户需要管理越来越复杂的存储,但所需的组织和人员配备却不能持续增长。
卷是各种存储技术的最基本部分,为用户的前端应用提供数据服务,从存储卷的应用模式上看,已经体现出需要新的存储模式的最明显征兆。在一个理想的“云”的系统环境中,卷应该是灵活自由的,我们很难找到将数据限制到特定位置的理由。在足够的安全性和可靠性前提下,个人和应用程序应该能够从任何地理位置轻松访问文件和文件夹,就像数据在本地一样,并且,随着应用规模的增长,所对应的存储卷也应该无缝的随需增长。
然而事实的情况是,存储卷并不能在各种并不能完全自由的在设备间随意迁移、且存储卷的扩展与收缩显然也并不如我们想象的灵活。当存储卷受到可靠性问题、技术限制或性能等多方面限制时,最终给用户带来的问题就是效率低下的情况。这些固定的资源集要充分发挥全部潜力,
此外,传统存储环境遭遇的另一个重要难题是浪费;许多存储供应商认为用户环境的存储系统中,多达50%的资源未得到充分利用。当然这一点有利于存储供应商的收益,但对用户来说,将导致电力、冷却和管理方面的浪费。
先天存在的瓶颈使得传统存储在面临大数据难题时更加捉襟见肘。
Isilon应对大数据
Isilon是集群存储领域的老牌厂商,尽管该领域内曾经拥有多家强劲有力的竞争者,但随着戴尔收购Exanet,LSI收购ONstor,惠普收购Ibrix、HDS收购BlueArc等一系列收购案的发生,如今集群存储领域已经鲜有独立厂商存在,集群存储市场已经成为综合型存储方案供应商角逐的天下。而EMC花费22.5美金收购Isilon的举措,也被解读为EMC急于利用Isilon在“大数据(Big Data)时代”巩固自己的领先地位。
Isilon基于集群存储系统,其核心技术在于OneFS文件系统,硬件平台采用了基于英特尔X86标准化组件。OneFS(请参见图 1)将三个传统的存储体系结构层(文件系统、卷管理器和 RAID)组合为一个统一的软件层,从而创建一个跨越存储系统中所有节点的单一智能文件系统。英特尔X86平台的标准化组件则为OneFS提供了完美的硬件基础,依托于英特尔标准化平台的强劲性能、优异能耗比和突出的性价比,OneFS在这些标准化硬件上发挥其强大的存储管理功能。
OneFS文件系统专为解决大数据存储难题而设计。一个Isilon 群集由多个基于X86平台的存储“节点”组成,其中包含内存、CPU、网络、NVRAM、Infiniband 和存储介质。在OneFS文件系统支持下,Isilon 群集可以从三个节点,横向扩展到多达144个节点。此外,Isilon还为大数据提供最大单一文件系统,在单一文件系统和单个卷中可扩展至超过15PB。添加到群集的每个节点可以增加总的磁盘、缓存、CPU 和网络容量。由于总容量增加,144个节点的群集可以访问高达13.8 TB的全局一致共享缓存。此外,容量和性能均在单一存储系统、单一文件系统和单一卷中提供,系统的复杂性和存储管理员的管理时间不会随着系统的扩展而增加。
今年,EMC针对Isilon产品线进行了新一轮升级。新的EMC Isilon S200和X200产品均采用了英特尔的Westmere和Nehalem处理器,其高端S200系统可提供超过两倍的文件吞吐量。S200将替代先前的IQ 5400S,S200将替代现有的IQ 7200X。而7200X的近线存储版本72NL和36NL仍将保留在Isilon的产品组合中。不过,据估计,即将推出的200NL将作为现有硬件的更新踏入近线产品领域。
S200具有2个4核Westmere处理器可提供140万的NFS IOPS,单个文件系统具有85GB/s的吞吐量。而先前的5400S仅可提供600000 NFS IOPS、其吞吐量约为45GB/s。中端的X200每个节点有1个Nehalem处理器和48GB的最大内存,能容纳24TB的数据,其中包括12块2TB、3.5英寸SATA硬盘。纵向可扩展至5.2PB,可能提供309312 IOPS,具有35.7GB/s的吞吐量,6.9TB的全局缓存。除了对传统磁盘的支持,X200还支持固态硬盘。
X86平台在集群存储的应用
Isilon是EMC大数据战略的关键布局之一,通过独特的分布式文件系统和高效的硬件基础满足大数据的存储需求。在大数据需求背景下,集群化架构已经从计算处理应用拓展到了数据存储领域,如今,存储领域的多数高端系统已经从传统的Scale up模式转向了Scale out架构,基于Scale out架构的分布式并行计算特征,Intel X86架构也在集群存储架构中发挥了重要作用。
总结起来,英特尔在存储领域的策略可被概括为标准化、高集成与低成本三个要素。
英特尔在标准化方面的推进力度可说是不遗余力,英特尔存储首席技术官Mike McGrath就曾在采访中表示:英特尔遵循的是开放的原则和开放的技术,封闭的技术与产品不一定是用户必须的选择。存储走向集成和融合的趋势不可阻挡,而这个过程中标准化将是关键。从长远和用户成本的角度来看,存储行业是最终需要走向开放的。
在集群存储的系统架构中,采用标准化的硬件平台有助于降低整体的系统成本,帮助用户更容易、更快的采用业界最新技术,同时提供了最大程度的兼容特性,并为日后的扩展与升级打下了良好基础。
▲新一代服务器和工作站平台基于Sandy Bridge微架构的处理器,以及支持集成SAS技术的Patsburg桥片
在下一代(预计2012年发布)的英特尔服务器平台Romley-EP上,英特尔将在主板上集成10Gb以太网交换技术,包括Sandy Bridge-EP服务器处理器(未来的命名为至强E5)及Patsburg芯片组上,英特尔将在处理器芯片中集成了RAID加速功能,并将在Patsburg芯片组上集成6Gb/s SAS接口。这几项重要的存储功能的加入,使得Romley平台成为一个高集成度的处理器平台,大大简化存储系统的体系架构和设计门槛,同时推动存储融合进入一个全新的阶段。
此外,基于英特尔得天独厚的标准化和规模化优势,X86节点往往在性能优异的同时,提供了较高的计算密度、较低的成本和功耗、以及简单灵活的管理,使得基于X86平台的集群存储在应对大数据等规模化存储需求时具备不可比拟的成本优势。