存储 频道

Isilon技术白皮书 :集群存储革命

  【IT168 白皮书】“集群存储正在逐步普及,并成为以前多代存储产品的主要转变趋势,这与 CD 淘汰唱片十分相似。”

——Tony Asaro,Enterprise Strategy Group,2005 年10 月

    1962 年,Thomas Kuhn 出版了一部极具开创性的名为《科学革命的结构》的专著。他指出,科学进步不是渐进式的,而是呈现为一种伴有划时代变革的断续性平衡,这与我们所理解的生物进化颇为相似。1981 年,当 IBM 推出 IBM 个人计算机的标准化架构时,计算机行业便经历了这样的一场革命。与以往的行业惯例背道而驰,IBM 选择了使用现成组件来构建其计算机。结果,IBM 个人计算机架构最后成为了行业标准。这种架构体不仅取代了其他个人计算机设计,而且在以后几十年里,微型计算机和大型机也经历了这种变化,以适应 IBM 标准并开始使用现成组件构建。

    本白皮书的目的是向您介绍目前数据存储行业正在发生的新思维转变:转向集群存储架构。数据存储行业的分布式存储集群与 IBM 在 1981 年的处境大致相同,后者准备改变计算机行业的规则。集群存储架构正在改变数据的存储和访问规则。在本白皮书中,我们将讨论一些趋势,这些趋势明确地将集群存储架构定义为数据存储的未来。我们将详细说明这一新存储类别的要求,并介绍率先这一思维转变的 Isilon® IQ 集群存储解决方案。

1 推动集群存储革命的三大宏观趋势

    三大宏观趋势推动了向集群存储架构的转换:

——非结构化数据和数字内容(数字图像、计算机模型、数字视频、数字音频、计算机模拟、扫描文档、参考信息)的爆炸性增长

——向集群计算的思维转换

——更廉价、更快的行业标准企业级硬件的激增

宏观趋势 1:非结构化数据和数字内容的爆炸性增长

    今天参与竞争的企业都面临着用于执行日常业务的数据的急剧增加,这在很大程度是由于非结构化数据爆炸性增长造成的。IT管理人员知道,使用并存储视频、音频、图像、研究数据及其他大型数字文件和非结构化数据的应用程序正在挑战传统存储系统的容量和性能禁区。

    Pratt & Whitney 对非结构化数据的爆炸性增长深有体会。作为全球先进的商用和军用飞机以及宇宙飞船引擎的领先设计、制造和支持供应商,它所进行的详尽测试生成了许多 TB 量级的引擎测试数据,其中每项高带宽测试每秒将记录 100,000 多个样本。 Cedars-Sinai 肿瘤研究中心位于加利福尼亚的洛杉矶市;该肿瘤研究中心整理从多种渠道收集的数据,包括临床质谱分析和基因组数据,他们也知道存储大量研究数据时会遇到的一些难题。对 Cedars–Sinai 而言,一滴血将生成超过 60 GB 的非结构化数据供蛋白质组学研究使用。用这个数字乘以从研究中心的患者身上采集的数百个(如果不是上千个)血液标本,非结构化数据的急剧增加是显而易见的。最后,Sports Illustrated(体育画报)于2004 年在雅典夏季奥运会上率先开创了一个百分之百的数字化工作流。这一工作流在为期 17 天的赛事中生成了 250,000 多张数字图像(图像平均大小为 18 至 24 MB)。这一数字化趋势扩展到了所有使用非结构化数据和数字内容的行业领域,包括传媒娱乐业、数字成像、生命科学、石油和天然气、制造业以及政府,而且非结构化数据的迅速增长非常明显。

    据企业战略集团 (ESG) 预测,到 2006 年底,参考信息将占企业和政府新信息的 58%。ESG 将参考信息定义为“为随时参考和创造价值而保留的数字资产”。这些信息包括但不限于电子文档、CAD/CAM 设计、历史文献、医学影像、生物信息学、地球物理数据和语音数据。ESG 预计,参考信息将以 92% 的复合年增长率(CAGR) 增长。同时,ESG 还预计,在此期间迁移参考资产(即从磁带迁移到基于磁盘的存储资源的数据)会额外占用 420 PB 的容量。

    那么,对 IT 管理人员来说这意味着什么呢?由于非结构化内容的存储规模和复杂程度不断提高,它们使得传统存储系统捉襟见肘,因为这些系统主要是为含有小型文件和高级别事务(例如关系数据库和电子邮件服务器)的结构化数据设计的。另一方面,非结构化数据具有传统存储系统在设计时并未考虑到的独特特征,包括大型文件和数据量、高吞吐量要求、读取密集型访问方式以及大量并行文件访问。

    由于缺乏更好的替代方案,许多公司曾尝试通过拓展专为结构化事务数据或文本数据而设计的传统存储系统,以此来满足他们的非结构化数据需求。甚至最新的 NAS 和 SAN 系统也采用了存在先天不足的架构,造成了管理的极度复杂。这都是由于它们的“存储孤岛”、可扩展性限制、性能瓶颈和可用性问题造成的,而且将此类系统用于非结构化数据还会造成高额成本。这些限制也激发了企业对新存储架构的需求——一个完全为非结构化数据和数字内容专门设计并经过优化的存储架构。

宏观趋势 2:向集群计算的思维转变

    第二个宏观趋势是集群计算的广泛应用。企业数据中心已经从“大型”专有主机和对称式多处理(SMP) 服务器时代发展到运行 Linux 或 indows 的基于标准(使用行业标准硬件)的集群设备时代。这一趋势的最有力证据是全球服务器收入的变化。自二十世纪九十年代中期起,这个年收益 500 亿美元的市场约有四分之一或更大的比例从每台价格几万或几十万美元的中端服务器转向了每台 2,000 到 3,000美元的小型服务器。

    IT 管理人员的首要动机是,采用具有更高性能、可靠性、可扩展性以及整体工作负荷管理的服务器集群架构。这可以通过集合行业标准服务器来实现,而所有这些只有传统大型设备解决方案成本的一小部分。企业不再在一个拥有 200 个处理器的大型机上部署大型数据库。今天,IT 管理人员可以购买一组现成的服务器,并将其组合成一个可无缝扩展的大型系统。

    网络服务器库便是集合优点的一个例证。通过服务器集群,非常好的地实现了因特网全天候实时在线所需的可用性、可靠性和性能,同时也采用了经济合理的解决方案。服务器集群库通过在服务器库的各个组件之间分配工作负荷来简化内部流程率,并利用多台服务器的功能加快计算过程。

    如果一台服务器发生故障,其他服务器可以介入并承担该工作负荷。将服务器和处理功能组合到一个实体中在以前只是研究和学术机构的一种做法,但它现在也广泛深入到了企业市场中。今天,越来越多的企业使用服务器集群方法来处理大量计算机化的关键任务和服务。

     集群存储革命将这一集群趋势从服务器应用领域扩大到了数据存储领域。出于同样的原因,服务器应用领域正在以同样的方式向集群架构转变,而存储领域也已开始转向这一主流架构。

宏观趋势 3:更廉价、更快的行业标准企业级硬件的激增

    推动转向集群存储的第三个宏观趋势是行业标准硬件组件的性价比曲线明显下降。这一趋势是摩尔定律所预示的持续运动的一部分:随着时间的推移,企业将以更低的成本获得更高的计算能力,并实现商品硬件的经济效应。商品硬件组件的低成本造就了集群架构经济实惠的优点。集群如何利用行业标准硬件的性价比曲线,以传统定制系统的小部分成本来实现行业领先的性能和可靠性的呢,Google 便是一个主要例子。平均而言,Google 的一次查询会读取数百 MB 的数据,占用几百亿个 CPU 周期。为了处理这一“高性能计算”工作负荷,Google 的架构采用了数千个商品级PC、现成组件以及容错软件的集群。该集群架构实现了卓越的性能,而其成本远远低于使用数量更少但更昂贵的高端服务器打造的系统。

    企业级行业标准硬件的利用直接产生了转向集群存储解决方案的趋势。根据存储磁盘产品(即SATA)的价格历史和密度,过去 5 年每 MB 的单价降低了 100 多倍。(见下图)加上处理器、内存和带宽成本的显著下降,IT 管理人员现在可以通过商品化的存储组件实现集群的全部价值。

    这些宏观趋势说明了三个基本意义:

—— 存储行业正在经历一场革命

—— 集群存储正成为新的主流存储架构

—— 用户将从集群存储中收获巨大的业务价值和好处

    从大型单片机到集群架构,存储领域正在跟随服务器应用领域业已发生的思维转换步伐。集群存储是一种迅速崛起的新存储架构,它由智能软件驱动,并基于行业标准硬件打造。客户知道,集群架构能够处理企业迅速增长的非结构化数据,最好地提供前所未有的性价比、可靠性和可扩展性,从而满足他们的需求,而这一切的运营成本明显更低。集群存储革命已经开始! 

0
相关文章