存储 频道

评论:SAN为HPC集群带来了什么?

    【IT168 专稿】服务器集群的崛起已戏剧性地永久改变了我们的计算形态,集群不仅超越了昔日的庞然大物——巨型机,也直接触发了当前存储架构方面的革命。

    今天的高性能计算机( HPC )环境不仅打破了几十年来Teraflop性能难以提升的困境,而且还以比巨型机远低得多的成本来实现这一突破。 当内容和应用变得更复杂和先进时,存储也需要突飞猛进。现今,一个组织不再需要类似巨型机架构下那样的大量存储要求——这可以解释为何越来越多的用户采用SAN来取代DAS。直到最近,创新的SAN基础架构才被管理人员在优化处理性能中稍加重视。但是,同样是这些管理人员,他们已经认识到了SAN的集中管理特性和易扩展特性能满足日益增长的存储需求。

 

SAN的崛起

    正如大多数管理人员所知道的,使用多重文件服务器来支持巨型集群将增加费用、复杂性和管理环境难度。当面向数据密集型的应用时,简单地增加更多的存储不仅是困难的,更是破坏性的。当新的卷和mount point被添加时,多重文件服务器上的容量和带宽的平衡被打破,必须再次进行平衡。

    当集群进行每秒万亿次计算时,如何管理那巨大的数据卷是一个问题。 最近数年来,处理性能的提升轻易地超过存储的扩展,这也是为何SAN能够凭借高扩展的特性进入到高性能计算领域的原因。

    过去十年间,SAN已经渡过了一个典型的产品生命周期。它已从财富100强公司这样的用户才能采购,用以尝试解决集中存储以及节约数据中心成本这样的用途,演变到现在一个普通中小型企业就能拥有和应用。此外,部署、管理成本以及复杂性的降低,也加速了SAN的普及。

    和SAN日益普及的应用趋势类似,通用处理器和开放式系统软件(如Linux、集群文件系统)也都在HPC中得到广泛应用,这两种技术也能降低计算引擎的成本和复杂性。

    在HPC环境中正确地部署SAN,能够支持集群和网格的巨大容量和聚合的容许能力,加上执行动态负载均衡和提供单一点管理和一个文件系统的namespace及数据再分配,存储结构的传播数据。在利用率、灵活性、可扩展性和性能方面,SAN相较DAS和NAS而言,明显具备更好的成本优势。
 
    然而,要实践其诺言,网络存储必须简单、透明和便于部署,这样才能在现实世界中流行。查找理想的存储策略是管理人员必须首先承认的一种挑战,随后建立技术架构,寻找正确的销售商、最经济的部署方案并且管理它。在过去,这样的过渡看起来是十分冒险的,并足够令管理人员感到沮丧,这导致管理人员宁愿选择呆在老的解决方案里。到现在为止,SAN已经展现出从商业计算到科学计算市场的广泛影响力。

SAN在HPC中的早期应用

    对于制作动画或特效的工作室而言,要想在项目进度、成本、观众呼声、收益和未来生存力方面获得成功,就必须高度依赖SAN。例如,要在动画和特效方面取得平滑的场景转换、良好的运动细节表现、多边形处理、阴影效果和语音质量,就需要面对空前的数据量,这必须要求数据以闪电般的速度在生产、编辑和其它流程中传输。CGI数据的传输和编辑需要计算系统具备高带宽、低延迟的特性——这恰好是SAN最闪亮的特性。

    如果没有大规模存储,所有那些让人惊讶无比的特效、真实的场景图,和复杂的动画序列,将由于动画编辑软件产生的大量数据而受到“数据限制”的拖累。信息可能在那里,但是显然,仅依靠缓慢的图形图像数据传输速率,是难以实现灵活快速的前期制作和编辑的。采用SAN+“Pizza盒子”般的机架式服务器的架构,动画编辑们能轻松地以近乎“实时”的方式在胶片上合成。前期制作小组还能通过重定义动画序列、特效整合和仿真处理,并将它们无缝地混合到胶片上。如果没有SAN的存在,所有这一切将不得不依赖于专有的结构体系,如光纤通道,这种结构体系已经日益趋向于笨重、昂贵和难于管理。

I/O问题

     SAN技术已经具备了良好的灵活性和开放标准基础,当下对于SAN的研究越来越多的集中于找到I/O和计算节点非常好的性能的结合点。在2006年4月IDC举办的一个HPC用户论坛调查中,参与调查的用户们认为并行I/O带宽是需要解决的关键问题。从这些调查问卷中可以看到,几乎超过2/3的受访者表示,愿意对改进存储方案中并行I/O带宽的研究进行投资。而这份调查同时也显示,当下有许多不同的选择在这些HPC用户中得到采用。例如许多用户选择了万兆以太网技术,这一技术足以满足“服务器到服务器”和“服务器到存储”的解决方案,同样它还能实现跨越众多服务器和集群的连接。另一个I/O方案当然是使用SAN,因为这部分用户使用基于块的数据访问,再配以部分基于文件访问的NAS。

    一个可能存在争议的结论是,InfiniBand技术为集群打开了一条实现巨型机I/O水平的通途。由于具备高通信效率、低MPI(并行处理接口)延迟和良好的带宽容量的优势,InfiniBand以可接受的成本实现了把应用扩展到数千个节点。

    HPC需要一个能够连接处理器和I/O节点的高速系统,这个系统不仅具备卓越的本地I/O总线处理能力,还要有远程消息传输通道。而独立于主机操作系统和处理器平台的I/O系统也能有助于性能提升。SAN具有足够的便于管理的特性,从而能实现从共享池中动态定位存储——例如允许在没有数据迁移的情况下,实现平滑的服务器重置和替换。

    另外,随着多协议结构控制器和虚拟I/O控制器的出现,使得把SAN添加到一个InfiniBand集群中变得更加容易一些。这些新的控制器能让InfiniBand结构上的服务器能够以接近透明的方式去访问光纤通道或者以太网络,并提供如下的关键优势:

  1. 提供服务器和存储、处理期间通信和LAN/WAN网络之间的虚拟连接 
  2. 允许用户扩展网络I/O和服务器独立化 
  3. 提供服务器间的虚拟池和共享I/O 
  4. 简化网络通信 
  5. 减少能耗和冷却系统需求 
  6. 提升集群和网格计算的TCO

    这就是一种“一线式”集群计算互联解决方案,它能让服务器和I/O能够获得几乎无限制的增长。

SAN的实例

    集群上运行的软件通常是为了具备快速可扩展性和可重配置特性而开发,所以集群通常可以通过采用便宜的机架式服务器来简易地扩展。当镜像具备高可用特性时,分布式数据库能够通过跨平台的方式来提升系统性能水平。

    对于现在的IT管理人员而言,必须保护并且管理由集群产生的数据——它往往是企业最关键的信息资产——而此时,共享的SAN存储无疑是理想的解决途径。

    如果在部署和管理大规模存储时总需要专家和麻烦的操作流程,那么这样的方案肯定会昂贵到让用户止步。实际上,SAN允许服务器和存储之间实现更优越而实用的简便连接。

    SAN方案令企业用户可以动态定位存储到正在使用的集群,以实现业务的连续运营;这样的方案能够保证,即使当磁盘被数据填满后,也无需产生业务延迟或停机,就能动态地保证业务连续性。

    当数据存在于集群上时,存储设备被精确地定义大小和设计,以实现最优化的空间利用。过去,系统管理员在集群的服务器上,载入一个大应用时通常是冒了许多风险的,他会划给这个应用足够多的存储空间(或许这个应用可能不需要那么多),长此以往,这直接导致了子分区利用率和高复杂度的问题——即便如此,有时仍然不能保证足够的容量。

    SAN的出现结束了这个迷局,由于采用一个共享的存储池,所以能够当一个应用在载入时,能够动态侦测并精确地分配给其以需要的存储空间。

    SAN特别适合使用在运行科学计算和工程应用的大规模Linux 集群上,例如大学、政府和性能导向的行业就特别青睐这样的集群方案。当然,也不排除一些集群仍然采用低速共享I/O协议(如NFS),而低速的I/O将限制集群的处理速度和吞吐量。

    SAN可以给集群提供毫无风险的高可用性。HPC可以通过共享备份架构访问光纤通道的SAN,结合阵列提供高容错性能、包括以RAID算法来保障整个方案不至于因为磁盘错误而崩溃。

    比起基于LAN的备份方案或是在每个服务器上配置磁带库,那么采用共享访问的磁带库或基于磁盘的备份设备是更实用的解决方案。而光纤通道交换机和主机适配器的便利之处在于,它们能促使SAN的良好增长。

    由于采用了4Gbps的光纤通道接口,集中式的SAN备份和恢复方案可以节省大量的时间和金钱。SAN的出现,戏剧性地提升了备份和回复的性能,特别是比起基于100兆和千兆以太网的LAN备份方案。
HPC的数据需求如何?

    对于企业用户而言,集群计算技术可以令它们在执行工程模拟时获得不可思议的性能飞跃。
 
    而就在数年前,如果一个汽车公司想分析出一个引擎的热输出,他们会采用这样的方式——先让这个引擎运行在60英里/小时的状态下,保持一个小时,然后测量该引擎的热输出。这样测到的结果就是一个相对静态的指标。

    而今天,对高性能计算应用日益老练的用户可以实现瞬间分析模式——先让引擎空闲20分钟,然后迅速提速到60英里/小时,然后熄火,然后再提速,尽可能地模拟真实世界的情况,并捕捉到所有的数据点。

    在静态分析模式下,不会产生巨大的数据量也就不需要解决巨大的数据量;而瞬间分析模式将会产生海量的信息,这将吞噬掉无数的CPU时间。

    如果企业负担不起处理瞬间动态水平下的细节,那么,结果就是只能降低准确率并只能获得单向度的处理快照。

    采用集群的配置模式,公司能把令全部CPU有效地以并行和扩展方式运行,以满足瞬间分析模式下的更高需求。大量的时间被将会花费在瞬间分析上,因为它更精确也更有用。

    由于计算机能耗成本的降低,过往困扰集群的问题现在也已经变得异常容易。

    一些大的汽车企业甚至还设立了专门的存储环境,例如一个大的SAN方案,并完全取消了本地存储。

    在一个并行文件系统中,并行数据块会在多样化存储服务器上的多种存储上穿行。

    由于价格便宜、性能可用的服务器和存储设备可以迅速增加,集群的吞吐量能轻易地实现翻倍甚至三倍。显然,HPC要保存应用数据的需求正在快速增长,并将持续增长——正如上面例子中的汽车企业的应用实例,瞬时动态分析将成为越来越多行业将采用的技术趋势。

SAN就在眼前!

    SAN实际上可以被看成一种多需求的通用存储资源——它能应服务器的需求来定位和重定位。

    SAN能扩展基于块的存储通过整个集群来实现设备的智能共享,以及灵活地使用存储资源。SAN不仅交付必要的带宽,还能保证QoS特性,以及提供具备高容错特性,易于安装、配置、监控和管理的架构。

    过去,HPC集群采用的是典型的DAS解决方案,即存储和服务器是被强制性的绑定在一起增长。SAN方案打破了这样的强制性限制,并提供如下的优势:

  1. 相较DAS方案,存储被重新解放,并以更高利用率地方式进行服务器间的配置。 
  2. 存储被整合成为一个简单的,易于管理的数据源,具备冗余和RAID保护特性。 
  3. 管理能被简化为只需要一个简单的控制台和单一的管理人员。 
  4. 存储和服务器环境能独立而便宜地按需求扩展。

    由于计算机群在性能上不断成长,HPC基础组件的各个部分都被要求能跟得上CPU的扩展速度。当永远处于计算饥渴状态的集群处理单元,提出更多数据处理需求时,网络和存储的瓶颈将被毫无遮掩的暴露出来。正如上述IDC所作的调查所显示:“集中存储和采用低成本的存储网络是存储行业的未来增长趋势”。 (本文原作者Tim Lustig是QLogic的高级技术市场经理,具有10年存储行业经验。他撰写了许多关于存储的论文和文章,并在多个全球性的行业会议上作为特邀讲者出席。他毕业于圣地亚哥的Coleman大学,并获得了计算机网络及管理学士学位。)

0
相关文章