存储 频道

TOP500 HPC揭示存储未来风向

    【IT168 专稿】[编者按]:今年的高性能计算和网络国际会议已经于11月份在美国佛罗里达州坦帕市正式谢幕。IT168曾率先发布TOP500组织的全球HPC最新一期排行榜和相关统计数据,参考“最新TOP500 HPC 14日发布 中国大幅跌落”。

    一年一度的超级计算大会已经举办了20余年,每年的超级计算大会似乎是一场全球范围内优异技术的时尚秀场。这里展现了网络计算领域五光十色的最新技术,而从这里发布的TOP500 HPC排行榜不仅仅是高性能计算领域的“时尚”风向标,也揭示了整个网络计算领域技术发展的“晴雨表”。

    众所周知,高性能计算往往基于高效的数据中心,一个超级的存储环境则是一台超级计算机所必不可少的组成部分之一。研究历年TOP500 HPC排行榜,我们可以隐约看到一些存储趋势逐渐显山露水。而在网络与计算环境日益融合的趋势下,这些趋势不仅仅引导着存储的未来方向,也极有可能影响整个全球的IT未来。


    在经历了以CPU、处理器和以内存为中心的发展阶段之后,今天,我们的信息化系统已经进入到以数据为中心的发展阶段。这使得数据归档核管理的载体——存储系统逐渐地不再依附于计算机或服务器本身,而成为了相对独立的系统。但是,数据本身为计算而服务,存储系统与计算系统之间密不可分的关系不言而喻,尤其在以数据处理为核心的今天。

    高性能计算更加依赖于一个高效稳定的存储环境,在数据量与运算量都极为庞大的系统中,计算必须与存储有机的结合起来才能表现出良好的整体性能。面向未来,高性能计算领域(HPC)对于存储技术的发展趋势有着重要的推动和牵引作用。鉴于HPC的这种影响,本文主要从HPC市场的发展,试图揭示未来存储系统的发展趋势。

TOP500高性能计算趋势凸现

    在过去二十年中,高性能计算经历了飞速的发展与进步,且后续势头依然强劲。纵观20年TOP 500排行榜所显示的HPC发展历程,高性能计算已表现出相当明显的主流趋势:

    首先,X86及其兼容处理器在历年的TOP500排行榜中市场份额不断扩大,并逐渐形成压倒性优势;

    其二,Linux操作系统不断蚕食其它操作系统的份额,已经成为HPC中“标准”的系统选择;

    其三,工业应用成为主体应用。这表明HPC应用层面的需求和技术日趋旺盛和成熟,如地球物理、大气气象、生物信息等领域。数据处理成为HPC应用的核心问题,微软发布WCCS2003在HPC领域的推动正是这方面的明证。

    其四,经过长时间的发展,集群系统已经成为HPC的主流结构,具有压倒性优势;

    其五,千兆以太网技术成为互联技术的首选,占据接近一半的市场份额。随着万兆以太网的推广和成熟,以太网作为互联技术将拥有更为广阔的发展前景;

    最后,随着硬件成本的迅速降低,系统规模越来越大,数百个计算节点的系统已经司空见惯。

HPC对存储发展的影响

    高性能计算还将进一步向前发展,上述这些发展趋势在可见的时间段内还会持续。在HPC以数据处理为核心需求的今天,存储系统正成为HPC密不可分的后台支持,TOP500排行榜所发布的HPC“时尚”风向对于中高端存储技术发展方向更产生直接而深远的影响力。下面,我们针对相关发展趋势,分析其影响所在。

    第一:应用领域日趋广泛,特别在各种工业应用领域发展尤为迅速。其中,地球物理、半导体、大气气象等以数据处理为核心的应用领域迅速崛起。高性能计算的日益成熟与数据处理的巨大需求,直接推动了面向高性能计算的存储系统的发展。在应用日趋广泛、技术日益成熟的今天,应用系统与存储系统的持续可集成性需求也更加迫切,IP/以太网技术的开放性和可集成性成为IP网络存储技术发展的直接推动力。

    第二:集群系统成为主流。基于集群系统在高性能计算领域所占据的重要地位,集群文件系统的需求也日益强劲。集群文件系统应该具备某些技术特性,包括支持大规模数据的有效传输、支持多计算节点间的数据有效共享等。此外,计算节点的重复安装、配置等管理工作降低了集群系统的使用效率,因此,以存储为中心的集群高效管理技术已经成为研发热点。

    以太网作为互联技术已经成为高性能计算的主流连接技术(占49.8%),且比重还在持续扩大。一方面,说明以太网技术的日益成熟(包括聚合带宽、单端口带宽和成本、技术集成度等);另一方面,说明即使在高性能计算领域,用户对于系统成本(包括采购、管理和运营)也是同样敏感。

    在存储系统成本在整体系统成本中的所占比例日渐提高的今天,这必将影响到用户对于存储技术的选择。如果实现互联网络与存储网络的技术统一,则必将大大降低系统总体成本,提高整体系统的集成度。IP/以太网络技术的成熟程度,特别是其开放性和可集成性使得IP网络存储技术具有特殊的诱惑力。

规模膨胀遭遇存储瓶颈

    我们已经分析了HPC的发展对存储环境的需求与拉动,然而随着软、硬件成本的下降, TOP500排行榜所揭示的另外一个趋势也不容忽视:计算节点数量正以前所未有的速度增加膨胀。20年前,我们看见排行榜上计算节点数超过20 的系统还屈指可数,今天计算设备数量日益增加,动辄数十乃至于数百台服务器的计算环境已经司空见惯,由此也引发出以下一些问题:

    A. 计算机数量的增加,不仅导致计算系统本身能耗过高,而且相应机房制冷设备的能耗也同比例增长。直接导致的结果是,在计算机数量不断增加的同时,其利用效率反而不断降低。这种高昂成本和低利用率之间的反比关系,不仅仅限制了现有规模下系统应用领域的进一步拓展,也局限了计算机系统规模的持续扩展。

    这一局限直接引发了存储与计算的分离趋势,以及以此为基础的计算资源部署技术。通过两者的分离,有效地将计算设备资源化,并且按照需求调度,从而大大提高计算资源的利用率,降低对计算资源总体数量的需求。

    B. 计算机管理问题更加严重。计算机的安装、配置、维护成本已经成为不可忽视的成本组成部分。为了解决系统管理与维护问题,以存储与计算分离技术为基础的层叠式快照和虚拟共享存储卷管理等多种存储核心技术,以及相关的备份和恢复技术迅速崛起。

    C. 数据通道已经成为瓶颈。数量众多的计算节点、高并发的数据访问,势必给存储系统带来极高的压力,从而要求存储网络及存储系统可以满足聚合高效率、高带宽的数据访问需求。高聚合带宽的需求,直接推动了集群存储技术的发展。此外,IP/以太网络技术的成熟程度和其高聚合带宽的优势,进一步推动了IP存储技术的发展。随着万兆以太网的普及,将一定程度上解决以太网络单端口带宽低的问题,并进一步强化IP网络高聚合带宽的优势。

    D. 数据量日渐庞大。众多的计算节点具有巨大的数据处理能力,如地球物理、大气气象、遥感信息等相关应用领域,数据量巨大。这些需求,要求存储系统能够提供巨大的存储容量和丰富的数据管理功能,以此将推动PB级存储系统的研究热潮。大容量、高性能的存储与优异的性价比形成反差,进一步强化了存储与数据分离的趋势。在分离的基础上,使能存储和数据的资源化,基于存储对象技术和层次化存储技术,增强存储系统的层次化,推动数据的集中管理和数据的按需部署等技术的发展。

存储技术的远景展望

    存储系统已经开始向高速发展的阶段迈进。以下几个方向代表了存储系统的主流发展方向:虚拟存储系统、服务部署系统、集群文件系统和数据管理系统。

    (一) 虚拟存储系统:国外的IBM、HP、StoreAge、Veritas、EMC和 StorageTek等厂商,已把虚拟存储(虚拟磁盘存储、共享虚拟磁盘阵列和虚拟存储管理)作为其核心技术。

    (二) 服务部署系统:现已有IBM实验室研发的Oceano、Purdue大学研究的soda以及Duke大学提出的cod系统。

    (三) 集群文件系统:在国外,已出现由Lustre(linux cluster)设计并实现的基于存储区域网的集群文件系统,包括IBM公司的Storage Tank以及基于Storage Tank的Total Storage SAN File System和Panasas公司的PANFS系统。

    (四) 数据管理系统:EMC和国外厂商基于ILM理念推出了各种管理系统。此外,数据搜索和数据索引技术发展迅速,Google和微软都推出了桌面搜索工具。

    在社会的迅速发展中,伴随着各行业中数据量的不断地增加,存储技术的研究和开发热潮也将迅速升温。面向未来,以高性能计算为龙头牵引,在iSCSI和SATA/SAS等技术的推动作用下,存储系统将朝着IP存储技术、部署技术、虚拟化技术、集群技术、对象化技术、数据管理技术等多个方面迅速发展。

后记:
    作为网络计算领域最具权威性的“时尚”风向标,TOP500 HPC排行榜所揭示的发展趋势无疑不容忽视,其在网络计算领域所产生的影响也必定广泛而深远。无论其揭示的趋势究竟如何,未来技术必将向着性能更高、更开放、更易管理、成本更低的方向发展,而只有经受用户与时间双重考验的技术概念,才能在未来的IT舞台上占得一席之地。

    作为国内权威研发机构的中国科学院计算技术研究所国家高性能计算机工程技术研究中心,在上述发展方向上,已经研发出具有自主知识产权的蓝鲸虚拟存储系统、蓝鲸服务部署系统、蓝鲸集群文件系统和蓝鲸数据备份系统,这些与国际存储最新技术完全接轨的存储系统已在多个行业的不同用户应用环境下得以实施,体现出中国科研机构在应用存储领域的雄厚的研发实力。

备注:本文作者系中科院存储技术专家

0
相关文章