存储 频道

CZSS集群存储解决方案助力高性能计算

  【IT168 案例】过去几十年中,高性能计算(High Performance Computing,HPC)在石油、生物、气象、科研等计算密集型应用中得到长足发展。由于CPU 性能迅速提高,标准化硬件成本迅速降低,相对廉价的Linux 并行集群系统逐渐成为HPC 的主流,并使HPC 进入更广阔的工业和商业应用市场。随着HPC 应用范围的扩大,高性能计算对存储系统提出了一系列的需求:

  高性能、易扩展:HPC 系统的处理能力日益增强,原本用于计算的时间已大大缩短,存储系统性能如果没有随之提高,会造成数据IO 过程占用大量时间,将严重浪费人力物力。

  简易性、可靠性:随着集群规模的扩大,HPC 系统变得更加复杂和难以管理,故障发生率也越来越高。存储系统在HPC 环境中往往占有重要地位,其简易性、可靠性也就显得极为重要。

  良好的数据共享能力:HPC 环境中运行着大量的MPI 程序,往往需要多台应用服务器之间协同工作,这就需要存储系统能够提供全局一致的文件系统映象,并且提供标准的文件系统锁机制,以提高应用服务器的并发计算能力。

  传统方案及其缺陷

  传统存储架构主要包括直接附加存储(DAS)、存储区域网络(SAN)、网络附加存储(NAS)以及在它们基础上衍生的一些新技术:

  DAS:该方案利用HBA 卡直接连接应用服务器和光纤盘阵,不提供数据共享能力。如果多个应用需要共用同一份数据,往往要花费大量的时间进行数据迁移,结果导致环境中存在多份相同的数据,并且多份数据之间的同步困难,浪费了大量的人力物力。

  SAN:该方案利用存储光纤网络连接应用服务器和光纤盘阵,相比DAS 更具灵活性和可扩展性。但是SAN 仍然不具备数据共享能力,而且由于SAN 系统高昂的价格,以及不同厂商之间的设备兼容性问题,限制了在HPC 领域的使用。

  NAS:提供NFS 或者CIFS 协议访问的NAS 系统能够给应用服务器提供统一的文件系统映象,满足多台应用服务器之间共享数据的需求。但是由于传统NAS 往往通过单台服务器的形式提供文件级的存储空间,其有限的IO 带宽和可扩展性都难以满足HPC 系统大量的并发读写需求。而且NAS 对文件系统锁的支持较差,多台客户端不能同时读写同一文件,导致客户端之间不能够很好的协同工作。

  SAN+NAS:该方案一定程度上具备了SAN 的可扩展能力和NAS 的数据共享能力,但仍然存在明显的缺陷。应用所有的数据I/O 都必须通过单个NAS 服务器进行,使得整套系统的I/O 带宽受限于NAS服务器的带宽,仍旧难以满足HPC 环境的需求。

  CZSS大规模集群存储系统

  CZSS大规模集群存储系统(以下将简称为CZSS)是北京九州初志科技有限公司的存储旗舰产品,是具有自主知识产权的民族品牌。

  CZSS存储系统主要由应用服务器集群、元数据服务器集群、存储服务器集群三大部分组成。

CZSS集群存储解决方案助力高性能计算
CZSS结构图

  应用服务器集群:运行客户应用程序的集群,进行特定的计算、信息处理及业务服务等。

  元数据服务器集群:管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供单一的系统映像。

  智能存储服务器集群:存储用户的实际数据,是整个CZSS存储系统的存储资源提供者。

  CZSS大规模集群存储系统优势

CZSS集群存储解决方案助力高性能计算

  如上图所示,由25台存储服务器和2台元数据服务器构建一个容量为250T(在设置LeoRaid span sum为4的情况下,可存放数据200T。LeoRaid为CZSS独有的全局动态数据高可用技术。)的虚拟文件存储池。计算节点通过千兆以太网络和CZSS存储系统进行通信以进行数据IO。

  使用CZSS在高性能计算应用中具有如下几点特点和优势:

  可扩展的海量存储空间:CZSS PB 级的存储容量使得高性能计算集群可以存放大量的计算素材和计算结果,良好的动态扩展能力使得用户能够快速的按需扩展容量,轻易满足核物理、大气气象、遥感信息等数据量极其庞大的应用领域。

  高性能:CZSS 高效数据读写技术和文件查询技术能够在高并发IO的情况下提供高达几十个GB 的稳定聚合带宽以及每秒数十万个的文件查询效率,大幅度减少计算任务的数据IO 时间,提高集群的工作效率。

  全局数据共享:CZSS 提供单一系统映象,所有计算节点共享同一文件系统视图,使得所有节点能即时获取所需的数据,无需进行数据迁移,大幅度提高了集群的使用效率。

  高可靠性:ZCSS内置一套完整的故障恢复流程,消除了单点故障。集群中的硬件故障和人为误操作都会以正常的恢复流程进行自动处理,整个流程对用户完全透明。任何硬件故障都无需进行手动处理,用户唯一的管理工作的就是在容量不够的时候添加硬件和用新的硬件替换损坏的硬件。种种高可用机制保证了CZSS能够24×7小时不间断的提供稳定的存储服务。

  可靠的分布式文件锁:CZSS 采用标准的分布式文件锁来实现并发控制,允许多个应用服务器同时读写同一文件,让集群节点更好的进行协同工作,进一步挖掘集群的计算能力。这也大大简化了用户应用程序的开发。

  简易的管理:CZSS 使用单一节点即可对整套集群进行管理和监控,用户可在极短时间内为ZCSS部署上百TB 存储空间和上千台应用服务器,而无需像SAN和IP SAN那样对硬件进行大量的配置,极大简化了配置流程。CZSS简单灵活的管理模块极大降低了管理员对系统管理的参与程度,减化了管理员操作出错风险,有效降低了系统的管理成本,提升了集群的管理维护效率。

0
相关文章