存储 频道

并行文件系统构筑高性能计算数据基石

GPFS:商业并行文件系统代表
    我们再看看 GPFS 这个商业产品,GPFS 是用于 IBM Linux 集群系统的高性能、可扩展、并行文件系统。它可以通过所有的集群节点来共享文件。GPFS 可以充分利用 IBM Linux 集群系统中的“虚拟”共享磁盘,使得在多节点上运行的多个应用程序可以同时读写同一文件;它包含了 IBM 可扩展集群系统技术(RSCT),可将存储内容自动恢复到活节点;在发生故障时,记录(日志)能够快速恢复数据,并恢复数据的一致性;具有文件访问的单一镜像,可以从任意节点访问文件,而无需改变应用程序。

GPFS文件管理模式

    在 GPFS 中,通过它的共享磁盘结构来实现它的强大的扩展性,一个 GPFS 系统由许多集群节点组成,GPFS 文件系统和应用程序在上面运行。这些节点通过光纤交换机连接磁盘和子磁盘。所有的节点对所有的磁盘有相同的访问权。文件被分割存储在文件系统中所有的磁盘上。用来连接文件系统和磁盘的光纤通道是由存储区域网(SAN)所组成,例如光纤通道或者 iSCSI。还有个别的磁盘依附于一些 I/O 节点,它们通过一个运行在通用的网络上的软件层来实现存取,例如 IBM 的运行于 SP switch 上的虚拟共享磁盘。

    GPFS 依靠一个组服务层,通过监测节点和通讯连接出错的早期征兆,来监测节点错误,并且提供了一个组成员协议。当一个节点出现错误时,这个服务层通知其余的节点组成员变化了,通过早期的行为来触发恢复程序。导致通讯失败的原因,如网络适配器损坏、线缆松动导致孤立节点、光纤交换机可以产生了一个不可识别的网络分区等。

    因为 GPFS 把数据和元数据条块化存储在文件系统中的所有磁盘上,所以损失单个磁盘也 会不同程度的影响文件。因此,典型的 GPFS 用双重附带的 RAID 控制器。大型的 GPFS 文件系统分布在多个 RAID 上,这种情况下,文件系统块大小和 RAID 的匹配就非常重要,这样可以防止写数据时发生奇偶校验的错误。

    作为 RAID 的替代或补充,GPFS 支持替代机制,它为每个数据和元数据块都分配空间,将两份拷贝存在两个不同的磁盘上。当一个磁盘不可靠时,GPFS会追踪上面文件块的更新,以便磁盘恢复时恢复数据。如果磁盘完全无效了,它会用备份来代替所有可能影响到其他磁盘的块。数据和元数据可以单独的运行这种恢复机制。事实上当一个磁盘部分磁道不可读时,元数据的恢复保证了只需要恢复很少的几个数据块,而不需要彻底的去恢复很多文件。

0
相关文章