存储 频道

实战:构建高可用、高性能的GPFS集群

  【IT168 专稿】本文通过一个实际的生产系统案例 , 主要介绍了搭建高可用并行文件系统集群(GPFS)的设计思路和设计过程中的问题解决。本文也通过案例介绍了GPFS并行文件系统的一些基本框架和原理 ,GPFS系统的可靠性分析方法,以及如何最大可能的提高GPFS系统的性能与可靠性。

  GPFS并行文件系统介绍

  GPFS(General Parallel File System) 是 IBM 公司第一个共享文件系统,起源于 IBM SP 系统上使用的虚拟共享磁盘技术 ( VSD )。作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统。而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。

  GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。提供了许多标准的 UNIX 文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。GPFS也支持 UNIX 文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令。GPFS提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(这些节点属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件。

  GPFS文件系统基本上由三层架构组成:磁盘,网络共享磁盘(NSD),GPFS文件设备,如下图所示。

GPFS并行文件系统介绍
图 1GPFS基本结构

  磁盘

  GPFS文件系统最底层的是物理磁盘设备。原则上可以采用系统上任何块设备,包括磁盘,磁盘分区,逻辑卷。从物理连接上来看,GPFS支持使用所有方式连接的磁盘。包括本地 IDE 磁盘,本地 SCSI 磁盘,光纤 SAN 磁盘,iSCSI 磁盘,等等。

  网络共享磁盘(NSD)

  NSD 是由磁盘映射出来的虚拟设备,NSD 与磁盘是一一对应的关系。NSD 被标记了不同属性来区分其用途,我们可以将磁盘标记为 4 种用途:

  Desc Only:只存储GPFS文件系统描述信息的磁盘。
  Data Only:只存储文件系统中的数据信息。
  Meta data only: 只存储文件系统中的目录结构 inode 信息。
  Meta and data: 存储所有信息(默认)。

  GPFS文件设备

  GPFS设备是一个可被系统挂载的文件设备,由 NSD 创建而成,可以并行的同时挂载在多个节点上。

  GPFS可靠性分析和设计思路

  GPFS的数据完整性一方面是由以上提到的数据安全机制来保证,另外也通过一套可用性判断机制来完全保证数据完整性与系统安全。GPFS提供三套不同的 quorum 机制来判断系统当前的状态,其中 File Descriptor Quorum 是系统内置的,不能做配置,另外两种 node quorum 和 tiebreaker quorum 方式只能二者选其一,使用那种方式要基于我们的系统环境与可靠性分析。

  File system Descriptor Quorum:File system Descriptor 顾名思义即描述文件系统信息的数据。我们在几个不同的 failure-group 的磁盘上创建GPFS文件系统时,会把文件系统的配置信息(简写为 FD)的拷贝写到多个磁盘上,以实现冗余备份。FD quorum 的机制即通过判断含有 FD 磁盘的在线情况来判断当前系统是否正常,当超过半数的含有 FD 的磁盘掉线时,就判断为系统故障,将会自动关闭文件系统。

  Node Quorum:是通过主机状态的来判断系统可用性的机制。GPFS文件系统集群中,可以设置多个主机节点为 Quorum node。Node Quorum 的机制是通过判断 Quorum node 的状态来判断系统是否正常,当超过半数的 Quorum node 在线时,判断系统为正常,反之,将关闭文件系统。

  Tiebreaker quorum:是通过磁盘的状态来判断系统的可用性。我们可以设置系统通过监视指定的一些磁盘作为 Tiebreaker Disk。当超过半数的 Tiebreaker Disk 掉线时,则判断系统故障,将自动关闭文件系统。Tiebreaker 最多只能配置两个用来监控磁盘状态的 quorum 主机,当 2 台 quorum 主机都宕机的话,GPFS系统也将会关闭。其优势在于节点数较少时可用性较高,但节点数较多的情况建议采用 Node quorum 模式。

  根据以上三种判断机制,GPFS自动判断系统的状态,当异常发生时自动关闭系统以保护系统和数据的完整性。

  基于上面阐述的GPFS可用性机制,我们可以看出GPFS是通过上述的三种 quorum 机制来检查资源是否超过半数状态正常来判断系统状态好坏。我们在设计GPFS文件系统集群的时候需要注意最好保证各种资源数都为 2N+1 个(N 是指数量),也即数量为奇数,来获得系统最大的可用性。

  • Filesystem Descriptor (FD)Quorum 的设计。我们在一般的生产系统中都会使用两组不同的 failure group 的磁盘来创建一个文件系统,以实现数据的冗余保护,但是丢失一个 failure group 的磁盘实际不影响数据的完整性,但是由于 FD quorum 2N+1 的机制,文件系统仍将会关闭,所以我们在创建一个GPFS文件系统时,可以通过增加一个很小的本地的磁盘作为第三个 failure group。以实现 2N+1 的冗余设计。本地的磁盘可以设置为只保存GPFS文件系统信息(FD),实际不参与数据读写。(同一个 failure group 的磁盘是指有可能同时坏掉的磁盘,比如来自同一个存储的磁盘或连在同一个适配器上的磁盘)

  • Node Quorum 如果采用了 2N+1 个 Quorum Node,那么这个系统就能容忍 N 个主机节点的离线,所以如果主机节点小于 5 个采用此种方法都不是很经济,此时建议采用 Tiebreaker quorum 机制。

  • Tiebreaker quorum 只能配置两个 quorum 主机,但是只要 tiebreaker 磁盘在线,只有一个 quorum 主机状态正常,系统也能正常工作,同时也意味着必须有一台 quorum 主机在线。如果是主机节点数较多的情况,采用此种机制其可靠性不如 Node quorum。

  测试系统需求和环境

  测试系统需要构建一个高性能且高可靠的文件系统平台。其基本要求如下:

  1. 文件系统读写带宽至少达到 720MByte/s。
  2. 工作负荷每天超过 16 小时或两个轮班。
  3. 由 4 台主服务器和 2 台存储提供服务。
  4. 至少 2TB 的空间 , 存放的文件大小一般在 600MB 左右,文件传输 80% 采用 samba 或 NFS,20% 采用 TFTP。

  实际需求分析:

  • 性能考虑:系统读写带宽要达到 720MByte/s,均分到 4 台服务器就是 180MByte/s。如此高的带宽采用普通的服务器内置磁盘无法满足要求。所以我们在磁盘存储这一层采用了 DS4700 存储的解决方案。

  考虑到该应用对磁盘空间的需求很大,如果 4 台服务器分配独立的磁盘空间,则需要目前 4 倍的磁盘空间,并且大大增加后期的维护工作与费用。为了节省存储的成本,我们决定采用GPFS并行文件系统的方案,共享磁盘空间。同时GPFS其优异的“并行”的特点,又保证性能能够满足要求。

  • 可靠性考虑:此系统为生产系统,而且负荷较大,对可靠性有非常高的要求。所以本方案中所有的组件都将采用双机冗余或多节点冗余,以保证无单点故障。

  • Quorum 机制的选择:本方案预算只有 4 台主服务器,如果采用 Node quorum 的方式,整个系统可用性只能支持一台主机离线,可用性非常差。如果采用 Break Tie Disk 的方式,整个系统可用性支持被指定为 quorum 的两台主机,任意一台离线,以及其他 2 台主机的任意离线。我们可以看到采用 Break Tie Disk 的方式有较高的可用性。但是由于采用 Break Tie Disk 模式对两台设置为 quorum 的主机可用性要求较高,而且灵活性较差。

  从 FD quorum 的角度来看,我们只有 2 个存储,也即 2 个 Failure Group。任意一个存储的宕机也将会导致文件系统的关闭。我们必须增加第三个 Failure Group 的磁盘来提高可用性。我们考虑从某一台服务器本地拿出一个磁盘作为第三个 Failure Group 的磁盘。

  最后采用的方案是 , 增加一台配置较低,但可用性较高的服务器,并使用这第五台服务器上的一个 Raid 1 磁盘作为第三个 Failure Group 磁盘。总共 5 个节点采用 Node Quorum 方式。可以支持任意两台的服务器同时离线,任意一台存储的离线。

  解决方案介绍

  通过以上的原理与可靠性分析,最终设计方案如下。

  硬件结构

  硬件结构分三层,如下图(图 2)所示。

  • 存储层:采用2台DS4700 存储,保证数据的完全的冗余备份。每台DS4700 有两个控制器,保证了控制器的冗余以及链路的冗余。

  • SAN 存储网络层:两台 SAN 交换机,保证 SAN 存储链路设备的完全冗余。

  • 服务器层:增加一台配置较低的服务器 , 对性能没有要求 , 但需要是可靠性较高的配置,一共5台服务器以实现2N+1 的冗余。从新增加的服务器中划分出一个磁盘 ( 比如lv),设置为Desc Only 的磁盘,以实现磁盘组的 2N+1 的冗余。每台服务器都有 2 个 HBA 卡,以及多个网卡,以保证链路冗余。

解决方案介绍
图 2 硬件框架图

  该GPFS的逻辑结构如下图(图 3 )所示。也基本分为三层。

  • GPFS逻辑磁盘设备:由物理磁盘创建而成,按保存数据类型分为,meta-data,data,meta-data and data,Desc only 4 种。两个存储节点分别是 Failure Goup1 和 Failure Group2。用来存放数据文件。而 Disk5 只用来保存GPFS文件系统描述信息。

  • GPFS文件系统设备:通过组合逻辑磁盘设备创建GPFS文件系统设备。此设备在 Linux 操作系统中相当于一个格式化好的硬盘分区,可以将其挂载到文件系统中。

  • 服务器端的文件系统:GPFS的文件系统设备在所有集群的系统内都是可以看到的,用户可以按需GPFS文件系统挂载到各主机节点上。

解决方案介绍
图 3GPFS逻辑结构

  附:GPFS系统优势

  • 高性能

  GPFS允许在同一节点内的多进程或者应用使用标准文件系统调用,同时访问(并发,读写)同一个文件。通过将节点内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写。

  • 跨平台设计

  GPFS支持在一个集群内加入异构的平台。
  支持异构的硬件环境:System p, System x。
  支持异构的操作系统:AIX, Linux。

  • 数据一致性

  GPFS通过一套复杂的信令管理机制提供数据一致性。通过这套机制允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径。

  • 数据安全性

  GPFS是一种日志文件系统,为不同节点建立各自独立的日志。日志中记录 metadata 的分布,一旦节点发生故障后,可以保证快速恢复数据。

  GPFS的 fail-over 功能通过规划,将数据分布到不同 failure group 内达到高可用性,减少单点故障的影响。为了保证数据可用性,GPFS在多个 failure group 内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS也会自动在不同的 failure group 内复制恢复日志。

  • 系统可扩展性

  通过GPFS,系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。可以在不重新启动GPFS服务情况下添加新节点。

  • 管理简单

  GPFS自动在各个节点间同步配置文件和文件系统信息,而且在同一个节点内,对GPFS的管理可以在任一个节点上进行。

1
相关文章