存储 频道

实战:构建高可用、高性能的GPFS集群

  测试系统需求和环境

  测试系统需要构建一个高性能且高可靠的文件系统平台。其基本要求如下:

  1. 文件系统读写带宽至少达到 720MByte/s。
  2. 工作负荷每天超过 16 小时或两个轮班。
  3. 由 4 台主服务器和 2 台存储提供服务。
  4. 至少 2TB 的空间 , 存放的文件大小一般在 600MB 左右,文件传输 80% 采用 samba 或 NFS,20% 采用 TFTP。

  实际需求分析:

  • 性能考虑:系统读写带宽要达到 720MByte/s,均分到 4 台服务器就是 180MByte/s。如此高的带宽采用普通的服务器内置磁盘无法满足要求。所以我们在磁盘存储这一层采用了 DS4700 存储的解决方案。

  考虑到该应用对磁盘空间的需求很大,如果 4 台服务器分配独立的磁盘空间,则需要目前 4 倍的磁盘空间,并且大大增加后期的维护工作与费用。为了节省存储的成本,我们决定采用GPFS并行文件系统的方案,共享磁盘空间。同时GPFS其优异的“并行”的特点,又保证性能能够满足要求。

  • 可靠性考虑:此系统为生产系统,而且负荷较大,对可靠性有非常高的要求。所以本方案中所有的组件都将采用双机冗余或多节点冗余,以保证无单点故障。

  • Quorum 机制的选择:本方案预算只有 4 台主服务器,如果采用 Node quorum 的方式,整个系统可用性只能支持一台主机离线,可用性非常差。如果采用 Break Tie Disk 的方式,整个系统可用性支持被指定为 quorum 的两台主机,任意一台离线,以及其他 2 台主机的任意离线。我们可以看到采用 Break Tie Disk 的方式有较高的可用性。但是由于采用 Break Tie Disk 模式对两台设置为 quorum 的主机可用性要求较高,而且灵活性较差。

  从 FD quorum 的角度来看,我们只有 2 个存储,也即 2 个 Failure Group。任意一个存储的宕机也将会导致文件系统的关闭。我们必须增加第三个 Failure Group 的磁盘来提高可用性。我们考虑从某一台服务器本地拿出一个磁盘作为第三个 Failure Group 的磁盘。

  最后采用的方案是 , 增加一台配置较低,但可用性较高的服务器,并使用这第五台服务器上的一个 Raid 1 磁盘作为第三个 Failure Group 磁盘。总共 5 个节点采用 Node Quorum 方式。可以支持任意两台的服务器同时离线,任意一台存储的离线。

1
相关文章