3 集群存储的定义
定义集群存储解决方案时,我们会发现六个共性:
——对称的集群架构
—— 可扩展的分布式文件系统
——固有的高可用性
——单一管理层
——线性性能特征
——企业就绪性
对称的集群架构:分布式集群存储解决方案背后的关键设计原理是节点之间的对称性,所谓的节点可以是独立的存储控制器磁头、磁盘、CPU、内存和网络连接。集群必须执行的任务在其成员中均匀分配,与采用基于主服务器方法的传统存储架构相比增强了可扩展性、数据访问、性能和可用性,后者的存储节点并不对称,而且可扩展性和性能受到限制。
即使在集群中添加更多节点,它仍然有一个逻辑控制中心。不管解决方案中的节点数量是多少,仍然只有一个逻辑系统。完全对称的集群架构可以无缝扩展资源,并能实现存储系统的模块化扩展或“按需购买,渐进升级”的优点。如果需要更多内存、带宽、容量或驱动器,只要向集群添加更多节点便可以使集群得以扩展,同时通过一个可动态扩展的逻辑系统来保持它的连贯性。
可扩展的分布式文件系统:实现这种架构方法的是分布式文件系统,它可以扩展成为一个特大存储池或单个网络驱动器。分布式文件系统保持对节点之间的文件和数据布局的控制,并采用在集群范围内全面分配并保持一致性的元数据和锁定语意,因而可以创建一个很大的全局存储池。单个网络驱动器和单个文件系统可以无缝扩展到数百 TB。
在下图中,完全分布式的文件系统通过在集群中的所有节点中分配操作,来处理元数据操作、文件锁定和缓存管理任务。分布式文件系统无需依靠主服务器便可确保恰当的锁定行为——通过消除专用元数据服务器消除了性能瓶颈,并使所有节点的缓存完全保持一致,从而确保每次读写都能检索最新的数据。

固有的高可用性:顾名思义,分布式集群架构具有高可用性,因为每个节点都是另一个节点的对等体。如果任何节点或组件发生故障,仍可通过任何其他节点来访问数据,而且由于整个集群的文件系统状态得到维护,因此不会出现单一故障点。事实上,完全分布式集群架构可以同时承受多个驱动器和节点故障,而且仍能恢复并继续操作。另外,分布式集群架构的高可用性是“固有的”,也就是说与传统存储系统不同,集群存储解决方案依靠全对称架构性质便可实现高可用性。而对于传统存储系统,IT 管理人员必须购买额外的软件和昂贵的冗余硬件才能实现高可用性。
集群存储架构带来了独特的可靠性难题:由于这些解决方案使用了广泛的行业标准硬件组件,一个文件系统中有数百甚至上千个磁盘在运转,因而要达到企业的可靠性标准需要新的创新技术。为了解决这一难题,整个集群存储解决方案必须能够快速重建驱动器,从而尽可能减少风险窗口;必须提供积极的“自愈”功能,以确保所有数据始终可用,并确保分布式文件系统完整记录操作的所有状况(即防止整个集群在写操作过程中发生故障)。
单一管理层:无论文件系统大小以及添加到集群的存储节点数量是多少,分布式集群架构解决方案只单层管理,这使得管理几个节点的集群与管理数百个节点的集群一样简单。在向集群添加新节点以扩展容量和性能时,整个集群存储解决方案可以自动处理以往的手动任务,包括跨集群节点的客户端连接负载均衡,从而确保最优的性能和内容的自动重新均衡。
横跨整个集群的单一文件系统简化了环境的管理,并通过许多驱动器名以及将应用程序映射到许多独立的“存储孤岛”而消除了导航任务。对系统管理员而言,这解决了客户端管理问题,因为所有文件皆隶属于一个驱动器名或安装点。
性能的线性可扩展性:分布式集群存储解决方案具有一种独特的功能,即以近线方式扩展所有性能元素。在添加更多节点/内存控制器、处理、磁盘主轴和带宽时,集群会以一个逻辑系统来保持其一致性,并能够集合所有资源,从而实现每个新增节点的线性性能扩展。为了实现这种线性性能扩展,集群内的每个节点与所有其他节点保持同步至关重要。因此,更强健的解决方案通常采用速度极高的集群内部互连,以确保节点之间的低延迟和集群的实时同步。
企业就绪性:分布式集群存储解决方案必须具备可供企业随时使用的就绪性。历史上,集群架构最早主要部署在非商业性的研究实验室,而不是主流商业企业。但是,为了成为思维转换的一部分,集群架构必须做好在商业企业数据中心实施的准备。尤其是,该解决方案必须支持标准网络协议并提供 IT 管理人员一直期望得到的工具。
集群存储是存储自然发展的结果,旨在满足现代企业不断变化的需求及其非结构化数据增长的需要。下表概括了当今市场上全面上市的集群存储解决方案类型之间的不同:
