【IT168 评论】超融合基础设施(HCI)的主要优势之一,就是能够大大简化日常的运维操作任务,这可能是很多企业选择采购HCI设备的原因,但众所周知,有很多对硬件的一般维护需求是无法被消除的,包括HCI设备。
随着运行时间的增加,HCI硬件最终会出现故障或运行能力不足的问题,而且所有硬件的寿命都是有限的。为了保持HCI的运行,持续交付业务价值,您必须定期对组件进行维护,来保持硬件平台的正常、健康运行状态。
如果您只部署了小规模的HCI设备,那么在三到五年的生命周期中,可能很少会看到故障的发生。您拥有和管理的设备越多,故障的可能性就越大。如果您的机房里正在运行数百个HCI硬件节点,那么可能甚至每隔几个月就会发生一次组件故障,尽管现代服务器的设计具有很强的容错性。
系统通常有冗余的风扇和电源,因此单个组件故障不会导致停机。也就是说,您的HCI维护计划应该包括硬件的更换,无论是在本地还,是通过供应商的支持获得所有服务。
不断增长的容量需求
HCI需要持续的容量管理。业务系统对资源需求会随着时间而不断增长,而且每个集群的资源池在部署时都是有限。
容量监视应该是HCI硬件管理计划的核心部分(最好带有预测功能),以便预测系统何时需要更多的资源。在对资源预算进行预测时,要考虑到财务审批、订购、实现和硬件部署的时间等因素。
如果遇到当容量耗尽时新采购的硬件还在运货车上这种情况,就很难受了,也会很有压力。另外也应注意资源的平衡,因为购买的HCI硬件,往往是固定的计算和存储资源配比组合,这使得这类设备的扩展比常规的热插拔服务器要更加困难。因此要时刻跟踪资源的可用性,可以使用HCI管理软件,在资源达到某个阈值时获得常规报告或警报。
如果您的工作负载的计算和存储消耗分布不均匀,那么可能会因为低资源利用率造成浪费,从而降低HCI的成本效益。
考虑添加只有计算的节点还是只有存储的节点,是扩展HCI硬件配置的更经济有效的方法。还要记住,硬件维护会从HCI集群中夺走部分资源,另外在替换风扇或硬盘驱动器等部件时,您可能需要关闭节点。
集群扩展的考虑
当需要扩展HCI集群时,建议认真考虑一下新硬件对资源可用性的影响。如果您继续使用来自同一供应商的类似的HCI硬件节点进行扩展,可能就不会影响整体性能。
但如果使用存储和计算资源差异很大的节点进行扩展,那么整个基础设施的性能可能会不平衡。例如,一个拥有四个较老的中端256GB HCI节点的集群,可以使用两个更新的、功能强大得多的768GB节点进行扩展。
如果您的集群从1TB RAM扩展到2.5TB RAM,当其中一个新的节点出现故障时,集群可能会丢失近三分之一的RAM;但是如果一个旧的节点故障了,您只损失了10%的RAM。这种潜在的不平衡可能会影响CPU或存储容量,并带来新节点上的维护或兼容性问题。
集群扩展后的下一步是组件替换。当HCI节点的生命周期结束时,可以将新节点部署到集群中,然后将旧节点从中剔除。
判断一项资产是否已经到了生命的尽头,实际上是一项商业决策。当资产价值贬值为零时,当您决定消除旧硬件的故障风险时,或者当新的硬件升级使得旧硬件运行成本增加时,硬件的生命周期就结束了。
原文作者:Alastair Cooke