【IT168 评论】作为一种新兴的技术,NVMe可以将存储设备和处理器之间内部通信的延迟降低到不到100微秒,同时借助NVMe-oF,也能够为共享存储带来与之相当的低延迟。因此,NVMe-oF有机会淘汰DAS(直连式存储)——由于人工智能、机器学习和大数据分析的低延迟需求,DAS正在重新流行起来。在NVMe方面,IT专业人员面临的挑战往往在于部署NVMe-oF性能监视,以此确保网络配置能够提供NVMe-oF的低延迟。
NVMe性能监控的重要性
在过去,存储网络是存储基础设施中最快的一组组件。因此,相对应用程序、存储系统和存储设备来讲,错误配置的网络端口、网络适配器或低于级别的电缆往往无法被检测到。在大多数情况下,将存储网络升级到更高带宽的唯一动机,是用相同的价格(或更便宜的价格)获得更快的速度。
现在,我们有了NVMe- oF,以此将内置NVMe存储媒介的存储系统,和人工智能、机器学习和大数据分析等应用相连接。其结果是,网络的核心常常承受着无法承担的压力,网络中的任何错误配置都将成为降低存储硬件和应用程序速度的瓶颈。因此,检测网络中的问题是至关重要的。
性能监视之所以如此重要,还有另一个原因是应用程序所有者的高期望。他们希望应用程序能够按照存储系统理想的水平执行。在大多数情况下,安装更快、更高带宽、更低延迟的存储系统和网络可以提高应用程序的性能,但可能还不足以满足这一期望。与过去不同的是,现在多数情况下原因在于应用程序。但尽管如此,IT基础设施人员也必须证明网络和存储系统的配置是正确的,换句话说,他们必须证明自己的“清白”。
如何监测无延迟网络
IT人员如何能够从一开始就正确地配置存储基础设施?这一切都在于收集和理解网络交换机已经产生的遥测数据。网络交换机“看到”从应用程序发送到存储系统的每个I/O,但往往会缺失一个环节,就是将这些数据收集并呈现给IT专业人员来快速解释。
在低延迟网络中,大量的通信量在网络中快速通过,因此捕获遥测数据的传统方法可能会漏掉影响网络性能的事件。而试图捕获每秒钟的每一个字节的遥测数据,也可能会影响整个基础设施的性能。大多数存储网络监视工具通过每10秒捕获一次网络流量I/O快照和交换机状况来收集数据。
大量的I/O可以在10秒内遍历一个NVMe-oF网络。在此期间,轮询工具可能会遗漏问题的关键指标。它们可能无法向IT部门提供所需的信息,以确定某个异常只是异常,还是问题的根源。然而,减少数据捕获间隔会增加性能影响,而且这些工具可能无法存储它捕获的所有数据。
另一种选择是实时遥测捕获,但是如果在交换机上进行,捕获可能会影响性能。现在,与过去一样,组织一般会使用网络分流器,这些分流器在网络基础设施电缆上以内联方式连接。这些分流器能够将信息实时反馈给遥测分析软件解决方案,而不会影响交换机性能。但是,安装分流器可能会造成干扰。虽然也有一些变通方法,但是大多数IT专业人员认为,在分流器安装期间可能会出现停机。
相对于在特定的时间间隔下进行轮询,或采用分流器的方法,组织可能希望寻找具有特定于遥测应用程序的专用集成电路(ASIC)的网络交换机。专用的ASIC支持实时遥测数据捕获,且不会影响性能。
遥测捕获只是成功了一半
在不影响存储网络性能的情况下实时捕获遥测数据是监视高速、低延迟存储网络的关键步骤。下一步是将这些数据集成起来,让IT专业人员可以快速诊断网络资源中的任何潜在问题或需要优化的缺陷。
使用的工具不仅要清楚地显示遥测数据,还要能够使用机器学习和大数据分析来帮助诊断网络上的问题。更进一步的目标应该是,通过AI技术训练网络监控系统,让它能够学习管理员解决问题的步骤,从而自动采取纠正措施。
NVMe和NVMe- of的低延迟再加上现代工作负载的I/O需求,意味着网络设计和配置的缺陷再也无法隐藏在其他存储基础设施组件之后。IT部门需要主动监控存储网络基础设施的设计和资源消耗,以保证能够前瞻性地满足组织的I/O需求。
实时遥测捕获,当由交换机上的 ASIC驱动时,使组织能够执行这类NVMe的性能监视,并且能够查看在任何给定时刻,其网络所发生的情况。结合正确的分析和表示工具,IT部门就能够在问题出现之前抢先将其修复,并根据未来的基础设施需求做出合理计划。
原文作者:George Crump