摘要:分布式全闪支持块(快)EC 还是很难的,但XSKY搞定了
根据在 IDC 前段时间发布的 2023 年度的中国存储市场报告,在 2023 年分布式全闪的增长极其亮眼,其市场份额从 2022 年的 7% 剧增到 2023 年的 17.7%,增长了 152%。
然而,因为最近企业级 SSD 价格狂飙,采购分布式全闪的客户遭遇到了巨大的成本挑战。
01 SSD 价格狂飙 全闪的采购成本大幅上升
最近,企业级 SSD 的价格以火箭般的速度飙升。从国内外的媒体报道来看,企业级 SSD 首当其冲,涨幅最大。
祸不单行的是,SSD 的主要成本来源,也就是 NAND 芯片未来的价格预计也会继续上涨。很多 NAND 厂商还一直维持去年决定的减产策略,比如据国外某媒体报道,三星 NAND 还要减产 50%,这进一步推动了 SSD 价格的上涨预期。
从我们掌握的数据看,目前大部分企业 SSD 的采购价格,相比去年的最低点,价格已经都翻了一倍,而且,由于 NAND 颗粒减产原因,企业 SSD 未来的价格还会进一步上涨。根据我们跟踪的历史数据,NVMe 7.68TB 的企业 SSD,现在的采购价基本是去年同期的 2.5 倍以上了。
但市场需求依旧旺盛。由于 AI 和信创的推动,国内的分布式全闪需求激增。根据 IDC 最新的数据, 2023 年软件定义存储的市场占比进一步扩大,分布式全闪的增长尤其亮眼,其市场份额从 2022 年的 7% 剧增到 2023 年的 17.7%,增长了 152%。
在很多对性能和可靠性、扩展性都有较高要求的场景,分布式全闪已经成为刚需。但是,分布式全闪超过一半的成本基本都在企业级 SSD 上,SSD 价格的飙升,也就造成分布式全闪的采购成本大幅上升。很多企业已经感受到这个压力,尤其是数据量比较大的企业。
02 不能再用三副本了,EC+压缩可以大幅降低分布式全闪的采购成本
纵观目前国内市场的分布式全闪和超融合产品,我们发现,90%的产品还在采用传统的 3 副本的数据冗余方式,造成全闪的采购成本居高不下,特别在 SSD 价格大幅上涨趋势下更是如此。
部分厂商,为了降低成本,被迫从 3 副本改成 2 副本,但是,对于分布式存储来说,集群总的硬盘数比较多,2 副本的可靠性不够,因为它只能容忍 1 块硬盘失效。如果一个系统硬盘数量比较多,同时坏 2 块盘的概率还是比较高的,我们还是不建议关键业务采用 2 副本的方式。
万幸的是,现在已经有更好的方式来节省采购成本,即选择支持 EC(纠删码)+压缩的分布式全闪产品,比如 XSKY星辰天合的 XINFINI 星飞 9000 系列。
星飞 9000,采用 XSEA 星海极速全共享架构(XSEA),采用单层介质,无需昂贵的 DWPD=3 的 Cache 盘,并且支持 EC+压缩,压缩还支持硬件压缩(如 Intel QAT),在保障性能的同时,整体的硬盘利用率是三副本的 300%,大大降低用户的 SSD 采购成本。
因此,即便现在 SSD 价格是去年最低点的 3 倍,但只要选择星飞 9000,在同样可用容量的需求下,企业的采购成本也不会高于去年。也就意味着,企业无需增加预算,继续可以采用分布式全闪来满足您对高性能,高可靠性,高扩展的存储要求。
除了降低 SSD 的采购成本外,星飞也可以降低存储服务器的采购成本。一个 2U 的存储服务器,一般支持 24 个 NVMe SSD。由于采用 EC+压缩的方式,所需要的 SSD 的盘数只有原来的 1/3,也就是说企业可能可以节省一半以上的服务器节点。特别是现在,H信创 CPU 存储服务器涨幅比较大,价格基本上都比同档次的 Intel CPU 服务器贵 50%以上(下图是一个典型的混闪配置的价格情况,但一样可以说明问题)。
因此,分布式全闪必须支持 EC+压缩,才能帮助企业更好控制采购成本,SSD 盘的减少,一般也意味着所需存储服务器数量的减少(节点的数量主要考虑性能因素即可),同时也就让企业采购成本大幅减少。当然,后期的运维成本也减少了,因为机房空间和耗电等也会相应减少。
03 为什么业界支持块(快)EC的,分布式存储这么少?
从上面的分析,我们可以看到,EC+压缩的价值是非常高的,特别在现在 SSD 价格狂飙,信创服务器成本居高不下的情况下。
但是,为什么业界的分布式全闪,很少支持块 EC 的呢?
这个其实就是问题的关键了,因为分布式存储支持 EC 并不难,很多文件存储和对象存储都支持 EC,但块存储或者超融合,由于对时延要求高,支持块 EC 的产品不多。有些产品,如 Ceph 也是支持块 EC 的,但是,如果没有经过架构优化,那么是无法保证 EC 的性能的。
因此,我们看到很多厂商虽然也宣传支持块 EC,都只能用在视频监控这类对性能要求不高的场景。也就是说,大部分的块 EC 都不“快”,无法用在关键业务上。但是,分布式全闪,性能是不能妥协的,也就是 EC 不仅要支持块协议,还要求全闪的快速度。
因为块(快)EC 的实现没有开源借鉴,而且技术难度很大,所以业界内能够实现此技术架构的厂商非常少,除了 XSKY 外,只有部分在研发上投入较大的大厂商解决了这个问题。
XSKY 一直通过创新的架构来解决块(快)EC 的性能问题,从 XSpeed 到 XSEA,我们做了很多的研发攻关,圆满解决了这个问题。
在 XSpeed 混闪架构中,我们引入了 Appendonly 写机制,数据先在 NVMe 缓存层进行条带化和整形,数据写到持久化层都是整条带大块顺序写入,因此,可以无需全闪,就可以支持 EC+压缩。
到了 XSEA 星海极速全共享全闪架构,由于采用了全新的 shared-everything 单层架构,不再需要专用的缓存 SSD。
但是,我们改造了 Appendonly 的实现方式,大块顺序的日志会并发写到所有的 NVMe SSD 上(仅供节点掉电后恢复使用),数据会在存储节点的内存中直接进行条带化和整形,所有的脏数据都采用内存直写的方式持久化到所有的 NVMe SSD 上。
这种机制,既保证了所有的数据都是大块顺序写入,也保证了数据的写入时延。
04 EC的性能 是不是比三副本低?
有很多客户担心 EC 的性能不如副本,这个担心是多余的。通过 XSEA 星海极速全共享架构,保证 EC 的性能跟三副本齐平,在某些场景下的性能还优于三副本。下面是我们使用的 3 台全闪服务器做的性能测试对比,我们可以看到,EC 的性能和三副本是相当的。
这是由于 XSKY 在 SDS 领域的多年积累,才能从架构上进行创新,采用最新的软硬件技术,解决这些棘手的问题。而市场上的很多分布式全闪,软件和架构都没有变,仅仅把 HDD 更换成 SSD,这样的伪全闪的性能和成本是无法满足市场需求的。
XSKY 一直致力于给客户提供最 佳性价比的分布式存储,让客户性能和容量兼得。在目前 SSD 和信创服务器成本都居高不下的情况下,XSKY 的星飞 9000,将会大大帮助企业降低分布式全闪的采购成本和运维成本,更好实现信创转型。