SCM存储级内存:
在计算机体系结构中,内存架构是层级制的。从寄存器、高速缓存、DRAM内存再到硬盘,存储容量越来越大,但延迟也逐渐增高。
SCM存储级内存具备非易失性、极低存取延迟(DRAM-like)、低廉的单位容量成本(Disk-like)和固态无活动部件(SSD-like)特点,可利用大容量和非易失的存储特性来填补DRAM内存与TLC闪存SSD之间的空缺。
既然要用做数据缓存,那么必然会有大量写入,SCM存储级内存需要具备较高的写入耐久度。对比来看,消费级SSD通常提供0.3DWPD,企业级读取密集型1DWPD,企业级混合读写型3DWPD,企业级写入密集型10DWPD,而今天我们要测试的SCM存储级内存则具备高达100DWPD的写入耐久度,即每天写入100倍全盘容量的数据可用5年。
产品介绍
本次我们将对比测试英特尔傲腾P5800X和大普微Xlenstor2 X2900P两款SCM存储级内存产品。看看在傲腾停产的背景之下,大普微X2900P能否接替前者,引领SCM这个领域。
作为SCM先驱,傲腾使用英特尔独有的3D XPoint闪存,拥有出色的低延迟和高写入耐久度特性,开辟了介于DRAM内存和普通SSD之间的全新分层空间。
傲腾使用的3D XPoint存储介质支持字节寻址,并支持覆盖写入,具备诸多NAND闪存梦寐以求的先进特性。
不过随着美光中途退出,3D XPoint闪存的应用者只有英特尔傲腾一家。发展至第二代的3D XPoint闪存仍然只有4层堆叠,成本劣势最终将傲腾推向了停产。
大普微是全球第二家推出SCM存储级内存的厂商,推出了Xlenstor系列的SCM产品。对标P5800X的X2900P基于自研DPU600主控和固件,搭配铠侠96层堆叠XL-FLASH存储介质。
XL-FLASH将闪存平面数量从普通NAND闪存的2个或4个直接提高到16个,每个页的容量也从普通闪存的16KB降低到4KB,经过一系列优化之后,XL-FLASH就成为一种比普通SLC更强大的闪存。
大普微X2900P的随机读写延迟分别低至21微秒和8微秒,耐久度指标高达100DWPD,远超普通TLC闪存企业级固态硬盘,成为英特尔傲腾的有力挑战者。
测试平台
CPU:AMD Ryzen 9 5900X
主板:AMD X570
内存:16GB DDR4-3200
SSD:STEC s620 200GB(系统盘)
Intel Optane DC P5800X 800GB(FW:L0310100)
DapuStor X2900P 800GB(FW:FF002100)
OS:Windows 11/Ubuntu 22.04LTS
CrystalDiskInfo信息识别:英特尔傲腾P5800X使用PCIe 4.0 x4接口,NVMe 1.3协议。大普微X2900P使用PCIe 4.0 x4接口,NVMe 1.4协议。
Windows下的开胃菜
在大家熟悉的Windows操作系统中,CrystalDiskMark是非常好用的SSD带宽和IOPS测试工具。只需简单调整就可用于评估NVMe SSD能否达到其标称性能。不过Windows系统的stornvme驱动无法全面完整体现这两款SSD的低延迟优势,亦不能测出其峰值IOPS。
最终幻想14 Benchmark经常被用来测试SSD对游戏加载性能的影响。在该测试中英特尔傲腾P5800X的游戏加载时间为5.863秒:
大普微X2900P的游戏加载时间为6.404秒:
对照消费级SSD三星980PRO 1TB的游戏加载时间为7.335秒:
由此可见,如果不差钱,大普微X2900P这类SCM存储级内存产品用来打游戏也是极好的。此外从PCMark 10盘性能一致性测试对比可以看到,家用极端重负载使用条件下SCM存储级内存的优势也非常大。
当然上面这些都属于“思聪式”的应用,SCM存储级内存的真正市场在于企业级高性能存储,后面的测试项目也将转向Linux系统下进行。
性能测试1:ezFIO脚本测试
ezFIO是经NVM Express推荐的企业级SSD综合测试,它是一个可重复进行的稳定态性能测试脚本。在测试开始前有两次全盘容量写入的预处理阶段,帮助模拟企业级SSD的长期性能。ezFIO同时支持Windows和Linux平台,测试完成后可自动生成测试报告。以下成绩在是Linux系统下搭配fio 3.29测得。在稳定态下大普微X2900P可以实现7513MB/s顺序读取速度,英特尔傲腾P5800X也获得了7407MB/s的成绩。
4K随机读取,低队列深度下傲腾优势比较明显,但队列深度达到16之后延迟开始快速上涨,最终大普微以142微秒延迟和1793K IOPS实现了反超。图中我们还加入了使用144层堆叠3D TLC闪存的Solidigm D7-P5520 7.68TB企业级SSD作为对照。
4K随机写入,低队列深度下英特尔和大普微难分高下,随着队列深度提升,傲腾笑到了最后。作为对照的D7-P5520本身并不弱,只是对手实在太强了。
4K随机混合读写,读取写入比7:3。从高到低来看,大普微X2900P、英特尔傲腾P5800X、Solidigm D7-P5520的稳定态随机混合读写IOPS分别为1612359、1586130、434530。
再来看4K随机混合读写的QoS表现,从上到下分别是英特尔傲腾P5800X 800GB、大普微X2900P 800GB和Solidigm D7-P5520 7.68TB。
大普微的写入部分延迟更好,而傲腾则在读取延迟上更具优势。
性能测试2:SNIA SSS PTS-E 2.0
SSS PTS的全称为Solid State Storage Performance Test Specification,即固态存储性能测试规范,它由SNIA存储网络行业协会制定,包括针对企业级SSD的PTS-E规范以及针对消费级SSD的PTS-C规范。
PTS测试在设备而非文件系统级别进行,通俗的说就是SSD在没有分区的状态下进行。PTS测试的是SS(Steady State稳定态)性能,而非FOB(Fresh-Out-of-the-Box开箱状态即出厂态)表现。
SSD PTS测试报告会展示测试平台的软硬件配置情况(包括主板、CPU、内存以及操作系统、测试软件版本等)、受测SSD的信息(包括制造商、型号、序列号、固件版本、容量、擦除方式、写入缓存开关等)、测试设定(包括数据模型、测试范围、预处理方式等等)。下图是大普微X2900P的SSS PTS测试信息:
SSS PTS测试的内容包括512字节、4K、8K、16K、32K、64K、128K和1MB块大小,在0/100、5/95、35/65、50/50、65/35、95/5和100/0混合读写比例下的稳定态IOPS,并以数据表格、2D和3D图示三种形式进行展现。首先是傲腾P5800X 800GB的成绩:
然后是大普微X2900P 800GB的成绩:
傲腾5800X使用的3D XPoint闪存能够支持字节寻址,所以512b块的稳定态随机读写性能优势明显。大普微X2900P使用的铠侠XL-FLASH使用4KB Page并针对低延迟进行了大量优化,充分挖掘了3D NAND闪存的潜力,面对3D XPoint这样的强敌,依然能够在稳定态4K随机写入性能上取得领先。
性能测试3:VDBench测试
VDBench是甲骨文推出的存储性能评估工具,能够支持去重和压缩等特性。我们参考PURE STORAGE的数据模型制作了模拟Oracle数据库、SQL数据库、VDI桌面虚拟化三种企业级应用负载的测试脚本,并将IOPS和延迟的关系制表。图中横轴为IOPS(越高越好),纵轴为对应的延迟(越低越好)。
通过对比不难看出,傲腾P5800X和大普微X2900P这两款SCM存储级内存产品的表现已经远远超过了使用3D TLC闪存的企业级SSD,在严苛重负载应用环境下能够提供更加出色的存储性能表现。
总结
通过测试可以看到,大普微X2900P已经具备接班傲腾的能力。作为傲腾停产后的替代者,大普微X2900P使用自研的DPU600主控搭配铠侠XL-FLASH,展示出普通TLC闪存企业级SSD无法企及的强悍实力,能够为数据缓存与加速、AI训练、大数据分析等业务场景中提供坚实助力,有力提升数据中心在写入密集型应用中的整体性能水平。