存储 频道

爆料!这个神秘实验室为戴尔提供了创新源动力

  文章转自:戴尔易安信解决方案微信订阅号

  少林寺的藏经阁

  逍遥派的灵鹫宫

  在武侠世界中

  各大门派总有一处秘密“基地”

  存放着秘籍至宝

  

图片

  戴尔科技也有这样一个

  “殿堂级”实验室

  那里有高性能计算领域

  最先进的IT设备和技术

  今天小编决定自爆“家底”

  跟大家唠唠关于戴尔科技

  HPC和AI创新实验室的二三事

  前一段时间全球芯片荒闹得沸沸扬扬,美国、日本占据了半导体产业链第一梯队,其实欧洲有一个国家在芯片制造领域也拥有很高的话语权,那就是风车之国荷兰。

  除了芯片等高端设备制造和机械产业,荷兰在医疗信息、生物制药等生命科学与健康领域也拥有很强的技术地位。而这一优势得益于企业、学术协会和政府之间的良好合作。

  风车之国的“酷炫”项目

  更快、更高、更强是奥林匹克运动的口号,而高性能计算也在追求更快的运算速度、更高的性能以及更强的可扩展性。当荷兰的科学家需要获得高性能计算系统和先进的数据服务时,他们通常会向SURFsara超级计算中心寻求帮助。

  该中心隶属于荷兰教育和研究机构的合作协会——SURF,运营着荷兰国家超级计算机和其他高性能计算系统。

  

图片

  SURFsara与研发新药、改进太阳能电池、研究天气系统以及执行其他计算和数据密集型研究计划的团队展开合作,为研究人员提供广泛的支持,包括计算、数据存储、可视化、网络和云服务等。同时,它还致力于帮助组织利用深度学习能力来实现新的人工智能应用。

  比如说,在2018年开始实施的一个项目中,SURFsara的一个研究小组就利用戴尔科技HPC和AI创新实验室的资源,训练出一个能够从胸部X光片中诊断出肺炎、肺气肿和其他胸腔病症的AI模型。

  

图片

  具体说来,这个项目堪称“酷炫”。团队将HPC和AI创新实验室的戴尔易安信Zenith超级计算机和256个英特尔®至强®可扩展处理器节点一起投入使用,利用并行计算的力量加速训练过程。

  通过优化网络拓扑结构、提高训练吞吐量,并使用全尺寸的X射线图像,研究人员能够快速对数据集进行处理,以便建立更高精度的模型。

  SURFsara高级HPC顾问Valeriu Codreanu博士表示:

  “一般来说,在HPC中强扩展是很难实现的,但我们在强扩展的情况下,用200多个节点成功实现了121倍的性能。在单个节点上训练一个变压器模型需要一个多月的时间,通过使用这些节点,我们成功地将训练时间缩减到只需六个小时。”

  

图片

  在提高准确率方面,结果也是令人满意的。与最初的模型相比,利用Zenith和英特尔节点训练的AI模型提高了14种胸部病症中10种病症的诊断准确率,有几个类别甚至达到近90%的准确率。

  创新实验室的三大“金刚”

  在AI模型训练方面如此给力的戴尔科技HPC和AI创新实验室,坐落于德克萨斯州首府奥斯汀市。它拥有一个占地约13000平方英尺的数据中心,容纳了数以千计的服务器、存储和网络系统。

  该实验室承担了戴尔科技大量的创新工作,从硬件体系结构的设计到深度学习系统的应用,从各种HPC与AI的研究到售前与售后服务,可以说这个实验室无所不包,也成为了戴尔科技不断创新的源动力。

  

图片

  HPC和AI创新实验室常见项目包括:

  01

  集群比较。在三个不同的集群上测试工作负载,看哪一个能够提供最好的性能。

  02

  系统参数扫描。建立一个系统测试平台,找出核心数量、内存和处理器速度的组合,以优化应用性能。

  03

  加速器测试比较。找出哪个加速器最符合需要。

  04

  效率调整。为应用确定最佳的基本输入/输出系统(BIOS)和其它设置和配置。

  05

  网络测试。弄清哪种HPC网络最适合应用性能要求。

  06

  存储系统优化。建立和测试HPC存储和文件系统,不管是分层的还是其它的,以获得最佳性能。

  

图片

  说起来,戴尔科技HPC和AI创新实验室最吸引人的,就是Zenith、Rattler和Minerva这三个强大的高性能计算集群。让我们来“康康”这三大“金刚”有何过人之处?

  Zenith

  Zenith集群是戴尔科技和英特尔之间合作的成果。团队使用它来进行基准测试、工作负载评估以及广泛的人工智能、高性能数据分析和高性能计算项目。

  Zenith包括英特尔®至强®可扩展处理器、数据中心存储解决方案、FPGA、适配器、软件和工具。项目包括图像分类以识别X射线中的疾病,建立更快的神经网络以驱动推荐引擎等。

  

图片

  Rattler

  Rattler集群是戴尔科技和NVIDIA之间合作的成果。该系统旨在通过利用GPU与NVLINKTM来展示极强的可扩展性。Rattler不仅可以加速服务器内部GPU之间的流量,还可以通过InfiniBand互连在服务器之间进行加速。团队使用该系统进行特定应用的基准测试和工作负载特性分析。

  Minerva

  Minerva集群是戴尔科技与AMD合作的成果,采用PowerEdge C6525服务器,配备第二代AMD EPYC™处理器、InfiniBand HDR200和BeeGFS存储。这个集群突出了最新的服务器工程,旨在利用最新的内核、内存带宽和PCIe Gen4吞吐量技术。

  

图片

  敲黑板,这些集群可不是一成不变的,实验室团队会不断对集群进行扩展和改进,使它们保持巅峰性能。比方说,基于戴尔易安信PowerEdge C6420和PowerEdge R740服务器而构建的Zenith,未来将升级到由新一代PowerEdge C6520和PowerEdge R750服务器组合而成。

  

图片

  20多年来,戴尔科技在HPC领域不断创新,除了成立了HPC和AI创新实验室,作为首家提供HPC打包的方案厂商,持续推出高密度、高性能GPU计算服务器,以及存储加速器(DAC)等。未来,戴尔科技将通过在产品和解决方案方面的不断创新,继续满足各界对高性能计算方面的需求。

  

图片

0
相关文章