文章转自:戴尔易安信解决方案订阅号
古希腊著名学者
亚里士多德曾经断言:
物体从高空下落的快慢,
与物理的重量成正比;
重量越大的物体,
下落速度越快。
1000多年来,人们对亚里士多德的论断深信不疑。直到1589年(亦有文稿记载是1590年),出生在意大利比萨的物理学家伽利略登上比萨斜塔,将两个重量不同的球体从相同高度同时扔下,结果两个球体同时落地。这就是我们在中学物理课本中有学到的自由落地实验。
比萨大学,1343年由教皇克莱门特六世创建,是意大利乃至欧洲最古老的大学之一。600多年的校史,培养了无数杰出人物。比萨大学是伽利略的母校,在完成著名的比萨斜塔实验那一年,伽利略年仅26岁,已经是比萨大学的教授。
距伽利略实验430多年后的今天,比萨大学依然是欧洲的顶尖学府,其物理学、数学、计算机科学、历史学、医学等专业排名位居全球前列,当下热门的人工智能也是比萨大学重点研究方向。
比萨大学希望为学校教师和学生的AI深度学习、机器学习、数据分析领域的研究,提供一套灵活的基础架构环境,让AI应用的部署和管理更加灵活。在去年,比萨大学便已选择了戴尔PowerStore为广大师生提供便捷快速的数据访问与应用能力。而这次,比萨大学仍然选择了戴尔:
通过与戴尔科技的合作,戴尔科技为比萨大学提供的AI计算平台解决方案,在戴尔PowerEdge R740XD GPU加速服务器和Vmware虚拟化软件平台上,通过NVIDIA AI Enterprise软件创建和部署AI应用。通过GPU虚拟化技术,让更多的老师和学生可以同时在线使用GPU算力。
比萨大学CTO Maurizio Davini接受采访时表示:
“
我们的测试显示通过NVIDIA AI Enterprise最新技术成果,在虚拟机运行的GPU加速应用,可以实现与裸金属环境近乎相当的加速性能。
”
NVIDIA AI Enterprise(以下简称NVAIE)解决方案,是戴尔科技与NVIDIA、Vmware于2021年开始联合推广的解决方案,旨在帮助用户解决构建企业级人工智能平台的技术痛点。相较于云平台、大中型互联网、专业AI公司等早期AI用户,很多企业用户接触AI技术较晚,从头开始搭建AI平台继而开展AI应用开发的难度较大,常常面临着这样的烦恼:
●当前主流AI框架、优化库基本都是开源软件,学习成本比较高;
●缺乏快速创建、扩容及释放AI计算及存储资源的软件方案及商业支持服务;
●当前AI应用部署多采用裸金属或开源容器化方案,缺乏对企业数据中心通常使用的资源管理调度机制如虚拟化的集成及优化。
对此,NVAIE包含一套完整的、专门为AI和数据分析应用优化的集成式软件堆栈与硬件堆栈,用户可以在高性能、可扩展、经济高效的基础设施上运行AI应用程序。戴尔科技提供的通过NVIDIA官方认证的AI基础设施,与Vmware虚拟化和容器编排平台紧密集成,简化AI平台管理、部署、运营和监控工作。
NVAIE解决方案的系统架构与功能组件
NVAIE自底而上主要包含三层功能组件:
⑴ NVIDIA Certified System 认证系统硬件
NVIDIA认证系统(NVIDIA Certified System),是NVIDIA AI Enterprise软件部署和运行的硬件基础设施平台。认证系统的认证规范,相较于一般的GPU兼容性验证更加严格。GPU服务器需要通过25类真实世界GPU应用负载的验证测试,包括AI训练、AI推理、数据分析等负载。测试项目包括兼容性、性能、安全性、可管理性、可扩展性等。
⑵ Vmware vSphere/Redhet/K8S软件平台
NVAIE 1.0与1.1版本工作在Vmware vSphere环境下,并提供对Vmware Tanzu的支持。针对Vmware vSphere环境进行了充分优化,在单节点及多个节点上的性能接近于裸机水平。而通过与vCenter的集成,用户可以通过vCenter,以图形界面操作非常便捷地开启和使用GPU MIG特性,而不再需要额外的命令行操作。
NVAIE解决方案,通过与vSphere SR-IOV、ATS地址翻译服务等机制的深度融合与性能优化,支持在VM虚拟机层面开始GPU Direct RDMA,加速多机多卡GPU分布式训练性能。而在今年3月, NVIDIA AI Enterprise 2.0也增加了对Redhat和Kubernetes云原生软件平台的支持。
⑶ NVIDIA AI Enterprise软件套件包
在戴尔科技基础设施硬件与Vmware虚拟化软件平台上,用户可以运行数百种AI与数据分析应用软件。其中,NVIDIA精选出11款由NVIDIA开发或者优化,在用户AI模型训练及推理计算中最常使用的AI软件,组成了NVAIE软件套件包,功能涵盖了AI基础架构优化到迁移部署面面俱到。
NVIDIA AI Enterprise软件套件的商业销售,包含企业版和教育版。用户购买NVIDIA AI Enterprise软件套件的商业授权,后续在使用套件中的任何一款或者多款软件,将会得到NVIDIA的商业软件支持服务。
来自NVIDIA与戴尔科技的测试数据证明:通过vSphere软件层面针对AI应用软件的深度优化,NVAIE解决方案可以在虚拟机层面实现接近于裸金属环境下部署AI应用的计算性能体验,并且支持跨主机的多节点横向扩展。
2021年MLPerf组织的AI Inference v1.1基准测试中,戴尔科技提交的PowerEdge R7525服务器上,使用3张NVIDIA A100 GPU加速卡上运行NVIDIA AI Enterprise的性能数据,在虚拟化平台取得了各AI模型94.4%到100%的等效裸机性能。
戴尔科技提供非常丰富的、已经通过NVIDIA认证系统官方认证的GPU加速产品,包括PowerEdge服务器家族当前热销的GPU服务器,如R750xa、XE8545、R750、R7525、DSS8440等;以及来自于戴尔科技目前唯一通过NVIDIA认证系统认证的GPU超融合平台VxRail。
戴尔科技可以为选用NVAIE方案的用户,提供包括NVIDIA官方认证支持的计算设施、存储设施、网络设施,以及NVIDIA AI Enterprise软件及Vmware软件的销售及软件部署服务,整体解决方案和一站式的服务让企业在后续的实施和运维中避免软硬件适配带来的额外困扰,帮助企业轻松应对AI时代下的严苛挑战。