存储 频道

从 384 超节点到 CANN 开放创新:昇腾以创新突破性能边界,用开放激活产业生态

  “芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与先进水平是相当的。软件方面,将来是千百种开源软件满足整个社会需要。”华为首席执行官任正非近期在答人民日报记者问时回答芯片问题时表示。

  在AI模型参数规模从千亿向万亿级跃迁的当下,算力瓶颈已成为制约产业落地的核心矛盾——MoE模型混合并行的通信损耗、Token消耗量年增100倍的推理压力、单芯片代际差距带来的性能挑战,正倒逼整个行业寻找新的技术范式。

  昇腾给出的解法则颇具颠覆性:一边以对等计算架构重构硬件底层,打造业界最大规模的384超节点解决方案,在LLaMA3等模型上实现传统集群2.5倍以上的性能突破;另一边通过CANN深度开放,缩短算子开发周期。这种“创新突破技术边界+开放激活产业活力”的双轮驱动模式,不仅为AI计算提供了新的技术路径,更在全球产业链重构的背景下,为行业交出了一份“技术自主与生态协同”的平衡答卷。

  这种发展路径也暗合了华为创始人任正非“用数学补物理、非摩尔补摩尔”的技术理念——当昇腾384超节点通过高速总线将通信带宽提升15倍、单跳时延降至200纳秒时,其本质是通过系统架构创新弥补单芯片代际差距;而CANN开放190+底层接口、与30+行业伙伴开发260+高性能算子的实践,则彰显了“技术开源化、创新大众化”的生态建设决心。

  在AI从实验室走向产业深水区的关键节点,昇腾的探索或许正在定义下一个时代的算力标准。

  从架构突破到性能跃升,重构 AI 计算底层逻辑

  当前,大模型的训练经历了从早期小模型单卡训练、小参数模型单机部署,到如今 MoE 混合专家模型、千 Token 长序列、多模态融合任务全面转向 AI 集群训练,算力需求在过去数年间暴增 1 万倍。

  然而在算力需求的暴涨背景下,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

  为了解决这些挑战,昇腾搬出了384超节点,跳出单点技术限制走向系统性、工程性的创新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板等技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级服务器,最高提供300PFLOPS的算力规模。

  简单来说,这个架构打破了以 CPU 为中心的冯诺依曼架构局限,将高速总线从服务器内部延伸至整机柜、跨机柜,定义 “超节点” 计算单元,在超节点范围内,高速总线互联使通信带宽提升 15 倍,单跳通信时延从 2 微秒降至 200 纳秒,实现集群 “像一台计算机一样工作” 的极致体验,突破了传统算力瓶颈。

  据悉,基于这一架构打造的昇腾 384 超节点,由 12 个计算柜和 4 个总线柜组成,集成 300 PFLOPS 算力与 48TB 高速内存,成为业界唯一支持 DeepSeek V3/R1 等大模型在单超节点域内完成全专家并行(EP)的解决方案。

  实测数据显示,在 LLaMA3 等千亿稠密模型训练中,昇腾超节点性能可达传统集群的 2.5 倍以上;在 DeepSeek、Qwen 等多模态、MoE 模型上,性能提升更达 3 倍以上,突破了大规模并行计算的性能边界。

  在推理部署方面,为了应对Token消耗量年增100倍的推理需求,昇腾给出的解法是大规模专家并行。

  大规模专家并行即通过将模型权重分布到更多卡上,降低单卡内存占用,释放更多KV Cache空间,进而提升单卡吞吐能力。

  简单来说,传统单机8卡部署会导致通信拥堵,即便单用户场景也难以实现低时延,现在,通过将模型权重分布式部署到更多计算卡,使单卡内存权重占用降低 50% 以上,释放空间用于 KV Cache,有效提升单卡吞吐能力。

  今年3月,华为联合科大讯飞发布了昇腾大规模专家并行方案,在2k输入、2k输出时,Atlas 800 A2单卡Decode吞吐从80 TPS提升到了240 TPS,双方合作一个月后,昇腾大规模专家并行方案的单卡Decode吞吐从 240 TPS 提升至 320 TPS,时延也从100ms降低至50ms。

  相比常规服务器堆叠,大规模专家并行可实现2到4倍的单卡吞吐提升,降低50%系统时延,在相同卡数下获得更大的收益,实现“一份投入,多份输出”。

  这种 “权重分布 + 内存释放” 的技术路径,为 MoE 模型在实际业务中的规模化落地提供了优解。

  谈及芯片封锁影响,任正非从技术角度回答了华为的应对策略:“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”

  在硅基芯片领域,通过集群计算原理优化,将单芯片代际差距转化为系统级等效性能。例如,在昇腾 384 超节点中,通过分布式计算与高速互联技术,即便单芯片性能存在代际差异,仍能在整体计算结果上达到实用需求,为 AI 算力供给提供了差异化技术路径。

  昇腾用 “系统创新” 替代 “单点突破”—— 就像用多匹马拉动重载货车,通过集群计算原理,把数百颗芯片的算力通过架构优化整合成强大合力。这种 “数学补物理” 的思路,本质是用算法优化与系统设计填补硬件代际差距。

  同时,华为的眼光也投向了更广阔的生态建设。通过架构创新与技术代偿突破算力物理边界的同时,昇腾更以开放生态激活产业创新活力 —— 其 CANN 平台分层赋能体系与全产业链协同模式,正通过技术开源化与创新大众化,将硬件算力优势转化为产业发展动能。

  CANN 分层赋能与产业协同,激活技术创新活水

  作为昇腾 AI 的核心软件平台,CANN以 “使能每一位创新者” 为目标,通过三层技术架构实现从硬件性能释放到开发效率提升的全链条赋能:

  • 底层原子能力开放:直达硬件的极致调优通道

  昇腾开放 190+ runtime 运行时接口,将 NPU 硬件的原子级能力(如内存调度、计算单元分配)直接暴露给开发者。例如在处理多模态模型时,可通过底层接口单独调度张量计算单元,将模型推理延迟降低,真正实现 “硬件潜能随需释放”。

  • 毕昇编译器:兼容生态与性能优化的双引擎

  毕昇编译器作为 CANN 的 “智能中枢”,前端支持异构混合编程,中端通过自动向量化、循环展开等优化手段使算子性能提升 20% 以上,后端则集成内存问题分钟级定位工具。更关键的是,其开放的 AscendNPU IR 接口实现了与 Triton、FlagTree 等第三方框架的 “无感对接”—— 开发者无需修改代码逻辑,即可将基于 Triton 开发的模型迁移至昇腾平台,迁移成本大幅降低。

  • 应用层开发提效:从模板库到全流程工具链

  为了降低开发门槛,昇腾发布 CATLASS 算子模板库,将 Matmul 等高频算子的开发周期缩短50%;开源的 Ascend C 2.0 提供标准化开发接口,配合算子加速库(AOL)与集合通信库(HCCL),形成 “开发 - 调优 - 部署” 的全流程工具链。

  在生态共建方面,昇腾已与 30 多个行业的伙伴开发 260 多个高性能算子,深度贡献开发者已有6000多人。

  在华为的技术哲学中,开放与创新是不可分割的整体。任正非在与人民日报的对话中也强调:“国家越开放,会促使我们更加进步。” 这种理念在昇腾的发展中体现为对基础研究的 “无考核投入”—— 华为每年 1800 亿元研发投入中,有 600 亿元用于基础理论研究,涵盖算法、芯片架构等 “长周期、高风险” 领域。

  写在最后

  从昇腾 384 超节点对算力边界的突破,到 CANN 平台对开发者生态的全面赋能,昇腾以 “技术创新” 夯实发展根基,以 “生态开放” 拓展产业边界,为全球 AI 产业提供了可复制的发展范式。在技术层面,对等计算架构与大规模专家并行技术打破了传统算力瓶颈,使 AI 模型训练与推理效率实现数量级提升;在生态层面,CANN 的分层开放体系降低了技术开发门槛,推动 AI 从少数企业的技术专利转化为全行业共享的创新资源。

  正如任正非对人工智能的判断:“人工智能也许是人类社会最后一次技术革命。” 在这场革命中,昇腾以 “创新突破 + 开放共享” 的双轮驱动,不仅为中国 AI 产业在全球竞争中构建了竞争力,更以开放姿态推动技术普惠,让 AI 算力真正成为驱动千行百业升级的 “通用生产力”。

0
相关文章