美国英伟达开源方案，MoE微调吞吐量最高提升3.7倍

2026-06-26 13:54

关键词:

维度网讯，英伟达(NVIDIA)发布NeMo AutoModel开源方案，在混合专家模型(MoE)微调中实现3.4至3.7倍的训练吞吐量提升，并减少29%至32%的GPU显存占用。

NeMo AutoModel兼容Hugging Face Transformers v5应用编程接口(API)，用户只需添加一行import代码即可加速MoE模型微调。在单节点8块NVIDIA H100 80GB GPU上，以Qwen3-30B-A3B模型为例，该方案将每GPU每秒吞吐量(TPS/GPU)从3075提升至11340，增幅为3.69倍。

MoE架构已成为前沿模型的主流选择，但其带来的专家并行、通信融合和内核优化等工程问题需要配套基础设施支持。英伟达的解决方案在Transformers v5基础上增加了专家并行(Expert Parallelism，EP)、DeepEP和TransformerEngine三项技术。

专家并行技术将专家权重分布到多块GPU上，降低了单块GPU的内存压力。以8张GPU、ep_size=8为例，每张GPU的MoE内存占用降至原值的八分之一。对于Qwen3模型，该项技术将峰值内存从68.2GiB降至48.1GiB，降幅29%。对于Nemotron Nanomo模型，内存占用从62.1GiB降至42.5GiB，降幅32%。释放出的显存可用于支持更大批次和更长序列的训练。

DeepEP实现了计算与通信的融合。传统模式下，token分发与专家计算之间存在通信成本，DeepEP通过优化的GPU内核将token分发和组合操作整合，使通信过程与专家计算重叠。

TransformerEngine内核为融合注意力机制、线性层和RMSNorm等运算提供加速，同时作用于MoE层和普通Transformer层。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B模型上的实验显示，与Transformers v5相比，该方案在训练吞吐量提升3.4至3.7倍的同时使内存消耗降低29%至32%。英伟达还公布了Nemotron 3 Ultra 550B A55B在16个H100节点、共128张GPU环境下的全参数微调结果，其TPS/GPU为815，TFLOP/s/GPU约为293，峰值内存为58.2GiB。英伟达称，Transformers v5在该规模下会因内存耗尽而无法运行。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国