维度网讯,英伟达(NVIDIA)发布NeMo AutoModel开源方案,在混合专家模型(MoE)微调中实现3.4至3.7倍的训练吞吐量提升,并减少29%至32%的GPU显存占用。
NeMo AutoModel兼容Hugging Face Transformers v5应用编程接口(API),用户只需添加一行import代码即可加速MoE模型微调。在单节点8块NVIDIA H100 80GB GPU上,以Qwen3-30B-A3B模型为例,该方案将每GPU每秒吞吐量(TPS/GPU)从3075提升至11340,增幅为3.69倍。
MoE架构已成为前沿模型的主流选择,但其带来的专家并行、通信融合和内核优化等工程问题需要配套基础设施支持。英伟达的解决方案在Transformers v5基础上增加了专家并行(Expert Parallelism,EP)、DeepEP和TransformerEngine三项技术。
专家并行技术将专家权重分布到多块GPU上,降低了单块GPU的内存压力。以8张GPU、ep_size=8为例,每张GPU的MoE内存占用降至原值的八分之一。对于Qwen3模型,该项技术将峰值内存从68.2GiB降至48.1GiB,降幅29%。对于Nemotron Nanomo模型,内存占用从62.1GiB降至42.5GiB,降幅32%。释放出的显存可用于支持更大批次和更长序列的训练。
DeepEP实现了计算与通信的融合。传统模式下,token分发与专家计算之间存在通信成本,DeepEP通过优化的GPU内核将token分发和组合操作整合,使通信过程与专家计算重叠。
TransformerEngine内核为融合注意力机制、线性层和RMSNorm等运算提供加速,同时作用于MoE层和普通Transformer层。
在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B模型上的实验显示,与Transformers v5相比,该方案在训练吞吐量提升3.4至3.7倍的同时使内存消耗降低29%至32%。英伟达还公布了Nemotron 3 Ultra 550B A55B在16个H100节点、共128张GPU环境下的全参数微调结果,其TPS/GPU为815,TFLOP/s/GPU约为293,峰值内存为58.2GiB。英伟达称,Transformers v5在该规模下会因内存耗尽而无法运行。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









