美国英伟达推理软件栈将DeepSeek V4每token成本降至五分之一
2026-07-01 15:03
收藏

维度网讯,英伟达(NVIDIA)推理软件栈在其Blackwell平台上,已在一个月内将DeepSeek V4模型的每token成本最多降低至原来的五分之一。随着企业从AI试点转向生产级AI工厂,基础设施决策已从关注峰值芯片规格转向每token成本,即在满足延迟目标的前提下,每美元和每瓦电能产出多少有用的token。英伟达的推理软件栈与NVIDIA GPU、CPU、网络和系统协同设计,并通过广泛的开源生态增强,持续提升硬件性能。

领先的公司和推理提供商已开始体验到NVIDIA推理软件栈在Blackwell上的叠加价值。Baseten使用NVIDIA TensorRT-LLM开源库在Blackwell GPU上提供DeepSeek V4 Pro服务,适用于推理、编码和长上下文工作负载,通过专有运行时优化,每秒token输出量提升高达50%。Cognition使用NVIDIA Dynamo推理框架管理推理GPU,为其团队提供了一条现成的扩展强化学习工作负载的路径,无需从头构建基础设施。Deep Infra使用NVIDIA推理软件栈,从第一天起就在Blackwell上高性能运行前沿开源模型,包括DeepSeek V4。Together AI在Blackwell上使用NVIDIA TensorRT-LLM,帮助Cursor加速从模型优化到生产端点的路径,以支持其实时编码体验。

传统的网页、搜索和软件即服务工作负载相对可预测,而代理式AI则不同。代理可以推理、规划、调用工具、启动专业子代理,并在多轮工作流中管理大量上下文,将单个请求转化为一个分布式计算问题,可能涉及数百个子代理、数千个任务和多个大语言模型,在GPU、CPU、DPU和存储系统上运行。软件栈决定了这种复杂性是转化为浪费的算力,还是转化为更低的每token成本。

更低的每token成本来自将单个优化转化为系统级性能。NVIDIA推理软件栈通过连接三个层次来实现这一点:生产运维层协调分布式服务、编排、自动扩缩容和内存管理;应用加速层以高性能运行模型,并为开发者提供调优和定制的空间;基础设施访问层暴露NVIDIA GPU、网络、内存和系统能力。当这些层次作为一个系统协同工作时,各个优化效果会叠加。解耦服务、基于NVIDIA NVLink互连技术的大规模专家并行、NVFP4精度和多token预测各自都能带来显著收益,将它们结合后,吞吐量可提升高达20倍。

同样的全栈基础还通过开源生态得到放大。当今许多广泛使用的开源AI框架和推理项目都原生构建在NVIDIA CUDA之上。PyTorch就是一个典型例子,它于2016年推出,原生支持CUDA,与NVIDIA架构共同演进。当DFlash推测解码或FastVideo等突破性技术落地PyTorch时,它们可以立即在NVIDIA上运行。当DeepSeek V4等前沿开放模型发布时,vLLM和SGLang等领先推理框架能在第一天就为NVIDIA Blackwell架构提供部署方案。这也是为什么DeepSeek V4在Blackwell上的性能在一个月内通过vLLM和SGLang框架提升了最多至原来的5倍,每token成本降至原来的五分之一左右。

这就是开源飞轮:越来越多的开发者优化基于CUDA的推理路径,越来越多的生产部署反馈到生态系统中,每次软件改进都会提高输出的token量,同时降低每token成本。

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com