美国英伟达推理软件栈将DeepSeek V4每token成本降至五分之一

2026-07-01 15:03

关键词:

维度网讯，英伟达（NVIDIA）推理软件栈在其Blackwell平台上，已在一个月内将DeepSeek V4模型的每token成本最多降低至原来的五分之一。随着企业从AI试点转向生产级AI工厂，基础设施决策已从关注峰值芯片规格转向每token成本，即在满足延迟目标的前提下，每美元和每瓦电能产出多少有用的token。英伟达的推理软件栈与NVIDIA GPU、CPU、网络和系统协同设计，并通过广泛的开源生态增强，持续提升硬件性能。

领先的公司和推理提供商已开始体验到NVIDIA推理软件栈在Blackwell上的叠加价值。Baseten使用NVIDIA TensorRT-LLM开源库在Blackwell GPU上提供DeepSeek V4 Pro服务，适用于推理、编码和长上下文工作负载，通过专有运行时优化，每秒token输出量提升高达50%。Cognition使用NVIDIA Dynamo推理框架管理推理GPU，为其团队提供了一条现成的扩展强化学习工作负载的路径，无需从头构建基础设施。Deep Infra使用NVIDIA推理软件栈，从第一天起就在Blackwell上高性能运行前沿开源模型，包括DeepSeek V4。Together AI在Blackwell上使用NVIDIA TensorRT-LLM，帮助Cursor加速从模型优化到生产端点的路径，以支持其实时编码体验。

传统的网页、搜索和软件即服务工作负载相对可预测，而代理式AI则不同。代理可以推理、规划、调用工具、启动专业子代理，并在多轮工作流中管理大量上下文，将单个请求转化为一个分布式计算问题，可能涉及数百个子代理、数千个任务和多个大语言模型，在GPU、CPU、DPU和存储系统上运行。软件栈决定了这种复杂性是转化为浪费的算力，还是转化为更低的每token成本。

更低的每token成本来自将单个优化转化为系统级性能。NVIDIA推理软件栈通过连接三个层次来实现这一点：生产运维层协调分布式服务、编排、自动扩缩容和内存管理；应用加速层以高性能运行模型，并为开发者提供调优和定制的空间；基础设施访问层暴露NVIDIA GPU、网络、内存和系统能力。当这些层次作为一个系统协同工作时，各个优化效果会叠加。解耦服务、基于NVIDIA NVLink互连技术的大规模专家并行、NVFP4精度和多token预测各自都能带来显著收益，将它们结合后，吞吐量可提升高达20倍。

同样的全栈基础还通过开源生态得到放大。当今许多广泛使用的开源AI框架和推理项目都原生构建在NVIDIA CUDA之上。PyTorch就是一个典型例子，它于2016年推出，原生支持CUDA，与NVIDIA架构共同演进。当DFlash推测解码或FastVideo等突破性技术落地PyTorch时，它们可以立即在NVIDIA上运行。当DeepSeek V4等前沿开放模型发布时，vLLM和SGLang等领先推理框架能在第一天就为NVIDIA Blackwell架构提供部署方案。这也是为什么DeepSeek V4在Blackwell上的性能在一个月内通过vLLM和SGLang框架提升了最多至原来的5倍，每token成本降至原来的五分之一左右。