美国英伟达加速DiffusionGemma速度提升4倍

2026-06-11 10:24

关键词:

维度网讯，Google DeepMind 发布了名为 DiffusionGemma 的实验性开放模型，该模型专为极快文本生成而设计。NVIDIA 已对该模型进行优化，使其能在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系统上实现更快运行，覆盖从本地 PC 到云端的多种环境。

与传统逐词生成文本的方式不同，DiffusionGemma 能够并行生成多个单词以输出整个文本块。该模型基于 Gemma 4 构建，这是一个拥有 260 亿参数的混合专家模型，每步仅激活 38 亿个参数，并将扩散头与 Google 的 Gemma 4 架构相结合。在性能方面，DiffusionGemma 在本地硬件上的文本生成速度相比等效的自回归模型可提升高达 4 倍。作为一款开放模型，DiffusionGemma 在宽松的 Apache 2.0 许可下开放权重，并完全可在 RTX 和 DGX Spark 上本地运行，无需云端依赖，同时在 Hugging Face Transformers、vLLM 和 Unsloth 中获得即日支持。此外，用户还可通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试 DiffusionGemma。

目前广泛使用的大多数大型语言模型（LLM）都采用自回归的生成方式，即一次生成一个 token，每个新词依赖于前一个词。DiffusionGemma 则基于 Gemma 4 26B 混合专家架构，以扩散模型生成图像的方式生成文本：从噪声开始，一次精炼整个文本块。在每一步中，模型并行去噪多达 256 个 token。对于延迟敏感的单一用户工作，如交互式聊天、智能体循环或设备端助手，这种并行特性使响应速度能跟上开发和迭代的需求。

传统 LLM 在单次生成一个 token 时，通常受限于内存带宽，大量算力未被充分利用。而 DiffusionGemma 通过 Transformer 并行处理完整的 token 块，其计算密集型工作负载正好能发挥 NVIDIA GPU 的优势。数据显示，DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上达到 1000 tokens/sec，在 NVIDIA DGX Spark 上达到 150 tokens/sec，在 NVIDIA DGX Station 上实现最快的本地推理，速度比运行在相同单一用户场景下的等效自回归模型快约 4 倍。

这一性能优势贯穿 NVIDIA 全线产品，包括由 NVIDIA GB10 Grace Blackwell Superchip 驱动、配备 128GB 统一内存的本地 DGX Spark 桌面个人 AI 超级计算机；为开发者提供充足本地运行空间的 RTX PRO 6000 工作站；提供高达 800 tokens/sec 快速推理速度并配备 748GB 一致性内存的 DGX Station；以及即将支持 llama.cpp 的 GeForce RTX GPU。

使用 Hugging Face Transformers 是在 GeForce RTX 5090 或 DGX Spark 上启动 DiffusionGemma 的最快方式。对于更高吞吐量的推理，vLLM 提供即日服务支持。用户可通过 Unsloth 和 NVIDIA NeMo 框架对模型进行微调，以适应特定任务或领域。更多技术细节可查阅 NVIDIA 技术博客和 Google DeepMind 的官方公告。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

英国