美国英伟达加速DiffusionGemma速度提升4倍
2026-06-11 10:24
收藏

维度网讯,Google DeepMind 发布了名为 DiffusionGemma 的实验性开放模型,该模型专为极快文本生成而设计。NVIDIA 已对该模型进行优化,使其能在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系统上实现更快运行,覆盖从本地 PC 到云端的多种环境。

与传统逐词生成文本的方式不同,DiffusionGemma 能够并行生成多个单词以输出整个文本块。该模型基于 Gemma 4 构建,这是一个拥有 260 亿参数的混合专家模型,每步仅激活 38 亿个参数,并将扩散头与 Google 的 Gemma 4 架构相结合。在性能方面,DiffusionGemma 在本地硬件上的文本生成速度相比等效的自回归模型可提升高达 4 倍。作为一款开放模型,DiffusionGemma 在宽松的 Apache 2.0 许可下开放权重,并完全可在 RTX 和 DGX Spark 上本地运行,无需云端依赖,同时在 Hugging Face Transformers、vLLM 和 Unsloth 中获得即日支持。此外,用户还可通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试 DiffusionGemma。

目前广泛使用的大多数大型语言模型(LLM)都采用自回归的生成方式,即一次生成一个 token,每个新词依赖于前一个词。DiffusionGemma 则基于 Gemma 4 26B 混合专家架构,以扩散模型生成图像的方式生成文本:从噪声开始,一次精炼整个文本块。在每一步中,模型并行去噪多达 256 个 token。对于延迟敏感的单一用户工作,如交互式聊天、智能体循环或设备端助手,这种并行特性使响应速度能跟上开发和迭代的需求。

传统 LLM 在单次生成一个 token 时,通常受限于内存带宽,大量算力未被充分利用。而 DiffusionGemma 通过 Transformer 并行处理完整的 token 块,其计算密集型工作负载正好能发挥 NVIDIA GPU 的优势。数据显示,DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上达到 1000 tokens/sec,在 NVIDIA DGX Spark 上达到 150 tokens/sec,在 NVIDIA DGX Station 上实现最快的本地推理,速度比运行在相同单一用户场景下的等效自回归模型快约 4 倍。

这一性能优势贯穿 NVIDIA 全线产品,包括由 NVIDIA GB10 Grace Blackwell Superchip 驱动、配备 128GB 统一内存的本地 DGX Spark 桌面个人 AI 超级计算机;为开发者提供充足本地运行空间的 RTX PRO 6000 工作站;提供高达 800 tokens/sec 快速推理速度并配备 748GB 一致性内存的 DGX Station;以及即将支持 llama.cpp 的 GeForce RTX GPU。

使用 Hugging Face Transformers 是在 GeForce RTX 5090 或 DGX Spark 上启动 DiffusionGemma 的最快方式。对于更高吞吐量的推理,vLLM 提供即日服务支持。用户可通过 Unsloth 和 NVIDIA NeMo 框架对模型进行微调,以适应特定任务或领域。更多技术细节可查阅 NVIDIA 技术博客和 Google DeepMind 的官方公告。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com