维度网讯,6月10日,美国谷歌发布实验性开源模型DiffusionGemma。该模型采用文本扩散架构,以Apache 2.0许可证开放,面向研究者和开发者探索本地快速推理、交互式文本生成和低并发应用场景,在专用GPU上文本生成速度较传统自回归大语言模型最高提升4倍。
DiffusionGemma的技术路线与常见大语言模型不同。传统自回归模型通常按照从左到右的顺序逐个生成词元,文本越长,等待下一步输出的链路越明显;DiffusionGemma则尝试一次生成一段文本框架,再通过多轮迭代修正内容。谷歌将其设计为26B总参数规模的混合专家模型,推理时激活约3.8B参数,并可在量化后适配18GB显存级别的高端独立消费级GPU。对于本地开发者来说,这意味着模型并不只是服务云端大规模部署,也可以在单张高性能显卡上承担快速编辑、代码补全、文本重排和实验性生成任务。
该模型的速度优势主要来自并行生成机制。DiffusionGemma每次前向计算可并行生成256个词元,使输出块内部的词元相互关注,并在后续迭代中持续修正。这样的结构适合内联编辑、代码填空、非线性文本结构、数学图形和部分需要前后文共同约束的任务。谷歌披露,在单张NVIDIA H100上,DiffusionGemma可达到每秒1000个以上词元输出;在NVIDIA GeForce RTX 5090上,可达到每秒700个以上词元输出。
但它并不是Gemma 4的替代品。
谷歌对DiffusionGemma的定位很明确:这是一款实验性模型,优先服务速度敏感和交互式本地工作流,整体输出质量低于标准Gemma 4。对于追求最高生成质量、稳定性和生产级交付的应用,谷歌仍建议使用标准Gemma 4。DiffusionGemma的优势也并非适用于所有部署环境,在高并发云端服务中,自回归模型可以通过批处理充分利用算力,文本扩散并行解码带来的收益会下降,甚至可能推高服务成本。换言之,它更适合低到中等批量、本地单用户或开发实验环境,而不是直接替代主流云端大模型架构。
这项发布对信息通信和AI开发生态仍有重要意义。过去,扩散模型更多被用户熟知于图像和视频生成,文本生成长期由自回归架构主导。DiffusionGemma把文本扩散路线与Gemma开放模型生态结合起来,为开发者提供了另一类速度优先的实验平台。随着本地AI、个人工作站、AI PC和边缘设备需求增长,开发者越来越需要在不依赖远程云端的情况下完成快速生成、即时修改和隐私敏感任务处理。开源许可证也有利于研究机构、工具厂商和开发者围绕模型结构、推理引擎、量化方案和微调方法继续实验。
产业链影响会集中在本地AI推理、消费级GPU、开发者工具和模型服务平台。DiffusionGemma已支持通过Hugging Face获取权重,并可结合MLX、vLLM、Hugging Face Transformers等工具使用;谷歌还与NVIDIA围绕硬件栈优化性能,覆盖RTX消费级显卡、RTX PRO、Hopper和Blackwell等企业级平台。后续节点包括开发者微调效果、llama.cpp等生态支持进度、模型在代码补全和实时编辑中的实际体验,以及文本扩散架构能否继续缩小与高质量自回归模型之间的输出差距。如果这一路线持续成熟,本地AI应用可能获得更快的生成响应,也会为开放模型生态带来新的技术分支。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









