中国团队开源AudioX-Turbo，4步推理仅需0.24秒输出音频

2026-06-16 10:03

关键词:

维度网讯，AudioX-Turbo极速音频大模型发布，4步推理0.24秒生成10秒音频。由Noiz AI联合香港科技大学、清华大学推出，该模型支持文本、视频、图像等多模态输入，通过分布匹配蒸馏与对抗蒸馏技术，将传统扩散模型的50至200步生成过程压缩至4步，模型前向次数降低约25倍。在单张RTX 4090显卡上，生成10秒音频仅需0.24秒，实时因子仅为0.02，为实时音频交互开辟了空间。

现有主流音频模型如MMAudio、Stable Audio Open等依赖扩散或流匹配技术，通常需要数十到上百次迭代。AudioX-Turbo以原生多模态融合的Multimodal Diffusion Transformer（MMDiT）作为骨架，并配合MAF模块从零训练了2.7B参数。在流匹配框架下，研究团队引入分布匹配蒸馏（DMD）和对抗蒸馏，将模型压缩至4步，同时通过CFG蒸馏去除了额外的NFE开销。得益于扩散判别器，学生模型在部分性能指标上反超了100步的教师模型。

AudioX-Turbo还解决了音频模型难以精准控制的问题。研究团队指出，此前许多模型无法精确控制时间戳，根源在于训练数据的文本标签过于模糊。为此，Noiz AI与港科大团队专门打造了超大规模多模态音频数据集IF-caps-Pro，总规模约920万。团队采用“大模型级联标注”方案，先构建海量高质量视频-音频对，用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板，再用Qwen2-Audio进行大规模扩写，使数据从“模糊的摘要”变为“带有精确时间轴的剧本”。

研究团队意外发现，文本标签写得越细，模型不仅文本生音频效果变好，连带着“只看无声视频配音”时的对齐度也大幅提升。在经典的AudioCaps、MusicCaps等测试集中，4步的AudioX-Turbo模型在核心音质指标上打败或战平了需要50至200步的众多基线模型。为评测指令跟随能力，团队构造了专门benchmark T2A-bench，在针对声音类别、数量、时间戳和先后顺序的评测中，AudioX-Turbo效果对比其他基线方法呈现碾压态势，部分指标较基线提升超一倍。

AudioX-Turbo三大亮点包括：4步推理，相比教师模型减少25倍计算量，效果更优，RTF仅0.02；920万强指令数据集，首次实现精确时间戳控制；支持文本、视频、图像等多模态输入，可完成Anything-to-Audio生成。该项目所有训练代码及模型权重已全部开源。论文题为“AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation”，由Noiz AI、香港科技大学、清华大学团队完成，项目主页为https://zeyuet.github.io/AudioX-Turbo/。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国