中国团队开源AudioX-Turbo,4步推理仅需0.24秒输出音频
2026-06-16 10:03
收藏

维度网讯,AudioX-Turbo极速音频大模型发布,4步推理0.24秒生成10秒音频。由Noiz AI联合香港科技大学、清华大学推出,该模型支持文本、视频、图像等多模态输入,通过分布匹配蒸馏与对抗蒸馏技术,将传统扩散模型的50至200步生成过程压缩至4步,模型前向次数降低约25倍。在单张RTX 4090显卡上,生成10秒音频仅需0.24秒,实时因子仅为0.02,为实时音频交互开辟了空间。

现有主流音频模型如MMAudio、Stable Audio Open等依赖扩散或流匹配技术,通常需要数十到上百次迭代。AudioX-Turbo以原生多模态融合的Multimodal Diffusion Transformer(MMDiT)作为骨架,并配合MAF模块从零训练了2.7B参数。在流匹配框架下,研究团队引入分布匹配蒸馏(DMD)和对抗蒸馏,将模型压缩至4步,同时通过CFG蒸馏去除了额外的NFE开销。得益于扩散判别器,学生模型在部分性能指标上反超了100步的教师模型。

AudioX-Turbo还解决了音频模型难以精准控制的问题。研究团队指出,此前许多模型无法精确控制时间戳,根源在于训练数据的文本标签过于模糊。为此,Noiz AI与港科大团队专门打造了超大规模多模态音频数据集IF-caps-Pro,总规模约920万。团队采用“大模型级联标注”方案,先构建海量高质量视频-音频对,用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板,再用Qwen2-Audio进行大规模扩写,使数据从“模糊的摘要”变为“带有精确时间轴的剧本”。

研究团队意外发现,文本标签写得越细,模型不仅文本生音频效果变好,连带着“只看无声视频配音”时的对齐度也大幅提升。在经典的AudioCaps、MusicCaps等测试集中,4步的AudioX-Turbo模型在核心音质指标上打败或战平了需要50至200步的众多基线模型。为评测指令跟随能力,团队构造了专门benchmark T2A-bench,在针对声音类别、数量、时间戳和先后顺序的评测中,AudioX-Turbo效果对比其他基线方法呈现碾压态势,部分指标较基线提升超一倍。

AudioX-Turbo三大亮点包括:4步推理,相比教师模型减少25倍计算量,效果更优,RTF仅0.02;920万强指令数据集,首次实现精确时间戳控制;支持文本、视频、图像等多模态输入,可完成Anything-to-Audio生成。该项目所有训练代码及模型权重已全部开源。论文题为“AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation”,由Noiz AI、香港科技大学、清华大学团队完成,项目主页为https://zeyuet.github.io/AudioX-Turbo/。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com