维度网讯,生成式AI公司Stability AI于2026年5月20日正式发布全新音频生成模型家族Stable Audio 3.0,包含四款不同规格的模型,顶级版本可生成长达6分20秒的专业级音乐。公司将这套新模型与其4月上线的品牌创意制作平台“Brand Studio”进行全面整合,标志着Stability AI从单一图像和视频生成正式向端到端的品牌内容制作平台转型,而音频能力成为这一转型中的关键拼图。
Stability AI首席执行官Prem Akkaraju在Brand Studio发布时即指出,对于全球各地的企业、创意人员、代理商和营销团队而言,品牌一致性是永恒的追求,也是最大的挑战。“品牌团队不断被要求在更多渠道、更多地区,以更多元的格式产出内容,同时还要保持品牌的独特印记,这极其困难。”Brand Studio正是为破解这一难题而构建——平台集成了Stability AI的图像、视频和最新音频模型,品牌方可在统一工作流中定制并锁定自有品牌的视觉与声音规范,确保每一位使用者创作的素材都与品牌调性保持一致。
Stable Audio 3.0系列共包含四款模型:小型SFX版(4.59亿参数)、小型版(4.59亿参数)、中型版(14亿参数)和大型版(27亿参数)。两款小型模型专注于设备端部署,可在本地生成最长2分钟的音效与音乐;中型和大型模型则具备更强的架构控制力,能够创作长达6分20秒的完整乐曲,并精准维持音乐结构与旋律基调。这一长度较2024年推出的Stable Audio 2.0实现了翻倍以上的跨越。
在开源策略方面,Stability AI已将小型SFX、小型和中型模型以开放权重形式公开,社区可自由下载、使用和修改。大型模型则仅通过API和付费自托管服务提供,年营收超过100万美元的企业须购买单独的企业授权。这种“开放核心+商业闭环”的模式,在保持社区影响力的同时,为公司构建了明确的商业化路径。
商业化安全是此次发布的另一核心支点。Stability AI强调,该系列模型全量基于已获完整授权的数据集训练而成。公司此前已与华纳音乐集团(Warner Music Group)和环球音乐集团(Universal Music Group)签署战略合作协议,共同开发新一代负责任的AI音乐创作工具。近期,环球音频前首席数字官伊桑·卡普兰(Ethan Kaplan)正式加盟Stability AI,负责领导专业音乐产品业务。这些举措使Stability AI在AI音乐生成领域建立了一定的版权合规壁垒,与Suno和Udio等同行正在面临的版权诉讼形成对比。
从产品演进脉络来看,Stability AI在音频领域已历经多次迭代。2023年推出Stable Audio,2024年升级至2.0版本并加入音频到音频的编辑功能,2025年发布面向企业级应用的Stable Audio 2.5,支持品牌定制音效和音频修复(inpainting)。此次3.0版本的发布,标志着其音频模型在生成时长、音乐结构控制力和多规格部署能力上迈入了商业化应用的新阶段。
Brand Studio被Stability AI定位为“以品牌为动力的端到端创意制作平台”,其核心理念是让品牌团队将视觉与声音规范“锁定”进AI工作流中,从而在规模化产出内容时始终保持品牌一致性。平台集成了Stability AI的图像生成、视频生成和音频生成能力,用户无需在多个工具间切换即可完成从平面设计到视频配乐的全链路创意制作。
Stability AI成立于2019年,总部位于英国伦敦,是开源生成式AI领域的代表性企业之一,旗下Stable Diffusion文本到图像模型在全球拥有广泛的开发者生态。公司现任CEO为前维塔数码(Weta Digital)CEO Prem Akkaraju,执行主席为Napster联合创始人肖恩·帕克(Sean Parker),董事会成员包括著名导演詹姆斯·卡梅隆(James Cameron)。截至2025年9月,公司估值约为10亿美元,累计融资约4亿美元,主要投资方包括Coatue Management、Lightspeed Venture Partners、Greycroft和Sound Ventures等。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










