日本Sakana AI发布RL Conductor,强化学多智能体协同
2026-05-08 13:58
收藏

维度网讯,东京AI研发公司Sakana AI于2026年5月7日正式发布RL Conductor,一款仅7B参数的小型语言模型,通过强化学习训练自动编排多种大型语言模型协同完成复杂任务。该成果已被顶级机器学习会议ICLR 2026接收,并作为Sakana AI旗下多智能体编排服务平台Sakana Fugu的核心技术底座投入商用。

Screenshot 2026-05-07 at 6.07.40 PM

RL Conductor论文合著者Yujin Tang在接受VentureBeat采访时指出,在拥有大规模异质需求的生产环境中,人工硬编码的智能体流水线遭遇根本性瓶颈,而现实场景中没有任何单一模型在所有任务上均为最优,不同模型在科学推理、代码生成、数学逻辑或高层规划等维度各有专长。“Go beyond human-hardcoded designs”正是RL Conductor的设计出发点。传统的LangChain或Mixture-of-Agents等手动编排方案,在单一场景下或许可行,一旦面对大规模异质需求,僵化的规则便难以支撑。RL Conductor则通过强化学习端到端地自动发现最优智能体协同策略,以一组随机化worker模型池进行训练,使其可适配任意开源或闭源模型组合。

RL Conductor的工作机制核心在于:给定任务后,模型并不直接输出最终答案,而是生成一套自然语言形式的agentic workflow,包含子任务描述、分配的目标worker以及决定每步可见前置结果的access list,三者被解析为等长Python列表。训练采用GRPO算法,奖励规则极简——格式错误给0分、答案错误给0.5分、完全正确给1分,无任何中间奖励或拓扑先验。基础模型为Qwen2.5-7B,仅用960道题、200次迭代,在2张H100 GPU上完成训练。

rl-conductor-performance

经过强化学习训练,RL Conductor逐渐涌现出复杂的协同策略:在LiveCodeBench编程任务中,它会让Gemini和Claude先进行高层规划,再由GPT-5编写优化代码;面对MMLU知识类题目倾向于1至2步简洁流程,面对编程类题目则展开3至4步含verifier的递归验证流程。更关键的是,在recursive设置下它能在测试时观察worker实际行为,将任务从GPT-5重新分配给Claude和Gemini,实现动态纠错与任务再分配。这意味着RL Conductor并非简单地按预设规则路由请求,而是可实时监控worker输出质量并动态调整任务分配,形成自适应修正的闭环。

性能表现直接体现在量化成绩上。RL Conductor在GPQA Diamond取得87.5分,在LiveCodeBench取得83.93分,平均分77.27分,超越GPT-5的74.78分。在与单个前沿模型及昂贵人工设计多智能体方案的对比中,RL Conductor以更低的成本和更少的API调用次数达到state-of-the-art水平。模型还能够以自身作为worker进行递归拓扑扩展,通过在线迭代自适应实现动态test-time scaling,进一步将推理计算转化为更高的准确率。

RL Conductor直接构成了Sakana AI旗下商业化产品Sakana Fugu的技术底座。2026年4月,Sakana AI已推出Sakana Fugu多智能体编排系统Beta版,提供Fugu Mini和Fugu Ultra两种配置:前者侧重高速度、低延迟编排,后者侧重全模型池利用和深度复杂推理。Sakana AI同时接受另一项ICLR 2026论文TRINITY协调器,通过Thinker、Worker和Verifier三种角色分工管理大模型池,进一步丰富Fugu平台的多智能体协同能力。

Sakana AI成立于2023年,总部位于东京都港区,由前谷歌研究人员David Ha(CEO)、Llion Jones(CTO)及前Mercari经理Ren Ito(COO)联合创立。公司名称“Sakana”在日语中意为“鱼”,寓意其核心理念——像鱼群遵循简单规则形成有序群体一样,AI也应以受自然启发的机制涌现智能。2025年11月,公司完成约1.35亿美元B轮融资,投后估值达26.5亿美元,投资方包括三菱UFJ金融集团、Khosla Ventures、Macquarie Capital、NEA、Lux Capital及In-Q-Tel。同期,公司扩大了工程团队招聘规模,并在金融、国防、制造等垂直领域加速商业化落地。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com