中国AReaL 2.0开源,强化学习基础设施助力Agent持续学习
2026-07-03 10:32
收藏

维度网讯,7月2日,开源强化学习基础设施项目AReaL发布2.0版本,旨在打通基础模型训练与现代智能体应用之间的链路,为Agent应用场景提供高效的强化学习训练支撑。

AReaL 2.0面向已进入真实业务场景的Agent,提供了一套让其在使用中持续学习的系统基础设施。该版本可使Agent在完成真实任务时产生的交互过程被记录、整理并接入后续训练流程,用于持续优化底层模型,从而让Agent在安全可控的前提下越用越强。

目前,Agent正在进入真实生产环境,完成写代码、查资料、调用工具等复杂任务。然而,Agent虽每天都在工作,却难以从工作中真正成长。在真实业务中,Agent会产生大量有价值的经验,例如任务完成情况、工具调用失败原因、用户满意度以及决策方向。这些信息大多仅以日志形式保存,难以稳定、安全地转化为下一次能力提升。

AReaL 2.0旨在解决Agent上线后如何继续成长的问题。开发者无需重新开发Agent,只需让Agent原本发给大模型的请求经过AReaL 2.0的统一推理入口,即可接入在线强化学习流程。

以Hermes Agent为例,Hermes正常接收任务、规划步骤和调用模型,AReaL 2.0在后台记录其完成任务时的关键交互过程,并结合任务结束后的反馈或奖励信号,将这些真实轨迹用于后续训练。开发者可将Hermes替换为自有Agent和任务环境,以同样方式搭建Agent在线强化学习流程。这意味着,Agent的能力提升不再仅依赖人工构造数据、离线训练和重新部署,真实任务中的多轮对话、工具调用、执行结果和反馈信号均可成为模型继续学习的材料。

这一点在企业场景中尤为重要。企业工作流中的Agent面临真实、复杂且不断变化的任务,包括代码库更新、业务流程调整、用户需求变化以及工具与系统的变更。若Agent能力在上线后基本固定,则难以长期适应真实环境。AReaL 2.0旨在补全从“会使用工具”到“能从使用中学习”之间缺失的环节。

同时,真实业务中的持续学习不能简单地“收集数据再训练”。Agent可能接触代码、客户信息、企业知识库和内部系统,因此训练链路必须考虑权限控制、数据脱敏、隔离和审计等要求。AReaL 2.0在系统设计中引入了面向Agent轨迹的数据代理机制,使真实任务数据进入训练流程时能够在更安全、可控的前提下被管理和使用。

AReaL团队在技术报告中指出,自演进Agent的关键瓶颈不仅在于模型本身或强化学习算法,更在于缺少一套能够服务真实Agent的在线强化学习基础设施。AReaL 2.0面向下一代智能体应用进行了架构升级,将Agent服务、真实任务轨迹、数据治理和在线强化学习训练连接起来,为Agent在部署之后继续学习提供了可落地的工程基础。

AReaL项目由蚂蚁集团、清华大学和香港科技大学等团队于2024年发起。2026年5月,AReaL从蚂蚁InclusionAI孵化成为独立开源社区,并加入PyTorch Foundation Ecosystem项目,融入主流强化学习基础设施生态。随着社区独立发展,AReaL持续获得产业和开源生态伙伴的参与和支持,包括华为云团队、MindLab等。未来,AReaL将围绕在线强化学习、自动化评估和多模态智能体训练等方向迭代,与社区共同推进自演进智能体生态发展。目前,AReaL 2.0技术报告和代码已开源。

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com