中国AReaL 2.0开源，强化学习基础设施助力Agent持续学习

2026-07-03 10:32

关键词:

维度网讯，7月2日，开源强化学习基础设施项目AReaL发布2.0版本，旨在打通基础模型训练与现代智能体应用之间的链路，为Agent应用场景提供高效的强化学习训练支撑。

AReaL 2.0面向已进入真实业务场景的Agent，提供了一套让其在使用中持续学习的系统基础设施。该版本可使Agent在完成真实任务时产生的交互过程被记录、整理并接入后续训练流程，用于持续优化底层模型，从而让Agent在安全可控的前提下越用越强。

目前，Agent正在进入真实生产环境，完成写代码、查资料、调用工具等复杂任务。然而，Agent虽每天都在工作，却难以从工作中真正成长。在真实业务中，Agent会产生大量有价值的经验，例如任务完成情况、工具调用失败原因、用户满意度以及决策方向。这些信息大多仅以日志形式保存，难以稳定、安全地转化为下一次能力提升。

AReaL 2.0旨在解决Agent上线后如何继续成长的问题。开发者无需重新开发Agent，只需让Agent原本发给大模型的请求经过AReaL 2.0的统一推理入口，即可接入在线强化学习流程。

以Hermes Agent为例，Hermes正常接收任务、规划步骤和调用模型，AReaL 2.0在后台记录其完成任务时的关键交互过程，并结合任务结束后的反馈或奖励信号，将这些真实轨迹用于后续训练。开发者可将Hermes替换为自有Agent和任务环境，以同样方式搭建Agent在线强化学习流程。这意味着，Agent的能力提升不再仅依赖人工构造数据、离线训练和重新部署，真实任务中的多轮对话、工具调用、执行结果和反馈信号均可成为模型继续学习的材料。

这一点在企业场景中尤为重要。企业工作流中的Agent面临真实、复杂且不断变化的任务，包括代码库更新、业务流程调整、用户需求变化以及工具与系统的变更。若Agent能力在上线后基本固定，则难以长期适应真实环境。AReaL 2.0旨在补全从“会使用工具”到“能从使用中学习”之间缺失的环节。

同时，真实业务中的持续学习不能简单地“收集数据再训练”。Agent可能接触代码、客户信息、企业知识库和内部系统，因此训练链路必须考虑权限控制、数据脱敏、隔离和审计等要求。AReaL 2.0在系统设计中引入了面向Agent轨迹的数据代理机制，使真实任务数据进入训练流程时能够在更安全、可控的前提下被管理和使用。

AReaL团队在技术报告中指出，自演进Agent的关键瓶颈不仅在于模型本身或强化学习算法，更在于缺少一套能够服务真实Agent的在线强化学习基础设施。AReaL 2.0面向下一代智能体应用进行了架构升级，将Agent服务、真实任务轨迹、数据治理和在线强化学习训练连接起来，为Agent在部署之后继续学习提供了可落地的工程基础。

AReaL项目由蚂蚁集团、清华大学和香港科技大学等团队于2024年发起。2026年5月，AReaL从蚂蚁InclusionAI孵化成为独立开源社区，并加入PyTorch Foundation Ecosystem项目，融入主流强化学习基础设施生态。随着社区独立发展，AReaL持续获得产业和开源生态伙伴的参与和支持，包括华为云团队、MindLab等。未来，AReaL将围绕在线强化学习、自动化评估和多模态智能体训练等方向迭代，与社区共同推进自演进智能体生态发展。目前，AReaL 2.0技术报告和代码已开源。

中国