谷歌内部强化学习突破:为AI代理长远发展提供新路径
2026-01-17 15:56
收藏

谷歌研究人员开发出内部强化学习(内部RL)技术,助力人工智能模型更高效地处理复杂推理任务。传统逻辑推理模型(LLM)依赖逐词预测,易在长期规划中因抽象层次错误而效率低下。谷歌团队提出:内部RL则通过引导模型内部激活,开发高层次逐步解决方案,为自主代理在复杂推理和现实机器人技术中的应用提供可扩展路径。

逐词预测方法在基础语言建模中效果良好,但在长期任务中因奖励稀疏而失效。论文合著者Yanick Schimpf指出,智能体易陷入步骤细节或遗忘整体目标。内部RL通过抽象层面解决问题,确保智能体不迷失方向。传统分层强化学习(HRL)虽尝试分解复杂问题,但常因无法发现合适策略而失效。谷歌团队提出的内部RL方案,通过引入“内部神经网络控制器”(元控制器),改变模型中间层激活值,控制行为路径,使模型自动生成实现目标步骤序列。

元控制器采用自监督框架,无需人工标注,通过分析完整行为序列,反向推断隐藏意图。在内部强化学习阶段,更新应用于元控制器,将训练从预测下一个词元转移到学习高级动作。以代码生成企业代理为例,内部RL允许模型探索抽象动作空间,同时将词元级实现委托给基础模型,确保语法正确与逻辑难题解决并行不悖。

实验评估显示,内部RL在离散网格世界和连续控制任务中,仅用少量训练回合即取得高成功率,远超GRPO等基线模型。研究人员发现,“冻结”基础模型后训练元控制器效果更佳,能成功发现关键检查点,与智能体完成子目标时刻完美契合。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com