中国人大与微软研究院推出Arbor框架性能提升超2.5倍

2026-06-19 11:48

关键词:

维度网讯，中国人民大学联合微软研究院推出Arbor框架，将AI系统自主优化从试错过程转变为累积学习机制。该框架通过结构化假设管理，在实际工程任务中实现超过2.5倍的可验证性能提升。

随着大型语言模型和AI系统能力增强，自主优化成为核心挑战。工程团队在优化AI智能体时，常需同时调整分块策略、检索方法、系统提示等多个参数，这些调整相互纠缠，难以精准归因，导致优化过程效率低下。论文合著者Jiajie Jin指出，单纯给编码智能体更多时间或计算资源并不会带来更好结果，“如果目标模糊或指标容易被破解，长时间运行通常只会更快地产生没人真正想要的‘改进’”。

现有编码智能体依赖对话记录作为记忆，但自主优化任务涉及数百轮交互，容易超出上下文窗口限制。智能体难以在长历史中保留事实证据，失去研究过程的整体结构，容易在早期失败上停滞或追逐有噪声的评估波动。同时，通用框架将工具调用链组织在共享工作树上，无法在隔离环境中测试并行假设。

Arbor通过上下分离架构解决这一挑战：协调器作为主研究者，掌握优化研究的全局状态，提出假设并决定实验方向，不直接编辑代码库；执行器是短寿命智能体，在独立git工作树中测试具体假设。两个组件通过“假设树细化”机制协作，将研究过程表示为持久分支树，每个节点绑定假设、可执行工件、事实证据和提炼洞察。协调器在根节点放置宽泛想法，叶子节点放置具体细化，可同时探索多个竞争方向。失败实验被记录为负约束，防止系统重复相同错误。

在真实工程场景中，Arbor通过将每个优化杠杆作为单独假设实现了清晰的属性归因。执行器返回报告后，协调器将证据写入树中并将洞察反向传播到父节点。为防止过拟合，框架强制执行“合并门”，在独立工作树中测试候选方案，只有在提升保留测试分数时才合并到当前最佳主干。

研究人员在基于真实研究环境的自主优化任务套件和MLE-Bench Lite机器学习工程基准上评估了Arbor。AO套件涵盖模型训练、框架工程和数据合成等任务。使用Claude Opus 4.6、GPT-5.5和Gemini-3-Flash等骨干模型时，Arbor平均相对增益是Codex和Claude Code的2.5倍以上。在优化搜索智能体的BrowseComp任务中，Arbor将系统保留准确率从45.33%提升至67.67%，而Codex和Claude Code分别停留在50%和53.33%。在MLE-Bench Lite上，配备GPT-5.5时取得最强结果。

Arbor对过拟合展现弹性。在Terminal-Bench 2.0实验中，Claude Code取得75的开发分数但在保留数据上降至71；Arbor开发分数较低为72.22，但取得最高保留分数77.36。跨任务迁移实验显示，优化BrowseComp搜索框架后的代码库可显著提升不相关任务HLE和DeepSearchQA的性能。

该框架设计为构建在现有Git工作流之上。Jin表示，Arbor输出的是普通git分支，现有代码审查和人工审查可直接检查。部署时最大成本为维持协调器和管理树产生的token消耗，以及多个隔离工作树的计算和磁盘资源需求。框架适用于具有明确可信指标、容忍长时间跨度、存在多个合理搜索方向的任务，如管道优化、数据合成质量和模型训练调优，不应用于实时延迟任务、简单修复或评估指标有缺陷的场景。Jin认为下一步演进是将每个节点工件从单一标量分数转向携带准确率、延迟、成本向量的多目标帕累托搜索。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国