中国上海人工智能实验室提出Self-Harness框架智能体性能提升60%

2026-06-23 10:36

关键词:

维度网讯，上海人工智能实验室（Shanghai Artificial Intelligence Laboratory）的研究人员提出一种名为“Self-Harness”的新范式，允许基于大语言模型（LLM）的智能体系统性地改进自身运行规则，无需依赖人类工程师或更强的外部模型。

基于LLM的智能体性能不仅取决于基础模型，还取决于其框架，后者包括系统提示、工具、记忆、验证规则、运行时策略、编排逻辑和故障恢复程序等。常见的智能体故障往往源自框架而非模型本身。例如，智能体可能未检查模型响应便报告成功，或反复重试失败操作。SWE-agent、Claude Code、Codex和OpenHands等是流行的框架实例。

Self-Harness论文第一作者Hangfan Zhang表示，手动框架工程的真正瓶颈在于依赖临时调试，而非系统性反馈循环。许多编辑基于直觉或少数的失败案例，难以跟上快速演进的LLM步伐。Self-Harness范式使基于LLM的智能体能够通过三阶段迭代循环实现自我进化。

该循环首先通过弱点挖掘阶段：智能体运行任务生成执行轨迹，对失败轨迹进行分类并检测模型特定的失败模式。其次是框架提议阶段：智能体使用“提议者”角色生成一组多样化且最小的框架修改，每个修改针对特定的失败机制。最后是提议验证阶段：系统通过回归测试评估候选修改，仅在编辑未导致保留任务性能下降时才被采纳。若多个候选通过测试，则会合并到框架的下一个版本中。

研究人员在Terminal-Bench-2.0基准上对Self-Harness进行了评估，该基准测试基于工具的执行，包括工件管理、命令使用、验证行为及从执行错误中恢复。他们针对MiniMax M2.5、Qwen3.5-35B-A3B和GLM-5应用了Self-Harness。定量结果显示，智能体通过自动化框架编辑提升了性能，在保留任务上不同模型的相对改进幅度在33%到60%之间。

self-harness

实验表明，Self-Harness引入了有针对性的更改，反映每个模型在执行过程中的重复性问题。例如，MiniMax M2.5在基线框架下会无休止探索数据集配置直至超时，系统通过写入“循环中断”规则（在50次工具调用后停止并重定向方法）以及添加要求尽早创建初始版本来修复。Qwen-3.5在遇到文件覆盖错误后会重复同一命令，系统引入了严格的重试纪律（禁止完全重复命令）以及文件错误后立即重新创建丢失工件的机制。GLM-5难以在不同命令间保持环境变更，其自生成框架引入了PATH变量持久化、限制外部计算以及在运行结束前修复任何失败健全性检查等规则。

self-harness结果

Zhang指出，自动化框架工程需要计算开销用于重复生成、并行评估和回归测试。系统还依赖评估管道的准确性，在实验中依靠严格、确定性的验证器。他认为最佳部署目标是编码、内部工作流自动化和DevOps数据管道等失败可测量且试错相对安全的领域。而医疗决策、安全关键基础设施或法律决策等评估主观、成本高昂的领域应避免完全自动化。随着基础模型能力增强，框架将向外扩展，连接更丰富的外部环境。工程师的角色将从手动修补单个提示或工具调用，转向设计使智能体改进成为可能的反馈系统。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国