维度网讯,小米研究人员推出HarnessX框架,旨在解决企业AI代理性能受限于“支架”(harness)这一工程瓶颈。该框架将AI支架视为可组合对象,并自主对其代码进行改进,从而提升AI系统在软件工程和网页交互等领域的性能表现。
目前,AI应用的支架大多是静态且手工打造的,缺乏根据执行数据自动改进的能力,这成为制约AI代理完成复杂长期任务的关键。传统支架开发面临三大挑战:一是静态且需手动重写,二是架构纠缠导致组件调整可能破坏其他部分,三是支架与基础模型被孤立优化,执行轨迹往往被丢弃。
HarnessX通过“统一支架铸造厂”解决上述瓶颈。其核心创新是将支架视为“一等对象”,即独立可序列化、模块化且可替换的实体,从而将模型配置与支架配置分离。该方法将代理行为分解为上下文组装、记忆管理、工具生态系统、控制流和可观测性等组件,每个行为作为一个“处理器”插入支架生命周期钩子。

为自动化优化模块化结构,HarnessX引入了AEGIS,一个轨迹驱动的进化引擎。该引擎将支架适应视为强化学习问题,并针对奖励黑客、灾难性遗忘和探索不足等病理现象,设计了包含消化器、规划器、进化器和批评者与门的四阶段管道。消化器将执行轨迹压缩为结构化摘要,规划器分析摘要以探索结构性变化,进化器生成代码级编辑和测试,批评者与门则用于防止奖励黑客和灾难性遗忘。

HarnessX还实现了支架与模型的共同进化。它通过跨支架GRPO(组相对策略优化)算法,将在不同版本支架上生成的执行轨迹汇集为模型的强化学习信号,使模型能内化使用新工具等高级策略。

实际测试在五个基准上展开,涵盖软件工程、多轮客服对话、网页导航、开放式多步推理和具身规划。测试中,由Claude Opus 4.6驱动的元代理负责分析日志和编写代码,任务代理则由Claude Sonnet 4.6、GPT-5.4和开源权重模型Qwen3.5-9B分别担任。结果显示,动态进化支架在15个模型-基准组合中的14个上提升了性能,平均带来+14.5%的绝对性能提升。其中,最弱的开源模型Qwen3.5-9B获益最大,在ALFWorld具身规划基准上性能跃升+44.0%,在SWE-bench Verified软件工程基准上跃升+18.2%。当使用进化支架生成的数据训练基础模型时,带来了额外的平均+4.7%性能提升。

HarnessX目前依赖强大的封闭前沿模型(如Claude Opus)作为元代理来重写支架代码,开源权重模型的元代理能力仍有待测试。此外,若底层模型本身无法执行复杂工作流,框架将无法提升整体能力。尽管如此,研究人员计划在未来的更新中发布代码,HarnessX为从业者提供了支架工程优化而非单纯模型扩展的新思路。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









