中国小米推出HarnessX，AI代理性能平均提升14.5%

2026-06-25 10:15

关键词:

维度网讯，小米研究人员推出HarnessX框架，旨在解决企业AI代理性能受限于“支架”（harness）这一工程瓶颈。该框架将AI支架视为可组合对象，并自主对其代码进行改进，从而提升AI系统在软件工程和网页交互等领域的性能表现。

目前，AI应用的支架大多是静态且手工打造的，缺乏根据执行数据自动改进的能力，这成为制约AI代理完成复杂长期任务的关键。传统支架开发面临三大挑战：一是静态且需手动重写，二是架构纠缠导致组件调整可能破坏其他部分，三是支架与基础模型被孤立优化，执行轨迹往往被丢弃。

HarnessX通过“统一支架铸造厂”解决上述瓶颈。其核心创新是将支架视为“一等对象”，即独立可序列化、模块化且可替换的实体，从而将模型配置与支架配置分离。该方法将代理行为分解为上下文组装、记忆管理、工具生态系统、控制流和可观测性等组件，每个行为作为一个“处理器”插入支架生命周期钩子。

HarnessX结构

为自动化优化模块化结构，HarnessX引入了AEGIS，一个轨迹驱动的进化引擎。该引擎将支架适应视为强化学习问题，并针对奖励黑客、灾难性遗忘和探索不足等病理现象，设计了包含消化器、规划器、进化器和批评者与门的四阶段管道。消化器将执行轨迹压缩为结构化摘要，规划器分析摘要以探索结构性变化，进化器生成代码级编辑和测试，批评者与门则用于防止奖励黑客和灾难性遗忘。

AEGIS

HarnessX还实现了支架与模型的共同进化。它通过跨支架GRPO（组相对策略优化）算法，将在不同版本支架上生成的执行轨迹汇集为模型的强化学习信号，使模型能内化使用新工具等高级策略。

支架-模型共同进化

实际测试在五个基准上展开，涵盖软件工程、多轮客服对话、网页导航、开放式多步推理和具身规划。测试中，由Claude Opus 4.6驱动的元代理负责分析日志和编写代码，任务代理则由Claude Sonnet 4.6、GPT-5.4和开源权重模型Qwen3.5-9B分别担任。结果显示，动态进化支架在15个模型-基准组合中的14个上提升了性能，平均带来+14.5%的绝对性能提升。其中，最弱的开源模型Qwen3.5-9B获益最大，在ALFWorld具身规划基准上性能跃升+44.0%，在SWE-bench Verified软件工程基准上跃升+18.2%。当使用进化支架生成的数据训练基础模型时，带来了额外的平均+4.7%性能提升。

HarnessX性能

HarnessX目前依赖强大的封闭前沿模型（如Claude Opus）作为元代理来重写支架代码，开源权重模型的元代理能力仍有待测试。此外，若底层模型本身无法执行复杂工作流，框架将无法提升整体能力。尽管如此，研究人员计划在未来的更新中发布代码，HarnessX为从业者提供了支架工程优化而非单纯模型扩展的新思路。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国