美国微软开源AI代理技能优化框架SkillOpt
2026-06-12 11:48
收藏

维度网讯,微软近期开源了一个名为SkillOpt的新框架,该框架旨在将AI代理的技能文档转化为可训练对象,通过引入深度学习风格的优化方法,系统性地提升代理在复杂任务中的表现。

技能优化

在企业级AI应用中,代理技能通常以基于文本的markdown文件形式存在,其中包含指导模型适应特定工作流的指令。然而,传统上对这些技能的优化依赖于人工手动编辑,过程缓慢且易出错,用户往往需要反复尝试才能找到提升性能的指令组合。SkillOpt的推出解决了这一痛点,该框架(采用MIT许可)将技能文档视为可以根据性能反馈进行迭代调整的可训练对象,从而实现了文档级别的程序性适应,同时不改变底层模型的权重。

微软亚洲研究院高级研发工程师杨一帆(Yifan Yang)指出,手动编辑技能文档面临三大失败模式:缺乏步长控制导致技能漂移,缺少验证机制使得看似正确的修改可能引发性能下降,以及没有负反馈记忆导致相同错误反复出现。例如,一次无限制的重写在SpreadsheetBench基准上将GPT-5.5从41.8降至41.1。杨一帆强调,这些错误在多步骤工作流中会被放大,而这正是当前前沿模型在零样本推理中的薄弱环节。

SkillOpt通过迭代的提议-测试循环解决上述问题。该流程首先由一个冻结的目标模型执行一批任务,生成执行轨迹作为当前状态证据;随后,离线优化器分析这些轨迹,识别系统性的程序性错误并提出对技能文档的结构性编辑。这些编辑在被应用前需经过审查和排序,并限定每步的最大编辑预算(类似于深度学习中的学习率),以防止技能版本发生剧烈漂移。候选技能会在一个留出的验证集上接受评估,若提升验证分数则被接受,若失败则被拒绝并送入拒绝编辑缓冲区,为优化器提供负反馈。此外,框架通过比较前后轮次技能下的任务表现执行慢更新,类似于动量项,以传递持久的程序性经验。

SkillOpt框架

在实际评估中,研究团队在GPT-5.5、GPT-5.4-mini和Qwen3.5-4B等多种模型上测试了SkillOpt,涵盖了单轮问答、多轮代码生成和多模态文档推理等基准。结果显示,SkillOpt在所有52种评估组合中均优于包括TextGrad、GEPA、EvoSkill在内的多种基线方法。在前沿模型GPT-5.5上,相比无技能基线,平均绝对准确率提升了23.5个百分点。对于GPT-5.4-nano等小型模型,其得分几乎翻倍或提升两倍。这些性能提升直接映射到企业的关键需求,如合同、发票和表格中的精确数字提取,以及AP自动化、理赔、合规等操作中。杨一帆表示,提升在于可靠性,包括精确的格式、自我验证和可审计输出,这些收益来自学习程序而非记忆答案。

SkillOpt框架展现出良好的可移植性和兼容性。实验证实,该框架与执行框架无关,在Codex CLI和Claude Code等工具支持的执行环境中均能实现显著提升。例如,完全在Codex循环内训练的一个电子表格技能可直接迁移至Claude Code,无需任何更改,便驱动了相比Claude Code原生基线高达59.7个百分点的性能提升。此外,技能工件也可在不同模型规模间迁移,为GPT-5.4优化的技能部署到更小的GPT-5.4-mini和GPT-5.4-nano模型上依然能取得积极收益。最终部署的技能文档从未超过2000个令牌,中位长度约920个令牌,高度可读和可审计。

SkillOpt流程

在成本方面,对于日常企业用例,SkillOpt的实际负担较轻。杨一帆提到,在GBrain等社区框架中,SkillOpt更新运行在Claude Sonnet上,为单个任务训练一个技能的平均成本在1至5美元之间,且该优化成本为一次性投入。然而,框架的有效运行需要具备两个条件:数十个代表性示例和一个可评分的反馈信号。团队应避免将其应用于开放式或主观性任务。同时,SkillOpt可与现有的编排栈(如DSPy)协同工作,两者是互补而非替代关系。展望未来,开源社区已开始将SkillOpt的定期运行部署在代理过往的轨迹上,以构建自我优化的代码代理插件生态系统。杨一帆认为,技能是AI实现自主发现知识、改进自身行为的最快、最便宜且最可逆的第一步,同样的思维方式指向代理最终自我优化,一直到它们自身的权重。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com