美国微软开源AI代理技能优化框架SkillOpt

2026-06-12 11:48

关键词:

维度网讯，微软近期开源了一个名为SkillOpt的新框架，该框架旨在将AI代理的技能文档转化为可训练对象，通过引入深度学习风格的优化方法，系统性地提升代理在复杂任务中的表现。

技能优化

在企业级AI应用中，代理技能通常以基于文本的markdown文件形式存在，其中包含指导模型适应特定工作流的指令。然而，传统上对这些技能的优化依赖于人工手动编辑，过程缓慢且易出错，用户往往需要反复尝试才能找到提升性能的指令组合。SkillOpt的推出解决了这一痛点，该框架（采用MIT许可）将技能文档视为可以根据性能反馈进行迭代调整的可训练对象，从而实现了文档级别的程序性适应，同时不改变底层模型的权重。

微软亚洲研究院高级研发工程师杨一帆（Yifan Yang）指出，手动编辑技能文档面临三大失败模式：缺乏步长控制导致技能漂移，缺少验证机制使得看似正确的修改可能引发性能下降，以及没有负反馈记忆导致相同错误反复出现。例如，一次无限制的重写在SpreadsheetBench基准上将GPT-5.5从41.8降至41.1。杨一帆强调，这些错误在多步骤工作流中会被放大，而这正是当前前沿模型在零样本推理中的薄弱环节。

SkillOpt通过迭代的提议-测试循环解决上述问题。该流程首先由一个冻结的目标模型执行一批任务，生成执行轨迹作为当前状态证据；随后，离线优化器分析这些轨迹，识别系统性的程序性错误并提出对技能文档的结构性编辑。这些编辑在被应用前需经过审查和排序，并限定每步的最大编辑预算（类似于深度学习中的学习率），以防止技能版本发生剧烈漂移。候选技能会在一个留出的验证集上接受评估，若提升验证分数则被接受，若失败则被拒绝并送入拒绝编辑缓冲区，为优化器提供负反馈。此外，框架通过比较前后轮次技能下的任务表现执行慢更新，类似于动量项，以传递持久的程序性经验。

SkillOpt框架

在实际评估中，研究团队在GPT-5.5、GPT-5.4-mini和Qwen3.5-4B等多种模型上测试了SkillOpt，涵盖了单轮问答、多轮代码生成和多模态文档推理等基准。结果显示，SkillOpt在所有52种评估组合中均优于包括TextGrad、GEPA、EvoSkill在内的多种基线方法。在前沿模型GPT-5.5上，相比无技能基线，平均绝对准确率提升了23.5个百分点。对于GPT-5.4-nano等小型模型，其得分几乎翻倍或提升两倍。这些性能提升直接映射到企业的关键需求，如合同、发票和表格中的精确数字提取，以及AP自动化、理赔、合规等操作中。杨一帆表示，提升在于可靠性，包括精确的格式、自我验证和可审计输出，这些收益来自学习程序而非记忆答案。

SkillOpt框架展现出良好的可移植性和兼容性。实验证实，该框架与执行框架无关，在Codex CLI和Claude Code等工具支持的执行环境中均能实现显著提升。例如，完全在Codex循环内训练的一个电子表格技能可直接迁移至Claude Code，无需任何更改，便驱动了相比Claude Code原生基线高达59.7个百分点的性能提升。此外，技能工件也可在不同模型规模间迁移，为GPT-5.4优化的技能部署到更小的GPT-5.4-mini和GPT-5.4-nano模型上依然能取得积极收益。最终部署的技能文档从未超过2000个令牌，中位长度约920个令牌，高度可读和可审计。

SkillOpt流程

在成本方面，对于日常企业用例，SkillOpt的实际负担较轻。杨一帆提到，在GBrain等社区框架中，SkillOpt更新运行在Claude Sonnet上，为单个任务训练一个技能的平均成本在1至5美元之间，且该优化成本为一次性投入。然而，框架的有效运行需要具备两个条件：数十个代表性示例和一个可评分的反馈信号。团队应避免将其应用于开放式或主观性任务。同时，SkillOpt可与现有的编排栈（如DSPy）协同工作，两者是互补而非替代关系。展望未来，开源社区已开始将SkillOpt的定期运行部署在代理过往的轨迹上，以构建自我优化的代码代理插件生态系统。杨一帆认为，技能是AI实现自主发现知识、改进自身行为的最快、最便宜且最可逆的第一步，同样的思维方式指向代理最终自我优化，一直到它们自身的权重。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国