美国微软开源企业智能体AI评估框架ASSERT
2026-06-12 11:47
收藏

维度网讯,微软近日开源了一款AI评估框架,旨在将自然语言需求转化为可执行的测试,以强化企业在人工智能治理方面的能力。该框架名为ASSERT(自适应规范驱动评分,用于评估与回归测试),能够根据书面规范、产品需求和治理文档自动生成评估场景、数据集、度量标准和记分卡。微软在发布该框架的博客文章中表示,许多组织在将智能体投入生产前,难以系统性地验证其行为。

KI

智能体可能以难以察觉的方式失败,例如偏离既定策略、在边缘情况下产生不安全的输出,或者在生产环境中的表现与测试时存在差异。通用基准测试无法捕捉这些失败,因为它们并非围绕特定策略、智能体或用例进行构建。ASSERT无需开发人员手动创建评估套件,而是将书面意图转化为可重用的测试,这些测试可以集成到AI开发流程中。

通过ASSERT,微软进入了竞争日益激烈的AI评估市场。该市场已有LangChain的LangSmith、Braintrust、Patronus AI、Galileo、Arize AI的Phoenix和Promptfoo等平台,它们帮助企业对大语言模型应用进行基准测试、监控和验证。此次发布正值企业加速扩展AI智能体部署,但正式的评估实践仍属例外而非规则之际。Gartner高级总监分析师Anushree Verma指出,目前99%的组织在生产前不对任何AI智能体进行评估。行业的下一个竞争优势将更多取决于组织在部署前模拟和压力测试AI智能体的有效性,而非推理模型的进步。Gartner估计,到2029年,在受监管行业中,超过75%未经过智能体模拟设计的领域专用智能体将无法交付价值。

Forrester认为企业正在转向行为评估,但多数组织尚未将其作为正式的生产要求。Forrester首席分析师Biswajeet Mahapatra表示,行为评估应用不一致,而非被视为正式的生产关卡。根据Forrester的数据,超过45%的组织已在应用AI智能体,另有25%处于试点阶段,但由于治理不成熟和操作严谨性有限,许多组织在规模化方面仍面临困难。

微软表示,ASSERT使用大语言模型作为评判者,在公司内部验证中,模型生成的评估与人类评审者的一致率为80%至90%。Forrester首席分析师Biswajeet Mahapatra指出,这一一致率有助于自动化大部分AI测试,但作为治理或合规的独立控制措施仍不够。企业应采用分层监督,让AI大规模评估AI,同时人类保留对高风险、受监管或模糊场景的监督责任。买家还应注意偏见、一致性问题以及过度依赖单一模型既充当生成器又充当评估器的问题。

微软在MIT开源许可下发布了ASSERT,允许组织检查、修改该框架并将其集成到现有AI开发流程中。Forrester首席分析师Biswajeet Mahapatra表示,开源减少了供应商锁定风险并实现了跨模型生态系统的广泛互操作性,但不能完全消除信任或利益冲突问题,因为原始供应商仍影响评估标准、评分逻辑和可接受行为定义如何编码。企业不应依赖单一评估框架,而应针对多种评估方法验证AI系统,并保持对内部评估策略的所有权。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com