微软发布开源框架ASSERT，简化AI行为测试与评估

2026-06-03 09:47

关键词:

维度网讯，微软于周二发布开源框架ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动评分，用于评估和回归测试），旨在简化AI应用行为的测试与评估流程。

该框架利用人工智能技术，将关于目标、策略或预期行为的高级自然语言描述转化为可执行、可评分的测试用例。ASSERT接收关于AI模型预期行为和策略的通俗语言描述，将其转化为一组结构化的可接受和不可接受行为，生成问题场景和测试用例，在目标系统上运行这些用例并对结果进行评分。该框架还能记录AI系统所走的路径，包括中间动作和工具调用，便于开发者检查故障发生的位置。

开发者可以额外提供系统上下文、工具和约束条件以定制评估覆盖范围。例如，开发者可指定一个文档研究AI代理不应向公司外部人员发送电子邮件、应将机密信息限制在C级高管范围内、并在考虑先前上下文的情况下提供简洁摘要。ASSERT将利用这些规则生成测试用例，持续检查系统是否遵守这些规则。

微软表示，当AI模型的行为需要根据应用或产品的上下文、策略和工具来塑造时，ASSERT填补了更宽泛、通用评估无法覆盖的空白。“我们学到的一件事是，评估对于做出正确决策绝对至关重要，”微软负责任AI首席产品官莎拉·伯德（Sarah Bird）表示，“因为如果不了解AI系统的行为，就很难知道它是否达到了组织的标准……我们发现，如果真想拥有一个值得信赖的系统，就应该评估更多特定于应用的维度。”伯德表示，ASSERT可用于系统构建时、部署后，甚至持续监控中进行评估。

此次发布正值AI行业评估能力逐步提升之际。随着模型能力增强，研究人员开始关注可重复测试和回归检查，斯坦福大学的HELM、MLCommons的AILuminate以及评估团队METR等纷纷推出基准测试，以衡量模型在不同条件下的行为。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国