微软发布开源框架ASSERT,简化AI行为测试与评估
2026-06-03 09:47
收藏

维度网讯,微软于周二发布开源框架ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分,用于评估和回归测试),旨在简化AI应用行为的测试与评估流程。

该框架利用人工智能技术,将关于目标、策略或预期行为的高级自然语言描述转化为可执行、可评分的测试用例。ASSERT接收关于AI模型预期行为和策略的通俗语言描述,将其转化为一组结构化的可接受和不可接受行为,生成问题场景和测试用例,在目标系统上运行这些用例并对结果进行评分。该框架还能记录AI系统所走的路径,包括中间动作和工具调用,便于开发者检查故障发生的位置。

开发者可以额外提供系统上下文、工具和约束条件以定制评估覆盖范围。例如,开发者可指定一个文档研究AI代理不应向公司外部人员发送电子邮件、应将机密信息限制在C级高管范围内、并在考虑先前上下文的情况下提供简洁摘要。ASSERT将利用这些规则生成测试用例,持续检查系统是否遵守这些规则。

微软表示,当AI模型的行为需要根据应用或产品的上下文、策略和工具来塑造时,ASSERT填补了更宽泛、通用评估无法覆盖的空白。“我们学到的一件事是,评估对于做出正确决策绝对至关重要,”微软负责任AI首席产品官莎拉·伯德(Sarah Bird)表示,“因为如果不了解AI系统的行为,就很难知道它是否达到了组织的标准……我们发现,如果真想拥有一个值得信赖的系统,就应该评估更多特定于应用的维度。”伯德表示,ASSERT可用于系统构建时、部署后,甚至持续监控中进行评估。

此次发布正值AI行业评估能力逐步提升之际。随着模型能力增强,研究人员开始关注可重复测试和回归检查,斯坦福大学的HELM、MLCommons的AILuminate以及评估团队METR等纷纷推出基准测试,以衡量模型在不同条件下的行为。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com