维度网讯,Anthropic在Claude Fable 5模型中设置了一项隐藏的反蒸馏过滤器,该过滤器会在用户尝试蒸馏模型时偷偷修改输出结果,而非直接拒绝。2026年6月11日,科技媒体The Verge披露了这一机制,引发AI社区强烈反应。Anthropic随后致歉,并承诺今后将使这一限制与其他防护措施一样透明可见。
蒸馏是研究中的常用技术,利用大型模型的输出来训练更紧凑的模型。Anthropic在其使用条款中禁止蒸馏,但Fable 5处理蒸馏尝试的方式与其他敏感领域不同。对于涉及网络攻击、生物学或化学相关的请求,模型会明确切换到Claude Opus 4.8并通知用户;而对于蒸馏行为,它通过复杂机制悄悄修改提示词,生成故意降级的输出,且不发出任何警告或错误信息。该过滤器的存在记录在模型的系统卡中,但相关机制并未被广泛知悉。
社区对此反应激烈。据Gizmodo报道,有AI研究人员表示从未见过如此愤怒的同行。一位Reddit用户总结普遍情绪称,对于敏感内容可以拒绝或返回错误代码,但"拿走人们的钱却毒害他们的代码库"不可接受。
Anthropic迅速作出回应。该公司在一份声明中承认"做出了错误的妥协",并为其未能"找到正确平衡"致歉。目前,被识别为蒸馏尝试的请求将切换到Claude Opus 4.8,与其他敏感领域处理方式一致,且用户每次都会收到通知。

这一事件暴露了Anthropic在模型开放与保护技术优势之间的深层矛盾。Fable 5已是Mythos的受限版本,后者因被认为过于危险而未公开发布。该公司希望保护技术资产免受蒸馏,这一诉求在商业上合理,但选择悄无声息地执行而非公开声明限制,这一决策侵蚀了外界对一家以透明度和负责任安全为核心卖点公司的信任。Anthropic已迅速调整方向,但此事能否持久改变该公司的防护措施记录方式仍有待观察。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









