超级马里奥成为 AI 基准测试新挑战

2025-03-04 15:28

关键词:

加州大学圣地亚哥分校的 Hao AI Lab 近日将经典游戏《超级马里奥兄弟》引入 AI 基准测试，探索人工智能在实时互动环境中的表现。研究人员利用自行开发的 GamingAgent 框架，在模拟器中运行游戏，让 AI 控制马里奥完成任务。测试结果显示，Anthropic 的 Claude 3.7 表现最佳，Claude 3.5 次之，而谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则明显力不从心。

GamingAgent 框架为 AI 提供屏幕截图和基本指令，如“若附近有障碍物或敌人，向左移动或跳跃躲避”。AI 通过生成 Python 代码输入，实时操控马里奥。研究表明，这种设置要求模型具备复杂规划和策略制定能力。令人意外的是，通常在传统基准测试中表现优异的推理模型(如 OpenAI 的 o1)，在游戏中却逊于非推理模型。原因在于推理模型需数秒“思考”决策，而《超级马里奥兄弟》瞬息万变，延迟可能导致失败。

游戏作为 AI 测试工具已有数十年历史，但其抽象性和相对简单性使其与现实世界的复杂性存在差距。尽管游戏能提供海量训练数据，部分专家质疑其能否真正反映 AI 的技术进步。OpenAI 研究科学家 Andrej Karpathy 近期在 X 平台发文，提到当前的“评估危机”，表示难以判断现有指标是否足以衡量模型能力。

此次测试虽非 1985 年原版《超级马里奥兄弟》，但通过模拟器与 AI 的结合，展现了人工智能在动态环境中的潜力与局限。Claude 3.7 的突出表现表明，其设计可能更适应快速决策需求。相比之下，Gemini 1.5 Pro 和 GPT-4o 的挣扎揭示了当前主流模型在实时任务中的短板。

美国