加州大学圣地亚哥分校的 Hao AI Lab 近日将经典游戏《超级马里奥兄弟》引入 AI 基准测试,探索人工智能在实时互动环境中的表现。研究人员利用自行开发的 GamingAgent 框架,在模拟器中运行游戏,让 AI 控制马里奥完成任务。测试结果显示,Anthropic 的 Claude 3.7 表现最佳,Claude 3.5 次之,而谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则明显力不从心。

GamingAgent 框架为 AI 提供屏幕截图和基本指令,如“若附近有障碍物或敌人,向左移动或跳跃躲避”。AI 通过生成 Python 代码输入,实时操控马里奥。研究表明,这种设置要求模型具备复杂规划和策略制定能力。令人意外的是,通常在传统基准测试中表现优异的推理模型(如 OpenAI 的 o1),在游戏中却逊于非推理模型。原因在于推理模型需数秒“思考”决策,而《超级马里奥兄弟》瞬息万变,延迟可能导致失败。
游戏作为 AI 测试工具已有数十年历史,但其抽象性和相对简单性使其与现实世界的复杂性存在差距。尽管游戏能提供海量训练数据,部分专家质疑其能否真正反映 AI 的技术进步。OpenAI 研究科学家 Andrej Karpathy 近期在 X 平台发文,提到当前的“评估危机”,表示难以判断现有指标是否足以衡量模型能力。
此次测试虽非 1985 年原版《超级马里奥兄弟》,但通过模拟器与 AI 的结合,展现了人工智能在动态环境中的潜力与局限。Claude 3.7 的突出表现表明,其设计可能更适应快速决策需求。相比之下,Gemini 1.5 Pro 和 GPT-4o 的挣扎揭示了当前主流模型在实时任务中的短板。









