Anthropic 在其最新 AI 模型 Claude 3.7 Sonnet 的测试中,选用经典 Game Boy 游戏 Pokémon Red 作为基准,展现了独特而引人注目的评估方式。公司为模型配备基本内存、屏幕像素输入及函数调用,使其能够自主按键并导航,实现连续游戏体验。

Claude 3.7 Sonnet 的核心优势在于“扩展思考”功能。与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似,该模型能通过增加计算资源和时间,逐步推理解决复杂问题。这一能力在 Pokémon Red 中得到验证。相比之下,前代模型 Claude 3.0 Sonnet 甚至未能离开起始地 Pallet Town,而 Claude 3.7 Sonnet 成功击败三位道馆馆主,赢得徽章,显示出显著进步。Anthropic 透露,模型执行约 3.5 万次操作才达到第三位馆主 Surge,但未具体披露所需计算资源和时间。
尽管 Pokémon Red看似娱乐性基准,其背后反映了游戏在 AI 测试中的长期应用价值。近几个月,多款模型已在 Street Fighter、Pictionary 等游戏中接受类似挑战。Claude 3.7 Sonnet 在此测试中的表现,不仅凸显其在开放式任务中的策略性与适应性,也暗示其在复杂推理与实时决策领域的潜力,吸引开发者和研究者进一步探索。









