Anthropic 用 Pokémon Red 基准测试 Claude 3.7 Sonnet 的卓越性能

2025-02-25 10:41

关键词:

Anthropic 在其最新 AI 模型 Claude 3.7 Sonnet 的测试中，选用经典 Game Boy 游戏 Pokémon Red 作为基准，展现了独特而引人注目的评估方式。公司为模型配备基本内存、屏幕像素输入及函数调用，使其能够自主按键并导航，实现连续游戏体验。

Claude 3.7 Sonnet 的核心优势在于“扩展思考”功能。与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似，该模型能通过增加计算资源和时间，逐步推理解决复杂问题。这一能力在 Pokémon Red 中得到验证。相比之下，前代模型 Claude 3.0 Sonnet 甚至未能离开起始地 Pallet Town，而 Claude 3.7 Sonnet 成功击败三位道馆馆主，赢得徽章，显示出显著进步。Anthropic 透露，模型执行约 3.5 万次操作才达到第三位馆主 Surge，但未具体披露所需计算资源和时间。

尽管 Pokémon Red看似娱乐性基准，其背后反映了游戏在 AI 测试中的长期应用价值。近几个月，多款模型已在 Street Fighter、Pictionary 等游戏中接受类似挑战。Claude 3.7 Sonnet 在此测试中的表现，不仅凸显其在开放式任务中的策略性与适应性，也暗示其在复杂推理与实时决策领域的潜力，吸引开发者和研究者进一步探索。

美国