Anthropic 用 Pokémon Red 基准测试 Claude 3.7 Sonnet 的卓越性能
2025-02-25 10:41
收藏
Anthropic 在其最新 AI 模型 Claude 3.7 Sonnet 的测试中,选用经典 Game Boy 游戏 Pokémon Red 作为基准,展现了独特而引人注目的评估方式。公司为模型配备基本内存、屏幕像素输入及函数调用,使其能够自主按键并导航,实现连续游戏体验。

Claude 3.7 Sonnet 的核心优势在于“扩展思考”功能。与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似,该模型能通过增加计算资源和时间,逐步推理解决复杂问题。这一能力在 Pokémon Red 中得到验证。相比之下,前代模型 Claude 3.0 Sonnet 甚至未能离开起始地 Pallet Town,而 Claude 3.7 Sonnet 成功击败三位道馆馆主,赢得徽章,显示出显著进步。Anthropic 透露,模型执行约 3.5 万次操作才达到第三位馆主 Surge,但未具体披露所需计算资源和时间。
尽管 Pokémon Red看似娱乐性基准,其背后反映了游戏在 AI 测试中的长期应用价值。近几个月,多款模型已在 Street Fighter、Pictionary 等游戏中接受类似挑战。Claude 3.7 Sonnet 在此测试中的表现,不仅凸显其在开放式任务中的策略性与适应性,也暗示其在复杂推理与实时决策领域的潜力,吸引开发者和研究者进一步探索。
相关推荐

美国微软Azure Local扩展至数千节点,主权私有云大规模升级
2026-05-01

美国A3公布2026年恩格尔伯格机器人奖:日本JARA执行董事藤原浩获领导力奖,美国ATI联合创始人利特尔获应用奖
2026-05-01

意大利达拉拉与美国IBM合作开发GIST物理AI模型,CFD仿真时间从数小时压缩至10秒
2026-05-01

美国OpenAI推出高级账户安全模式,ChatGPT与Codex账户告别密码登录
2026-05-01

美国T-Mobile星链移动在加拿大和新西兰开通漫游
2026-05-01

美国EMAC宣布2026光明电子制造挑战赛,三轮赛制从PCB设计到机器人竞技
2026-05-01

美国OpenAI ChatGPT Images 2.0印度下载量占全球三分之一,整体日活增长仅1%
2026-05-01

加拿大联邦政府向萨斯喀彻温省科技领域投入790万加元,重点扶持AI商业化
2026-05-01

新加坡SpaceComputer计划10月进行在轨测试,验证太空安全计算基础设施
2026-05-01

美国HPE推出新一代ProLiant边缘服务器,NPU协同GPU强化分布式AI推理
2026-05-01
最新简讯
