Anthropic 用 Pokémon Red 基准测试 Claude 3.7 Sonnet 的卓越性能
2025-02-25 10:41
收藏
Anthropic 在其最新 AI 模型 Claude 3.7 Sonnet 的测试中,选用经典 Game Boy 游戏 Pokémon Red 作为基准,展现了独特而引人注目的评估方式。公司为模型配备基本内存、屏幕像素输入及函数调用,使其能够自主按键并导航,实现连续游戏体验。

Claude 3.7 Sonnet 的核心优势在于“扩展思考”功能。与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似,该模型能通过增加计算资源和时间,逐步推理解决复杂问题。这一能力在 Pokémon Red 中得到验证。相比之下,前代模型 Claude 3.0 Sonnet 甚至未能离开起始地 Pallet Town,而 Claude 3.7 Sonnet 成功击败三位道馆馆主,赢得徽章,显示出显著进步。Anthropic 透露,模型执行约 3.5 万次操作才达到第三位馆主 Surge,但未具体披露所需计算资源和时间。
尽管 Pokémon Red看似娱乐性基准,其背后反映了游戏在 AI 测试中的长期应用价值。近几个月,多款模型已在 Street Fighter、Pictionary 等游戏中接受类似挑战。Claude 3.7 Sonnet 在此测试中的表现,不仅凸显其在开放式任务中的策略性与适应性,也暗示其在复杂推理与实时决策领域的潜力,吸引开发者和研究者进一步探索。
相关推荐

美国Allora与Pairpoint合作构建预测智能层
2026-06-16

美国PrismHR推出AI智能层Pi与Prisma
2026-06-16

美国Computomic获华盛顿港合伙公司战略投资
2026-06-16

瑞典爱立信通过威瑞森将私有5G服务从美国扩展至全球
2026-06-16

Raven Resonance在美AWE2026展出首款环境计算机
2026-06-16

美国DataBank完成14.5亿美元融资,含8亿美元循环信贷
2026-06-16

SAP NS2在美推出FedRAMP+IL5云解决方案套件
2026-06-16

美国Dynamic Quest首次评估满分通过CMMC Level 2认证
2026-06-16

印度LatentView Analytics 推出 BrickShift 加速数据迁移
2026-06-16

美国Burke推出合成数据质量FAR评估框架
2026-06-16
最新简讯
1
日本ugo推出mini巡检机器人 数据中心巡检时间减半
2
RS工业服务公司在英国戴森工厂安装旋臂起重机系统
3
德国西门子推出Sinamics S220驱动系统
4
RS引入美国传感器制造商“班纳工程”全系列非接触式传感器产品组合
5
意大利利古里亚重启热那亚200亿欧元AI Gigafactory项目候选资格
6
芬兰主动磁轴承技术公司SpinDrive推出Magma X100磁轴承控制器平台
7
福伊特获西班牙托雷洪电站两台水泵水轮机改造,2027年启动
8
美国精密运动控制企业Aerotech发布Automation1六轴紧凑型驱动器
9
法国迪耶普-勒特雷波尔海上风电场首台风机安装完成
10
NextGeo完成利比亚近海天然气项目挖沟作业