超级马里奥成为 AI 基准测试新挑战
加州大学圣地亚哥分校的 Hao AI Lab 近日将经典游戏《超级马里奥兄弟》引入 AI 基准测试,探索人工智能在实时互动环境中的表现。研究人员利用自行开发的 GamingAgent 框架,在模拟器中运行游戏,让 AI 控制马里奥完成任务。测试结果显示,Anthropic 的 Claude 3.7 表现最佳,Claude 3.5 次之,而谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则明显力不从心。

GamingAgent 框架为 AI 提供屏幕截图和基本指令,如“若附近有障碍物或敌人,向左移动或跳跃躲避”。AI 通过生成 Python 代码输入,实时操控马里奥。研究表明,这种设置要求模型具备复杂规划和策略制定能力。令人意外的是,通常在传统基准测试中表现优异的推理模型(如 OpenAI 的 o1),在游戏中却逊于非推理模型。原因在于推理模型需数秒“思考”决策,而《超级马里奥兄弟》瞬息万变,延迟可能导致失败。
游戏作为 AI 测试工具已有数十年历史,但其抽象性和相对简单性使其与现实世界的复杂性存在差距。尽管游戏能提供海量训练数据,部分专家质疑其能否真正反映 AI 的技术进步。OpenAI 研究科学家 Andrej Karpathy 近期在 X 平台发文,提到当前的“评估危机”,表示难以判断现有指标是否足以衡量模型能力。
此次测试虽非 1985 年原版《超级马里奥兄弟》,但通过模拟器与 AI 的结合,展现了人工智能在动态环境中的潜力与局限。Claude 3.7 的突出表现表明,其设计可能更适应快速决策需求。相比之下,Gemini 1.5 Pro 和 GPT-4o 的挣扎揭示了当前主流模型在实时任务中的短板。
相关推荐

德国赢创与Imubit在新加坡启动工业AI试点
2026-05-05

多个美国存储厂商延长供货协议周期:闪迪、希捷、西数锁定 3 至 5 年订单
2026-05-05

美国红帽推出Tank OS开源项目将OpenClaw封装
2026-05-05

SC CapRock为巴西Taboca亚马逊矿区部署多轨道混合卫星连接
2026-05-05

美国Cognizant以6亿美元收购AI基础设施服务商Astreya
2026-05-05

美国IQ Fiber投资1亿美元,在佛罗里达州皮尼拉斯县推出10 Gbps对称光纤互联网
2026-05-05

美国Airspan与Wireless Services在夏洛特机场部署DAS,下载速率从50Mbps跃升至超300Mbps
2026-05-05

美国海洋能源公司Panthalassa获1.4亿美元B轮融资,2026年部署北太平洋AI波浪计算节点
2026-05-05

阿联酋阿布扎比启动AI无人巡逻艇海上监控测试
2026-05-05
美国莱迪思半导体以16.5亿美元收购固件与AI基础设施管理厂商AMI
2026-05-05
最新简讯
1
马来西亚浮罗交怡启动2.4亿令吉水利建设项目 提升日供水至4500万公升
2
马来西亚沙巴州推进三大新工业园区发展 推动制造业与投资增长
3
美国Lucid Motors联合优步Nuro推出自动驾驶出租车
4
巴西Retrak投资1300万雷亚尔更新巴西叉车租赁车队
5
美国ZF PowerLine变速箱将应用美国Capacity码头牵引车
6
马来西亚柔佛摄政王呼吁联邦政府加速推进新山轨道交通系统项目
7
荷兰Van der Vlist部署首辆氢燃料卡车
8
澳大利亚北领地道路升级获6000万澳元资金 重点修复雨季损毁路段
9
日本丰田申请氢动力电动汽车专利
10
智利总统宣布逾8000亿比索公路建设计划 投资规模为近数十年平均五倍
