谷歌发布世界模型Genie,可交互3D世界,用于机器人训练
2026-05-26 09:49
收藏

维度网讯,谷歌在开发者大会上展示了其“世界模型”技术的最新进展,该模型名为Project Genie,能够实时生成可交互的3D世界。与传统的视频生成AI不同,Genie并非一次性输出完整视频,而是根据用户的按键指令(如左、右、前进)逐帧计算并响应,类似于语言模型的工作方式。研究团队表示,这一技术的首要应用目标并非游戏,而是机器人领域的模拟训练以及灾难场景的模拟。

此次更新的一大亮点是集成了谷歌街景功能。用户现在可以选择真实地点作为起点,模型会从该位置生成一个交互式世界。据产品经理Diego Rivas介绍,这一功能的灵感来自用户自发地用“带我去纽约”等提示挑战系统。目前,该功能仅支持美国地区,全球范围内的扩展已在规划中。

技术层面,Genie 3模型实现了实时运行,并具备长期记忆和高输出分辨率。然而,研究人员指出,用户的按键指令需通过网络传输至计算集群处理,再以渲染帧形式返回,这一过程对延迟控制提出了极高要求。目前,模型在处理人物移动、环境噪音及4K分辨率方面仍有局限,但团队表示已掌握后续改进方向。

在应用领域,Genie已展现出广泛潜力。谷歌旗下的Waymo公司利用该模型模拟罕见交通场景,如路上出现大象或龙卷风。此外,模型还可用于训练机器人执行复杂任务,通过模拟环境减少实际操作中的试错次数。

对于机器人的长期应用,研究团队认为世界模型是具身智能技术的基础。机器人需在逼真的模拟环境中训练,以应对现实世界的挑战。目前,团队仍在解决“控制问题”,即确保机器人能可靠抓取物体并在不同地面上行走。

在谈及行业竞争时,团队评估当前状态“与大语言模型相比,我们处于2021年”,意指市场尚处早期阶段,许多参与者对“世界模型”的定义各不相同。研究人员预计未来几年将出现行业整合,少数大型参与者将主导市场。除Genie 3外,谷歌在本次大会上还发布了新一代语言模型Gemini 3.5 Flash和Gemini Omni Flash,后者将专注于视频生成及自主智能体任务。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com