谷歌发布世界模型Genie，可交互3D世界，用于机器人训练

2026-05-26 09:49

关键词:

维度网讯，谷歌在开发者大会上展示了其“世界模型”技术的最新进展，该模型名为Project Genie，能够实时生成可交互的3D世界。与传统的视频生成AI不同，Genie并非一次性输出完整视频，而是根据用户的按键指令（如左、右、前进）逐帧计算并响应，类似于语言模型的工作方式。研究团队表示，这一技术的首要应用目标并非游戏，而是机器人领域的模拟训练以及灾难场景的模拟。

此次更新的一大亮点是集成了谷歌街景功能。用户现在可以选择真实地点作为起点，模型会从该位置生成一个交互式世界。据产品经理Diego Rivas介绍，这一功能的灵感来自用户自发地用“带我去纽约”等提示挑战系统。目前，该功能仅支持美国地区，全球范围内的扩展已在规划中。

技术层面，Genie 3模型实现了实时运行，并具备长期记忆和高输出分辨率。然而，研究人员指出，用户的按键指令需通过网络传输至计算集群处理，再以渲染帧形式返回，这一过程对延迟控制提出了极高要求。目前，模型在处理人物移动、环境噪音及4K分辨率方面仍有局限，但团队表示已掌握后续改进方向。

在应用领域，Genie已展现出广泛潜力。谷歌旗下的Waymo公司利用该模型模拟罕见交通场景，如路上出现大象或龙卷风。此外，模型还可用于训练机器人执行复杂任务，通过模拟环境减少实际操作中的试错次数。

对于机器人的长期应用，研究团队认为世界模型是具身智能技术的基础。机器人需在逼真的模拟环境中训练，以应对现实世界的挑战。目前，团队仍在解决“控制问题”，即确保机器人能可靠抓取物体并在不同地面上行走。

在谈及行业竞争时，团队评估当前状态“与大语言模型相比，我们处于2021年”，意指市场尚处早期阶段，许多参与者对“世界模型”的定义各不相同。研究人员预计未来几年将出现行业整合，少数大型参与者将主导市场。除Genie 3外，谷歌在本次大会上还发布了新一代语言模型Gemini 3.5 Flash和Gemini Omni Flash，后者将专注于视频生成及自主智能体任务。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国

信息通信智能数据处理人工智能

航空航天工程

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告知,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：4月海湾铝产量新低，阿联酋Al Taweelah厂需一年修复

下一篇：刚果反政府武装M23拟向美国出口钽锡钨等关键矿产