Google DeepMind 推出两款 AI 模型,旨在扩展机器人执行现实任务的范围。Gemini Robotics 基于 Gemini 2.0,具备视觉-语言-行动能力,可理解新情境,无需针对特定任务训练。Google DeepMind 机器人技术负责人 Carolina Parada 表示,Gemini Robotics 利用 Gemini 的多模态理解,将物理动作作为新输出模式,应用于现实世界。模型在通用性、交互性和灵巧性三方面取得进展,适应新场景,与人类及环境互动更顺畅,执行折纸、开瓶盖等精细任务。Parada 强调,Gemini Robotics 在三领域性能大幅提升,构建更强大、响应更快、对变化更稳健的机器人。

Gemini Robotics-ER 聚焦具身推理,强化空间理解,专为机器人专家设计,可与现有低级控制器集成,支持新功能开发。Parada 举例,打包午餐盒需识别物品位置、打开容器、抓取并放置物品,Gemini Robotics-ER 能执行此类推理。Google DeepMind 研究员 Vikas Sindhwani 表示,模型采用分层安全策略,评估行动安全性。公司发布新基准和框架,推进 AI 安全研究,2024 年推出受阿西莫夫三定律启发的“机器人宪法”,规范机器人行为。
Google DeepMind 与 Apptronik 合作开发下一代人形机器人,Gemini Robotics-ER 向 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools 等测试者开放。Parada 表示,目标是构建理解并作用于物理世界的智能,模型将在多领域应用,助力机器人技术进步。









