过去三年,聊天机器人使用率急剧上升,它们的多功能性源于互联网上大量的文本数据。然而,这些数据难以教会机器人成为家庭或工厂的得力助手,机器人需通过演示学习在不同环境中搬运、堆叠和摆放物体。在真实机器人上收集演示耗时且难以完美重复,为此,工程师们尝试用人工智能生成模拟或手工制作数字环境来创建训练数据。

麻省理工学院计算机科学与人工智能实验室(CSAIL)与丰田研究院的研究人员开发出“可控场景生成”方法,可创建厨房、客厅等数字场景,用于模拟大量现实世界互动。该方法在超过4400万个3D房间中训练,内含桌子、盘子等物体模型,通过“引导”扩散模型生成物理上精确、逼真的环境。其核心策略是“蒙特卡洛树搜索”(MCTS),模型创建备选场景,以不同方式填充,实现特定目标,如增强物理真实感或包含更多可食用物品。
CSAIL研究员、论文主要作者Nicholas Pfaff表示:“我们首次将MCTS应用于场景生成,将任务构建为顺序决策过程,不断在部分场景基础上构建,生成更复杂或理想的场景。”实验显示,MCTS能在简单餐厅场景中添加大量物体,显著提升场景丰富度。可控场景生成还允许通过强化学习生成多样化训练场景,用户可直接输入视觉描述,系统精准实现请求,准确率远超同类方法。
研究人员称,该技术优势在于能创建机器人专家实际使用的场景,通过控制方法生成多样化、逼真且与任务相关的场景。如此广阔的场景成为测试场地,可记录虚拟机器人与不同物品的互动,模拟流畅逼真。未来,他们希望利用生成式人工智能创建全新物体和场景,加入铰接式物体增强互动性,并利用互联网图片库扩展测试场多样性和逼真度,建立用户社区创造大量数据,用于教授机器人各种技能。
亚马逊机器人公司应用科学家Jeremy Binagia表示:“可控场景生成提供了一种更好的方法,保证了物理可行性,生成更加有趣的场景。”丰田研究院机器人专家Rick Cory称:“该方法为大规模场景自动生成提供了新颖高效的框架,有望为高效训练机器人并在现实世界中部署开辟重要里程碑。”













京公网安备 11010802043282号