在机器人执行搜救任务或复杂环境导航时,同步定位与建图(SLAM)技术至关重要。然而,传统方法在处理大量图像时效率低下,限制了机器人在真实灾难场景中的应用。麻省理工学院研究人员开发出一种新系统,通过拼接场景子图实现快速3D重建与实时定位,为机器人导航提供了更高效的解决方案。

该系统借鉴经典计算机视觉与最新AI模型,将复杂场景分解为多个子图,并通过数学变换对齐拼接,形成完整3D地图。与依赖校准相机或专家调整的传统方法不同,新系统仅需机器人机载摄像头拍摄的图像,即可在几秒内生成精确3D重建,同时实时估计机器人位置。例如,在包含8个子图的办公场景测试中,系统成功重建了55米环形路线的3D模型,平均误差小于5厘米。
研究团队负责人卢卡·卡隆表示:“我们结合了基于学习的方法与传统优化技术,开发出一种灵活且高效的数学工具,能够处理子图中的形变问题。”这一突破不仅提升了机器人导航的可靠性,还降低了实际应用门槛。系统无需特殊设备,仅用手机拍摄的短视频即可重建复杂场景(如教堂内部),为扩展现实(XR)应用、工业机器人仓储管理等场景提供了技术支持。
“开箱即用的工具让3D重建更易实现,”论文第一作者多米尼克·马吉奥强调,“未来我们将优化系统在极端复杂环境中的表现,推动其向真实机器人部署。”该成果已发表于arXiv预印本服务器,并将在神经信息处理系统会议上展示。
更多信息: Dominic Maggio 等人,《VGGT-SLAM:基于 SL(4) 流形优化的密集 RGB SLAM》,arXiv (2025)。期刊信息: arXiv















京公网安备 11010802043282号