机器人技术领域迎来新进展,普渡大学和LightSpeed Studios的研究人员推出了一种无需训练的新型计算技术,可依据书面描述生成检查计划,为机器人特定环境检查动作提供指导。

机器人技术已在众多现实世界任务中实现自动化,涵盖工业制造、包装以及微创外科手术等领域,还能用于检查危险或人类难以进入的基础设施与环境,如隧道、水坝等。然而,目前多数检查工作仍依赖人工,近年来虽有计算机科学家尝试开发计算模型规划机器人检查轨迹,但仍有提升空间。
此次,普渡大学和LightSpeed Studios研究人员提出的方法,在arXiv预印本服务器发表的论文中进行了阐述。该方法依赖视觉语言模型(VLM),该模型可同时处理图像和书面文本。论文第一作者孙兴鹏表示,受自动化检查现实挑战启发,高效生成特定任务检查路线对基础设施监控等应用至关重要。与多数现有方法利用VLM探索未知环境不同,他们利用VLM导航已知3D场景,用自然语言指令进行细粒度机器人检查规划任务。
研究主要目标是开发能根据特定需求定制化生成检查计划的计算模型,且无需像多数基于机器学习的生成模型那样,在大量数据上进一步微调VLM。孙兴鹏解释,该模型使用预先训练的VLM(如GPT - 4o)解释自然语言描述的检查目标及相关图像,基于语义对齐评估候选视点,利用GPT - 4o通过多视角图像推理相对空间关系,再通过混合整数规划求解旅行商问题(TSP)生成优化的3D检查轨迹,考虑了语义相关性、空间顺序和位置约束。
孙兴鹏和导师Aniket Bera博士称,基于VLM的新型无需训练的机器人检测规划方法,能有效将自然语言查询转化为流畅、准确的机器人3D检测规划轨迹,且GPT - 4o等先进VLM在解读多视角图像时展现出强大空间推理能力。
研究人员通过一系列测试评估该模型,要求其创建检查各种现实环境的计划并输入环境图像。结果显示,模型成功勾勒出完成检查的平滑轨迹和最佳摄像机视点,以超90%的准确率预测了空间关系。
作为未来研究计划,研究人员将进一步开发和测试该方法,增强其在不同环境和场景下的性能,之后用真实机器人系统评估,最终部署到实际环境。孙兴鹏和Aniket Bera博士补充,下一步还包括将方法扩展到更复杂3D场景,整合主动视觉反馈动态完善计划,将管道与机器人控制结合实现闭环物理检查部署。
更多信息: Xingpeng Sun 等,文本引导高效个性化检查计划生成,arXiv (2025)。













京公网安备 11010802043282号