中国X Square Robot开源三项具身智能技术

2026-06-18 14:43

关键词:

维度网讯，中国机器人公司X Square Robot正在推动人形机器人走向更复杂的应用场景，其核心目标是让机器人在真实、混乱且不可预测的人类生活与工作环境中实现自主操作。

该公司创始人兼首席执行官王谦（Wang Qian）表示，机器人行业的硬件基础已经基本到位，人形运动、灵巧手和力控系统都取得了快速进展，真正的瓶颈在于智能。为弥补这一差距，X Square Robot在过去几周内开源了三项技术：视觉-语言-动作模型Wall-OSS-0.5、旨在理解物理事件的世界动作模型WALL-WM，以及无需机器人的数据采集与训练框架XRZero-G0。

Wall-OSS-0.5直接回应了预训练是否能够教会机器人有用技能这一问题。与评估微调后模型的做法不同，该公司将预训练模型直接部署在物理机器人上，并在17项真实世界任务中进行了测试。系统在物体分拣、叠环以及可变形物体操作中展现出零样本性能。该模型采用“梯度桥接”训练框架，将机器人动作转换为动作标记，在预训练期间与语言和视觉表征一起学习，使感知、语言理解和动作生成能够在统一模型中协同进化。该公司发现，动作训练不仅提升了操作能力，还增强了视觉接地性能，表明物理交互可以增强模型对世界的理解。

WALL-WM旨在解决多数VLA系统只学习动作轨迹而未能真正理解物理因果关系的问题。该模型将学习从固定动作序列转向有意义的物理事件，如伸手、抓取、提起和放置。与传统架构不同，WALL-WM将视觉观察、语言描述和动作围绕真实世界事件进行对齐，目标在于使机器人不仅能行动，还能预测结果、推理物理变化，并在计划失败时进行调整。

针对具身智能的数据瓶颈，X Square Robot推出了软硬件框架XRZero-G0。该系统结合了可穿戴接口、多视角传感、自动化质量检测和真实机器人验证，用于无需机器人的数据采集和训练。通过控制实验，该公司发现，将十次无需机器人的示教与一次真实机器人示教相结合，可以达到与完全由真实机器人数据构建的数据集相当的性能。该公司还发布了超过2000小时的多模态数据，涵盖约3000个任务，以支持具身智能研究。

这三项开源技术共同构成了一个跨越数据、世界模型和机器人基础模型的全栈框架。王谦（Wang Qian）认为，具身智能的“顿悟时刻”可能比人们想象的更近。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国