维度网讯,中国机器人公司X Square Robot正在推动人形机器人走向更复杂的应用场景,其核心目标是让机器人在真实、混乱且不可预测的人类生活与工作环境中实现自主操作。

该公司创始人兼首席执行官王谦(Wang Qian)表示,机器人行业的硬件基础已经基本到位,人形运动、灵巧手和力控系统都取得了快速进展,真正的瓶颈在于智能。为弥补这一差距,X Square Robot在过去几周内开源了三项技术:视觉-语言-动作模型Wall-OSS-0.5、旨在理解物理事件的世界动作模型WALL-WM,以及无需机器人的数据采集与训练框架XRZero-G0。
Wall-OSS-0.5直接回应了预训练是否能够教会机器人有用技能这一问题。与评估微调后模型的做法不同,该公司将预训练模型直接部署在物理机器人上,并在17项真实世界任务中进行了测试。系统在物体分拣、叠环以及可变形物体操作中展现出零样本性能。该模型采用“梯度桥接”训练框架,将机器人动作转换为动作标记,在预训练期间与语言和视觉表征一起学习,使感知、语言理解和动作生成能够在统一模型中协同进化。该公司发现,动作训练不仅提升了操作能力,还增强了视觉接地性能,表明物理交互可以增强模型对世界的理解。
WALL-WM旨在解决多数VLA系统只学习动作轨迹而未能真正理解物理因果关系的问题。该模型将学习从固定动作序列转向有意义的物理事件,如伸手、抓取、提起和放置。与传统架构不同,WALL-WM将视觉观察、语言描述和动作围绕真实世界事件进行对齐,目标在于使机器人不仅能行动,还能预测结果、推理物理变化,并在计划失败时进行调整。
针对具身智能的数据瓶颈,X Square Robot推出了软硬件框架XRZero-G0。该系统结合了可穿戴接口、多视角传感、自动化质量检测和真实机器人验证,用于无需机器人的数据采集和训练。通过控制实验,该公司发现,将十次无需机器人的示教与一次真实机器人示教相结合,可以达到与完全由真实机器人数据构建的数据集相当的性能。该公司还发布了超过2000小时的多模态数据,涵盖约3000个任务,以支持具身智能研究。
这三项开源技术共同构成了一个跨越数据、世界模型和机器人基础模型的全栈框架。王谦(Wang Qian)认为,具身智能的“顿悟时刻”可能比人们想象的更近。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









