美国Ai2开源MolmoAct 2机器人模型,任务处理速度提升37倍并超越闭源竞品
2026-05-06 14:22
收藏

维度网讯,美国西雅图的艾伦人工智能研究所(Ai2)于当地时间2026年5月5日正式开源新一代机器人基础模型MolmoAct 2,在保留前代全栈开放特性的基础上,将真实世界任务处理速度提升至前代的37倍,并在多项基准测试中超越市面上的闭源机器人模型。Ai2同步公开了全球规模最大的双臂操作开源数据集MolmoAct 2-Bimanual YAM,包含超过720小时的双机械臂协同演示数据。

MolmoAct 2并非对前代模型的简单扩展,而是基于Molmo 2-ER这一专门用于具身推理的视觉语言骨干,对架构进行了从头重建。训练数据涵盖超过300万个样本,包括图像指向、物体检测、抽象空间推理、多图像推理以及基于图像和视频的空间问答等任务。这套训练体系使MolmoAct 2内部集成一个专用的“行动专家”模块,通过三维空间推理生成机器人动作指令,从而在决策路径中消除了冗余步骤。Ai2方面解释,37倍加速并非单次推理计算速度的提升,而是从接收指令到物理动作执行的端到端任务完成效率,意味着模型在“理解要做什么”和“规划怎么做”两个环节均有显著改进。

随模型一同开源的数据集同样指向行业痛点。双臂操作在机器人学中特指两个机械臂协同完成单一任务,如折叠毛巾、扫描商品、给手机充电或清理桌面等,这些动作需要双臂精准配合而非独立运作。MolmoAct 2-Bimanual YAM以超过720小时的演示数据成为目前公开可查的最大规模同类数据集。Ai2研究团队还对机器人数据进行了重新标注,将唯一标签数量从约71000个提升至约146000个,同时压缩了重复指令和低质量注释,改善语言指令的多样性。此外,数据集混入了多种机械臂类型、相机配置、控制方案和任务风格的额外数据,以增强模型在不同硬件和场景下的泛化能力。

在真实世界验证环节,Ai2与斯坦福大学医学院Cong实验室合作,在基因编辑湿实验室场景中对MolmoAct 2的可靠性进行了初步评估。湿实验室工作涉及大量台面操作,包括在工作站之间移动、高精度移液和设备操作,误差累积可能迅速导致整批实验报废。经过多轮实际测试,斯坦福团队发现MolmoAct 2在协助湿实验室操作方面展现出可靠潜力。Ai2同时对模型进行了压力测试,包括重新措辞的指令、物体位移、干扰物和物体替换等条件下的表现。公司方面坦承模型在相机被夹持器遮挡、机械臂速度无法匹配控制系统节拍等情况下仍存在局限。

作为一家非营利研究机构,Ai2选择全栈开放MolmoAct 2的所有模型权重、训练代码和完整训练数据,研究人员可基于此进行二次开发与适配。该模型专门针对中低成本的主流商用及研究用机器人进行训练适配,普通学术实验室和独立研究者可直接开箱使用。在开源生态层面,MolmoAct 2在13项具身推理基准测试中的表现超越GPT-5和Gemini Robotics ER-1.5等闭源模型,其技术方案为整个机器人学习社区提供了可复现的研究基线。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com