中国阿里巴巴发布Qwen-Robot系列推进具身智能模型落地

2026-06-16 14:03

关键词:

维度网讯，6月16日，阿里巴巴发布千问具身智能大模型Qwen-Robot系列，包含VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld三大模型。这是千问大模型家族首个完整的具身智能模型系列，分别面向机器人操作、移动导航和环境理解能力，可单独部署，也可协同运转，为不同形态机器人进入真实场景提供通用模型底座。

具身智能的关键，是让AI不只在文本、图像和视频中完成理解与生成，还能与物理世界发生交互。机器人要在真实环境中工作，需要同时完成“看见物体、理解任务、规划路径、控制动作、判断结果”等多步能力。Qwen-Robot系列将操作、移动和世界建模拆成三个模型方向，说明阿里希望把通用大模型能力延伸到机器人行动链路中，而不是只停留在对话或视觉识别层面。

Qwen-RobotManip属于VLA操作模型，VLA即视觉—语言—动作模型，重点解决机器人“手”的问题。机器人面对桌面物体、工具、零件或日常用品时，需要识别目标、理解指令，再生成可执行的抓取、移动、放置、开关、整理等动作。传统机器人控制依赖固定程序和结构化环境，一旦物体位置、背景、光照或任务表达发生变化，泛化能力容易下降。VLA模型的价值在于把视觉感知、语言指令和动作控制放到同一框架中，使机器人能够根据自然语言和现场画面生成动作策略。

Qwen-RobotNav属于VLN移动模型，VLN即视觉—语言导航模型，重点解决机器人“脚”的问题。服务机器人、巡检机器人、四足机器人和移动平台进入办公楼、工厂、仓库、园区或家庭环境后，必须理解“去哪里、怎么走、绕开什么、到达后做什么”。移动导航不只是路径规划，还涉及空间语义理解、障碍物规避、多轮指令跟随和任务位置确认。VLN模型可以让机器人把语言目标与视觉环境对应起来，从而在更复杂的开放环境中完成移动任务。

Qwen-RobotWorld则承担世界模型角色，重点解决机器人“大脑”问题。世界模型用于理解物体关系、空间结构、动作后果和环境变化，帮助机器人在执行前进行预测和规划。机器人如果只会按指令执行单步动作，很难处理真实世界中的意外情况;世界模型能够让系统预估“这样做之后会发生什么”，并在任务中调整策略。对工业、物流、商业服务和家庭服务场景来说，这类能力关系到机器人能否从演示型任务走向连续作业。

阿里此前已在Qwen-VLA方向开展研究。Qwen-VLA官方技术资料显示，该模型将操作、导航和轨迹预测放入统一的动作与轨迹预测框架中，并通过具身感知提示适配不同机器人平台。相关研究强调，一个统一模型可以服务多个具身平台，不必为每个平台单独设计输出头。Qwen-Robot系列发布后，千问具身智能路线从研究框架进一步转向产品化模型体系。

从产业角度看，Qwen-Robot系列的发布发生在人形机器人、移动机器人和工业智能体加快落地的背景下。机器人企业普遍面临一个问题：硬件本体进步较快，但通用任务能力、场景泛化能力和数据闭环仍是瓶颈。不同机器人形态的传感器、关节、执行器和控制方式差异较大，如果每个产品都从零训练模型，成本高、周期长，也难以沉淀跨平台能力。具身智能大模型的目标，就是为不同机器人提供可复用的感知、理解、规划和动作生成能力。

对阿里而言，Qwen-Robot系列也补齐了千问大模型从语言、多模态、Agent到物理世界交互的一环。通用大模型正在从线上任务执行走向现实场景执行，机器人则需要大模型提供更强的任务理解和行动规划能力。未来，具身模型能否真正落地，还取决于机器人硬件接口、训练数据规模、仿真与真实环境迁移、动作安全边界和行业场景适配。模型发布只是起点，后续在仓储、巡检、制造、商业服务和家庭服务中的验证结果，才会决定其产业价值。

Qwen-Robot系列的意义，在于阿里开始以完整模型组合进入具身智能核心环节。VLA解决操作，VLN解决移动，世界模型解决环境理解和规划，三者协同后，机器人有机会从单一技能执行转向多步骤任务处理。随着具身智能从实验室走向真实作业环境，通用模型底座、硬件适配能力和场景数据闭环，将成为机器人产业竞争的关键变量。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国