中国阿里巴巴发布Qwen-Robot系列推进具身智能模型落地
收藏

维度网讯,6月16日,阿里巴巴发布千问具身智能大模型Qwen-Robot系列,包含VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld三大模型。这是千问大模型家族首个完整的具身智能模型系列,分别面向机器人操作、移动导航和环境理解能力,可单独部署,也可协同运转,为不同形态机器人进入真实场景提供通用模型底座。

具身智能的关键,是让AI不只在文本、图像和视频中完成理解与生成,还能与物理世界发生交互。机器人要在真实环境中工作,需要同时完成“看见物体、理解任务、规划路径、控制动作、判断结果”等多步能力。Qwen-Robot系列将操作、移动和世界建模拆成三个模型方向,说明阿里希望把通用大模型能力延伸到机器人行动链路中,而不是只停留在对话或视觉识别层面。

Qwen-RobotManip属于VLA操作模型,VLA即视觉—语言—动作模型,重点解决机器人“手”的问题。机器人面对桌面物体、工具、零件或日常用品时,需要识别目标、理解指令,再生成可执行的抓取、移动、放置、开关、整理等动作。传统机器人控制依赖固定程序和结构化环境,一旦物体位置、背景、光照或任务表达发生变化,泛化能力容易下降。VLA模型的价值在于把视觉感知、语言指令和动作控制放到同一框架中,使机器人能够根据自然语言和现场画面生成动作策略。

Qwen-RobotNav属于VLN移动模型,VLN即视觉—语言导航模型,重点解决机器人“脚”的问题。服务机器人、巡检机器人、四足机器人和移动平台进入办公楼、工厂、仓库、园区或家庭环境后,必须理解“去哪里、怎么走、绕开什么、到达后做什么”。移动导航不只是路径规划,还涉及空间语义理解、障碍物规避、多轮指令跟随和任务位置确认。VLN模型可以让机器人把语言目标与视觉环境对应起来,从而在更复杂的开放环境中完成移动任务。

Qwen-RobotWorld则承担世界模型角色,重点解决机器人“大脑”问题。世界模型用于理解物体关系、空间结构、动作后果和环境变化,帮助机器人在执行前进行预测和规划。机器人如果只会按指令执行单步动作,很难处理真实世界中的意外情况;世界模型能够让系统预估“这样做之后会发生什么”,并在任务中调整策略。对工业、物流、商业服务和家庭服务场景来说,这类能力关系到机器人能否从演示型任务走向连续作业。

阿里此前已在Qwen-VLA方向开展研究。Qwen-VLA官方技术资料显示,该模型将操作、导航和轨迹预测放入统一的动作与轨迹预测框架中,并通过具身感知提示适配不同机器人平台。相关研究强调,一个统一模型可以服务多个具身平台,不必为每个平台单独设计输出头。Qwen-Robot系列发布后,千问具身智能路线从研究框架进一步转向产品化模型体系。

从产业角度看,Qwen-Robot系列的发布发生在人形机器人、移动机器人和工业智能体加快落地的背景下。机器人企业普遍面临一个问题:硬件本体进步较快,但通用任务能力、场景泛化能力和数据闭环仍是瓶颈。不同机器人形态的传感器、关节、执行器和控制方式差异较大,如果每个产品都从零训练模型,成本高、周期长,也难以沉淀跨平台能力。具身智能大模型的目标,就是为不同机器人提供可复用的感知、理解、规划和动作生成能力。

对阿里而言,Qwen-Robot系列也补齐了千问大模型从语言、多模态、Agent到物理世界交互的一环。通用大模型正在从线上任务执行走向现实场景执行,机器人则需要大模型提供更强的任务理解和行动规划能力。未来,具身模型能否真正落地,还取决于机器人硬件接口、训练数据规模、仿真与真实环境迁移、动作安全边界和行业场景适配。模型发布只是起点,后续在仓储、巡检、制造、商业服务和家庭服务中的验证结果,才会决定其产业价值。

Qwen-Robot系列的意义,在于阿里开始以完整模型组合进入具身智能核心环节。VLA解决操作,VLN解决移动,世界模型解决环境理解和规划,三者协同后,机器人有机会从单一技能执行转向多步骤任务处理。随着具身智能从实验室走向真实作业环境,通用模型底座、硬件适配能力和场景数据闭环,将成为机器人产业竞争的关键变量。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com