在人形机器人领域,过去外形吸睛、行动能力等直观特性常被视为技术水平的直接体现。但如今,随着具身智能走向真实落地,决定机器人能力边界的重心已发生转移。据高工机器人产业研究所(GGII)测算,2025年人形机器人出货量约1.8万台,大量机器人被推入真实环境运行,长序列任务和环境干扰成为考验,系统依赖的不再仅是本体性能,模型能力成为关键,具身智能真正需要的大模型问题重回讨论中心。

当前具身智能领域大模型成标配,行业逐渐分化出两条技术路线。一条路线将“决策”与“执行”明确分工,如Figure的Helix大模型,通过区分高层推理与低层执行等,提升机器人在长时序任务中的稳定性等;另一条路线押注端到端统一架构,如Physical Intelligence的π0.5,将视觉、语言与动作统一建模,实现零样本泛化能力。国内自变量机器人获得字节等机构融资,被阿里、字节、美团押注,其明确判断端到端统一大模型具备成为“物理世界基础模型”潜质,该模型能持续理解物理世界状态变化并动态修正,应对长时间尺度任务连贯性等核心问题。
除模型路线之争,基础模型的构建和演进方式也至关重要。开源基础模型对具身智能行业发展尤为关键,因其处于蛮荒时期,技术路径未收敛,开源能加速模型能力边界暴露,推动生态协同。但仅开源不够,基础模型需面向真实环境构建,自研能保证模型在感知、决策与执行间形成一致内部逻辑。当前全球技术交流复杂,过度依赖上游模型有系统性风险,从商业角度看也是高风险选择。自变量选择将WALL-OSS开源,并发起“具亮计划”黑客松,鼓励开发者跑通完整链路。









