维度网讯,6月8日,北京大学EvoPhys团队推出的5D世界模型EvoPhys-World,在斯坦福大学WorldScore公开评测中位列“世界生成”赛道第一。该模型以人为中心,面向场景级可控生成与物理交互任务,原生训练全程基于摩尔线程MTT S5000 GPU及MUSA软件栈完成。
EvoPhys-World的技术重点在于把世界模型从“生成可观看场景”推进到“生成可交互、可控制、可演化的场景系统”。按照项目页面披露,该模型以第一视角交互数据和场景记忆构建人本世界孪生,进一步引入可控交互与自进化机制,使一个场景状态能够在不同动作分支下推演出不同未来。其核心模型包含World Engine和World Policy两种形态,前者强调万物可孪生和物理可交互,后者强调世界可预演和动作可选择,二者共同构成从场景生成、状态预测、动作预测到反馈演化的闭环。对具身智能、机器人训练、虚拟仿真和复杂场景生成而言,这类模型的价值在于让AI不只理解图像里的空间关系,还能进一步理解动作、因果、物理反馈和任务结果之间的联系。
WorldScore是面向世界生成任务的统一评测基准,评估内容覆盖3D、4D和视频模型在按指令生成世界方面的能力,指标重点包括可控性、质量和动态表现。公开榜单显示,EvoPhys-World在WorldScore-Static等指标上位居前列。
这次进展还把中国GPU与软件栈在前沿模型训练中的适配能力放到更高能见度位置。世界模型训练对长时序数据吞吐、分布式训练稳定性、多模态时空建模、算子支持和软硬件协同效率提出较高要求。EvoPhys-World原生训练全程基于摩尔线程MTT S5000 GPU及MUSA软件栈完成,意味着模型研发团队并非只在推理或后期适配环节使用本土算力,而是在训练主链路中完成了从硬件、软件栈到模型工作流的验证。对于中国AI基础设施产业来说,这类案例比单纯跑通语言模型推理更复杂,因为世界模型涉及视频生成、物理交互、状态预测和动作策略等多类负载,对GPU集群、通信效率和训练框架兼容性都有更高要求。
EvoPhys-World的应用指向也更接近物理世界。项目页面展示的场景包括人手操作、桌面交互、移动杯子、仓储、化工厂、城市和古镇等多类环境,说明该模型试图覆盖从局部手部动作到大场景漫游、从物体接触到任务推演的多层级生成任务。若这一路线继续推进,世界模型有望成为具身智能训练的重要底座,为机器人在真实部署前提供低成本、高可控、可反复演化的虚拟训练环境,也可用于工业仿真、数字孪生、复杂作业预演和人机协同验证等场景。
接下来,EvoPhys-World的影响将取决于模型能力开放程度、开发者生态建设、更多真实任务验证结果,以及中国GPU软件栈在更大规模训练中的持续稳定性。此次登顶WorldScore榜单,至少说明中国高校团队在世界模型方向已经进入国际公开评测前列,也为本土AI算力支撑前沿多模态模型训练提供了一个可观察样本。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









