中国北京大学EvoPhys-World登顶WorldScore世界生成榜单

2026-06-09 09:15

关键词:

维度网讯，6月8日，北京大学EvoPhys团队推出的5D世界模型EvoPhys-World，在斯坦福大学WorldScore公开评测中位列“世界生成”赛道第一。该模型以人为中心，面向场景级可控生成与物理交互任务，原生训练全程基于摩尔线程MTT S5000 GPU及MUSA软件栈完成。

EvoPhys-World的技术重点在于把世界模型从“生成可观看场景”推进到“生成可交互、可控制、可演化的场景系统”。按照项目页面披露，该模型以第一视角交互数据和场景记忆构建人本世界孪生，进一步引入可控交互与自进化机制，使一个场景状态能够在不同动作分支下推演出不同未来。其核心模型包含World Engine和World Policy两种形态，前者强调万物可孪生和物理可交互，后者强调世界可预演和动作可选择，二者共同构成从场景生成、状态预测、动作预测到反馈演化的闭环。对具身智能、机器人训练、虚拟仿真和复杂场景生成而言，这类模型的价值在于让AI不只理解图像里的空间关系，还能进一步理解动作、因果、物理反馈和任务结果之间的联系。

WorldScore是面向世界生成任务的统一评测基准，评估内容覆盖3D、4D和视频模型在按指令生成世界方面的能力，指标重点包括可控性、质量和动态表现。公开榜单显示，EvoPhys-World在WorldScore-Static等指标上位居前列。

这次进展还把中国GPU与软件栈在前沿模型训练中的适配能力放到更高能见度位置。世界模型训练对长时序数据吞吐、分布式训练稳定性、多模态时空建模、算子支持和软硬件协同效率提出较高要求。EvoPhys-World原生训练全程基于摩尔线程MTT S5000 GPU及MUSA软件栈完成，意味着模型研发团队并非只在推理或后期适配环节使用本土算力，而是在训练主链路中完成了从硬件、软件栈到模型工作流的验证。对于中国AI基础设施产业来说，这类案例比单纯跑通语言模型推理更复杂，因为世界模型涉及视频生成、物理交互、状态预测和动作策略等多类负载，对GPU集群、通信效率和训练框架兼容性都有更高要求。

EvoPhys-World的应用指向也更接近物理世界。项目页面展示的场景包括人手操作、桌面交互、移动杯子、仓储、化工厂、城市和古镇等多类环境，说明该模型试图覆盖从局部手部动作到大场景漫游、从物体接触到任务推演的多层级生成任务。若这一路线继续推进，世界模型有望成为具身智能训练的重要底座，为机器人在真实部署前提供低成本、高可控、可反复演化的虚拟训练环境，也可用于工业仿真、数字孪生、复杂作业预演和人机协同验证等场景。

接下来，EvoPhys-World的影响将取决于模型能力开放程度、开发者生态建设、更多真实任务验证结果，以及中国GPU软件栈在更大规模训练中的持续稳定性。此次登顶WorldScore榜单，至少说明中国高校团队在世界模型方向已经进入国际公开评测前列，也为本土AI算力支撑前沿多模态模型训练提供了一个可观察样本。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国