维度网讯,英伟达(NVIDIA)发布NVIDIA Cosmos 3,这是一个面向物理AI的开放世界基础模型,基于混合Transformer架构构建,将视觉推理、世界生成与动作预测集成于单一系统。
Cosmos 3是全球首个完全开放的全能模型,能够原生理解和生成文本、图像、视频、环境声音及动作,具备领先的物理精度,可将物理AI的训练和评估周期从数月缩短至数天。
该模型解决了物理AI中的一项基本挑战:使机器人、自动驾驶汽车或视觉智能体在有限训练数据和碎片化模拟堆栈条件下实现现实世界中的泛化。其混合Transformer架构将一个推理Transformer与一个专家生成Transformer配对,使Cosmos 3能够在生成视频和动作轨迹之前理解物体交互、运动和时空关系。模型在包含数十亿文本、图像、视频、声音和动作轨迹样本的多模态物理AI数据集上进行训练,为开发者提供了一个强大的预训练基础,使其能以更少数据和更低训练成本构建物理AI系统。
在物理AI基准测试中,Cosmos 3取得领先结果。在开放模型中,其世界生成准确度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench评测中排名第一;动作策略在RoboLab和RoboArena中排名第一;视觉理解在VANTAGE-Bench和TAR排行榜中排名第一。
Cosmos 3系列提供多个版本:Cosmos 3 Super适用于需要最高物理精度和生成质量的后训练机器人及自动驾驶汽车模型;Cosmos 3 Nano适用于在几分之一秒内完成高质量视频和动作推理;Cosmos 3 Edge即将推出,适用于边缘实时推理。

英伟达还发起NVIDIA Cosmos Coalition(Cosmos联盟),这是一个由世界模型构建者和AI开发者组成的全球合作组织,创始成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI。该联盟旨在跨行业推进开放世界模型,使成员能够贡献模型、研究和评估技术,同时使用Cosmos 3技术、训练工具和NVIDIA DGX Cloud基础设施进行大规模训练。
Cosmos平台为英伟达的物理AI堆栈提供支持,包括新的机器人、物理、人体运动、自动驾驶、仓库安全和空间推理数据集,以及用于神经场景重建、缺陷图像生成和视频增强的物理AI智能体技能。物理AI开发者正基于该平台进行构建,涉及机器人领域的Agile Robots、Doosan Robotics、LG Electronics、Samsung Electronics、Skild AI,自动驾驶汽车领域的Li Auto,以及视觉AI智能体领域的Centific、Fogsphere、Linker Vision、Milestone Systems和Yuan。
Cosmos 3 Super和Cosmos 3 Nano现已可用,Cosmos 3 Edge即将推出。开发者可在build.nvidia.com上试用Cosmos 3,从Hugging Face下载开放模型,并利用Hugging Face Diffusers和GitHub资源自定义模型及生成合成数据,同时可将模型部署为NVIDIA NIM微服务。模型构建者和软件提供商可通过GitHub上的物理AI智能体技能,利用推理服务和云基础设施合作伙伴(包括Baseten、CoreWeave、Microsoft Azure、Nebius、Deep Infra、Classmethod),加速Cosmos的访问、自定义和部署,用于关键推理和合成数据生成工作负载。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









