美国英伟达发布工业视觉AI智能体蓝图

2026-07-02 10:01

关键词:

维度网讯，英伟达发布了一套针对视觉AI智能体的新软件组件和可复用工作流，旨在支持模型在边缘与云环境中的开发、仿真与部署。

这套名为Metropolis智能体技能与蓝图的工具集，涵盖了用于合成数据生成、视频数据增强、模型微调以及视频搜索与摘要的工作流。开发者可将这些工作流与基于OpenUSD进行仿真和数字孪生的Omniverse平台以及用于构建和运行视频AI应用的Metropolis平台结合使用。

视觉AI智能体正被部署于工厂、仓库、交通网络和城市基础设施中，运营商希望将摄像头画面转化为自动警报、报告和流程监控。英伟达将这款新软件定位为对常见边缘计算问题的回应：摄像头和传感器附近产生大量数据，但其中大部分从未被转化为实际行动。

英伟达指出了组织在构建此类系统时面临的三个主要障碍：缺乏代表性训练数据，尤其是针对罕见缺陷或异常事件；在出现性能差距后微调模型所需的专业工作；以及将视频流水线、模型、元数据、搜索、警报和系统集成整合到可工作应用中所需的工程努力。

在制造业领域，合成数据有助于解决真实缺陷图像不足的问题。英伟达提到了Roboflow的工作，该公司正在将英伟达的缺陷图像生成技能和Cosmos世界基础模型集成到其平台中，为包括康宁在内的客户提供服务。据英伟达称，与康宁光纤制造工程团队的一项基准测试发现，使用八张真实缺陷图像并结合缺陷图像生成技能生成的合成数据训练的模型，在最难缺陷类别上达到了95%的平均精度和完美召回率。该模型优于仅用真实数据训练的基线模型，并将原本预计需要多个季度的项目缩短到几天之内。这个例子凸显了合成数据在工业检测中的主要商业价值。能够防止大部分缺陷的生产线可能难以收集足够的故障实例来训练下一代检测系统，导致模型在检测不常见但重要的异常时表现薄弱。

在城市运营领域，英伟达指出互联视频工作流存在市场空间。Linker Vision正在使用英伟达Metropolis视频搜索和摘要蓝图，在城市基础设施中部署视频推理智能体，同时使用基于OpenUSD的Omniverse数字孪生来模拟交通、天气、紧急事件和基础设施变化。该系统将搜索、摘要、警报、报告和流管理等任务打包成智能体可执行的工作流。Linker Vision还使用英伟达Cosmos进行视频数据增强，以及英伟达TAO进行模型微调。在高雄，英伟达表示Linker Vision使用视频搜索和摘要蓝图将开发工作量减少了85%，并将事件响应时间缩短了最多80%。该公司补充说，该集团较新的AI-GRID扩展包含了NemoClaw蓝图，用于城市和交通环境中的安全智能体AI。

在工厂运营方面，另一个例子来自工业工作流监控。据英伟达称，在富士康部署的DeepHow实时标准操作规程验证智能体使用Metropolis视频搜索和摘要蓝图，在操作环境中搜索、摘要和分析视频。目标是评估工作是否被正确执行，将动作与标准程序进行比较，并在缺陷向下游传递之前识别问题。英伟达表示Cosmos帮助系统在上下文中解释人类动作序列，包括判断装配步骤是否按正确顺序执行。据英伟达称，在英伟达GB300服务器生产线上，DeepHow系统将首次合格率提高了3%，在理解关键程序步骤方面实现了99%的任务级准确性，并通过在流程早期识别问题减少了冗余工作。

此次发布的更广泛市场背景是AI处理向边缘转移，数据在边缘产生而非回传至集中式基础设施。英伟达援引Gartner的预测，到2028年，超过三分之二的企业管理数据将在数据中心或云之外创建和处理，到2029年，全球超过三分之二的企业将部署边缘AI，而2025年这一比例仅为10%。即便如此，更多的边缘数据并不会自动产生更有用的见解。在摄像头和机器附近运行的模型必须在延迟、功耗、成本和连接性的限制下工作，同时还要适应每个站点的条件。OpenUSD位于英伟达应对方案的核心，因为它提供了一种描述和重用3D场景的通用方式。Omniverse库帮助团队构建仿真、合成数据和数字孪生工作流，从而在光照条件、天气、交通模式、摄像机角度、遮挡和罕见事件等多种情况下扩展测试。

新套件包括缺陷图像生成技能、视频数据增强技能、用于模型微调的TAO技能，以及用于警报、报告和流管理的视频搜索和摘要技能。目的是让开发者不必每次部署都从头重建工作流的每个部分。这些可重用工作流旨在帮助开发者生成数据、改进模型，并在工业、交通和城市运营中部署视觉AI智能体。

中国