美国OpenAI携AMD、博通、英伟达等发布MRC开放网络协议，多路径传输破解GPU闲置难题

2026-05-07 09:34

关键词:

维度网讯，2026年5月6日，美国OpenAI宣布与AMD、博通、英特尔、微软及英伟达达成合作，正式发布名为“多路径可靠连接”(Multipath Reliable Connection，MRC)的新型开放网络协议，直指超大规模AI训练集群中普遍存在的GPU算力闲置与网络拥塞瓶颈。

OpenAI在官方技术博客中给出了研发这项协议的直接原因：“网络拥塞、链路与设备故障是传输延迟和抖动最常见的来源，随着集群规模扩大，这些问题出现得愈发频繁，解决难度也随之升高。”训练大模型时，一个步骤可能涉及数百万次GPU之间的数据同步传输，一次延迟就可能让大批GPU陷入等待。MRC通过将单次RDMA连接的数据流动态分散至数百条网络路径，并利用SRv6源路由技术将转发决策编码到数据包报头中，在链路故障或拥塞发生时以微秒级速度自动绕行，从而显著减少训练中断和算力闲置。

这套协议的行业协作深度同样值得关注。AMD为MRC贡献了拥塞控制技术，并已实现在400G网卡上的部署，可无缝过渡至其Pensando“Vulcano”800G AI NIC。英伟达则首次在Spectrum-X以太网上对MRC进行验证与优化，其故障绕过技术可在数微秒内检测路径故障并在硬件中自动重路由流量。博通Thor Ultra 800Gbps以太网卡新增对MRC的支持，为多平面AI网络架构提供基础硬件。OpenAI将MRC协议通过开放计算项目(OCP)以开放许可方式公开发布，意味着任何云服务商或企业均可免费采用这套技术。

OpenAI工业计算负责人Sachin Katti在英伟达官方博客中公开表示：“与英伟达的强有力合作，使得在Blackwell一代部署MRC非常成功。”英伟达网络部门高级副总裁Gilad Shainer则指出，MRC在Spectrum-X以太网上的部署已帮助多个超大规模客户提升了大规模训练的效率和可靠性。

部署节奏与模型迭代同步推进。MRC已全面部署于OpenAI所有用于训练前沿模型的大型超级计算机中，包括位于美国得克萨斯州阿比林的甲骨文云基础设施站点以及微软的Fairwater超级计算机集群。这些集群承载着ChatGPT与Codex等产品的下一代模型训练任务。MRC目前内置于最新的800Gb/s网络接口中，与英伟达Spectrum-X以太网深度集成，已在Blackwell GPU架构上验证并优化。

OpenAI团队在技术方案中引述了一个典型案例：近期为ChatGPT和Codex训练一款前沿大模型时，工程团队需要重启四台一级核心交换机——在传统网络架构下这类操作通常需要与运维团队极度谨慎地协调，引入MRC之后，由于多路径和快速重路由机制的存在，他们甚至无需提前与集群训练任务团队协调即可完成重启，训练任务未受到实质性影响。

该协议是在传统RoCEv2(聚合以太网远程直接内存访问)基础上构建的。传统RoCEv2仅支持每条连接使用单一网络路径，无法充分利用数据中心内的多路径拓扑;当发生丢包时，其回退N机制要求重传窗口内所有后续数据包，造成额外网络开销;在大规模集群中，基于优先级流控的无损网络方案还会引发拥塞扩散和队头阻塞。MRC针对这些缺陷逐一提供了解决方案——多路径负载均衡、选择性重传替代回退N、以及基于SRv6的显式路由控制，共同构成了一套面向千兆级AI工厂的网络传输层。

在OpenAI官方社交账号的评论区，多位行业从业者将MRC评价为“真正的基础设施进步”，也有人指出这标志着AI基础设施竞争正从单纯堆叠GPU数量转向标准化集群通信效率。随着AI模型参数规模持续向万亿级别攀升，网络层已成为继算力和存储之后制约训练效率的第三个关键变量，MRC的开放发布为整个行业提供了一套可复用的底层网络框架。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国