上周在美国洛杉矶举行的OFC大会上,人工智能对数据中心架构的深刻影响成为焦点。甲骨文公司人工智能基础设施架构师Kannan Raj在小组讨论中表示:“早在IEEE规范形成时,他们要求链路误差为2.4e-4。如今这种标准已难以满足健康架构的需求。”他强调了当前架构面临的挑战。

Raj指出:“我们处理着数百万链路和组件,我称之为大数的暴政。在大量操作下,故障率增高,平均故障时间缩短。”人工智能工作负载要求数据中心进行扩展、横向扩展和跨域扩展,以避免单一故障导致训练中断和资源浪费,尤其在模型参数达到数十亿时影响显著。
超大规模公司和服务提供商关注三种连接类型:扩展在同一集群内连接GPU,提供低延迟;横向扩展通过多机架实现并行性,提升性能但依赖网络;跨域扩展连接多地数据中心,形成“人工智能工厂”。Raj解释道:“扩展是本地化的低延迟连接,横向扩展在机架内适合推理,跨域扩展距离可达数千公里。”
为支持这些架构,光学解决方案如线性可插拔、相干光学和共封装光学变得关键。高容量光传输技术如400G和800G提供高效长距离连接。Raj提到:“扩展正从铜缆转向光学,横向扩展使用DR或FR链路,跨域扩展涉及FR、相干或ZR光学。”他强调架构界限模糊,弹性成为重要因素,多平面网络架构支持大规模人工智能集群。
数据中心架构的演变由人工智能需求驱动,光学技术和互联创新推动网络向更高效、弹性方向发展,适应未来工作负载。









