美国洛杉矶OFC大会：AI驱动数据中心架构扩展、横向扩展与跨域扩展

2026-03-24 09:28

关键词:

上周在美国洛杉矶举行的OFC大会上，人工智能对数据中心架构的深刻影响成为焦点。甲骨文公司人工智能基础设施架构师Kannan Raj在小组讨论中表示：“早在IEEE规范形成时，他们要求链路误差为2.4e-4。如今这种标准已难以满足健康架构的需求。”他强调了当前架构面临的挑战。

Raj指出：“我们处理着数百万链路和组件，我称之为大数的暴政。在大量操作下，故障率增高，平均故障时间缩短。”人工智能工作负载要求数据中心进行扩展、横向扩展和跨域扩展，以避免单一故障导致训练中断和资源浪费，尤其在模型参数达到数十亿时影响显著。

超大规模公司和服务提供商关注三种连接类型：扩展在同一集群内连接GPU，提供低延迟；横向扩展通过多机架实现并行性，提升性能但依赖网络；跨域扩展连接多地数据中心，形成“人工智能工厂”。Raj解释道：“扩展是本地化的低延迟连接，横向扩展在机架内适合推理，跨域扩展距离可达数千公里。”

为支持这些架构，光学解决方案如线性可插拔、相干光学和共封装光学变得关键。高容量光传输技术如400G和800G提供高效长距离连接。Raj提到：“扩展正从铜缆转向光学，横向扩展使用DR或FR链路，跨域扩展涉及FR、相干或ZR光学。”他强调架构界限模糊，弹性成为重要因素，多平面网络架构支持大规模人工智能集群。

数据中心架构的演变由人工智能需求驱动，光学技术和互联创新推动网络向更高效、弹性方向发展，适应未来工作负载。

美国