OpenAI联合AMD、博通、英特尔、微软和英伟达,通过开放计算项目(OCP)开源了多路径可靠连接(MRC)协议。该协议旨在解决大规模AI训练中的网络延迟和故障问题。MRC基于RoCE标准扩展,结合SRv6技术,采用多平面网络设计,仅需两层交换机即可连接约13.1万块GPU,降低了网络功耗与成本。其自适应数据包喷淋技术可将数据分散至数百条路径并行传输,避免核心拥塞。同时,协议采用SRv6源路由简化控制,使网络故障恢复时间从秒级缩短至微秒级。MRC已应用于NVIDIA GB200超级计算机及Oracle Cloud Infrastructure站点。