【导语:OpenAI通过OCP开放了超大规模AI训练时使用的网络协议——MRC。该协议由OpenAI联合英伟达、AMD等厂商花两年时间打造,旨在确保大规模训练环境下网络通信的稳定性。】
OpenAI通过Open Compute Project向全行业开放了超大规模AI训练使用的网络协议MRC。此次开放是和硬件厂商合作,英伟达、AMD和英特尔都参与其中。网友认为能把这些厂商聚在一起合作制定标准十分困难。MRC协议由OpenAI联合英伟达、AMD、英特尔、微软和博通花两年时间完成,目前跑在OpenAI所有最大规模的NVIDIA GB200超算上。
同步预训练的通信模式对网络极度敏感,随着集群规模扩大,网络故障频率上升。为解决此问题,MRC主要做了三件事。一是多平面网络拓扑,将800Gb/s的网卡拆成8条100Gb/s子链路,连到独立交换机,形成8个并行网络平面,降低互联成本和故障点。
二是自适应包喷射,扩展RoCE的乱序处理能力,允许将单次传输的包喷射到数百条路径上并行传输,拥塞检测和路径切换在连接层完成,响应在微秒级。三是用SRv6静态源路由取代动态路由协议,将路径决策移到发送端,消除路由收敛引发的抖动。
MRC技术博客公布后,OpenAI同步发布了一期播客,OpenAI网络负责人Mark Handley和工作负载负责人Greg Steinbrecher在播客中聊了MRC从动机到落地的完整过程。
编辑观点:OpenAI开放MRC协议是AI领域的重要突破,其多维度设计确保了大规模网络可靠性,多厂商合作也为行业发展提供了新方向。