OpenAI 把训练 ChatGPT 用的网络协议开源了。| 公告 | paper

这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过 OCP(开放计算项目,业内最大的开源硬件标准组织)开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。

训练大模型,几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。集群越大,链路抖动和故障越频繁。

传统网络的麻烦:一条链路挂了,整个训练任务可能崩掉,得回到上一个检查点重跑;交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate(其大型算力基础设施项目)这种规模的集群时,遇到的第一个瓶颈就是网络。

过去一笔传输只走一条路径,MRC 改成把数据包拆散,同时分头走几百条路径,目的地再按内存地址重新拼起来。

链路出问题,微秒级就能绕开,不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。

网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。

MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。

最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。
 
 
Back to Top