“在 BOC 程序中,数据是共享的,但每个行为对数据拥有独特的时间所有权,从而无需通过锁来协调访问。对于 Python 程序员来说,这带来了诸多好处。行为通过装饰函数来实现,从程序员的角度看,这些函数的使用方式与普通函数无异。更重要的是,程序员的任务从解决并发数据访问问题转变为通过函数组织数据流。由此生成的程序更易于理解、更易于维护、更易于扩展,并且能够充分利用多核性能,因为可以高效地调度行为在多个进程中运行。”
它的全名是 Behavior-Oriented Concurrency in Python,核心目标是让程序员把注意力转移到有哪些行为要发生、这些行为依赖哪些数据、数据如何在行为之间流动这样的问题上,降低并发编程的难度。官网把它概括为一种适合 Python 的并发/并行新范式:让每个行为在某段时间内独占它需要的数据,从而减少手动协调共享数据的负担。
这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过 OCP(开放计算项目,业内最大的开源硬件标准组织)开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。
训练大模型,几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。集群越大,链路抖动和故障越频繁。
传统网络的麻烦:一条链路挂了,整个训练任务可能崩掉,得回到上一个检查点重跑;交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate(其大型算力基础设施项目)这种规模的集群时,遇到的第一个瓶颈就是网络。
过去一笔传输只走一条路径,MRC 改成把数据包拆散,同时分头走几百条路径,目的地再按内存地址重新拼起来。
链路出问题,微秒级就能绕开,不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。
网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。
MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。
最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。
AI 时代的算力竞赛已不再是单纯的晶体管缩减游戏,而是一场关于制程、封装、内存与散热的系统级集成战争。台积电的路线图揭示了一个事实:算力增长的本质是物理系统的规模化堆叠。
所有的 AI 魔法,底层都是极度沉重的物理系统。
台积电最新的技术路线图释放了一个很冷酷的信号:过去那种靠挤压晶体管尺寸来换取性能的“节点缩放”时代正在瓦解。现在的竞争维度变了,不再是比谁的芯片更聪明,而是比谁能把整个算力系统造出来。
有观点认为,AI 正在把半导体推回权力的中心。到 2030 年,HPC 和 AI 业务将占据半导体市场的半壁江山。这种增长不是波浪式的周期波动,而是结构性的跃迁。
制程的逻辑正在分化。像 A13 这种节点,追求的是经济上的明智,通过保持设计兼容来降低客户迁移 IP 的成本;而像 A16 这种节点,则是为了解决 AI 芯片由于电流密度过大带来的电源完整性问题,通过背面供电技术把电源和信号线分离开。这就像是在拥挤的城市里,不再只是盖更高的大楼,而是开始修地下供电管网。
更值得注意的是,算力的增长引擎已经转移到了封装层。CoWoS、SoIC 和 HBM 的组合,让性能的提升不再依赖单一芯片,而是依赖“系统封装规模”。当单颗芯片做不动时,就往里面堆更多的 HBM,甚至直接搞晶圆级系统(SoW)。
有网友提到,AI 正在从“理解世界”转向“参与世界”。当 AI 进入汽车和机器人领域,变成 Physical AI 时,对延迟和可靠性的要求会直接决定生死。
摩尔定律并没有消失,它只是从单纯的微缩,变成了复杂的系统工程。