一、演进前序:从AlphaGo到Ironwood的算力迭代
在《Google TPU前世今生:从AlphaGo到9216卡Ironwood超节点,媲美英伟达》一文中,我们已梳理TPU的演进脉络——从支撑AlphaGo的TPUv1,逐步迭代至融合OCS光交换、ICI互联与3D Torus拓扑的TPUv7(9216卡Ironwood超节点),其性能已可媲美英伟达GB200/GB300系列。同时,通过对比阿里与英伟达的技术路径,探讨了AI时代“租售铲子”与“挖掘金子”的双重角色博弈。
本文将以Google公开的“48台OCS支撑4096卡TPUv4 Pod集群”论文为切入点,逐层拆解从4096卡TPUv4到9216卡TPUv7的架构演进逻辑,深度解析2/3D Torus拓扑、OCS光交换与ICI互联的技术协同,以及上下游产业链的成熟化对架构落地的关键支撑。
二、技术基石:TPUv4与3D Torus+OCS的融合实现
TPUv4 Pod(4096卡集群)是Google OCS光交换网络架构的经典落地案例,也是公开渠道中罕见的超大规模算力集群技术范本。本节从最小拓扑单元出发,逐步推演至宏观集群架构,解析其光电混合网络的核心设计。
2.1 最小拓扑单元:4×4×4 Cube立方体架构
TPUv4 Pod的组网核心是“TPU Cube”(即4×4×4 Cube),其物理形态对应一个服务器机柜,逻辑上则是严密的三维互联整体,核心特征如下:
单元构成:由X、Y、Z三个维度各4颗TPU芯片组成,总计4×4×4=64颗TPU芯片,形成类似“四阶魔方”的立体结构;
互联链路:每颗TPU芯片引出6条ICI(Inter-Chip Interconnect)高速互联链路,分别对应三维坐标系的±X、±Y、±Z六个方向,为3D Torus拓扑奠定基础。
2.2 Cube链路分层:光电混合网络的边界设计
在4×4×4 Cube内部,ICI链路依据物理位置与传输介质分为两类,形成独特的光电混合互联架构,实现性能与扩展性的平衡:
内部互联(魔方内核):位于立方体内部(含内核及非暴露面)的链路,通过极短的PCB背板与铜缆实现全电信号互联,无需经过OCS交换机,规避了光电转换的损耗与延迟;
外部互联(魔方表面):仅立方体六个外表面的链路向外引出,用于连接OCS光交换机,实现Cube间的动态路由与规模扩展。单个Cube共引出96条光互联链路,具体推算逻辑如下表所示。
表1:TPUv4 4×4×4 Cube的96条光链路推算过程
TPU位置类型 | 数量(个) | 几何特征 | 内部铜缆链路数 | 外部光纤链路数 | 单Cube光链路贡献量 |
|---|---|---|---|---|---|
顶点(红色) | 8 | 立方体8个顶点 | 3 | 3 | 8×3=24 |
棱边(蓝色) | 24 | 12条棱的中间位置 | 4 | 2 | 24×2=48 |
中心面(绿色) | 24 | 6个面的中心位置 | 5 | 1 | 24×1=24 |
内核心 | 8 | 被包裹于立方体核心 | 6 | 0 | 8×0=0 |
总计 | 64 | - | - | - | 96 |
(注:表中对应图1“TPUv4 4×4×4 Cube互联逻辑与光电接口分布”,清晰标注不同位置TPU的链路分布特征)
2.3 集群扩展:48台OCS光交换机的推演逻辑
基于4×4×4 Cube的最小单元,构建4096卡TPUv4 Pod集群的核心推演过程如下:
Cube数量核算:单Cube含64颗TPU芯片,4096卡集群需4096÷64=64个Cube;
总光链路需求:单Cube引出96条光链路,64个Cube总计需64×96=6144条光链路;
OCS数量测算:Google自研Palomar OCS标准配置为136×136端口,工程实践中按128个有效端口计算(预留8个冗余端口,符合2^7的二进制规整性),因此所需OCS数量为6144÷128=48台。
为适配3D Torus拓扑的三维特性,48台OCS被严格划分为三个正交组,分别承载X、Y、Z三个维度的流量,核心设计原则为“同维互联”:
以X轴组为例,16台OCS仅负责连接所有Cube的±X面链路,构建X维度的环形闭环流量;Y轴组、Z轴组同理采用物理正交隔离组网。这种设计的核心价值在于,确保光路动态重构时始终维持X/Y/Z三维空间的数学正交性,既简化了上层软件路由算法,又有效规避了网络死锁风险。
在3D Torus环网中,OCS本质上充当“动态配线架”,实现Torus几何特性的物理落地:离开某节点X+接口的数据,必然进入步长相邻节点的X-接口(TPUv4采用步长=1的标准环面,TPUv7升级为可变步长的扭曲环面);对于网格边缘节点(如X=End),其X+接口通过OCS光路调度直接连接X=0节点的X-接口,形成“首尾闭环”。
2.4 核心组件:Palomar OCS的微观构造
TPUv4 Pod组网的物理核心是Palomar OCS,与传统无损网络交换机的核心差异在于:OCS不读取数据包头、不进行光电转换,仅通过物理层面的“光线反射镜”实现链路切换。其内部光信号传输路径呈经典“W”形,最大限度降低插入损耗,实现任意端口间的灵活互联。
(注:对应图3“OC SW形光路原理示意”,清晰展示光信号的传输轨迹)
W形光路的核心传输链路为:光信号发送准直器→二向色分光镜→2D MEMS阵列I→二向色分光镜→2D MEMS阵列II→二向色分光镜→光信号接收Output准直器。其中两大核心组件的作用的如下:
2D MEMS阵列:两级设计实现三维空间内的精准光束操纵,是光路切换的核心执行单元;
二向色分光镜:核心滤光组件,允许1310nm业务光透射,同时反射850nm监控光,与Injection Module(注入模块)、Camera Module(摄像模块)联动,实现实时带内运维监控与2D MEMS的微秒级微调。
这套闭环控制与实时主动对准机制,是Palomar OCS能够大规模商用的核心技术壁垒。
三、架构演进:从标准3D Torus到扭曲拓扑与精简架构
随着TPU单芯片TDP提升至600W,9216卡TPUv7(Ironwood)集群面临散热与延迟的双重挑战。Google通过“拓扑算法扭曲”与“集群规模极致扩张”实现架构升级;同时针对不同场景,推出采用2D Torus Mesh的TPUv5e/v6e架构。
3.1 TPUv7:Twisted 3D Torus与9216卡集群
相比TPUv4的4096卡规模,TPUv7 Pod扩展至9216卡,其核心演进逻辑如下:
Cube数量核算:最小单元仍为4×4×4 Cube(64颗芯片),9216卡集群需9216÷64=144个Cube;
光端口需求:144个Cube总计需144×96=13824个光端口;
OCS规格升级:仍采用48台OCS,但单台OCS规格升级为144×144端口(供应链落地推测为320×320规格),同时OCS与Cube间的连接带宽提升至800G/1.6T,保障超大规模集群的无阻塞通信。
(注:对应图4“TPUv7 Cube A与Cube B连接48台OCS”,清晰展示144个Cube与48台OCS的连接关系)
TPUv7的核心架构升级是引入“Twisted 3D Torus(扭曲环面)”拓扑,通过“步长跳跃”降低通信跳数。最优扭曲步长N≈Dimension_Size/2,其核心逻辑可通过2D层面的对比清晰理解:
(注:对应图5“标准2D Torus与Twisted 2D Torus拓扑对比”)
标准2D Torus(TPUv4):步长Step=1,数据流沿物理邻居逐跳传递(如Node 1→Node 2→Node 3);
Twisted 2D Torus(TPUv7):引入步长Step=N,光纤链路突破物理位置限制,实现“跳跃式互联”。如虚线所示,OCS构建“虫洞”式长距离光路,直接连接Node 1与Node 3,跳过中间节点Node 2,大幅降低通信延迟。
升维至3D层面,图6“TPUv7 128TPU拓扑”展示了4×4×8拓扑的128 TPU Slice连接形态,重点呈现Cube A与Cube B的扭曲互联:以Z轴(绿线)为例,Cube A边界节点TPU(4,1,4)未像标准3D Torus那样回环至自身起点TPU(4,1,1),而是通过Twisted 3D Torus与OCS连接至Cube B的起始节点TPU(4,1,5),实现物理位置与逻辑拓扑的彻底解耦。
3.2 TPUv5e/v6e:2D Torus Mesh的精简架构
针对延迟敏感的推理任务及中小规模训练场景,TPUv5e(Trillium)与TPUv6e采用“精简架构+极致性价比”策略,核心设计如下:
架构简化:移除高成本OCS光交换层,采用静态2D Torus Mesh固定互联架构;
集群规模:单Pod最大支持256个TPU,由4个液冷机柜组成16×16逻辑拓扑;
介质分层:Y轴垂直互联通过服务器内部PCB蚀刻背板及连接器实现超低延迟通信;X轴跨机柜互联通过QSFP-DD DAC无源铜缆完成,最终通过长距离线缆连接首尾机柜形成闭环,构建具备确定性带宽的2D Torus网络。
(注:对应图7“TPUv5e 液冷板与接口布局”,展示液冷设计与互联接口的物理分布)
四、行业格局与供应链:壁垒构建与生态协同
4.1 技术路径对比:Google TPU vs AWS Trainium vs NVIDIA
三大厂商的AI算力集群技术路径差异显著,核心维度对比如下表所示:
表2:Google TPU(v4/v7)VS AWS Trainium(Trn2/3)VS NVIDIA(H100/GB200)
对比维度 | Google TPU(v4/v7) | AWS Trainium(Trn2/3) | NVIDIA(H100/GB200) |
|---|---|---|---|
互联协议 | G-ICI(私有轻量级,基于Credit) | NeuronLink(环)+ EFA/SRD(以太网) | NVLink + InfiniBand/RoCE |
网络层级 | 物理隔离:ICI与DCN存储分离 | 相对融合:内部2D Torus,外部走EFA | 分层架构:Scale-up与Scale-out分层 |
故障恢复 | 物理重构:OCS旋转镜面隔离坏点 | 协议重传:SRD协议处理乱序与多路径重传 | 协议重传:依赖IB/RoCE重传机制 |
软件耦合 | 强耦合:XLA编译器需感知物理拓扑 | 解耦:软件层网络扁平化,依赖底层硬件重传 | 解耦:CUDA生态屏蔽底层拓扑差异 |
核心哲学 | 静态极致:通过OCS构建确定拓扑 | 动态灵活:依靠以太网多路径解决拥塞 | 带宽堆叠:顶级芯片提供无阻塞带宽 |
4.2 核心壁垒:Google模式的不可复制性
TPUv7 Pod的核心竞争力在于构建了“物理原子-应用生态”的垂直整合闭环,形成三重不可逾越的壁垒:
物理层制造壁垒:自研高精度MEMS光开关及闭环控制系统,涉及精密光学、机械工程与半导体工艺的深度交叉,通用网络厂商难以突破这一“原子级”制造门槛;
软硬件协同壁垒:3D Torus拓扑的效能发挥高度依赖Orion SDN控制器与XLA编译器的深度协同,上层编译器可获取底层物理拓扑的“上帝视角”,实现精准的算子放置与路由规划,这是依赖标准协议栈的厂商无法复制的;
全产业链闭环壁垒:Google是少数具备“芯片-编译器-框架-模型-应用”全栈能力的企业,通过“训推一体TPU芯片+PyTorch XLA/JAX编译器+TensorFlow/JAX框架+Gemini模型+Search/YouTube/Workspace十亿级应用”构建数据反馈闭环,激发马太效应与正向飞轮,成为AI军备竞赛的核心优势。
4.3 供应链生态:OCS产业化的全面验证
根据权威券商研报与供应链调研,Google OCS的大规模部署已实现产业链核心环节的全面协同,构建了从底层芯片到整机集成的稳固生态,关键环节的核心厂商与贡献如下:
MEMS核心元件:Silex Microsystems(赛微电子子公司)攻克2D MEMS微镜阵列高良率量产难题,保障光束精准偏转核心元件的稳定供应;
OCS整机集成:光迅科技具备192×192端口MEMS-OCS交付能力;德科立联合Lumentum推进320×320端口超高密度OCS研发送样,契合Google网络架构扁平化愿景;
精密光学控制:腾景科技切入Tier-1供应链,提供二向色分光镜(分离850nm监控光与1310nm业务光),补全OCS高精度闭环控制的关键组件;
高速光模块:中际旭创等厂商提供800G/1.6T高速光模块,打破I/O瓶颈,支撑TPUv7集群带宽跨代升级。
产业链的协同共赢,助力Google实现“硬件即服务(HaaS)”的金融工程创新:将OCS定义为折旧期4-5年的长期基础设施资产(远长于GPU),解决算力集群快速迭代与数据中心15年租赁周期的错配问题,从系统层面降低长期TCO(总拥有成本)。
五、未来演进:后摩尔时代的CPO与全光互联
随着TPUv8及后续架构的演进,单通道SerDes速率已突破224Gbps并向448Gbps迈进,传统OSFP光模块的电气互连已逼近物理极限,CPO(Co-Packaged Optics,共封装光学)成为突破I/O边界的必然路径。
未来Google TPU架构有望实现“芯片出光、全光直连”的全新范式:光引擎通过异构集成直接封装于TPU基板,光信号无需经过板级电传输损耗,从芯片封装直接引出,经高密度光纤汇聚至机柜后方的盲插背板,无缝对接320×320及更高维度的OCS光交换网络。
后摩尔定律时代,面向AGI的终极算力形态尚未定论:是追求极致兼容性的“以太网/InfiniBand通用生态”,还是Google式“光子技术垂直封装进芯片”的封闭花园?这一博弈将深刻影响AI算力的未来发展方向。