TPU超节点演进：从3D Torus到全光互联的技术跃迁-开发者社区

一、演进前序：从AlphaGo到Ironwood的算力迭代

在《Google TPU前世今生：从AlphaGo到9216卡Ironwood超节点，媲美英伟达》一文中，我们已梳理TPU的演进脉络——从支撑AlphaGo的TPUv1，逐步迭代至融合OCS光交换、ICI互联与3D Torus拓扑的TPUv7（9216卡Ironwood超节点），其性能已可媲美英伟达GB200/GB300系列。同时，通过对比阿里与英伟达的技术路径，探讨了AI时代“租售铲子”与“挖掘金子”的双重角色博弈。

本文将以Google公开的“48台OCS支撑4096卡TPUv4 Pod集群”论文为切入点，逐层拆解从4096卡TPUv4到9216卡TPUv7的架构演进逻辑，深度解析2/3D Torus拓扑、OCS光交换与ICI互联的技术协同，以及上下游产业链的成熟化对架构落地的关键支撑。

二、技术基石：TPUv4与3D Torus+OCS的融合实现

TPUv4 Pod（4096卡集群）是Google OCS光交换网络架构的经典落地案例，也是公开渠道中罕见的超大规模算力集群技术范本。本节从最小拓扑单元出发，逐步推演至宏观集群架构，解析其光电混合网络的核心设计。

2.1 最小拓扑单元：4×4×4 Cube立方体架构

TPUv4 Pod的组网核心是“TPU Cube”（即4×4×4 Cube），其物理形态对应一个服务器机柜，逻辑上则是严密的三维互联整体，核心特征如下：

单元构成：由X、Y、Z三个维度各4颗TPU芯片组成，总计4×4×4=64颗TPU芯片，形成类似“四阶魔方”的立体结构；
互联链路：每颗TPU芯片引出6条ICI（Inter-Chip Interconnect）高速互联链路，分别对应三维坐标系的±X、±Y、±Z六个方向，为3D Torus拓扑奠定基础。

2.2 Cube链路分层：光电混合网络的边界设计

在4×4×4 Cube内部，ICI链路依据物理位置与传输介质分为两类，形成独特的光电混合互联架构，实现性能与扩展性的平衡：

内部互联（魔方内核）：位于立方体内部（含内核及非暴露面）的链路，通过极短的PCB背板与铜缆实现全电信号互联，无需经过OCS交换机，规避了光电转换的损耗与延迟；
外部互联（魔方表面）：仅立方体六个外表面的链路向外引出，用于连接OCS光交换机，实现Cube间的动态路由与规模扩展。单个Cube共引出96条光互联链路，具体推算逻辑如下表所示。

表1：TPUv4 4×4×4 Cube的96条光链路推算过程

TPU位置类型	数量（个）	几何特征	内部铜缆链路数	外部光纤链路数	单Cube光链路贡献量
顶点（红色）	8	立方体8个顶点	3	3	8×3=24
棱边（蓝色）	24	12条棱的中间位置	4	2	24×2=48
中心面（绿色）	24	6个面的中心位置	5	1	24×1=24
内核心	8	被包裹于立方体核心	6	0	8×0=0
总计	64	-	-	-	96

（注：表中对应图1“TPUv4 4×4×4 Cube互联逻辑与光电接口分布”，清晰标注不同位置TPU的链路分布特征）

2.3 集群扩展：48台OCS光交换机的推演逻辑

基于4×4×4 Cube的最小单元，构建4096卡TPUv4 Pod集群的核心推演过程如下：

Cube数量核算：单Cube含64颗TPU芯片，4096卡集群需4096÷64=64个Cube；
总光链路需求：单Cube引出96条光链路，64个Cube总计需64×96=6144条光链路；
OCS数量测算：Google自研Palomar OCS标准配置为136×136端口，工程实践中按128个有效端口计算（预留8个冗余端口，符合2^7的二进制规整性），因此所需OCS数量为6144÷128=48台。

为适配3D Torus拓扑的三维特性，48台OCS被严格划分为三个正交组，分别承载X、Y、Z三个维度的流量，核心设计原则为“同维互联”：

以X轴组为例，16台OCS仅负责连接所有Cube的±X面链路，构建X维度的环形闭环流量；Y轴组、Z轴组同理采用物理正交隔离组网。这种设计的核心价值在于，确保光路动态重构时始终维持X/Y/Z三维空间的数学正交性，既简化了上层软件路由算法，又有效规避了网络死锁风险。

在3D Torus环网中，OCS本质上充当“动态配线架”，实现Torus几何特性的物理落地：离开某节点X+接口的数据，必然进入步长相邻节点的X-接口（TPUv4采用步长=1的标准环面，TPUv7升级为可变步长的扭曲环面）；对于网格边缘节点（如X=End），其X+接口通过OCS光路调度直接连接X=0节点的X-接口，形成“首尾闭环”。

2.4 核心组件：Palomar OCS的微观构造

TPUv4 Pod组网的物理核心是Palomar OCS，与传统无损网络交换机的核心差异在于：OCS不读取数据包头、不进行光电转换，仅通过物理层面的“光线反射镜”实现链路切换。其内部光信号传输路径呈经典“W”形，最大限度降低插入损耗，实现任意端口间的灵活互联。

（注：对应图3“OC SW形光路原理示意”，清晰展示光信号的传输轨迹）

W形光路的核心传输链路为：光信号发送准直器→二向色分光镜→2D MEMS阵列I→二向色分光镜→2D MEMS阵列II→二向色分光镜→光信号接收Output准直器。其中两大核心组件的作用的如下：

2D MEMS阵列：两级设计实现三维空间内的精准光束操纵，是光路切换的核心执行单元；
二向色分光镜：核心滤光组件，允许1310nm业务光透射，同时反射850nm监控光，与Injection Module（注入模块）、Camera Module（摄像模块）联动，实现实时带内运维监控与2D MEMS的微秒级微调。

这套闭环控制与实时主动对准机制，是Palomar OCS能够大规模商用的核心技术壁垒。

三、架构演进：从标准3D Torus到扭曲拓扑与精简架构

随着TPU单芯片TDP提升至600W，9216卡TPUv7（Ironwood）集群面临散热与延迟的双重挑战。Google通过“拓扑算法扭曲”与“集群规模极致扩张”实现架构升级；同时针对不同场景，推出采用2D Torus Mesh的TPUv5e/v6e架构。

3.1 TPUv7：Twisted 3D Torus与9216卡集群

相比TPUv4的4096卡规模，TPUv7 Pod扩展至9216卡，其核心演进逻辑如下：

Cube数量核算：最小单元仍为4×4×4 Cube（64颗芯片），9216卡集群需9216÷64=144个Cube；
光端口需求：144个Cube总计需144×96=13824个光端口；
OCS规格升级：仍采用48台OCS，但单台OCS规格升级为144×144端口（供应链落地推测为320×320规格），同时OCS与Cube间的连接带宽提升至800G/1.6T，保障超大规模集群的无阻塞通信。

（注：对应图4“TPUv7 Cube A与Cube B连接48台OCS”，清晰展示144个Cube与48台OCS的连接关系）

TPUv7的核心架构升级是引入“Twisted 3D Torus（扭曲环面）”拓扑，通过“步长跳跃”降低通信跳数。最优扭曲步长N≈Dimension_Size/2，其核心逻辑可通过2D层面的对比清晰理解：

（注：对应图5“标准2D Torus与Twisted 2D Torus拓扑对比”）

标准2D Torus（TPUv4）：步长Step=1，数据流沿物理邻居逐跳传递（如Node 1→Node 2→Node 3）；
Twisted 2D Torus（TPUv7）：引入步长Step=N，光纤链路突破物理位置限制，实现“跳跃式互联”。如虚线所示，OCS构建“虫洞”式长距离光路，直接连接Node 1与Node 3，跳过中间节点Node 2，大幅降低通信延迟。

升维至3D层面，图6“TPUv7 128TPU拓扑”展示了4×4×8拓扑的128 TPU Slice连接形态，重点呈现Cube A与Cube B的扭曲互联：以Z轴（绿线）为例，Cube A边界节点TPU（4,1,4）未像标准3D Torus那样回环至自身起点TPU（4,1,1），而是通过Twisted 3D Torus与OCS连接至Cube B的起始节点TPU（4,1,5），实现物理位置与逻辑拓扑的彻底解耦。

3.2 TPUv5e/v6e：2D Torus Mesh的精简架构

针对延迟敏感的推理任务及中小规模训练场景，TPUv5e（Trillium）与TPUv6e采用“精简架构+极致性价比”策略，核心设计如下：

架构简化：移除高成本OCS光交换层，采用静态2D Torus Mesh固定互联架构；
集群规模：单Pod最大支持256个TPU，由4个液冷机柜组成16×16逻辑拓扑；
介质分层：Y轴垂直互联通过服务器内部PCB蚀刻背板及连接器实现超低延迟通信；X轴跨机柜互联通过QSFP-DD DAC无源铜缆完成，最终通过长距离线缆连接首尾机柜形成闭环，构建具备确定性带宽的2D Torus网络。

（注：对应图7“TPUv5e 液冷板与接口布局”，展示液冷设计与互联接口的物理分布）

四、行业格局与供应链：壁垒构建与生态协同

4.1 技术路径对比：Google TPU vs AWS Trainium vs NVIDIA

三大厂商的AI算力集群技术路径差异显著，核心维度对比如下表所示：

表2：Google TPU（v4/v7）VS AWS Trainium（Trn2/3）VS NVIDIA（H100/GB200）

对比维度	Google TPU（v4/v7）	AWS Trainium（Trn2/3）	NVIDIA（H100/GB200）
互联协议	G-ICI（私有轻量级，基于Credit）	NeuronLink（环）+ EFA/SRD（以太网）	NVLink + InfiniBand/RoCE
网络层级	物理隔离：ICI与DCN存储分离	相对融合：内部2D Torus，外部走EFA	分层架构：Scale-up与Scale-out分层
故障恢复	物理重构：OCS旋转镜面隔离坏点	协议重传：SRD协议处理乱序与多路径重传	协议重传：依赖IB/RoCE重传机制
软件耦合	强耦合：XLA编译器需感知物理拓扑	解耦：软件层网络扁平化，依赖底层硬件重传	解耦：CUDA生态屏蔽底层拓扑差异
核心哲学	静态极致：通过OCS构建确定拓扑	动态灵活：依靠以太网多路径解决拥塞	带宽堆叠：顶级芯片提供无阻塞带宽

4.2 核心壁垒：Google模式的不可复制性

TPUv7 Pod的核心竞争力在于构建了“物理原子-应用生态”的垂直整合闭环，形成三重不可逾越的壁垒：

物理层制造壁垒：自研高精度MEMS光开关及闭环控制系统，涉及精密光学、机械工程与半导体工艺的深度交叉，通用网络厂商难以突破这一“原子级”制造门槛；
软硬件协同壁垒：3D Torus拓扑的效能发挥高度依赖Orion SDN控制器与XLA编译器的深度协同，上层编译器可获取底层物理拓扑的“上帝视角”，实现精准的算子放置与路由规划，这是依赖标准协议栈的厂商无法复制的；
全产业链闭环壁垒：Google是少数具备“芯片-编译器-框架-模型-应用”全栈能力的企业，通过“训推一体TPU芯片+PyTorch XLA/JAX编译器+TensorFlow/JAX框架+Gemini模型+Search/YouTube/Workspace十亿级应用”构建数据反馈闭环，激发马太效应与正向飞轮，成为AI军备竞赛的核心优势。

4.3 供应链生态：OCS产业化的全面验证

根据权威券商研报与供应链调研，Google OCS的大规模部署已实现产业链核心环节的全面协同，构建了从底层芯片到整机集成的稳固生态，关键环节的核心厂商与贡献如下：

MEMS核心元件：Silex Microsystems（赛微电子子公司）攻克2D MEMS微镜阵列高良率量产难题，保障光束精准偏转核心元件的稳定供应；
OCS整机集成：光迅科技具备192×192端口MEMS-OCS交付能力；德科立联合Lumentum推进320×320端口超高密度OCS研发送样，契合Google网络架构扁平化愿景；
精密光学控制：腾景科技切入Tier-1供应链，提供二向色分光镜（分离850nm监控光与1310nm业务光），补全OCS高精度闭环控制的关键组件；
高速光模块：中际旭创等厂商提供800G/1.6T高速光模块，打破I/O瓶颈，支撑TPUv7集群带宽跨代升级。

产业链的协同共赢，助力Google实现“硬件即服务（HaaS）”的金融工程创新：将OCS定义为折旧期4-5年的长期基础设施资产（远长于GPU），解决算力集群快速迭代与数据中心15年租赁周期的错配问题，从系统层面降低长期TCO（总拥有成本）。