news 2026/2/16 7:46:37

TPU超节点演进:从3D Torus到全光互联的技术跃迁

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPU超节点演进:从3D Torus到全光互联的技术跃迁

一、演进前序:从AlphaGo到Ironwood的算力迭代

在《Google TPU前世今生:从AlphaGo到9216卡Ironwood超节点,媲美英伟达》一文中,我们已梳理TPU的演进脉络——从支撑AlphaGo的TPUv1,逐步迭代至融合OCS光交换、ICI互联与3D Torus拓扑的TPUv7(9216卡Ironwood超节点),其性能已可媲美英伟达GB200/GB300系列。同时,通过对比阿里与英伟达的技术路径,探讨了AI时代“租售铲子”与“挖掘金子”的双重角色博弈。

本文将以Google公开的“48台OCS支撑4096卡TPUv4 Pod集群”论文为切入点,逐层拆解从4096卡TPUv4到9216卡TPUv7的架构演进逻辑,深度解析2/3D Torus拓扑、OCS光交换与ICI互联的技术协同,以及上下游产业链的成熟化对架构落地的关键支撑。

二、技术基石:TPUv4与3D Torus+OCS的融合实现

TPUv4 Pod(4096卡集群)是Google OCS光交换网络架构的经典落地案例,也是公开渠道中罕见的超大规模算力集群技术范本。本节从最小拓扑单元出发,逐步推演至宏观集群架构,解析其光电混合网络的核心设计。

2.1 最小拓扑单元:4×4×4 Cube立方体架构

TPUv4 Pod的组网核心是“TPU Cube”(即4×4×4 Cube),其物理形态对应一个服务器机柜,逻辑上则是严密的三维互联整体,核心特征如下:

  • 单元构成:由X、Y、Z三个维度各4颗TPU芯片组成,总计4×4×4=64颗TPU芯片,形成类似“四阶魔方”的立体结构;

  • 互联链路:每颗TPU芯片引出6条ICI(Inter-Chip Interconnect)高速互联链路,分别对应三维坐标系的±X、±Y、±Z六个方向,为3D Torus拓扑奠定基础。

2.2 Cube链路分层:光电混合网络的边界设计

在4×4×4 Cube内部,ICI链路依据物理位置与传输介质分为两类,形成独特的光电混合互联架构,实现性能与扩展性的平衡:

  • 内部互联(魔方内核):位于立方体内部(含内核及非暴露面)的链路,通过极短的PCB背板与铜缆实现全电信号互联,无需经过OCS交换机,规避了光电转换的损耗与延迟;

  • 外部互联(魔方表面):仅立方体六个外表面的链路向外引出,用于连接OCS光交换机,实现Cube间的动态路由与规模扩展。单个Cube共引出96条光互联链路,具体推算逻辑如下表所示。

表1:TPUv4 4×4×4 Cube的96条光链路推算过程

TPU位置类型

数量(个)

几何特征

内部铜缆链路数

外部光纤链路数

单Cube光链路贡献量

顶点(红色)

8

立方体8个顶点

3

3

8×3=24

棱边(蓝色)

24

12条棱的中间位置

4

2

24×2=48

中心面(绿色)

24

6个面的中心位置

5

1

24×1=24

内核心

8

被包裹于立方体核心

6

0

8×0=0

总计

64

-

-

-

96

(注:表中对应图1“TPUv4 4×4×4 Cube互联逻辑与光电接口分布”,清晰标注不同位置TPU的链路分布特征)

2.3 集群扩展:48台OCS光交换机的推演逻辑

基于4×4×4 Cube的最小单元,构建4096卡TPUv4 Pod集群的核心推演过程如下:

  • Cube数量核算:单Cube含64颗TPU芯片,4096卡集群需4096÷64=64个Cube;

  • 总光链路需求:单Cube引出96条光链路,64个Cube总计需64×96=6144条光链路;

  • OCS数量测算:Google自研Palomar OCS标准配置为136×136端口,工程实践中按128个有效端口计算(预留8个冗余端口,符合2^7的二进制规整性),因此所需OCS数量为6144÷128=48台。

为适配3D Torus拓扑的三维特性,48台OCS被严格划分为三个正交组,分别承载X、Y、Z三个维度的流量,核心设计原则为“同维互联”:

以X轴组为例,16台OCS仅负责连接所有Cube的±X面链路,构建X维度的环形闭环流量;Y轴组、Z轴组同理采用物理正交隔离组网。这种设计的核心价值在于,确保光路动态重构时始终维持X/Y/Z三维空间的数学正交性,既简化了上层软件路由算法,又有效规避了网络死锁风险。

在3D Torus环网中,OCS本质上充当“动态配线架”,实现Torus几何特性的物理落地:离开某节点X+接口的数据,必然进入步长相邻节点的X-接口(TPUv4采用步长=1的标准环面,TPUv7升级为可变步长的扭曲环面);对于网格边缘节点(如X=End),其X+接口通过OCS光路调度直接连接X=0节点的X-接口,形成“首尾闭环”。

2.4 核心组件:Palomar OCS的微观构造

TPUv4 Pod组网的物理核心是Palomar OCS,与传统无损网络交换机的核心差异在于:OCS不读取数据包头、不进行光电转换,仅通过物理层面的“光线反射镜”实现链路切换。其内部光信号传输路径呈经典“W”形,最大限度降低插入损耗,实现任意端口间的灵活互联。

(注:对应图3“OC SW形光路原理示意”,清晰展示光信号的传输轨迹)

W形光路的核心传输链路为:光信号发送准直器→二向色分光镜→2D MEMS阵列I→二向色分光镜→2D MEMS阵列II→二向色分光镜→光信号接收Output准直器。其中两大核心组件的作用的如下:

  • 2D MEMS阵列:两级设计实现三维空间内的精准光束操纵,是光路切换的核心执行单元;

  • 二向色分光镜:核心滤光组件,允许1310nm业务光透射,同时反射850nm监控光,与Injection Module(注入模块)、Camera Module(摄像模块)联动,实现实时带内运维监控与2D MEMS的微秒级微调。

这套闭环控制与实时主动对准机制,是Palomar OCS能够大规模商用的核心技术壁垒。

三、架构演进:从标准3D Torus到扭曲拓扑与精简架构

随着TPU单芯片TDP提升至600W,9216卡TPUv7(Ironwood)集群面临散热与延迟的双重挑战。Google通过“拓扑算法扭曲”与“集群规模极致扩张”实现架构升级;同时针对不同场景,推出采用2D Torus Mesh的TPUv5e/v6e架构。

3.1 TPUv7:Twisted 3D Torus与9216卡集群

相比TPUv4的4096卡规模,TPUv7 Pod扩展至9216卡,其核心演进逻辑如下:

  • Cube数量核算:最小单元仍为4×4×4 Cube(64颗芯片),9216卡集群需9216÷64=144个Cube;

  • 光端口需求:144个Cube总计需144×96=13824个光端口;

  • OCS规格升级:仍采用48台OCS,但单台OCS规格升级为144×144端口(供应链落地推测为320×320规格),同时OCS与Cube间的连接带宽提升至800G/1.6T,保障超大规模集群的无阻塞通信。

(注:对应图4“TPUv7 Cube A与Cube B连接48台OCS”,清晰展示144个Cube与48台OCS的连接关系)

TPUv7的核心架构升级是引入“Twisted 3D Torus(扭曲环面)”拓扑,通过“步长跳跃”降低通信跳数。最优扭曲步长N≈Dimension_Size/2,其核心逻辑可通过2D层面的对比清晰理解:

(注:对应图5“标准2D Torus与Twisted 2D Torus拓扑对比”)

  • 标准2D Torus(TPUv4):步长Step=1,数据流沿物理邻居逐跳传递(如Node 1→Node 2→Node 3);

  • Twisted 2D Torus(TPUv7):引入步长Step=N,光纤链路突破物理位置限制,实现“跳跃式互联”。如虚线所示,OCS构建“虫洞”式长距离光路,直接连接Node 1与Node 3,跳过中间节点Node 2,大幅降低通信延迟。

升维至3D层面,图6“TPUv7 128TPU拓扑”展示了4×4×8拓扑的128 TPU Slice连接形态,重点呈现Cube A与Cube B的扭曲互联:以Z轴(绿线)为例,Cube A边界节点TPU(4,1,4)未像标准3D Torus那样回环至自身起点TPU(4,1,1),而是通过Twisted 3D Torus与OCS连接至Cube B的起始节点TPU(4,1,5),实现物理位置与逻辑拓扑的彻底解耦。

3.2 TPUv5e/v6e:2D Torus Mesh的精简架构

针对延迟敏感的推理任务及中小规模训练场景,TPUv5e(Trillium)与TPUv6e采用“精简架构+极致性价比”策略,核心设计如下:

  • 架构简化:移除高成本OCS光交换层,采用静态2D Torus Mesh固定互联架构;

  • 集群规模:单Pod最大支持256个TPU,由4个液冷机柜组成16×16逻辑拓扑;

  • 介质分层:Y轴垂直互联通过服务器内部PCB蚀刻背板及连接器实现超低延迟通信;X轴跨机柜互联通过QSFP-DD DAC无源铜缆完成,最终通过长距离线缆连接首尾机柜形成闭环,构建具备确定性带宽的2D Torus网络。

(注:对应图7“TPUv5e 液冷板与接口布局”,展示液冷设计与互联接口的物理分布)

四、行业格局与供应链:壁垒构建与生态协同

4.1 技术路径对比:Google TPU vs AWS Trainium vs NVIDIA

三大厂商的AI算力集群技术路径差异显著,核心维度对比如下表所示:

表2:Google TPU(v4/v7)VS AWS Trainium(Trn2/3)VS NVIDIA(H100/GB200)

对比维度

Google TPU(v4/v7)

AWS Trainium(Trn2/3)

NVIDIA(H100/GB200)

互联协议

G-ICI(私有轻量级,基于Credit)

NeuronLink(环)+ EFA/SRD(以太网)

NVLink + InfiniBand/RoCE

网络层级

物理隔离:ICI与DCN存储分离

相对融合:内部2D Torus,外部走EFA

分层架构:Scale-up与Scale-out分层

故障恢复

物理重构:OCS旋转镜面隔离坏点

协议重传:SRD协议处理乱序与多路径重传

协议重传:依赖IB/RoCE重传机制

软件耦合

强耦合:XLA编译器需感知物理拓扑

解耦:软件层网络扁平化,依赖底层硬件重传

解耦:CUDA生态屏蔽底层拓扑差异

核心哲学

静态极致:通过OCS构建确定拓扑

动态灵活:依靠以太网多路径解决拥塞

带宽堆叠:顶级芯片提供无阻塞带宽

4.2 核心壁垒:Google模式的不可复制性

TPUv7 Pod的核心竞争力在于构建了“物理原子-应用生态”的垂直整合闭环,形成三重不可逾越的壁垒:

  • 物理层制造壁垒:自研高精度MEMS光开关及闭环控制系统,涉及精密光学、机械工程与半导体工艺的深度交叉,通用网络厂商难以突破这一“原子级”制造门槛;

  • 软硬件协同壁垒:3D Torus拓扑的效能发挥高度依赖Orion SDN控制器与XLA编译器的深度协同,上层编译器可获取底层物理拓扑的“上帝视角”,实现精准的算子放置与路由规划,这是依赖标准协议栈的厂商无法复制的;

  • 全产业链闭环壁垒:Google是少数具备“芯片-编译器-框架-模型-应用”全栈能力的企业,通过“训推一体TPU芯片+PyTorch XLA/JAX编译器+TensorFlow/JAX框架+Gemini模型+Search/YouTube/Workspace十亿级应用”构建数据反馈闭环,激发马太效应与正向飞轮,成为AI军备竞赛的核心优势。

4.3 供应链生态:OCS产业化的全面验证

根据权威券商研报与供应链调研,Google OCS的大规模部署已实现产业链核心环节的全面协同,构建了从底层芯片到整机集成的稳固生态,关键环节的核心厂商与贡献如下:

  • MEMS核心元件:Silex Microsystems(赛微电子子公司)攻克2D MEMS微镜阵列高良率量产难题,保障光束精准偏转核心元件的稳定供应;

  • OCS整机集成:光迅科技具备192×192端口MEMS-OCS交付能力;德科立联合Lumentum推进320×320端口超高密度OCS研发送样,契合Google网络架构扁平化愿景;

  • 精密光学控制:腾景科技切入Tier-1供应链,提供二向色分光镜(分离850nm监控光与1310nm业务光),补全OCS高精度闭环控制的关键组件;

  • 高速光模块:中际旭创等厂商提供800G/1.6T高速光模块,打破I/O瓶颈,支撑TPUv7集群带宽跨代升级。

产业链的协同共赢,助力Google实现“硬件即服务(HaaS)”的金融工程创新:将OCS定义为折旧期4-5年的长期基础设施资产(远长于GPU),解决算力集群快速迭代与数据中心15年租赁周期的错配问题,从系统层面降低长期TCO(总拥有成本)。

五、未来演进:后摩尔时代的CPO与全光互联

随着TPUv8及后续架构的演进,单通道SerDes速率已突破224Gbps并向448Gbps迈进,传统OSFP光模块的电气互连已逼近物理极限,CPO(Co-Packaged Optics,共封装光学)成为突破I/O边界的必然路径。

未来Google TPU架构有望实现“芯片出光、全光直连”的全新范式:光引擎通过异构集成直接封装于TPU基板,光信号无需经过板级电传输损耗,从芯片封装直接引出,经高密度光纤汇聚至机柜后方的盲插背板,无缝对接320×320及更高维度的OCS光交换网络。

后摩尔定律时代,面向AGI的终极算力形态尚未定论:是追求极致兼容性的“以太网/InfiniBand通用生态”,还是Google式“光子技术垂直封装进芯片”的封闭花园?这一博弈将深刻影响AI算力的未来发展方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/10 4:38:23

Kotaemon专利图纸检索:技术创新辅助分析

Kotaemon专利图纸检索:技术创新辅助分析在智能硬件与高端制造领域,一个工程师常常面临这样的困境:手头有一个新设计的减速箱结构草图,却不知道类似的方案是否已被他人申请专利;或者想优化电机冷却流道,但翻…

作者头像 李华
网站建设 2026/2/15 22:33:42

冬天这三个月,你怎么过,决定了明年一整年的身体

❄️ 把这篇看完,你会重新理解"猫冬"这件事 你有没有发现一个现象—— 每年一到冬天,身边总有一批人开始"集体垮掉"。 感冒发烧的、咳嗽不停的、手脚冰凉的、皮肤干裂的、腰酸背痛的、失眠多梦的…… 好像冬天一来,人…

作者头像 李华
网站建设 2026/2/7 3:45:33

AI如何帮你轻松掌握23种设计模式

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式学习23种设计模式的Web应用。要求:1. 左侧展示设计模式分类(创建型/结构型/行为型);2. 点击任一模式显示定义、UML图和…

作者头像 李华
网站建设 2026/2/11 18:45:09

收藏!从入门到进阶:大模型系统学习全攻略(附实战案例)

随着生成式AI技术的爆发,大模型(Large Language Models, LLMs)已从实验室走向产业落地,渗透到智能客服、代码开发、内容创作、数据分析等多个领域。对于程序员和技术爱好者而言,掌握大模型不仅是提升职场竞争力的加分项…

作者头像 李华
网站建设 2026/2/6 22:41:44

小白必看:5分钟搞定conda命令找不到的问题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向新手的conda问题解决助手,功能:1. 卡通化错误解释 2. 分步截图指导 3. 错误操作警示 4. 成功验证动画 5. 扩展学习资源推荐。要求界面友好&…

作者头像 李华
网站建设 2026/2/10 18:08:02

好写作AI:论文构思“甩锅”指南,请查收你的创新力拯救方案!

当别人还在为论文框架薅秃头发,你已经把“学术家务”外包,专心搞你的灵感大爆炸好写作AI官方网址:https://www.haoxiezuo.cn/学术界的“内卷”真相:90%精力在重复构思,只有10%留给真正创新每个研究者都陷入过这种“时间…

作者头像 李华