英伟达Scale-out网络为何兼有IB和以太网？——算力芯片看点系列-开发者社区

内容要点：

◼IB与Ethernet之争，性能与通用性的博弈。InfiniBand（IB）和以太网（Ethernet）是两种常见而又不同的网络技术。二者对比来看，IB在带宽、延迟、可靠性方面的表现更为出色，适合需要高性能通信的场景；而以太网因其较低的成本和广泛兼容性，在一般网络应用中更为普及。两种技术逐渐走向融合，2010年IBTA提出RoCE v1，IB与RoCE协议栈在传输层以上是相同的，在链路层中以太网替代了IB，2014年IBTA进一步改进提出RoCE v2，在RoCE v1的基础上融合以太网网络层，使得RoCE v2协议数据包可以在第3层进行路由，可扩展性更优。2023年7月，AMD、Arista、Broadcom、思科、英特尔等企业联合成立超级以太网联盟，意图开发一种新的以太网传输层协议——超以太网传输（UET）协议，用来更好地满足人工智能和HPC工作负载的需求。
◼英伟达如何实现Scale-out互连？NVIDIA的网络布局涵盖了三种主要技术：NVLink、InfiniBand和Ethernet，它们具有各自不同的技术特点、应用场景和优势。NVLink作为NVIDIA专有的GPU间高速互连技术（Scale-up环节），与GPU联系紧密并同步演进，因此演进速度最快。IB协议由于NVIDIA/Mellanox的主导地位以及其针对数据中心、HPC、AI集群等特定用途，其演进速度受到标准生态掣肘相对较小。而Ethernet作为完全开放的标准，由于需要考虑跨代兼容和多厂商互通的问题，其演进速度相对较慢。因此在GTC 2024大会上，224G SerDes技术最先在NVL72电缆背板系统中得到应用，224G代际IB标准协议的Quantum X800交换机和ConnectX-8超级网卡也首次发布，与此同时以太网Spectrum X800交换机和BlueField-3超级网卡仍然采用的是112G代际。
◼从英伟达IB与Ethernet方案，看二者技术差异？网络技术核心关注的是带宽、时延等指标，IB和以太网交换机应用不同技术以追求更高的带宽、更低的延迟。作为具有原生RDMA架构的无损网络，加上其特有的SHARP技术，IB实现了更快的数据传输和更低的延迟，成为极致性能的代表。而NVIDIA以太网平台通过部署无损网络、RoCE、拥塞控制等技术，不断提升性能以追赶IB。

一、Scale-out 全视角：IB 与Ethernet 之争，性能与通用性的博弈

InfiniBand（IB）和以太网（Ethernet）是两种常见而又不同的网络技术。以太网最早是由梅特卡夫在1973年提出的设想，他于1979年创办了3Com公司，推动了以太网技术的普及。以太网是一种广泛用于局域网（LAN）的技术，基于IEEE 802.3以太网网络标准，用于连接设备之间的数据传输，适用于家庭、办公室网络、云计算、智慧城市和数据中心等场景。InfiniBand架构规范的1.0版本是由InfiniBand贸易协会（InfiniBand Trade Association，IBTA）于 2000 年发布，其诞生目的就是为了取代PCI总线。它引入了RDMA协议，提供更低的延迟、更高的带宽、更高的可靠性，从而实现更强大的I/O性能。Mellanox 是全球InfiniBand市场的主要供应商，在该技术上拥有着近乎垄断的地位，在2019年被英伟达收购。

两种技术逐渐走向融合，共同发展。2010年，IBTA提出RoCE v1，IB与RoCE协议栈在传输层以上是相同的，在链路层中以太网替代了 IB，但由于网络层（IP 层，即OSI 模型的第三层）仍依赖于以太网的MAC地址和VLAN标签进行通信，因此不能实现跨不同的IP子网传输。2014年，IBTA进一步改进提出RoCE v2，在 RoCE v1的基础上融合以太网网络层，使得RoCE v2 协议数据包可以在第3层进行路由，可扩展性更优，因此也称为IP routable RoCE。

图1：Ethernet 与 InfiniBand 发展历程

二者对比来看，IB具备高性能优势，以太网具备广泛兼容性。IB和以太网之间的
性能主要区别在时延、带宽、可靠性、可扩展性等方面，整体上，IB在带宽、延迟、可
靠性方面的表现更为出色，适合需要高性能通信的场景；而以太网因其较低的成本和广
泛兼容性，在一般网络应用中更为普及

图2：Ethernet 与 InfiniBand 部分性能对比

InfiniBand 和以太网各有特点和差异，在各自不同的适用领域不断发展演进。AI时代带来更低时延、更高带宽的网络需求，更高技术的产品持续放量。当前的 InfiniBand产品路线图显示了对更高带宽的预期需求，计划在未来推出1600Gbps GDR和3200Gbps LDR的InfiniBand 产品。

图3：InfiniBand 发展概况

同时，以太网技术也在不断发展。2023年7月，在Linux基金会的牵头下，AMD、Arista、Broadcom、思科、英特尔等企业联合成立超级以太网联盟，意图开发一种新的以太网传输层协议——超以太网传输（UET）协议，用来更好地满足人工智能和HPC工作负载的需求。

二、英伟达如何实现Scale-out互连？

NVIDIA 的网络布局涵盖了三种主要技术：NVLink、InfiniBand 和 Ethernet，它们具有各自不同的技术特点、应用场景和优势。NVLink作为NVIDIA专有的GPU间高速互连技术，与GPU联系紧密并同步演进，因此演进速度最快。InfiniBand虽然是ITBA开放标准，但由于NVIDIA / Mellanox 的主导地位以及其针对数据中心、HPC、AI 集群等特定用途，其演进速度受到标准生态掣肘相对较小。而Ethernet作为完全开放的标准，由于需要考虑跨代兼容和多厂商互通的问题，其演进速度相对较慢。

从NVIDIA GTC 2024发布的Blackwell平台架构可以明显看出这种演进速度的差异。首先，224G SerDes技术最先在NVL72电缆背板系统中得到应用，这表明NVLink在演进方面速度最快。其次，基于224G代际InfiniBand标准协议的Quantum X800交换机和ConnectX-8 超级网卡也首次发布，这虽然显示了InfiniBand技术也不断向前推进，并且快于 Ethernet，但其推进速度仍然受到面板侧互联技术的约束。其在互联技术和互联生态方面，面板侧的互联相比于背板侧的互联更不容易形成技术和商业上的闭环。而与此同时发布的基于以太网的Spectrum X800 交换机和 BlueField-3 超级网卡仍然采用的是112G代际Spectrum-4交换芯片和400GbE BlueField-3 DPU 产品，以太网技术在演进速度上相对较慢。

图4：Spectrum 与 Quantum交换机系列一览图

以最新一代GB200为例，其NVL72机柜的Scale-out网络相对复杂。整个NVL72系统犹如一台完整的超级服务器，Scale Up扩展完全由背板互联完成，面板侧只配备了网络接口和管理接口。计算单板中的B200芯片通过PCIE 6接口连接4张CX-8智能网卡，出4800G InfiniBand 接口。另外，Grace CPU 通过PCIE 6接口连接Bluefield-3 DPU芯片，出400GE或者2200GE以太网接口。面板侧总计出72个800G InfiniBand接口和36个200GE（或 18个400GE）以太网接口。72个800G InfiniBand 接口用于连接InfiniBand 网络实现算力的 Scale Out 扩展；而36个 200GE 以太网接口则用来连接业务面网络（用户网络）和数据面网络（存储网络）。

图5：GB200超级芯片的互连方案

2025 年 3月，NVIDIA公布最新一代Vera Rubin平台，Scale Out性能显著提升。
1）从单芯片看，VeraCPU 基于 Olympus 核心设计，Vera 设计的速度将是去年采用Blackwell 架构 CPU 的两倍。Rubin GPU由两颗TSMC 3nm的计算芯片构成，芯片两侧有两个I/O模块，I/O模块集成了NVLink、PCIe和NVLink C2C IP，释放20-30%的核心区域，芯片性能进一步提升。50 PFLOPs的密集FP4计算速度约为B300的三倍，Rubin还可以支持高达288 GB的快速内存。2）从机柜看，Rubin沿用Oberon架构，并与Grace的下一代 Vera CPU 配对。但英伟达更新了机柜规模的计算方式，VR200 NVL144 由72CPU×2GPU=144 计算芯片，VR NVL144的性能将提高至GB300 NVL 72的3.3倍。同时，在Scale Up环节上，Rubin将采用NVLink 6和224G SerDes协议，得益于通道数量加倍，速度将翻倍至3.6TB/s。3）从 Scale Out环节看，Rubin单卡网络接口将由Blackwell 世代 CX-7 400 Gbps 升级至CX-9 1.6T，同时部署x1600 IB/Ethernet Switch 进一步提升集群信息传输速度。

图5：GB200超级芯片的互连方案

Rubin Ultra 性能极致提升，通过将四颗GPU芯片与两颗I/O共封于超大ABF基
板，把单封装算力推至100 PFLOPs。为了提升内存，RubinUltra采用16个HBM4E堆
栈和16层32Gb DRAM的双层堆栈结构，同时运用Kyber的高密度架构。其中，HBM
容量达到1024GB，是普通Rubin容量的3.5倍多。在NVSwitch-7 + CPO 两层网络+延
迟支持下，Rubin Ultra 为百万卡级集群的推理和新联奠定硬件基础。

三、从英伟达IB与Ethernet方案，看二者技术差异？

网络技术核心关注的是带宽、时延等指标，IB 和以太网交换机应用不同技术以追
求更高的带宽、更低的延迟。作为具有原生 RDMA 架构的无损网络，加上其特有的
SHARP技术，IB实现了更快的数据传输和更低的延迟，成为极致性能的代表。而NVIDIA
以太网平台通过部署无损网络、RoCE、拥塞控制等技术，不断提升性能以追赶IB。

1. SHARP+NCCL：实现IB的极致性能

InfiniBand 交换机实现网内计算 SHARP 技术，执行数据归约改进运算性能。NVIDIA 网内计算（In-Network Computing）是专门为InfiniBand 架构开发的独特性能能力，这一特性使得网络内基于硬件的计算引擎能够在规模上卸载复杂的操作。网内计算在NVIDIA Quantum InfiniBand 交换机上实现，也就是NVIDIA可扩展分层聚合和归约协议（SHARP）技术，它集成在交换机ASIC中，旨在加速分布式计算系统中的集合通信。作为一种基于树的聚合机制，SHARP支持多个同步集体操作。启用SHARP后，交换机将被标识为聚合节点，并将执行此类数据归约。NCCL（集合通信库）在执行跨越多个GPU 节点的通信算法时利用了这一能力。由于数据只发送一次来执行操作，因此有效地将带宽增加了一倍，从而归约了数据。因此，在使用SHARP的端到端NVIDIA Quantum-2 400Gb/s InfiniBand 网络上运行的 NCCL 性能将优于没有使用 SHARP 的800Gb/s 端到端网络。

2. 无损网络与RDMA：Spectrum-X实现以太网无损网络，追赶IB

Spectrum-X 实现了以太网无损网络配置。InfiniBand是一种无损网络，而传统以太网本质上是一种有损网络，在拓展AI等分布式计算负载时，会带来重大挑战。Spectrum X代表着传统以太网的重大进步，实现了无损网络配置，从而确保不丢弃数据包并最大限度地降低尾延迟。

IB 具有原生 RDMA 架构，以太网通过 RoCE 运行 RDMA。远程直接内存访问
（RDMA）能够在网络上实现高速、低延迟的数据传输。InfiniBand具有原生RDMA架
构，而RoCE（RDMA over Converged Ethernet）是一种允许通过以太网使用RDMA的
网络协议，属于非原生支持，因此在部分性能方面（如端到端时延）不及IB，但是能够
满足大部分智算场景的业务性能要求，并且具有成本更低、供应商更多的优势。如今，
随着GPU计算和大规模AI案例在云环境中的采用，以太网在运行RoCE、优先级流量
控制（PFC）以及Spectrum-X无损网络时，可以成为一种实用的解决方案。

3. 拥塞控制：IB更为“严谨”，以太网在大规模集群中或许更具优势

IB 和以太网的拥塞控制机制略有不同，IB更为“严谨”。NVIDIA Quantum InfiniBand 配置了拥塞控制架构（CCA），以三阶段流程管理拥塞事件。IB通过一种特殊的信用流量控制机制来调节发送者和接收者之间的数据流。当交换机检测到拥塞时，它会开启一个称为转发显式拥塞通知（FECN）的位（bit）（在数据包中）。当数据包到达目标适配器时，它会使用具有不同位集的数据包响应源，该位集称为向后显式拥塞通知（BECN）。当发送端或源端适配器接收到BECN时，它会通过限制其数据包注入来做出响应。

而最典型的拥塞控制方法——显式拥塞通告（ECN）在以太网上部署生成式AI时并不充分。为了缓解拥塞，必须对传输数据（NIC或SuperNIC）的网络设备进行计量。Spectrum-X 利用 Spectrum-X 交换机的带内、硬件加速遥测数据，通知 Spectrum-X SuperNIC 进行流量计量，确保工作负载得到保护，并确保网络提供性能隔离。

相比较来说，IB的拥塞控制展示了更为“严谨”的特性，当大量数据发送后，目标适配器的缓存被填满，发送端将不能再发送数据，这会影响其实际性能。因此在大规模集群中，以太网或许更具优势。总结来说，IB作为具有超低延迟、原生RDMA架构和网内计算能力的无损网络，是性能上的黄金标准。而以太网的低成本、高灵活性使其更为多数厂商所青睐，并且NVIDIA 以太网平台通过部署无损网络、RDMA、拥塞控制等技术，不断提升性能，未来以太网和IB均有各自的用武之地。

四、投资建议

重点推荐盛科通信、海光信息，建议关注万通发展、澜起科技等。

无、风险提示

AI 应用进展不及预期。算力的长期需求是建立在AI应用逐步发展之上，在初期大模型训练带来大量算力需求之外，AI 应用带来的推理需求是长期维度上相关硬件设备市场空间增长的前提。如果AI应用进展不及预期，将对算力各环节需求产生影响。
技术发展不及预期。Scale-out 互连方案及其底层技术是AI芯片互连环节的核心，该技术难度大、壁垒高，若下一代发展受阻，或影响AI芯片互连速率提升。
市场竞争风险。虽然在Scale-out环节，英伟达当前处于一骑绝尘的竞争地位，但随着UALink联盟的崛起，以及技术的不断发展，尤其是海外云厂商自研芯片入局，市场竞争格局或将发生变化。