resnet -＞ HC -＞ mHC-开发者社区

经典的 ResNet 范式

过去十年，深度学习包括 Transformer）的基石是残差连接。
其公式非常简单：

其中 xl是第 l 层的输入。
这种设计最核心的优势在于 Identity Mapping 属性，它保证了信号在深层网络中传播时不会无限衰减或爆炸，是深层模型能训练起来的关键。

挑战者：Hyper-Connections (HC)

之前，字节提了一种叫 Hyper-Connections (HC) 的设计，试图打破标准残差的限制。
HC 的核心思想是：把残差流变宽。
它将残差流的特征维度从 C扩展到 n×C（n 是扩展倍数），让层与层之间有更丰富的信息通道。
其公式变为：

这里引入了三个可学习的矩阵
Hpre: 从宽残差流聚合信息输入到层。
Hpost: 将层输出映射回宽残差流。
Hres: 这是最关键的，它负责在残差流内部混合信息。

HC 的问题

虽然 HC 增加了容量，但它破坏了 Identity Mapping。
当网络层数 L 变深时，信号经过多个 Hres的连乘，会导致数值爆炸或消失。
实验表明，如果不加约束，HC 在大规模训练中极不稳定，Loss 会突然飙升，Gradient Norm 也会震荡

核心方法：mHC (Manifold-Constrained Hyper-Connections)

DeepSeek 团队提出的 mHC，核心思路非常直观：既然 HC 不稳定是因为 Hres太自由了，那我们就把它限制在一个安全的流形上。

什么是安全的流形？

mHC 强制要求残差映射矩阵 Hres必须是一个双随机矩阵。
即满足以下条件：
所有元素非负 (Hres≥0)。
每一行的和为 1。
每一列的和为 1。
数学上，这个集合构成了 Birkhoff 多面体。

双随机矩阵有两个极好的数学性质，完美契合深度学习的需求：
Norm Preservation：它的谱范数 ≤1，这意味着信号经过它处理后，能量不会被无限放大，从而避免了梯度爆炸。
Compositional Closure：两个双随机矩阵相乘，结果依然是双随机矩阵。这意味着无论堆叠多少层，依然保持良好的性质，恢复了类似 Identity Mapping 的稳定性。

如何实现？(Sinkhorn-Knopp 算法)

在代码实现上，如何保证一个可学习的矩阵始终是双随机的？
作者使用了 Sinkhorn-Knopp 算法。
给定一个初始参数矩阵，先取指数保证非负，然后交替进行行归一化和列归一化：

DeepSeek 在实验中迭代了 20 次 (tmax=20)，就能得到满足约束的 Hres。
这也是这篇论文最精彩的理论部分：
把信号传播变成了一种特征的凸组合，既保留了 HC 的多流交互能力，又锁死了稳定性。

图8：HC与mHC矩阵的可视化对比，可以看到HC的值非常大且杂乱，而mHC的值分布均匀且稳定

系统级优化：理论很美，但速度怎么

搞过 LLM 的都知道，Memory Wall 是最大的瓶颈。
HC 将残差流扩大了 n 倍（例如 n=4），这意味着显存访问量 (I/O) 激增。
如果不做优化，训练速度会慢到无法接受。这里，DeepSeek 展现了他们强大的工程能力。
算子融合
由于 n倍的宽度，读写数据量巨大。
作者利用 TileLang 开发了定制的 CUDA Kernel：
将 RMSNorm 和矩阵乘法融合。
将前向传播中的多次扫描操作融合到一个 Kernel 中。
将 Sinkhorn-Knopp 的迭代计算融合在一个 Kernel 内部完成，避免中间结果频繁读写显存。
重计算策略
为了节省显存，作者设计了分块重计算策略。不是每一层都存激活值，而是每 Lr层存一次输入 xl0。反向传播时，重新计算中间的 mHC 投影算子。这大大降低了峰值显存占用。
DualPipe 中的通信重叠
在大规模流水线并行中，mHC 带来的额外通信量会阻塞计算。
作者改进了 DeepSeek-V3 使用的 DualPipe 调度策略：
把 MLP 的计算放在高优先级流上。
把 mHC 的重计算和 Attention 的计算与通信进行更加细粒度的重叠。
结果：在 n=4的情况下，相比标准模型，mHC 的训练时间仅增加了 6.7%