news 2026/3/1 0:57:31

resnet -> HC -> mHC

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
resnet -> HC -> mHC

经典的 ResNet 范式

过去十年,深度学习包括 Transformer)的基石是残差连接。
其公式非常简单:

其中 xl是第 l 层的输入。
这种设计最核心的优势在于 Identity Mapping 属性,它保证了信号在深层网络中传播时不会无限衰减或爆炸,是深层模型能训练起来的关键。

挑战者:Hyper-Connections (HC)

之前,字节提了一种叫 Hyper-Connections (HC) 的设计,试图打破标准残差的限制。
HC 的核心思想是:把残差流变宽。
它将残差流的特征维度从 C扩展到 n×C(n 是扩展倍数),让层与层之间有更丰富的信息通道。
其公式变为:

这里引入了三个可学习的矩阵
Hpre: 从宽残差流聚合信息输入到层。
Hpost: 将层输出映射回宽残差流。
Hres: 这是最关键的,它负责在残差流内部混合信息。

HC 的问题

虽然 HC 增加了容量,但它破坏了 Identity Mapping。
当网络层数 L 变深时,信号经过多个 Hres的连乘,会导致数值爆炸或消失。
实验表明,如果不加约束,HC 在大规模训练中极不稳定,Loss 会突然飙升,Gradient Norm 也会震荡

核心方法:mHC (Manifold-Constrained Hyper-Connections)

DeepSeek 团队提出的 mHC,核心思路非常直观:既然 HC 不稳定是因为 Hres太自由了,那我们就把它限制在一个安全的流形上。

什么是安全的流形?

mHC 强制要求残差映射矩阵 Hres必须是一个 双随机矩阵。
即满足以下条件:

  • 所有元素非负 (Hres≥0)。
  • 每一行的和为 1。
  • 每一列的和为 1。
    数学上,这个集合构成了 Birkhoff 多面体。

双随机矩阵有两个极好的数学性质,完美契合深度学习的需求:

  • Norm Preservation:它的谱范数 ≤1,这意味着信号经过它处理后,能量不会被无限放大,从而避免了梯度爆炸。
    Compositional Closure:两个双随机矩阵相乘,结果依然是双随机矩阵。这意味着无论堆叠多少层,依然保持良好的性质,恢复了类似 Identity Mapping 的稳定性。

如何实现?(Sinkhorn-Knopp 算法)

在代码实现上,如何保证一个可学习的矩阵始终是双随机的?
作者使用了 Sinkhorn-Knopp 算法。
给定一个初始参数矩阵,先取指数保证非负,然后交替进行行归一化和列归一化:

DeepSeek 在实验中迭代了 20 次 (tmax=20),就能得到满足约束的 Hres。
这也是这篇论文最精彩的理论部分:
把信号传播变成了一种特征的凸组合,既保留了 HC 的多流交互能力,又锁死了稳定性。

图8:HC与mHC矩阵的可视化对比,可以看到HC的值非常大且杂乱,而mHC的值分布均匀且稳定

系统级优化:理论很美,但速度怎么

搞过 LLM 的都知道,Memory Wall 是最大的瓶颈。
HC 将残差流扩大了 n 倍(例如 n=4),这意味着显存访问量 (I/O) 激增。
如果不做优化,训练速度会慢到无法接受。这里,DeepSeek 展现了他们强大的工程能力。

  • 算子融合
    由于 n倍的宽度,读写数据量巨大。
    作者利用 TileLang 开发了定制的 CUDA Kernel:
    将 RMSNorm 和矩阵乘法融合。
    将前向传播中的多次扫描操作融合到一个 Kernel 中。
    将 Sinkhorn-Knopp 的迭代计算融合在一个 Kernel 内部完成,避免中间结果频繁读写显存。
  • 重计算策略
    为了节省显存,作者设计了分块重计算策略。 不是每一层都存激活值,而是每 Lr层存一次输入 xl0。反向传播时,重新计算中间的 mHC 投影算子。这大大降低了峰值显存占用。
  • DualPipe 中的通信重叠
    在大规模流水线并行中,mHC 带来的额外通信量会阻塞计算。
    作者改进了 DeepSeek-V3 使用的 DualPipe 调度策略:
    把 MLP 的计算放在高优先级流上。
    把 mHC 的重计算和 Attention 的计算与通信进行更加细粒度的重叠。
    结果: 在 n=4的情况下,相比标准模型,mHC 的训练时间仅增加了 6.7%

图4:mHC 在 DualPipe 中的通信与计算重叠调度示意图

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 12:08:14

CUDA结构是什么

CUDA(Compute Unified Device Architecture)是NVIDIA推出的通用并行计算平台和编程模型,其结构可以从硬件架构、软件编程模型、内存层次、执行机制四个核心维度进行系统分析。以下是详细的结构解析: 一、硬件架构层次 1. GPU核心组…

作者头像 李华
网站建设 2026/2/18 21:55:31

从月销17万案例拆解九尾狐AI的企业级培训架构设计与落地实践

第一章:九尾狐AI培训体系的技术架构解析在企业AI培训领域,九尾狐AI构建了一套独特的技术架构体系,其核心设计理念是"降低技术门槛,提升落地效率"。class JiuWeiHuAI_TrainingSystem:def __init__(self, enterprise_data…

作者头像 李华
网站建设 2026/2/26 2:09:16

ST LSM6DSO IMU芯片介绍

好的,这份文档是意法半导体(STMicroelectronics)的 LSM6DSO 系统级封装(SiP)数据手册。LSM6DSO 是一款高性能、低功耗的 iNEMO 惯性测量单元(IMU),集成了3轴数字加速度计和3轴数字陀…

作者头像 李华
网站建设 2026/2/27 12:17:11

基于SpringBoot的宿舍管理系统的设计与实现

宿舍管理系统的背景高校宿舍管理是校园后勤工作的重要组成部分,涉及学生住宿分配、费用收缴、设施维护、安全巡查等多方面内容。传统的人工管理方式效率低下,容易出错,难以满足现代高校规模化、精细化管理需求。信息化转型成为解决这一问题的…

作者头像 李华