news 2026/1/11 17:23:51

26年元旦DeepSeek梁文峰署名发的mHC讲了什么

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
26年元旦DeepSeek梁文峰署名发的mHC讲了什么

mHC(流形约束超连接)是 DeepSeek 团队在 2025 年底发布的一种神经网络架构创新,核心是给超连接(HC)加 “流形约束”,既保留 HC 拓宽残差流的性能优势,又解决其训练不稳定、显存开销大的问题,让大模型训练更稳、更省资源。相对于字节之前提出的HC,它主要改造的是残差的架构(这里是我早些年对resnet的解读,可以回看下),从工程和算法上左了优化,在不显著增加训练时间的前提下,在LLM经典的benchmark上测试结果显著提升。

这一在元旦的发布,又让AI从业者在休假的几天寝食难安。

以下从核心背景、创新思路、实现方法、效果与意义四方面粗浅的解读:


一、核心背景:超连接的 “甜蜜烦恼”

  1. 残差连接(Residual Connection):就像模型里的 “单车道高速路”,让数据信号能 “抄近道” 从浅层传到深层,避免深层训练时信号消失,是大模型能训练到千亿参数的基础。
  2. 超连接(HC):把 “单车道” 扩成 “多车道”,用可学习矩阵混合多条残差流,提升模型表达能力,但无约束的连接矩阵会破坏 “恒等映射”(信号原样传递的兜底机制),导致信号放大 / 衰减(最高可达 3000 倍)、梯度异常,训练易崩溃;同时多流并行让显存开销大增,反向传播要存更多中间激活,成了大规模训练的瓶颈。

二、mHC 的创新思路:给连接矩阵加 “紧箍咒”

mHC 的核心是流形约束—— 把 HC 的连接矩阵 “关” 进双随机矩阵(Birkhoff 多胞形)构成的流形空间,这个 “紧箍咒” 有三个关键规则:

  • 矩阵元素非负;
  • 每行、每列元素之和都等于 1(归一化);
  • 双随机矩阵相乘仍为双随机矩阵(封闭性)。

这样做的好处很直观:

  • 连接矩阵成了 “加权混合器” 而非 “放大器”,信号只是在不同残差流间重新分配权重,不会系统性放大(实验显示信号放大倍数控制在 1.6 倍内),特征均值也能保持,从根源解决信号爆炸 / 消失问题。
  • 恢复恒等映射特性,哪怕模型很深,信号传播也稳定,梯度不会失控。
  • 封闭性让多层复合映射仍保稳定,训练时的数值行为更可控。

三、实现方法:数学约束 + 工程优化

  1. 流形投影:Sinkhorn-Knopp 算法

    • 先让模型学习普通实值连接矩阵,再用 Sinkhorn-Knopp 算法做熵投影,把矩阵 “压” 进双随机流形,这个操作可微,不影响训练时的梯度传递。
    • 相当于给连接矩阵做 “标准化”,确保它符合双随机规则,同时保留模型的学习能力。
  2. 工程优化降开销

    • 内核融合:把 RMSNorm、矩阵乘法等算子打包执行,减少中间数据读写,提升计算效率。
    • 选择性重计算:反向传播时丢弃非关键中间激活,需要时再重新计算,显存占用减少 70% 以上。
    • DualPipe 调度:优化通信与计算的并行,进一步提升训练吞吐量。

四、效果与意义

  1. 训练稳定性:信号放大倍数严格控制在 1.6 倍内,彻底摆脱传统 HC 的稳定性困扰,Loss 曲线更平稳,梯度异常大幅减少。
  2. 效率与性能:扩展率 n=4(4 条残差流)时,仅增加 6.7% 训练时间,却能带来明显性能提升;同时显存开销显著降低,让更大规模的模型训练成为可能。
  3. 长远意义:为大模型基础架构提供新方向,既兼容现有 HC 的优势,又解决其核心痛点,可用于 Transformer、ResNet 等主流网络,助力新一代基础模型的设计与训练,也为资源受限场景下的大模型部署提供新思路。

简单地说

  • 传统残差连接:单车道高速,信号顺畅但运力有限;
  • 超连接(HC):多车道高速,运力提升但无交通灯,易堵车、撞车(信号失控);
  • mHC:给多车道装智能调度系统(双随机流形约束),车流(信号)按规则分流,不拥堵、不超速,运力与安全兼得。

【关注我,后续我将给出手动实现的mHC代码】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/4 21:06:31

靠谱的康有利到家理疗小程序样本

靠谱的康有利到家理疗小程序样本分析在互联网技术飞速发展的今天,到家服务类小程序成为众多行业拓展业务的新途径,理疗行业也不例外。康有利到家理疗小程序作为其中的典型代表,为我们提供了一个靠谱的样本。利民科技在这类小程序的开发与优化…

作者头像 李华
网站建设 2026/1/4 21:05:31

电脑配置流程(WebGL项目)

一、下载火狐浏览器:https://www.firefox.com/zh-CN/thanks/ 二、右键 右下角网络图标—打开网络和Internet设置—更改适配器选项—右键以太网—点击属性—双击Internet协议版本4(TCP/IPv4),将自动获取IP改为手动获取&#xff0c…

作者头像 李华