news 2026/4/14 21:50:19

DeepSeek新工作mHC:一个优化版的残差连接结构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek新工作mHC:一个优化版的残差连接结构

前天,DeepSeek发布了一篇新的工作[1]。

标题是:mHC: Manifold-Constrained Hyper-Connections
翻译一下:mHC:流形约束的超连接

这篇工作是一个阶段性的研究成果,而不是模型更迭。

原文的数学性很强,本文主要从更容易理解的宏观层面,看看它在做什么。

回顾残差结构

这篇工作用一张图就能概括。

下图a是早已广泛应用的残差结构,图b是24年新提出的超链接结构(HC),图c则是这篇工作提出的mHC结构。

残差结构主要是应对解决深度神经网络的训练不稳定的问题。

因为当神经网络层数增加,每一层都有可能丢一部分信息,层出多了就容易出现梯度消失或梯度爆炸。

ResNet提出的残差结构是在旁路多加了一条 shortcut,即

输出 = x + F(x)

这样处理,就把网络从学一个复杂映射变成学一个接近 0 的修正项。

它可以保证网络每一层在最差情况下什么都不学,参数也和上一层保持一样,不会变坏。

这样网络就可以叠得更加深。

超链接结构(HC)

虽然普通残差很有效,但它会导致的一个现象是:“这一层的特征,只和上一层的同一条特征有关。”

因为每一层都是对应通道的相加,通道之间没有相互交流。

为了更充分地增加信息利用:HC 把 “一条残差流” 变成 “n 条并行残差流”,并允许它们互相交换信息。

这样处理,大模型会更“灵活”,特征组合方式更多样。

一句话总结:残差保证“不会退步”,HC 追求“用得更全”。

流形约束的超连接结构(mHC)

虽然HC的思想很好,但存在的一个局限性就是模型训练不稳定。

因为残差通道的组合是模型自己通过学习得到的,它破坏了残差连接固有的恒等映射特性,导致梯度消失/梯度爆炸会重新出现。并且,扩宽的残差流带来了显著的内存访问开销。

mHC的思路是将HC的残差连接空间投影到一个特定的流形(manifold)上,以恢复恒等映射特性,保障训练稳定。

同时,mHC还在系统层面,采用了内核融合、选择性重计算、通信重叠等方式减小内存访问开销。

mHC在27B的模型上进行了实验,发现训练的稳定性得到了提升。

并且,模型的性能整体也得到提升。

总之,这是一项偏基建类型的工作,作者团队也只是拿小参数量模型进行了验证。

估计这一项改进会应用到下一代的模型中,期待他们在过年前放出大招。

参考

[1] https://arxiv.org/pdf/2512.24880

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 9:17:21

网盘直链下载助手扩展开发:集成HunyuanOCR识别功能

网盘直链下载助手扩展开发:集成HunyuanOCR识别功能 在日常使用网盘时,你是否曾为一张扫描讲义、一份发票截图或一段PDF缩略图中的文字无法复制而烦恼?手动输入费时费力,第三方在线OCR工具又存在隐私泄露风险——图片上传到不明服务…

作者头像 李华
网站建设 2026/4/2 11:34:07

论文降AI率要求20%以下?论文降AI率工具怎么选

现如今,越来越多人开始用AI写论文,据统计,73%以上的大学生都表示曾使用过ai来辅助写论文。然而,各大查重平台也开始严格查AI率,各大高校也有明文规定,AI率超过30%的视为学术不端行为,直接影响学…

作者头像 李华
网站建设 2026/4/15 1:28:51

Surya OCR横向评测:数学公式与表格识别能力对比

HunyuanOCR横向评测:数学公式与表格识别能力深度解析 在教育数字化浪潮席卷全球的今天,一份科研论文中的复杂公式、一张财务报表里的嵌套表格,往往成为自动化处理流程中的“拦路虎”。传统OCR面对这些非线性内容时频频失手——要么把积分符号…

作者头像 李华
网站建设 2026/4/7 13:30:56

星露谷物语SMAPI模组加载器完全指南:从安装到精通

星露谷物语SMAPI模组加载器完全指南:从安装到精通 【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 欢迎来到《星露谷物语》模组世界的完整指南!SMAPI(Stardew Modd…

作者头像 李华
网站建设 2026/4/1 22:23:23

AI创业新方向:基于lora-scripts提供定制化LoRA模型训练SaaS服务

AI创业新方向:基于lora-scripts提供定制化LoRA模型训练SaaS服务 在生成式AI浪潮席卷各行各业的今天,内容创作者、品牌方和开发者都面临一个共同挑战:如何让大模型真正“懂自己”?通用模型虽然强大,但在表达特定艺术风格…

作者头像 李华
网站建设 2026/4/11 21:50:03

终极GitHub加速方案:3分钟告别访问卡顿

作为一名开发者,你是否经常遇到GitHub页面加载缓慢、代码克隆超时、文件下载中断的困扰?这些问题不仅影响工作效率,更可能阻碍技术学习和项目进展。现在,Fast-GitHub将为你带来全新的开发体验,彻底解决这些痛点。 【免…

作者头像 李华