news 2026/5/8 0:39:14

继何恺明DyT后,LayerNorm再遭暴击!简单erf函数竟成Transformer新宠

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
继何恺明DyT后,LayerNorm再遭暴击!简单erf函数竟成Transformer新宠


今年早些时候,由何恺明、Yann LeCun 等大佬联手推出的 Dynamic Tanh (DyT) 曾引发热议,它向我们展示了 Transformer 中不可或缺的 LayerNorm 其实可以用一个简单的 Tanh 函数替代。

而现在,普林斯顿大学刘壮团队(DyT 原班人马)在这一方向上取得了最新突破。

他们发现,Tanh 还不是终点,一个基于高斯误差函数 (erf) 设计的算子 Derf,不仅更加简单,更在视觉、生成、基因序列建模等全模态任务上,性能全面反超了 LayerNorm 和 DyT。

论文标题:

Stronger Normalization-Free Transformers

论文链接:

https://arxiv.org/abs/2512.10938

研究背景

在深度学习架构中,LayerNorm (LN) 和 RMSNorm 早已成为 Transformer 的出厂标配。

它们通过统计数据的均值和方差来规范化激活分布,从而稳定训练并加速收敛。但这种对统计量的依赖,也引入了额外的显存访问和计算开销,甚至在某些特定 Batch 设置下会引发不稳定性。

前序工作 DyT 提出了一个颠覆性的观点:LayerNorm 在训练中本质上是在做一个 S 形的非线性变换。因此,我们可以直接用一个带参数的 tanh(αx) 函数来模拟这个过程,从而甩掉对均值和方差的依赖。

虽然 DyT 成功打平了 LayerNorm 的性能,但这还不是终点。研究团队进一步思考:Tanh 是否就是数学上的最优解?是否存在一种函数,不仅能平替LayerNorm,还能实现性能的全面反超?

核心方法

为了找到这个天选之子,研究团队并没有盲目炼丹,而是从数学性质上总结出了替代归一化层的四大黄金法则:

零中心性 (Zero-centeredness):函数输出需围绕 0 分布,这与 Norm 的“去均值”作用类似,对稳定收敛至关重要。

有界性 (Boundedness):输出必须限制在有限范围内(如 [-1, 1]),防止信号在前向传播中爆炸。

中心敏感性 (Center Sensitivity):在 0 附近必须对输入变化敏感(导数不为 0),不能有宽阔的死区,以保证微小信号的传播。

单调性 (Monotonicity):函数必须单调递增或递减,保持特征的相对顺序。波浪形或非单调函数会导致性能大幅下降。

〓 图1. 点对点函数的四大关键属性:零中心性、有界性、中心敏感性和单调性。满足这些属性是替代归一化层的必要条件。

基于这四大法则,团队对大量候选函数进行了海选。最终,误差函数 (Error Function, erf) 脱颖而出,击败了 Tanh、Arctan 等一众对手。

Dynamic erf (Derf) 的定义非常简洁美观 :

其中:是标准的高斯误差函数。是可学习的缩放参数(Scale),是可学习的平移参数(Shift)。是通道级的仿射参数,与 LayerNorm 保持一致。

实验结果

Derf 的表现不仅是替代,而是实打实的超越。作者在视觉、语言、语音甚至 DNA 序列建模上进行了广泛验证,结果显示 Derf 是一套通用的解决方案。

〓 图2. Derf (蓝色) 在不同模态任务上全面超越 LayerNorm 和 DyT 。

视觉分类 (ViT):在 ImageNet-1K 上,Derf 在 ViT-Base 和 ViT-Large 上均超越了 LayerNorm (LN) 和 DyT。例如在 ViT-L 上,Derf (83.8%) > DyT (83.6%) > LN (83.1%)。

〓 表1. 在 ImageNet-1K 视觉分类任务中,于不同规模 ViT 模型上均超越 LayerNorm 和 DyT。

图像生成 (DiT):在目前最火的 Diffusion Transformer (DiT) 架构中,Derf 展现了惊人的优势。在 DiT-XL/2 模型上,Derf 的 FID 分数(越低越好)降到了 18.92,显著优于 LN (19.94) 和 DyT (20.83)。这说明 Derf 在处理高频细节生成时更具优势。

〓 表2. 在 ImageNet 图像生成任务中,显著降低了各规模 DiT 模型的 FID 分数(越低越好)。

科学 AI (DNA 建模):在长序列基因建模任务(Caduceus 模型)中,Derf 同样以 87.3% 的准确率刷新了记录,优于原始使用 RMSNorm 的 86.9%。

〓 表3. 在 GenomicBenchmarks DNA 序列建模任务中,准确率全面优于默认归一化层和 DyT。

拟合更差,反而更强?

这篇论文最反直觉、也最精彩的发现是关于泛化性的讨论。

作者在训练结束后,计算了模型在训练集上的 Loss(Evaluation-mode Training Loss)。结果发现一个有趣的现象:LayerNorm 的训练 Loss 其实是最低的,而 Derf 和 DyT 的训练 Loss 都要更高一些。

〓 表4. 模型在评估模式下的训练集 Loss 对比:Derf 的训练 Loss 高于归一化层,表明其优势源于更强的泛化而非拟合。

这说明了什么?

LayerNorm 太聪明了:它能利用统计量动态适应数据,导致它在训练集上死记硬背(拟合能力过强),反而牺牲了一定的泛化能力。

Derf 自带正则化光环:Derf 仅依赖几个固定的标量参数 (α, s),这种限制反而构成了隐式的正则化,强迫模型学习更通用的特征,从而在测试集上表现更好。

Derf 处于甜蜜点:Derf 的拟合能力虽然不如 Norm,但比 DyT 强(Loss 比 DyT 低),在拟合与泛化之间找到了最佳平衡点。

结语

从何恺明等人提出的 DyT 到如今普林斯顿团队的 Derf,我们正在见证 Transformer 架构的一次极简主义回归。

Derf 用一个无需统计量的 erf 函数,不仅干掉了复杂的 LayerNorm,更用实打实的性能提升告诉我们:在深度学习中,更简单的设计,往往意味着更强的泛化能力。

Derf 实现极其简单(几行代码),且不依赖 Batch 信息,绝对是一个值得尝试的涨点神器。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 15:02:48

Kotaemon中的索引构建速度影响因素分析

Kotaemon中的索引构建速度影响因素分析 在企业级智能问答系统日益普及的今天,一个常被低估但至关重要的环节正悄然决定着系统的敏捷性与可维护性——知识索引的构建速度。对于采用检索增强生成(RAG)架构的系统而言,即使拥有最先进…

作者头像 李华
网站建设 2026/5/1 9:38:09

Eclipse+maven+selenium自动化测试用例入门

相关的开发环境搭建参考以下文章: Eclipsemavenselenium自动化测试开发环境搭建 确认环境搭建成功后,在src/test/java目录下,defaut package右键新建class,命名为:GoogleTest,相关代码如下: i…

作者头像 李华
网站建设 2026/5/3 14:29:27

Kotaemon在政务智能问答中的合规性设计考量

Kotaemon在政务智能问答中的合规性设计考量 在政务服务日益智能化的今天,公众对AI助手的期待早已超越了“能答上来”,而是要求它“答得准、说得清、可追溯”。一个回答错误可能误导市民错过申报时限,一次数据泄露可能动摇公众对数字政府的信任…

作者头像 李华
网站建设 2026/5/5 22:52:24

Kotaemon支持批量导入知识文档并自动索引

Kotaemon支持批量导入知识文档并自动索引 在企业智能化转型的浪潮中,一个常见却棘手的问题浮出水面:如何让AI真正“懂”企业的内部知识?客服机器人面对新产品手册答非所问,技术支持系统对最新政策变更毫无反应——这些并非模型能力…

作者头像 李华
网站建设 2026/5/7 16:04:30

18、游戏中的控制流操作与Direct3D钩子技术

游戏中的控制流操作与Direct3D钩子技术 1. Adobe AIR模块钩子实现 在游戏开发与调试过程中,有时需要对特定模块的代码进行钩子操作,以监控或修改其行为。这里以Adobe AIR.dll模块为例,介绍如何实现钩子。 1.1 两部分近调用钩子设计 设计了一个两部分的近调用钩子。第一部…

作者头像 李华
网站建设 2026/5/3 4:30:47

20、游戏透视与视野拓展技巧揭秘

游戏透视与视野拓展技巧揭秘 在游戏世界中,玩家们总是希望能够获得更多的信息和优势,以提升自己的游戏体验和竞技水平。本文将深入探讨几种常见的游戏作弊技巧,包括穿墙透视、变焦透视、抬头显示(HUD)等,以及它们的原理和实现方法。 1. Z缓冲与穿墙透视 在游戏渲染中,…

作者头像 李华