当序列编辑走向百万次量级,如何避免参数崩塌?中科大团队详细解析终身归一化机制,并提出 StableEdit 实现长程正向累积。
近年来模型编辑为更新大语言模型中过时、错误的知识提供了更精准与低成本的途径,但当编辑数量从几十次扩展到几十万、上百万次(即终身模型编辑,Lifelong Model Editing, LME)时,模型常常陷入灾难性遗忘和模型崩溃。
我们注意到,近期能在百万级长程编辑中表现稳定的几个代表性方法(ULTRAEDIT、RLEdit)背后都包含同一个策略——Lifelong Normalization (LN),移除后编辑性能将会大幅度下降。
然而 LN 如此关键的底层机制仍是一个“黑箱”,其在终身编辑稳定性中的具体作用尚不明确。
本文给出了LN 在 LME 中的第一份理论解释:LN 不是普通的数值归一化,而是在编辑过程中对动态梯度分布做递归贝叶斯追踪。
并且在与岭回归结合使用时,LN 能够生成具有渐近正交与有界范数的参数更新结果,从而有效缓解灾难性遗忘与系统性崩溃的问题。
在这个过程中历史编辑会帮助后续编辑变得更稳,我们称之为正向累积效应(positive cumulative effect)。
基于这一理解,我们提出StableEdit,在 LN 之上加 warm-up 和 full whitening,在长程编辑评测WikiBigEdit 50 万条、ULTRAEDITBENCH 200 万条中仍保持较强的稳健性。
论文标题:
More Edits, More Stable: Understanding the Lifelong Normalization in Sequential Model Editing
论文作者:
Xin Ma, Wei Chen, Qi Liu, Derong Xu, Zhi Zheng*, Tong Xu*, Enhong Chen*
作者单位:
中国科学技术大学
录用会议:
ICML 2026
论文地址:
https://arxiv.org/abs/2605.11836
项目主页:
https://github.com/MINE-USTC/StableEdit
问题:终身模型编辑到底难在哪?
大语言模型在预训练阶段吸收了大量世界知识 [1, 2],但现实世界持续变化,模型参数中存储的事实会逐渐过时 [3]。
重新训练或继续预训练成本太高,于是模型编辑应运而生:在尽量不破坏整体能力的前提下,对特定事实做局部、定向的更新 [4]。
如果只编辑一两次,问题较好处理;真正接近实际应用的是终身模型编辑(LME)——编辑请求像流水线一样持续到来,今天改一个公众人物的新职位,明天改一种药物的适应症,后天又要删一条错误事实……
当这条流延伸到几万、几十万乃至百万步,两个核心难题就被放大:
灾难性遗忘(Catastrophic Forgetting):新的编辑可能干扰此前已经写入的知识;
模型崩溃(Model Collapse):参数累积更新使模型逐渐偏离原始分布,进而损害通用语言能力。
近期 ULTRAEDIT [9] 和 RLEdit [10] 这类方法在长程编辑中表现出较强的稳定性。
我们注意到:它们设计动机虽然各异,但都共享同一个组件——在每一步在线维护梯度的滑动均值与标准差,并据此对梯度做归一化、再求解参数更新。我们把这一类机制统一抽象为Lifelong Normalization (LN)。
实验显示,只要移除 LN,这些方法长程编辑性能会大幅度下降,这说明 LN 是长程编辑稳定性的关键,但它为什么有用,至今没有系统解释。本文围绕这个问题展开。
一个反直觉的现象:早期编辑能够促进后续编辑
〓 图1. LN 在长程编辑中的作用
我们在 Llama-3-8B-Instruct 上做了两组对照实验。
第一组(图 a):对 ULTRAEDIT、RLEdit、MALMEN 三个编辑器对 LN 进行消融,结果非常一致——去掉 LN 后长程性能立刻崩溃。这说明 LN 是这些方法长程稳定性的支柱。
第二组(图 b):我们比较两种编辑方式:(i) 从第 1 步开始执行完整编辑序列,再评估后半段;(ii) 跳过前半段,直接从后半段开始编辑并评估。
直觉上,前半段编辑应该是「负担」——参数空间被改过、可塑性被消耗,后续编辑应该更难。但结果恰恰相反:完整跑完整条序列的模型,在后半段上反而表现更好。我们把这种现象称为正向累积效应(positive cumulative effect)。
这就引出了全文的核心问题:LN 究竟在终身模型编辑中做了什么?为什么早期编辑可以「反哺」后期?
预备知识:使用 LN 的编辑器每一步在做什么?
LN 出现在参数更新形成之前。在第步,模型对当前批次的编辑样本提取两个向量:
编辑层(如 MLP 的
down_proj)的输入隐藏状态(key);损失对该层输出的梯度(value gradient),它刻画了"当前编辑希望该层输出往哪个方向修正"。
LN 持续维护这些向量的滑动均值和滑动标准差,对每个新样本做逐维标准化得到,再带入岭回归求出闭式参数更新,最终。
LN 的处理过程可以简单描述为:在线维护梯度的均值/方差 → 对当前梯度做归一化 → 把归一化后的梯度送入岭回归求闭式解。
问题在于:每编辑一步,模型参数都在变,所以 LN 维护的梯度所服从的分布并非固定分布,而是一个不断移动的目标。
一个成功的 LME 方法要兼顾三类目标:Efficacy要求模型正确记住当前编辑事实;Generalization要求模型能回答语义等价的改写问题;Specificity要求模型在无关知识上尽量保持原有行为。
理论:LN 为什么越编辑越稳?
我们的核心问题——「为什么序列编辑越往后,基于 LN 的编辑器反而越稳定?」——可以拆成三个层面回答:LN 在估计什么;这些估计为什么越来越准;更准的估计如何转化为稳定的更新。
LN 到底在估计什么?动态分布的递归贝叶斯追踪
每一步编辑都对应一个 value gradient 分布;它的一阶矩与二阶矩会随参数更新而漂移。LN 维护的滑动均值/方差,本质上就是在用历史样本对这个动态分布做在线估计。
关键直觉:如果分布漂移过快,估计永远滞后;如果漂移平滑可追踪,历史信息就能成为当前估计的有效先验。
我们引入一组温和的正则条件:梯度对小幅参数更新不会剧烈跳变;协方差不会退化或无界。由此可以证明引理:只要每一步参数更新本身受控,分布的漂移幅度就能被控制住。这一引理为后续的闭环提供了入口。
接着,我们把 LN 的滑动统计量重新解释为一个递归贝叶斯追踪过程:以 Normal-Inverse-Wishart (NIW) 作为的共轭先验,把第步的后验作为第步的先验,再用当前 batch 的样本进行修正。
⭐结论 1:LN 看似经验性的"滑动均值与标准差更新公式"其实有明确的概率含义——它是在对动态梯度分布做在线贝叶斯估计,每一步既继承历史,又用当前样本修正。
为什么越编辑统计估计越准?正向累积效应的统计学根源
光有"递归追踪"还不够,关键是这种追踪是否会随着编辑数变好。我们进一步引入一个可追踪漂移假设:均值/协方差的漂移随编辑步数衰减。
由于真实矩不可观测,我们用相邻两步估计量的差与作为代理量做实证检验:在目标编辑数据集上,这两个代理量很快衰减到量级以下并保持稳定,说明该假设在实际编辑流中是温和而成立的。
在这一条件下,我们给出两个误差界:
Theorem 3.5(均值估计的 MSE 界):随历史样本累积,均值估计误差按速率下降,其中是到第步累计处理的样本数;
Theorem 3.6(协方差估计的谱范数误差界):协方差估计误差(在谱范数意义下)也获得相应的衰减。
这两个定理一起说明:早期编辑不是负担,而是以"额外样本"的形式进入后续 LN 的统计估计,使得后续每一步的归一化都能基于更准确的统计量。
⭐结论 2:从直观上讲,早期编辑不只是把事实写进模型,也在帮助 LN「认识」当前编辑流的梯度分布。这就是正向累积效应的统计学根源——历史统计越充分,后续归一化就越少依赖高噪声的初始估计。
准的统计量如何变成稳定的参数更新?
有了准确的之后,LN 把每个 value gradient 做"中心化以及白化"处理:,再代入岭回归得到闭式解:
其中是白化后的梯度,是从 key中导出的"特征编辑方向"向量(对应不同样本在参数空间中要写入的方向)。
我们进一步把每一个 value gradient 拆成两块:整体共享偏移(所有样本共用的"分布漂移方向") +样本独有的扰动(这个具体编辑真正想要改的方向)。
基于这一分解,可以证明:
〓 Theorem 3.8:参数更新的渐近性质
(a) 偏置可控:均值估计越准,由共享偏移引入的"无效更新方向"越弱,参数更新会更集中于当前编辑真正需要的方向;
(b) 范数有界:存在统一上界,因此序列编辑不会因更新无限增长走向模型崩溃;
(c) 弱干扰 / 渐近正交:不同编辑步之间的更新干扰由的相关性控制;对弱相关编辑流,更新在期望意义下趋于近似正交,进而缓解灾难性遗忘。
⭐结论 3:LN 把"数值归一化"升级成了"更新几何控制"——范数有界抑制崩溃,弱干扰更新缓解遗忘。
闭环:自强化稳定循环
把上面三步串起来:
准的统计估计 → 受控的参数更新 → 受控的更新进一步限制下一步分布漂移 → 维持可追踪漂移 → 让下一轮统计估计仍然准确。
这就是终身归一化中的self-reinforcing stability loop。它也解释了为什么会观察到反直觉的正向累积效应:早期编辑不是负担,它们既写入新事实,又为后续的 LN 提供更可靠的统计先验。
从理论到方法:StableEdit
上述理论暴露出基于 LN 的编辑方法的两个薄弱点:
1.目标编辑流刚开始时统计估计误差最大——滑动均值与方差从高噪声状态出发;
2. 现有 LN 的逐维归一化只用到协方差矩阵的对角信息,丢掉了维度间的相关性。
StableEdit 直接对应这两点:
Warm-up 阶段:在目标编辑流开始前,用少量样本预跑 LN,让不再从高噪声的初值出发。它的作用并不是让模型预先学会任务,而是给后续归一化一个更稳的统计起点。
Full whitening:用完整协方差替代逐维除以标准差,利用维度间的相关性把 value gradient 几何形状校正得更干净。
StableEdit 不需要训练任何额外模块、不改骨干结构;额外开销只来自协方差分解,在 7B-8B 模型上实测开销甚至比 RLEdit、AlphaEdit 等基线更低。
Warm-up 解决「开始时统计量不够准」,full whitening 解决「只看逐维方差不够全面」。两者都服务于同一个目标:让长程编辑中的每一步更新都建立在更可靠的统计尺度上。
实验
实验围绕三个问题展开:StableEdit 是否提升知识更新性能?长程编辑后模型是否仍保持通用能力?理论预测的更新几何性质是否在数据中得到验证?
〓 表1. 标准规模主表
如表 1 所示:在 ZsRE / FEVER / ULTRAEDITBENCH / WikiBigEdit (约 17K~20K 编辑)标准规模下,StableEdit 在多个骨干模型上稳定领先。
例如在 ULTRAEDITBENCH × Llama-3-8B-Instruct 上,Generalization 达到 85.46%,超过 ULTRAEDIT 的 81.28%;在医学领域数据集 MedCF [12] 上无需领域专门调参也优于 ULTRAEDIT,体现稳定性收益的跨域可迁移。
〓 表1. 标准规模主表
进一步把编辑流拉到WikiBigEdit 50 万条(表 2),StableEdit 在 Mistral-7B-v0.3、Llama-3-8B-Instruct 和 GPT-J-6B 三个模型上全面优于ULTRAEDIT,说明在大规模长程下 StableEdit 仍能在新知识写入与旧知识保持之间维持更好的平衡。
〓 图5. UltraEditBench 200 万步轨迹
最后我们把编辑流推到ULTRAEDITBENCH 200 万条这一极端规模。RLEdit、ULTRAEDIT 和 StableEdit 三个共享 LN 机制的方法都能避免灾难性崩溃,但 StableEdit 通过 warm-up 和 full whitening 全程保持更稳定的整体优势。
通用能力是否被破坏?
〓 图2. GLUE 五任务
GLUE [11] 上五个任务(SST、MRPC、RTE、CoLA、NLI)的轨迹显示,StableEdit 在长程编辑过程中整体接近编辑前模型的表现,而 AlphaEdit 等基线随编辑数累积明显下降,体现出长程编辑中的模型漂移风险。
〓 图3. UMAP 隐藏状态分布
我们还用 1000 个与编辑流无关的随机 prompt 投影最后一层隐藏状态做 UMAP 可视化。StableEdit 编辑后的表示分布与编辑前几乎重合,说明它的更新真的是「局部、定向」的——而不是对整个表示空间产生大范围扰动。
LN 机制验证
〓 表4. 组件消融
组件消融:我们发现移除 LN 会导致性能显著退化;移除 warm-up 或 full whitening 后性能也下降,但幅度小一些。
这正好对应理论中的层次:LN 是地基,warm-up 改善初始统计,而full whitening 改善更新方向几何。
我们也验证了 warm-up 数据不需要和目标编辑分布严格一致:把 warm-up 替换成医学领域的 MedCF,目标仍是 ZsRE/FEVER,性能基本不掉。这说明 warm-up 真正提供的是「统计起点」,而非「任务先验」。
〓 图3. 跨方法更新几何对比
如图 3 所示:在 GPT-J-6B 上,启用 LN 后相邻参数更新的余弦相似度始终接近 0(弱干扰);在 Llama-3-8B-Instruct 上,AlphaEdit 的更新范数随步数持续增长,而 StableEdit 保持有界并呈下降趋势。这与 Theorem 3.8 关于范数有界与弱干扰的预测完全一致。
小结
我们围绕 LME 中「为什么 LN 这么关键」这一问题,给出了第一份理论解释:LN 是一个对动态 value-gradient 分布做在线贝叶斯估计的递归追踪机制。
它让历史编辑反过来帮助后续编辑(正向累积效应),并通过岭回归把统计稳定性转换为参数更新的范数有界与弱干扰的几何性质,从而同时缓解模型崩溃与灾难性遗忘。
沿着这一理解,StableEdit用 warm-up 和 full whitening 直接补强了理论中暴露出的两个薄弱点,在百万级编辑流中稳定带来提升。
更广义地,本文为 LME 提供了一个可复用的分析视角:长程稳定性不是单次编辑成功率的简单累加,而取决于编辑过程中的统计追踪能否可靠、产生的更新能否保持受控的几何结构。
我们也由此论证了:基于 LN 的知识编辑方法是迈向「终身稳定编辑」的一条可行路径。
Highlights
1. LN 是 LME 稳定性的关键机制:移除后多个代表性编辑器在长程下显著退化。
2. 早期编辑可以反哺后期:在 LN 作用下,正向累积效应让历史样本变成更可靠的统计先验。
3. LN + 岭回归 = 受控的更新几何:参数更新偏置变小、范数有界、相邻步弱干扰——同时缓解模型崩溃与灾难性遗忘。
参考文献
[1] Petroni et al. Language Models as Knowledge Bases? EMNLP-IJCNLP 2019.
[2] Brown et al. Language Models are Few-Shot Learners. NeurIPS 2020.
[3] Lazaridou et al. Mind the Gap: Assessing Temporal Generalization in Neural Language Models. NeurIPS 2021.
[4] Sinitsin et al. Editable Neural Networks. ICLR 2020.
[5] Meng et al. Mass-Editing Memory in a Transformer (MEMIT). ICLR 2023.
[6] Mitchell et al. Fast Model Editing at Scale (MEND). ICLR 2022.
[7] Tan et al. Massive Editing for Large Language Models via Meta Learning (MALMEN). ICLR 2024.
[8] Fang et al. AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models. ICLR 2025.
[9] Gu et al. UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models. TMLR 2026.
[10] Li et al. Reinforced Lifelong Editing for Language Models (RLEdit). ICML 2025.
[11] Wang et al. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ICLR 2019.
[12] Xu et al. Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models (MedCF). CIKM 2024.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·