DL之Titans_MIRAS：在执行时用“惊讶度”驱动记忆写入的长期记忆架构与统一理论框架 —— 从超越 MSE 的 MIRAS 设计空间（包含 YAAD、MONETA、MEMORA 三种注意力自由-开发者社区

DL之Titans_MIRAS：在执行时用“惊讶度”驱动记忆写入的长期记忆架构与统一理论框架 —— 从超越 MSE 的 MIRAS 设计空间（包含 YAAD、MONETA、MEMORA 三种注意力自由鲁棒记忆变体）到 Titans 的深度记忆模块、动量与自适应遗忘实现，及其在 BABILong、基因组与极长上下文任务上扩展到百万级 tokens 并在效率与精度上超越更大模型的实证研究与工程实践要点

导读：Titans 与 MIRAS 提出并验证了一条可行路径：通过把长期记忆设计为可在线梯度更新的深层神经模块、用梯度“惊讶度”选择性写入、并在 MIRAS 框架下系统化地替代传统 MSE/点积目标（引入更鲁棒的损失与正则），可以在保持并行化与效率的同时显著提升模型对超长上下文的表达能力与实时适应性，从而使 AI 能够在运行时有效记住、更新并利用长期信息（在多项极长上下文与领域任务上取得了显著实验效果）
● 问题：传统 Transformer 在超长上下文上计算代价陡增；线性 RNN/SSM 虽然高效但固定压缩率限制表达。
● 方案：Titans 用深度可学习的长期记忆（在线梯度更新、惊讶触发、动量与遗忘）来捕捉重要长期信息；MIRAS 把各种序列方法统一为“在线优化的关联记忆”设计空间，提出替代 MSE 的更鲁棒目标与具体模型变体（YAAD/MONETA/MEMORA）。
● 结果：在语言建模、极长上下文推理、基因组和时间序列任务上取得显著效果（在某些极长上下文基准上优于更大模型），并能扩展到百万／百万级 token。
● 影响：为实现可扩展、实时、稳健的长期记忆 AI提供了实践架构与理论指南，指向更广泛的目标/正则化空间与记忆更新算法研究方向。
>>背景痛点：
● 序列长度扩展受限：Transformer 的注意力机制随序列长度二次增长，导致处理超长上下文（如整篇文档、基因组、长时间序列）计算与内存成本迅速爆炸，难以直接扩展。
● 固定压缩信息的局限：线性 RNN / SSM 等方法通过把长历史压缩到固定状态来获得线性复杂度，但这种固定大小的压缩往往丢失大量细粒度信息与复杂关系，无法充分表达非常长序列中的丰富结构。
● 无法在运行时高效记住新知：大多数模型需要离线重训练才能把新信息融入“核心知识”，缺乏一种在**推理运行时（test-time）**即可选择性吸收并长期保存新信息的机制。
● 对离群点与噪声敏感：传统以均方误差（MSE）或点积相似度为核心的记忆/注意目标容易被异常数据或噪声牵扯，影响长期存储的稳定性与可靠性。
>>具体的解决方案：
● Titans 架构：将长期记忆设计为可学习的深层神经模块（多层感知机）而不是固定向量/矩阵，允许模型在运行时用梯度信号主动更新这部分权重，从而实现“边运行边学（test-time memorization）”。该长期记忆会输出对过去的压缩/摘要，供注意力模块选择性检索。
● “惊讶度”写入机制：用输入与当前记忆之间产生的梯度信号（surprise）作为写入触发器——只有当新输入在当前记忆下产生大“惊讶”时才优先写入长期记忆，从而节省容量并突出新颖/重要事件。
● 动量与自适应遗忘：引入动量（momentum）以捕捉连续相关信息，并用权重衰减/遗忘机制管理有限记忆容量，保证重要信息被保留而过期或噪声被弱化。
● MIRAS 理论框架：把序列模型统归为一个“学习关联记忆（associative memory）”问题，明确四个可设计维度（记忆结构、注意偏置/目标、保留门/正则、记忆更新算法），并建议超越 MSE 的更鲁棒目标以提升稳定性。
● MIRAS 变体（注意力自由）：提出 YAAD（基于 Huber 损失以抗离群）、MONETA（基于广义范数的严格惩罚）和 MEMORA（概率映射约束以保证内存稳定性）等具体可行变体，以验证替代目标与正则的效果。
>>核心思路与步骤（实现要点）：
● 以“梯度惊讶”决定写入：在线计算新输入相对于当前记忆产生的误差梯度；当梯度幅度/模式超过阈值时触发写入流程，把该信息以梯度更新方式写入长期记忆网络。
●用深层记忆网络做压缩与表征：长期记忆模块采用多层感知机等深层结构，以更强的表达能力对历史信息进行编码和摘要，而不是靠固定向量的逐步叠加。
●引入动量捕获相关序列：写入信号考虑瞬时惊讶和最近历史的惊讶（动量），这样即使某些后续标记本身不惊讶，也能被包含进长期记忆（保留语境连贯性）。
●可控遗忘机制：通过权重衰减或正则化把长期记忆中的老旧/不再需要信息逐步弱化，控制容量与防止记忆污染。
● MIRAS 的四维设计流程：明确（1）选什么样的记忆结构，（2）为记忆选择怎样的注意/偏置目标，（3）使用何种保留/遗忘正则，（4）采用哪种优化算法来做 memory 更新。基于该流程可系统探索新的记忆设计。
>>优势（相对于现有方法的收益）：
● 扩展性与效率并重：Titans 能把长期记忆的写入和摘要与注意力协同，既保持训练与推理的并行化能力，又能扩展到百万级别甚至 >2M tokens 的上下文长度，从而在超长上下文任务上比仅有短期注意或固定压缩的模型表现更好。
● 更强表达与鲁棒性：深层长期记忆相较于固定大小压缩有更高的表达能力；MIRAS 提供的非欧氏/鲁棒目标（如 Huber loss）降低对离群点的敏感性。
● 实时适应能力：模型能在运行时吸收新信息（test-time memorization），无需离线重训练就将新知融入核心记忆，适配流式数据或连续更新场景。
● 可解释性与可控性：用“惊讶度”作为写入信号提供了一种可解释的记忆选择机制；动量与遗忘参数为工程上提供了可控的记忆管理手段。
>>后续系列/论文的结论观点与经验建议：
● 超越 MSE 的设计空间：研究者应探索更丰富的目标与正则（非欧氏距离、Huber、广义范数、概率约束等），因为这些目标在噪声/离群数据情形下更稳健，能提升长期记忆的可靠性。
● 做好线上稳定性与抗退化测试：在部署在线更新机制前，必须进行多轮在线写入后的长期稳定性测试（检测崩溃、记忆漂移或累积错误），并评估遗忘/正则化策略的长期效果。
● 隐私与安全考虑：在线写入会引入新风险（敏感信息被永久记录、记忆被滥用或被攻击），系统设计要包含写入准入策略、可控删除与审计机制。
● 资源-效能权衡：在资源受限的实际场景下，可优先将“惊讶度”阈值、记忆深度与遗忘速度作为调节杆，平衡性能提升与计算/存储成本。
● 跨模态与通用性验证：除了自然语言，团队已在基因组（DNA）、长时间序列等任务上测试，建议后续工作继续在多模态/多领域上验证通用性与鲁棒性。

《Titans + MIRAS: Helping AI have long-term memory》翻译与解读

Figure 1 Overview of the Titans (MAC) architecture. It uses a long-term memory to compress the past data and then incorporate the summary into the context and pass it to attention. Attention can then decide if it needs to attend to the summary of the past or not.泰坦（MAC）架构概述。它使用长期记忆来压缩过去的数据，然后将摘要纳入上下文中并传递给注意力机制。注意力机制随后可以决定是否需要关注过去的摘要。

1. 引言与总体主旨 — 概要概览

核心要点

经验/技巧（面向研究者/工程师）

2. Titans：边运行边学习的新型架构

核心要点

经验/技巧（工程实践指引）

3. MIRAS：统一的序列建模理论框架

核心要点

经验/技巧（方法学建议）

4. 实验与结果（主要发现）

核心要点

经验/技巧（如何评估与复现实验）

5. 结论

核心要点

经验/技巧（面向未来研究方向）

《Titans + MIRAS: Helping AI have long-term memory》翻译与解读

地址	博客文章：https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/
时间	2025年12月4日
作者	Google

Figure 1 Overview of the Titans (MAC) architecture. It uses a long-term memory to compress the past data and then incorporate the summary into the context and pass it to attention. Attention can then decide if it needs to attend to the summary of the past or not.泰坦（MAC）架构概述。它使用长期记忆来压缩过去的数据，然后将摘要纳入上下文中并传递给注意力机制。注意力机制随后可以决定是否需要关注过去的摘要。

1. 引言与总体主旨 — 概要概览

作者提出两项工作：Titans（具体架构）与 MIRAS（理论框架），目标是把 Transformer 的短期强记忆能力与线性 RNN/SSM 的高效长上下文处理结合起来，让模型在运行时（test-time）能“记住”并动态更新核心记忆，从而支持极长上下文（百万级 tokens）并保持高效推理和训练。文章强调“surprise（惊讶/梯度）”作为选择性记忆的信号，以及通过在线/即时参数更新实现长期记忆而无需离线重训练。

核心要点

>>目标：实现实时适应的长期记忆（test-time memorization），兼具速度与表达力。

>>两部分：Titans（架构实现——深度神经记忆模块）与MIRAS（把各种序列模型统一到“在线优化/联想记忆”视角的理论蓝图）。

经验/技巧（面向研究者/工程师）

在设计长上下文模型时，把“如何选择要写进长期记忆”作为核心问题（而不是盲目扩大窗口）。
把“惊讶度（gradient-based surprise）”作为记忆触发器：既简单又理论上可解释。
规划评估指标时同时衡量准确性（perplexity/下游任务）与扩展性（context length scaling）。

2. Titans：边运行边学习的新型架构

Titans引入一种深度神经网络作为长期记忆模块（不是传统的固定向量/矩阵压缩），可在模型运行过程中用梯度信号实时更新权重，从而记住并概括大量过去信息；同时把该记忆的摘要返回给注意力模块供短期检索与推理使用。该设计兼顾表达能力与线上更新效率。

核心要点

>>长期记忆为多层感知机（MLP）：相比固定尺寸向量，深层网络有更强的表达、归纳与压缩能力。

>>惊讶度（surprise metric）驱动写入：只有当新信息与当前记忆差异较大（high surprise）时才优先写入，以节省容量并保留重要异常/新知。

>>动量（momentum）与遗忘（weight decay）机制：动量确保“相关后一段信息”也能被捕获；自适应权重衰减实现选择性遗忘，管理有限记忆容量。

>>与注意力协作：长期记忆输出作为摘要，供注意力选择是否进一步关注，达到“长期/短期记忆协同”。

经验/技巧（工程实践指引）

当实现 online update 时，优先使用梯度幅度/方向差异作为写入阈值，而不是仅靠 token 频次或基于启发的标记。
设计记忆模块时测试不同深度（层数），文章实验显示“更深的长期记忆在相同参数预算下表现更好”，因此在给定参数预算下优先尝试增加记忆模块深度。
在生产或大规模推理里，务必引入可控遗忘（如权重衰减或正则化），防止模型被短期噪声污染长期记忆。
注意实现细节：在线更新要兼顾并行化/可微性/数值稳定性，并在不同硬件上测试更新开销与延迟。

3. MIRAS：统一的序列建模理论框架

MIRAS 将序列模型（transformer、线性 RNN、SSM 等）视为一种“学习关联记忆（associative memory）”的问题，并把模型设计分解为四个关键选择：记忆结构（architecture）、注意偏置（attentional bias）、保留门/正则（retention gate）、记忆更新算法（memory algorithm）。此框架使研究者能在更广泛的数学目标与正则化空间中设计新的模型（例如非欧氏目标），从而超越传统 MSE/点积相似度范式。

核心要点

>>四个设计自由度（memory architecture / attentional bias / retention gate / memory algorithm）构成一个可搜索的设计空间。

>>超越 MSE/点积范式：常用的 MSE 或点积相似度容易受离群点影响，MIRAS 鼓励采用更鲁棒或更具结构性的目标（比如 Huber loss、广义范数或概率约束）。

>>三个具体变体（attention-free）：YAAD（抗离群）、MONETA（更强的范数约束）、MEMORA（概率映射约束），展示了在替代目标与正则下设计记忆模块的有效性。

经验/技巧（方法学建议）

>>探索非欧氏目标：在数据含噪或离群多的任务上，考虑 Huber 损失或更稳健的统计目标以提高记忆稳定性（文章中的 YAAD 即为示例）。

>>把保留机制看作正则化设计：将忘记机制视为正则项（retention gate），从优化视角调整“新学与旧知的权衡”。这有助于理论分析与超参数选取。

>>在需要极高稳定性的场景（如长期日志、金融时间序列）优先考虑像 MEMORA 那样把记忆更新限制为概率映射/受控分布变化，以便更好地保证记忆一致性。

4. 实验与结果（主要发现）

文章将 Titans 与 MIRAS 变体（YAAD、MONETA、MEMORA）与多种领先模型（Transformer++、Mamba-2、Gated DeltaNet，甚至 GPT-4）在语言建模、零样本推理、基因组（DNA）建模与时间序列上比较。主要结论是：Titans 在精度（perplexity、下游任务）与长上下文扩展性上表现优于多数线性递归基线，并能扩展到超过 2 百万 token 的上下文；在 BABILong 等极长上下文基准上甚至胜过大型模型如 GPT-4（参数更少却表现更好）。

核心要点

>>深度记忆的重要性：相同参数预算下，更深的长期记忆模块能显著降低perplexity，并在序列长度增长时保持更好伸缩性。

>>效率与并行性：Titans 与 MIRAS 变体在保持并行训练与线性推理复杂度的同时，取得了比 Mamba-2、Gated DeltaNet 更好的任务表现。

>>极长上下文表现：在 BABILong 等基准上，Titans在极长文档推理任务上优于所有基线，包括一些参数远大的模型（如 GPT-4）。模型能扩展到>2M tokens。

经验/技巧（如何评估与复现实验）

在评估“长期记忆”能力时，不要只看短上下文的指标（如短句子 perplexity）；应使用专门的长文基准（如 BABILong）并报告模型随上下文长度增长的曲线。
做**消融实验（ablation）**来验证：是深度记忆层数带来的收益，还是其它超参数/正则导致的差异。文章表明“深度”本身是关键变量。
在横向比较时，保持参数量、训练数据与训练步骤的对齐或归一化，以避免因训练资源差异导致的误判。

5. 结论

Titans + MIRAS 提出了一条把“在线优化/梯度驱动记忆写入”与“深度可学习记忆结构”结合的路线。该路线既是一套实用架构（Titans），也是一套理论思路（MIRAS），它们共同表明：可以不通过离线重训练就让模型在运行时稳健地吸收新信息，从而推动“长上下文 AI” 的下一代发展。文章同时指出，走出欧氏-MSE范式、利用更广泛的损失和正则化是未来重要方向。