DeepSeek 发布全新论文，一文读懂 Engram！-开发者社区

在大模型的发展历程中，一个长期困扰研究者效率的难题是：模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。

近日，DeepSeek 团队发布重磅论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models，由梁文锋等研究者署名，宣布为大模型架构开辟了一个全新的稀疏性维度：条件记忆（Conditional Memory）。

为什么 MOE 还不够

长期以来，MoE（专家混合模型）是大模型稀疏性的事实标准。它通过条件计算平衡了模型容量与计算成本。但 DeepSeek 指出，语言信号具有高度的异质性：

动态推理：需要深度的神经计算。
静态知识：如命名实体、公式，本应通过查找直接获取。

目前的 Transformer 缺乏原生的查找原语，被迫用昂贵的算力去运行时重建静态表，这极大地浪费了序列深度。

为此，DeepSeek 推出了Engram模块——一个将经典 N-gram 嵌入现代化，实现O(1) 常数级快速查找的高效知识外挂。

论文四个重点划线：

稀疏分配：发现 U 形扩展规律

研究团队为量化 Engram 与 MoE 之间的协同，论文提出稀疏性的分配问题。这也是该论文的核心。并通过大量实验发现了一个显著的U 形扩展规律（U-shaped scaling law）

权衡关系：纯 MoE 架构缺乏专用内存，迫使模型通过计算低效重构静态模式；而过度分配给记忆则会损害模型的动态推理能力。
最佳平衡点：当大约 20%-25% 的稀疏参数预算分配给 Engram 时，模型性能达到峰值。例如在 10B 参数规模下，验证损失从 1.7248 降至 1.7109。

基于前述容量分配规律，研究团队训练了Engram-27B模型（总参数量 26.7B，激活参数 3.8B）。在该模型中，原 MoE-27B 的专家数量从 72 个减少到 55 个，同时将释放出的参数重新分配到 5.7B 参数的 Engram 内存中，使容量分配比例达到 ρ=74.3%\rho = 74.3\%ρ=74.3%。

经过预训练后，Engram-27B 在保持与 MoE-27B 相同参数规模和 FLOPs 的前提下，在知识与推理、通用推理、代码以及数学等多个任务上均表现出明显提升。

实证验证：全维度性能飞跃

在严格的等参数（iso-parameter）和等浮点运算量（iso-FLOPs）约束下，Engram-27B 模型在知识、推理、代码和数学等领域均表现出相较 MoE 基线的一致性提升。

预训练性能比较：Dense 模型、MoE 模型与 Engram 模型（来源：论文）