news 2026/4/10 5:28:23

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构

当MoE与N-gram相结合,一种全新的稀疏性范式正在悄然改变大语言模型的能力边界。

近期,来自北京大学和深度求索的研究团队提出了一种名为Engram的创新条件记忆模块,它通过结合经典的N-gram嵌入技术和现代深度学习架构,为大语言模型引入了高效的知识检索能力。Engram的核心突破在于,它能够在不增加计算开销的前提下,通过静态记忆存储大幅提升模型在知识、推理和长上下文任务上的表现

这一技术实现是基于一个深刻的洞见:语言建模中的许多任务本质上是静态、模式化的知识检索,而非动态推理。传统Transformer架构缺少原生的知识查找机制,被迫用昂贵的计算来模拟检索过程。Engram则通过简单的哈希查找,以O(1)的时间复杂度直接获取这些模式化知识。

1. 条件计算 vs. 条件记忆:两种稀疏性范式

当前的稀疏性研究主要集中在条件计算领域,以混合专家(MoE)模型为代表。MoE通过动态路由激活不同专家子网络来处理不同输入,从而实现模型容量的扩展而不显著增加计算成本。这类似于一个大型图书馆,每次只取出少量相关的书籍进行阅读。

但语言信号本身具有内在的异质性,语言建模实际上涉及两种本质不同的子任务:

  1. 组合推理:需要深度、动态的计算过程
  2. 知识检索:处理静态、模式化的语言模式(如命名实体、成语短语)

传统Transformer架构缺乏专门的知识检索机制,导致即使是检索一个简单的多令牌实体(如“Diana, Princess of Wales”)也需要消耗多个注意力层和前馈网络层进行计算。这实质上是用昂贵的计算来重建静态查找表,浪费了宝贵的计算深度。

Engram提出的条件记忆范式,则通过在模型中引入稀疏查找操作,直接检索静态知识,从而与MoE的条件计算形成互补。它将静态模式存储与动态计算在结构上分离,让模型各司其职。

2. Engram核心模块:现代化的N-gram嵌入

2.1 架构概览

Engram模块的设计目标是增强Transformer主干的表示能力,同时保持计算效率。该模块仅应用于特定层,将标准输入嵌入和输出层保持不变。

Engram的处理流程分为两个功能阶段:检索和融合。

2.2 基于哈希

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/24 13:48:00

2026年新角色:碳足迹测试顾问的崛起

一、碳足迹测试顾问的职能定位:软件测试技能的跨界延伸 碳足迹测试顾问并非全新职业,而是传统软件测试能力在绿色低碳领域的价值重构。其核心职责包括: 数据验证工程师 对标软件测试中的功能测试:验证碳足迹核算系统(…

作者头像 李华
网站建设 2026/4/3 6:57:03

中大型企业、国企智能费控赛道排行榜出炉!合思 AI 领跑商旅、费控合规一体化

在数字化浪潮席卷全球的当下,企业财务费控领域正迎来颠覆性变革。合思平台以人工智能为核心引擎,在商旅闭环管理、全场景费用管控、合规风险防控等关键领域展现出卓越实力。此刻,我们隆重推出合思AI智能费控解决方案——一款集技术创新与实践…

作者头像 李华
网站建设 2026/3/30 19:47:13

Opencv 学习笔记:提取轮廓中心点坐标(矩计算法)

在轮廓分析中,获取轮廓的中心点(质心)是目标定位、尺寸测量的核心步骤。本文通过 OpenCV 的图像矩(cv.moments())实现轮廓中心点的精准计算与可视化,新手可直接复用完整流程。 核心代码实现 import cv2 a…

作者头像 李华
网站建设 2026/4/8 10:15:13

淘客系统的佣金资金流处理:数据追溯与账户交易的安全机制

淘客系统的佣金资金流处理:数据追溯与账户交易的安全机制 大家好,我是 微赚淘客系统3.0 的研发者省赚客! 在淘客返利平台中,佣金资金流的处理直接关系到平台的财务安全与用户信任。每一笔订单产生的佣金必须准确记录、可追溯&am…

作者头像 李华
网站建设 2026/3/29 1:24:36

返利机器人的商品数据同步方案:API拉取与增量更新的技术实现

返利机器人的商品数据同步方案:API拉取与增量更新的技术实现 大家好,我是 微赚淘客系统3.0 的研发者省赚客! 在返利机器人场景中,商品数据的实时性与准确性直接影响用户转化率。为保障商品库始终与电商平台(如淘宝联…

作者头像 李华
网站建设 2026/3/28 22:16:46

淘宝返利软件的可观测性架构:Prometheus与Grafana监控体系搭建

淘宝返利软件的可观测性架构:Prometheus与Grafana监控体系搭建 大家好,我是 微赚淘客系统3.0 的研发者省赚客! 在高并发、分布式环境下,淘客系统的稳定性依赖于完善的可观测性能力。微赚淘客系统3.0 基于 Prometheus Grafana …

作者头像 李华