news 2026/5/16 5:22:09

大模型还在“间歇性失忆“?DeepSeek这波操作直接把记忆焊死在模型里!小白程序员也能轻松上手的革命性技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型还在“间歇性失忆“?DeepSeek这波操作直接把记忆焊死在模型里!小白程序员也能轻松上手的革命性技术

RAG技术不是解决大模型长期记忆的最佳方法,DeepSeek最新发表的论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》为大模型记忆提供了新的思路:

DeepSeek提出的新方法:Conditional Memory(条件记忆)

Conditional Memory(条件记忆),出了一个可规模化、可工程化、可量化分析的实现。

Engram架构Engram架构不是 RAG,也不是 KNN,而是模型内的“可学习查表”,核心流程如下

1.构造 N-gram: 从 token 序列中滑动窗口提取 2-gram、3-gram 等

2.Hash 映射: 每个 N-gram 通过多个 hash 函数映射到固定大小的索引空间 避免组合爆炸,同时保持 O(1) 查询

3.N-gram Embedding表:Hash 索引对应到可学习的 embedding 向量, 这些 embedding 构成模型内部的“静态记忆库”

这里的关键在于:这些记忆不依赖上下文动态生成,而是像参数一样被存储和复用。

  1. 多路 N-gram 融合:Concat 而不是 Attention

图中可以看到:

  • 不同阶的 N-gram(2-gram、3-gram)
  • 不同 hash head
  • 多个 embedding 向量

这些向量首先被Concat(拼接),而不是立即做加权或 Attention。

这样做的动机是:

  • 保留不同粒度模式的完整信息
  • 将“选择权”延迟到后续的 gating 阶段
  1. Context-aware Gating:让记忆服从上下文

这是 Engram 最关键、也最现代化的设计。

在 Concat 之后,模块引入了一个上下文感知的融合机制

  1. 输入 hidden state(Input Hidden)
  • 来自 Transformer 当前层
  • 代表“模型此刻的语义理解”
  1. 线性映射 + Scaled Dot Product
  • hidden state 与 N-gram memory 做相似度计算
  • 本质上是一个轻量级、单步 Attention
  1. 门控(⊗)
  • 计算一个标量或向量 gate
  • 决定:“当前上下文是否信任这些静态记忆”
  1. Depthwise Causal Conv
  • 在时间维度上引入局部上下文
  • 增强连续 token 间的模式一致性
  • 代价极低,但效果显著

最终,经过 gating 的记忆信息被注入回主干 hidden state。

DeepSeek-OCR:上下文压缩的新方法

另外,更早一段时间,DeepSeek的另外一篇论文《DeepSeek-OCR: Contexts Optical Compression》中提出了创新的方法:专注于通过视觉token压缩长文本上下文,实现高效的OCR(光学字符识别)功能。该模型将文本映射为二维图像,并在解码时保持高精度,被广泛视为解决LLM长上下文效率问题的潜在突破。

DeepSeek OCR架构这一方法潜在价值是:高效解决大模型记忆问题,为大型语言模型(LLMs)的历史长上下文压缩、记忆遗忘机制等## 学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

研究方向展现出巨大潜力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 6:58:59

AI Agent28个高频面试问题与准备策略总结

这里为你整理了28个AI Agent核心面试问题与回答框架。我根据考察重点将其分为五大模块,并提供了一份面试准备策略。 一、核心概念与基础架构 这部分考察你对Agent本质的理解,是面试的起点。 Agent定义与区别 问题:什么是AI Agent&#xff…

作者头像 李华
网站建设 2026/4/30 13:05:34

2026 浙江 SAP 实施避坑手册:5 个致命错误 + 本地企业实战避坑案例!

各位正在筹备 SAP 项目的浙江老板、负责人,先问你们一个扎心问题:是不是觉得花大价钱买了 SAP,数字化转型就稳了?要提起警惕!我见过太多浙江企业 —— 不管是杭州的电子高科、宁波的机械制造,还是嘉兴的汽车…

作者头像 李华
网站建设 2026/5/12 2:21:57

一文详解Kimi的AI Agent如何跑在阿里云上

此前,Kimi将Agent能力落到具体产品形态中,在常规对话的基础上,相继推出了“深度研究”、Agentic PPT”、“OK Computer”及“数据分析”等多项Agent技能。 Kimi的C端Agent业务在高峰期承载了数以万计并发请求,每一次的请求都需要…

作者头像 李华
网站建设 2026/5/9 2:46:04

C语言内存管理:从malloc/free到柔性数组

我们之前掌握了基本的内存开辟方法: int val 20; char arr[10] {0};上述两种开辟有一个共同点 空间开辟大小固定数组在创建的时候,必须指定数组的长度,数组空间一旦确定了大小不能调整 但是很多情况上,有时候我们需要的空间大小…

作者头像 李华
网站建设 2026/5/15 1:03:49

JavaStreamAPI的性能审视,优雅语法背后的隐形成本与优化实践

在协助某电商团队进行性能问题排查时,我们遇到一个典型场景:对十万条订单数据进行处理(筛选金额大于1000元的订单并计算平均价格)。团队最初使用JavaStreamAPI编写的实现耗时约280毫秒,而一位经验丰富的同事改用传统循…

作者头像 李华