大脑的记忆存储机制一直是人类探索的谜题,而在人工智能领域,大语言模型的知识存储与回忆方式同样亟待研究。要理解这一问题,首先需要明确知识在模型参数中的存储位置。通过知识定位,可以揭示模型的内部运作逻辑,这也是理解和编辑模型的关键。
1 知识存储位置
根据的研究表明,知识主要存储在模型中间层的全连接前馈层(Feed-Forward Layer)。这一结论来自两类实验:因果跟踪实验与阻断实验。
1) 因果跟踪实验
ROME 采用控制变量的方法,通过“正常推理—>干扰推理—>恢复推理”三步流程,探索不同模块对知识回忆的作用:
正常推理:输入问题 q = (s, r),保存模型在未受干扰时的内部状态,用作对照。(见下图)
干扰推理:在主体 s 的嵌入向量上加入噪声,破坏输入表示,使模型处于混乱状态。(见下图)
恢复推理:逐层逐 Token 恢复干净的输出向量,并观察答案预测概率的变化。概率增量被称为“因果效应”,用于衡量该位置对答案的贡献。(如下图)
例如,对问题“斑马的肤色是”进行测试时,模型原本输出“肉色”。在干扰输入后,模型失去正确回忆能力。此时,若仅恢复“马”这个 Token 在某一层的输出,就会显著提升答案概率,说明该位置对知识回忆起关键作用。统计大量实验后,ROME 发现:
- 中间层 Transformer 在处理主体最后一个 Token s(−1) 时因果效应最强;
- 全连接前馈层是这种因果效应的主要来源,而注意力层的贡献主要集中在模型末尾层。
因此,ROME 推测知识的核心存储位置在中间层的前馈网络。
2)阻断实验
为了进一步验证全连接前馈层的主导作用,ROME 在恢复推理时人为阻断部分计算路径:
- 若冻结后续前馈层,模型的因果效应几乎消失;
- 若冻结注意力层,因果效应仅有轻微下降。
结果表明,大语言模型的知识主要存储于中间层的全连接前馈层,尤其是在处理主体最后一个 Token 时,其作用最为显著。
2 知识存储机制
明确了知识存储的位置之后,自然引出下一个关键问题:大语言模型具体是如何存储这些知识的?只有了解知识存储的机制,才能有效地设计编辑方法。基于知识定位的实验结果以及过去的相关研究,ROME 汇总了现有的观点,对知识存储机制做出了合理的假设。
- 主要存储位置:中间层的全连接前馈层(Feed-Forward Layer)
多项实验证明,知识更可能存储在中间层的 MLP(前馈网络)权重中。
这些前馈层可以被看作一种“键值存储器”:输入某个主体的向量时,它会从参数中“查出”与之对应的知识,并写入残差流中。
注释:残差流(Residual Stream)是指通过残差连接在神经网络层之间传播的信息流。可以想象注意力层和全连接前馈层分别以不同方式向残差信息流中更新信息。
- 注意力层(Attention)的作用:搬运和整合信息
- 注意力层并不是主要的“知识仓库”,它更像是“信息传输网络”。
- 每个注意力头会根据 Query-Key 的匹配来决定信息的流向,把相关的内容从残差流中拎出来或传递到下一个位置。
- 换句话说,它负责“把知识用起来”,而不是“保存知识”。
- 靠近输出层:更多是知识的组织与表达
- 模型的末尾层主要负责把前面层提取和整合的知识,转换成最终的预测结果。
- 这里的参数也会影响答案,但更多是偏向“表达”而非“存储”。
- 整体视角:分布式存储
- 知识不会严格地存放在某一个单独的参数或层里,而是以分布式的方式编码在网络权重中。
- 不过,从因果实验来看,中间层的前馈网络是“存储热点”,在查询主体最后一个 Token 时作用最明显。
3 总结一下
- 注意力层 (Attention)
- 主要负责信息搬运和整合。
- 通过 Query-Key 找到相关信息,通过 Value 把信息复制到残差流中。
- 相当于“信息的分发器”,决定模型在某个上下文中应该关注哪些内容。
- 前馈层 (Feed-Forward Layer, FFN)
- 是知识的主要存储单元。
- 可以看作键值存储器 (Key-Value Store),长期存放模型学习到的知识。
- 当输入出现时,FFN 会从中“检索”相关信息,并注入到残差流中。
- 层与层之间的关系
- Transformer 的多层结构并不是严格顺序依赖的,不同层次可能有相似功能。
- 但整体上,模型通过“注意力层搬运信息 → 前馈层调用知识 → 输出层组织结果”的流程来工作。
- 整体逻辑
- 输入层:收集主体信息。
- 中间层:存储并调用知识。
- 输出层:整理并生成最终答案。
所以在 Transformer 中,注意力层像“搬运工”,前馈层像“仓库”,残差流像“运输通道”,最终通过多层协同完成知识调用和输出。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。
希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01教学内容
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04视频和书籍PDF合集
从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
0690+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)
07 deepseek部署包+技巧大全
由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发