news 2026/4/26 15:22:06

Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力、三个注意力模块有什么区别,作用分别是什么

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力、三个注意力模块有什么区别,作用分别是什么

目录

1 transformer原始架构

2 三个注意力模块的区别和翻译过程中的作用

2.1 编码器中的多头自注意力(无掩码)

2.2 解码器中的多头掩码自注意力(有掩码)

2.3 解码器中的多头编解码注意力(无掩码)

2.4 我的通俗理解


abstract:

Masked Multi-Head Self-Attention(带掩码的多头自注意力)

Multi-Head Encoder-Decoder Attention(多头编码器-解码器注意力)

1 transformer原始架构

然后在Transformer彻底剖析(0): Transformer的Decoder的输入输出都是什么

已经写了自回归的问题,接下来整理一下这里面三个注意力模块有什么区别,以及作用分别是什么。

2 三个注意力模块的区别和翻译过程中的作用

从前面图中可以看到,这三个注意力模块分别是

  • 编码器中的多头自注意力模块,不带掩码
  • 解码器中:带掩码的多头自注意力,
  • 解码器中:多头编解码注意力,不带掩码

2.1 编码器中的多头自注意力(无掩码)

  • 作用:完整理解中文句子"我爱你"的内部关系
  • 过程:当处理"爱"这个词时,模型能同时看到"我"和"你",理解这是一个"我→爱→你"的关系结构
  • 结果:创建了包含整个句子语义的"信息库",就像把这句话的完整含义打包存好
  • 关键:这里没有掩码,所以每个词都能看到句子中所有其他词

2.2 解码器中的多头掩码自注意力(有掩码)

  • 作用:理解已经生成的英文部分
  • 过程:假设正在生成第三个词(you),模型只能看到前面已生成的"I love",看不到未来要生成的内容
  • 为什么需要掩码:防止模型"作弊",保证翻译是按顺序一个词一个词生成的
  • 比喻:就像翻译员用手盖住还没翻译的部分,只看已经写下的英文

2.3 解码器中的多头编解码注意力(无掩码)

  • 作用:连接源语言和目标语言的"桥梁"
  • 过程:当决定下一个英文词时,模型会:
    1. 先看已生成的"I love"
    2. 再对照中文"数据库"(编码器输出)
    3. 发现"I love"对应了"我爱",接下来应该关注"你"
  • 关键:没有掩码,可以查看整个中文句子的编码表示

2.4 我的通俗理解

编码器相当于解析原文我爱你的中文内部语义信息,相当于创建了一个数据库,等待后面编解码注意力查询, 然后解码器中第一个注意力是相当于理解我现在已经翻译出来的英文原始句子信息,这两个目前为止就是相当于一个理解中文全文自身,一个相当于理解已经翻译出来的英文自身,然后编解码注意力相当于在理解了目前已经翻译出来的英文自身的基础上,然后去看看中文里面我接下来该翻译什么了,然后就相当于中英文状态结合去翻译,其实这就相当于翻译的时候,一边看看原文,一遍看看已经翻译出来的几个单词,综合决定接下来翻译成什么

【Encoder】 我 爱 你 ↓ “中文整体语义数据库” 【Decoder 每一步】 1. 看看我已经翻译了什么(英文自己) 2. 带着这个状态去查中文语义 3. 把中英文信息融合 4. 决定下一个英文词
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 16:37:06

【Open-AutoGLM训练数据优化全攻略】:揭秘提升模型性能的5大核心策略

第一章:Open-AutoGLM训练数据优化的核心意义在大语言模型快速演进的背景下,Open-AutoGLM作为开源自动代码生成模型,其性能高度依赖于训练数据的质量与结构。训练数据不仅是模型学习语义逻辑和编程范式的基础,更直接决定了其在实际…

作者头像 李华
网站建设 2026/4/25 12:19:06

揭秘Open-AutoGLM运行时瓶颈:如何实时监控CPU与显存占用率?

第一章:Open-AutoGLM 运行时资源监控在部署和运行 Open-AutoGLM 模型服务时,实时监控其资源使用情况是保障系统稳定性与性能优化的关键环节。通过有效的监控机制,可以及时发现内存泄漏、GPU 利用率异常或 CPU 瓶颈等问题。监控指标配置 Open-…

作者头像 李华
网站建设 2026/4/24 18:57:08

Open-AutoGLM礼物怎么送才显档次?资深AI工程师的3条专业建议

第一章:Open-AutoGLM 礼物选购推荐在智能推荐系统快速发展的背景下,Open-AutoGLM 作为一款基于多模态大语言模型的开源框架,能够精准理解用户意图并生成个性化建议。尤其在节日或纪念日场景中,利用其自然语言理解与知识推理能力&a…

作者头像 李华
网站建设 2026/4/21 9:53:00

构建私人节日提醒机器人(Open-AutoGLM高级应用案例深度解析)

第一章:构建私人节日提醒机器人(Open-AutoGLM高级应用案例深度解析)在现代智能办公与个人效率提升场景中,自动化提醒系统成为不可或缺的工具。借助 Open-AutoGLM 强大的自然语言理解与任务编排能力,可快速构建一个高度…

作者头像 李华
网站建设 2026/4/22 2:41:39

每天一个网络知识:什么是光模块?

在学习计算机网络时,同学们一定听过“光纤通信”“千兆网络”“万兆交换机”等词。你可能也注意到,在交换机、服务器背面,经常会插着一个小小的金属模块,一端连着光纤,看起来并不起眼,但却非常重要。它就是…

作者头像 李华
网站建设 2026/4/24 6:55:48

为什么90%的人用不好Open-AutoGLM?,破解美妆教程检索失败的底层逻辑

第一章:Open-AutoGLM在美妆教程检索中的核心价值在当前内容爆炸的数字时代,用户对个性化、精准化美妆教程的需求日益增长。Open-AutoGLM 作为一款基于生成语言模型的开放检索增强框架,能够深度理解自然语言查询意图,并结合多模态数…

作者头像 李华