Attention Mask在Seq-to-Seq生成模型中的核心作用与实现解析-开发者社区

1. Attention Mask在Seq-to-Seq模型中的核心作用

第一次用BART做文本生成时，我盯着输出结果百思不得其解——为什么模型生成的句子前半段很通顺，后半段却开始胡言乱语？直到我注意到attention mask的设置问题，才恍然大悟。这就像教小孩写作文时，如果让他看到后面的参考答案，他就永远学不会自主创作了。

在Seq-to-Seq架构中，attention mask本质上是个"信息过滤器"。想象你在嘈杂的咖啡厅里专注读书，大脑会自动屏蔽周围噪音——这就是人脑的"attention mask"。Transformer模型通过三种典型mask实现类似功能：

编码器全可见mask：像全景相机，每个词能看到整个输入序列。处理"[CLS] 今天天气真好 [SEP]"时，"天气"可以同时关注前后词
解码器因果mask：像遮住试卷答案的纸板，确保生成第t个词时只能看前t-1个词。生成"我爱"时，不允许提前看到"中国"
前缀mask：混合前两种模式，常见于UniLM。比如处理"输入：北京 [SEP] 输出：是首都"时，允许"首都"看到整个输入但看不到后面的"[EOS]"

实际项目中，我曾用T5生成商品标题。没加解码器mask时，模型会把商品参数直接抄到标题里（如生成"手机 6.7寸骁龙8Gen2 ￥3999"）。加上因果mask后，才学会组织自然语言（"高性能骁龙8Gen2大屏手机仅售3999元"）。

2. 从UniLM看三种语言模型范式

UniLM论文就像给attention mask玩法写了本百科全书。去年优化客服问答系统时，我对比过这三种模式：

2.1 单向语言模型（Unidirectional LM）

典型代表：GPT系列
mask矩阵示例：
```
[0, -∞, -∞] [0, 0, -∞] [0, 0, 0]
```
实战坑点：做文本续写时，右到左(left-to-right)模型会生成"好天气今天"这样的倒装句。解决方案是统一训练和推理的方向

2.2 双向语言模型（Bidirectional LM）

典型代表：BERT
mask矩阵示例：
```
[0, 0, 0] [0, 0, 0] [0, 0, 0]
```
特殊技巧：在分类任务中，我习惯把[CLS]位置的mask设为全0，强迫模型通过该token聚合全局信息

2.3 序列到序列语言模型（Seq-to-Seq LM）

典型代表：BART、T5

mask矩阵示例（输入3词，输出2词）：

[0, 0, 0, -∞, -∞] [0, 0, 0, -∞, -∞] [0, 0, 0, -∞, -∞] [0, 0, 0, 0, -∞] [0, 0, 0, 0, 0]

业务场景：在电商摘要生成中，这种mask让模型在编码阶段看到全部商品描述，解码阶段只能看到已生成的部分摘要

3. HuggingFace中的mask实现细节

打开transformers库的modeling_utils.py，你会找到这两个关键函数：

3.1 _expand_mask函数解析

这个函数处理的是编码器mask，主要应对变长输入。比如批量处理两个句子：

"你好 [PAD] [PAD]"
"今天天气真好"

对应的原始mask应该是：

[[1, 0, 0], [1, 1, 1]]

经过_expand_mask变换后：

# 形状变为 [2, 1, 3, 3] [ [[[0, -inf, -inf], # "你"只能看到"你" [0, 0, -inf], # "好"能看到"你""好" [0, 0, 0]]], # [PAD]能看到全部（但后续会被过滤） [[[0, 0, 0], [0, 0, 0], [0, 0, 0]]] ]

实际调试时，我发现如果忘记把mask转为bool类型，会导致某些GPU上出现精度错误。这是个容易踩的坑。

3.2 _make_causal_mask函数精要

这是解码器的核心保护机制，以下面代码为例：

def _make_causal_mask(input_ids_shape, dtype, past_key_values_length=0): bsz, tgt_len = input_ids_shape mask = torch.full((tgt_len, tgt_len), float("-inf")) mask_cond = torch.arange(mask.size(-1)) mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0) return mask

生成"我爱中国"时的mask矩阵：

[0, -∞, -∞, -∞] [0, 0, -∞, -∞] [0, 0, 0, -∞] [0, 0, 0, 0]

在实现对话系统时，past_key_values_length参数特别有用。它允许模型在生成第N轮回复时，能看到前N-1轮的对话历史。

4. 工业级应用中的进阶技巧

在日均千万级请求的新闻摘要系统中，我们总结了这些实战经验：

4.1 动态mask优化

内存优化：对于固定长度输入，预计算mask矩阵并缓存。我们的实验显示，这能使推理速度提升15%
混合精度训练：mask矩阵需要与logits保持相同数据类型。使用fp16时要注意-inf会被截断，我们改用-1e4替代

4.2 特殊场景适配

长文本生成：当序列超过1024时，传统mask会耗尽显存。我们采用块稀疏mask，就像这样：

[[0, -∞, -∞, ..., -∞], [0, 0, -∞, ..., -∞], ..., [0, 0, 0, ..., 0]] # 只保留对角线附近的注意力

多模态输入：处理图文混合输入时，我们设计跨模态mask，允许文本关注图像区域但禁止反向关注

4.3 调试技巧

可视化工具：用seaborn绘制mask矩阵，一眼就能发现形状错误
```
import seaborn as sns sns.heatmap(mask[0,0].cpu().numpy())
```
梯度检查：如果模型不收敛，检查mask是否意外阻断了有效梯度传播。我们曾遇到因mask误置导致encoder梯度为零的案例

在最近的项目中，我们还尝试了可学习mask（Learned Attention Mask）。让模型自行决定哪些位置应该被屏蔽，这在抽象摘要任务中获得了3.2%的ROUGE提升。