⚠️ 重要声明:本文部分核心理论内容(Focused Linear Attention的聚焦映射函数和秩恢复模块)源自清华大学黄高老师团队于ICCV 2023发表的论文FLatten Transformer: Vision Transformer using Focused Linear Attention(论文链接:https://arxiv.org/pdf/2308.00442,代码:https://github.com/LeapLabTHU/FLatten-Transformer)。因CVPR 2025上线性注意力成为热门主题,且该技术在2025-2026年得到了广泛的工程应用(如YOLOv11集成、移动端部署等),故本文将其置于CVPR 2025语境下进行讨论。本文参考和引用了多位博主的公开技术内容。
📌 引言:Softmax 注意力,想说爱你不容易
做目标检测、图像分割的朋友一定深有体会——Transformer 虽好,但那 O(n²) 的计算复杂度实在让人头疼。自注意力的二次计算复杂性在将 Transformer 模型应用于视觉任务时一直是一个持久的挑战。
Softmax 函数迫使所有的 Query 和 Key 之间成对计算,才导致了 O(n²) 的计算复杂度。假如输入有 1000 个 token,就要算一个 1000×1000 的矩阵,计算量直接爆炸。对于我们这些要把模型部署到手机、摄像头或者边缘计算盒子里的工程师来说,这简直是甜蜜的负担——性能提升 1 个