CVPR ABCNet:CNN与Transformer的完美融合
论文原文 :https://arxiv.org/abs/2303.10321
代码:https://github.com/PANPEIWEN/ABC
即插即用代码仓库:https://github.com/AITricks/AITricks
1️⃣ 核心思想:局部与全局的强强联合 🤝
红外小目标难检测是因为:CNN虽然纹理提取强,但感受野受限,容易把噪声当成目标(虚警);Transformer虽然全局强,但缺乏局部感知,很难抓住微小目标。
ABCNet的核心就是混合架构:利用Transformer的全局注意力来“抑制背景噪声”,利用CNN的卷积归纳偏置来“增强目标特征”,实现去伪存真。
2️⃣ 核心模块一:CLFT(卷积线性融合Transformer)✨
痛点解决:传统卷积层后,噪声和目标都会被激活。
创新点:设计了BAM(双线性注意力模块),用极低的计算量算出全局空间相关性。
效果:它像一个过滤器,把卷积提取的特征和全局注意力矩阵相乘。只有那些“既有局部强度又有全局相关性”的真实目标会被保留,孤立的噪声直接被抑制!
3️⃣ 核心模块二:UCDC(U型卷积-空洞卷积)
位置:放在网络的最深层(Bottleneck)。
机制:采用U型结构,先用空洞卷积(Dilated Conv)扩大感受野过滤残余噪声,再缩小感受野聚焦目标。
作用:在特征图分辨率最低的时候,对目标特征进行精细化重构,防止小目标在深层网络中丢失。
4️⃣ 即插即用:涨点神器
CLFT:非常适合替换U-Net编码器里的Conv块,专门用来抑制复杂背景下的噪声。
UCDC:适合替换U-Net底部的Bottleneck,利用U型空洞卷积提升深层特征的表达能力。
5️⃣ 实验结果分析:SOTA验证 📈
定量指标:在NUAA、IRSTD1k等4个数据集上全面SOTA。特别是在最难的 IRSTD1k 数据集上,IoU比第二名高出了 3.15%,优势巨大!
视觉效果:对比图显示,ABCNet能完美区分出其他模型容易搞错的“类目标噪声”(False Alarm),误检率极低。
效率:ABC-S(小版本)在RTX 3090上推理速度达到 93 FPS,满足实时性要求。
#科研 #科研学习 #深度学习 #目标检测 #计算机视觉 #transformer #论文