news 2026/2/12 4:55:30

即插即用系列 | CVPR 2025 SegMAN: Mamba与局部注意力强强联合,多尺度上下文注意力的新SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列 | CVPR 2025 SegMAN: Mamba与局部注意力强强联合,多尺度上下文注意力的新SOTA

论文题目:SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation
论文作者:Yunxiang Fu, Meng Lou, Yizhou Yu (The University of Hong Kong)

代码地址:https:// github.com/yunxiangfu2001/SegMAN
论文原文:https://arxiv.org/abs/2412.11890


哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景与痛点
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节(最重要)
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
      • 5. 即插即用模块的作用
      • 6. 实验分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文提出了SegMAN,一个线性时间复杂度的语义分割模型,旨在同时解决高效全局建模、高质量局部细节保留和多尺度特征提取三大难题。其核心创新在于编码器引入了LASS(Local Attention and State Space)模块,巧妙结合了用于局部细节的滑动窗口注意力(Natten)和用于全局建模的动态状态空间模型(VMamba/SS2D)。同时,解码器设计了MMSCopE模块,利用Mamba机制在单次扫描中自适应地处理多尺度特征。实验表明,SegMAN在ADE20K、Cityscapes和COCO-Stuff上均取得了新的SOTA性能,且计算效率优于SegFormer和SegNeXt等主流模型。


2. 背景与动机

2.1 文本背景与痛点

高质量的语义分割依赖于三个关键能力:

  1. 全局上下文(Global Context):理解整个场景布局。
  2. 局部细节(Local Detail):精确勾勒物体边界。
  3. 多尺度特征(Multi-scale Feature):应对物体大小的变化。

然而,现有方法往往顾此失彼:

  • Transformer类(如VWFormer):虽然引入了窗口注意力,但在高分辨率下,预定义的窗口尺寸限制了全局感受野,且计算量随分辨率二次增长。
  • 线性Attention类(如EDAFormer):为了效率牺牲了空间分辨率(如使用空间缩减注意力SRA),导致细粒度细节丢失。
  • 纯CNN或Mamba类:往往在动态多尺度交互上有所欠缺。

本文动机:能否设计一个网络,既拥有Mamba的线性全局建模能力,又具备局部注意力的细节捕捉能力,还能在解码阶段自适应地融合多尺度信息?

2.2 动机图解分析

看图说话(动机分析):

  • 左图(感受野对比)

  • VWFormer/EDAFormer:可以看到它们的有效感受野(ERF)主要集中在中心区域,且覆盖范围有限(绿色区域较小),这意味着它们在高分辨率图像上难以捕捉长距离依赖。

  • SegMAN(最下方):展示了覆盖全图的强响应(深绿色区域广泛),证明了其全局上下文建模能力远超对比方法。

  • 右图(分割细节对比)

  • 黄色路牌案例:请注意放大图中的黄色路牌。SegFormer和VWFormer的分割结果边缘模糊,甚至丢失了路牌的主体。

  • SegMAN结果:SegMAN不仅完整分割出了路牌,而且边界非常清晰。这直接证明了引入局部注意力(Natten)对于保留细粒度细节的关键作用。


3. 主要创新点

  1. LASS Token Mixer:在编码器中首创性地串联了Neighborhood Attention(Natten)和2D-Selective-Scan(SS2D),实现了局部与全局特征的互补建模。
  2. MMSCopE 解码器模块:提出基于Mamba的多尺度上下文提取模块,通过创新的“拼接-扫描”策略,在单次SS2D扫描中同时处理多层级特征。
  3. 全尺度自适应建模:解决了固定窗口注意力在变分辨率输入下的局限性,实现了随输入分辨率自适应的全局感受野。
  4. 无损多尺度融合:在解码器中使用Pixel Unshuffle代替池化操作,避免了下采样过程中的细节信息丢失。

4. 方法细节(最重要)

4.1 整体网络架构

数据流详解:

  • 输入 (Input):输入图像经过重叠块嵌入(Overlapping Patch Embedding)进入网络。

  • 编码器路径 (Encoder - Fig 3a)

  • 标准的四阶段金字塔结构。

  • 每个阶段包含 Downsample 层和若干个LASS Block

  • 输出四个阶段的特征图 ,分辨率依次降低(1/4, 1/8, 1/16, 1/32)。

  • 解码器路径 (Decoder - Fig 3c)

  • 特征聚合:将 统一调整到 的分辨率(1/8)并拼接,得到聚合特征 。

  • 核心变换:特征 输入到MMSCopE模块,提取多尺度上下文,得到增强特征 。

  • 最终预测:将增强特征 与原始各阶段特征再次融合,通过MLP预测分割图。

4.2 核心创新模块详解

模块 A:LASS (Local Attention and State Space) 模块

  • 设计目的:解决单一机制无法同时兼顾效率、全局信息和局部细节的问题。
  • 内部结构拆解
  1. Natten (Neighborhood Attention)
  • 作用:负责局部细节编码
  • 机制:滑动窗口注意力。每个像素只关注其邻域内的像素,保持了平移等变性,且能够精细捕捉边界信息。
  1. SS2D (2D Selective Scan / Mamba)
  • 作用:负责全局上下文建模
  • 机制:利用Mamba的线性复杂度特性,对特征图进行四个方向的扫描。这弥补了Natten感受野受限的缺陷。
  1. 残差连接与融合
  • 为了防止信息流失,SS2D 旁增加了一个残差连接(通常包含卷积)。
  • 两者串联(或并联,文中最终选择串联结构更优),使得输出特征同时具备“见树木(局部)”和“见森林(全局)”的能力。

模块 B:MMSCopE (Mamba-based Multi-Scale Context Extraction)

  • 设计理念:传统的多尺度融合(如ASPP)计算量大或容易丢失细节。作者希望利用Mamba的长序列处理能力,一次性处理多个尺度的特征。
  • 工作机制详解
  1. 多尺度生成:输入特征 (1/8尺度),通过不同步长的卷积生成 (1/16尺度) 和 (1/32尺度)。
  2. Pixel Unshuffle (关键步骤)
  • 为了将不同分辨率的特征图塞进同一个Mamba序列,作者没有使用暴力下采样,而是使用了Pixel Unshuffle
  • 它将空间维度(H, W)折叠到通道维度(C)。例如,1/8图和1/16图经过变换后,空间分辨率对齐到1/32,但通道数增加了。
  • 目的无损地保留了所有尺度的空间信息。
  1. 单次扫描 (Single Scan)
  • 将对齐后的三个特征图在通道维度拼接。
  • 输入进SS2D模块。由于Mamba是线性复杂度的,这种“胖”通道输入的计算开销是可控的。
  • SS2D 实现了跨尺度的信息交互。
  1. 恢复与融合:通过 Pixel Shuffle 恢复空间分辨率,最终输出融合了多尺度上下文的特征 。
4.3 理念与机制总结

SegMAN 的成功在于它拒绝妥协

  • 它没有为了效率放弃全局信息(使用了Mamba)。
  • 它没有为了全局信息放弃局部精度(使用了Natten)。
  • 它没有为了多尺度融合引入复杂的金字塔结构,而是利用Mamba的特性,将“多尺度问题”转化为了“通道混合问题”,通过 MMSCopE 实现了极其优雅且高效的解法。

5. 即插即用模块的作用

本文提出的模块具有极高的通用性,可应用于以下场景:

  1. LASS Block (Encoder Layer)
  • 适用场景:任何视觉Backbone设计,特别是需要处理高分辨率输入的任务(如目标检测、分割)。
  • 应用:可以替换 Swin Transformer Block 或 ConvNeXt Block。相比Swin,它有更好的全局感知;相比ConvNeXt,它有动态权重调节能力。
  1. MMSCopE (Decoder Module)
  • 适用场景:语义分割、全景分割的解码头(Decoder Head)。
  • 应用:可以替换 UPerNet、SegFormer Head 或 SegNeXt 的 HamDecoder。特别适合需要以低计算成本提升多尺度感知能力的场景。
  1. SegMAN Encoder (Backbone)
  • 应用:论文在补充实验中证明(Table 13),将该Encoder放入Mask DINO框架,在实例分割和全景分割任务上同样超越了ResNet和MiT骨干,证明了其强大的特征提取泛化能力。

6. 实验分析

  • SOTA 性能

  • ADE20K:SegMAN-B 达到了52.6% mIoU,比同量级的 SegNeXt-L 高出 1.6%,且 GFLOPs 减少了 15%。

  • Cityscapes:在 1024x2048 的高分辨率输入下,SegMAN展现出巨大优势(得益于线性复杂度),SegMAN-B 达到83.8% mIoU

  • 效率分析 (Table 4)

  • 在推理速度(FPS)上,SegMAN-T 达到了34.9 FPS,远超 EDAFormer-T (12.7 FPS) 和 VWFormer-B0 (21.1 FPS),证明了 Mamba 架构在实际部署中的优势。

  • 消融实验 (Table 5)

  • 实验证明,单独移除 SS2D 或 Natten 都会导致性能显著下降(mIoU 下降 0.7%~1.8%),验证了“全局+局部”混合设计的必要性。

总结:SegMAN 是一篇典型的“架构设计”类优作。它敏锐地捕捉到了 Mamba 在视觉任务中的潜力,并理性地补充了 Mamba 缺失的归纳偏置(局部性),最终在分割任务上交出了一份接近完美的答卷。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/2 7:16:44

Vue3登录注册验证码实战

以下是使用 Vue.js 实现登录、注册和验证码功能的完整代码示例。我将逐步解释关键部分,并提供可运行的 HTML 文件代码。代码使用了 Vue 3 的 Composition API,并模拟了验证码生成(真实应用中应通过后端 API 获取验证码)。 思路说…

作者头像 李华
网站建设 2026/2/4 21:25:05

无线通信:介质访问控制(MAC)技术

第一章:无形架构——通信协议栈中的秩序基石 1.1 OSI参考模型与数据链路层的定位 在现代数字社会的宏大叙事中,信息的流动如同城市的血脉,而介质访问控制(Medium Access Control, MAC)则是维持这条血脉畅通的智能交通…

作者头像 李华
网站建设 2026/2/10 5:52:11

乱中有序:详解 ALOHA 协议的两种形态

在无线通信的历史长河中,ALOHA 协议有着特殊的地位。它诞生于 1970 年代的夏威夷大学,初衷是为了解决群岛之间分散的计算机如何通过无线电连接到中心主机的问题。 想象一下,夏威夷的各个岛屿之间隔着大海,拉网线是不可能的。最简…

作者头像 李华
网站建设 2026/2/10 0:43:16

当“省钱”逻辑闯入即时战场:平价即时零售将如何重塑行业法则?

出品 | 何玺排版 | 叶媛多个迹象表明,拼多多正加速布局即时零售。近期,拼多多被曝正在内测一项名为“百亿超市”的新业务。据报道,该业务依托百亿补贴体系,以限时限量低价券的形式切入商超零售,目前仅对部分随机用户开…

作者头像 李华
网站建设 2026/2/7 6:13:01

MySQL InnoDB 索引深度解析:从底层原理到性能实战

第一章:引言与 InnoDB 架构概览 在现代后端开发面试和高并发系统设计中,MySQL 索引几乎是必问的“八股文”之首。然而,很多人对索引的理解仅停留在“加个索引能变快”的层面,或者机械地背诵“B树”这个名词。 为什么是 B 树&…

作者头像 李华
网站建设 2026/2/8 6:01:49

2026战略导航:深耕B2B领域的顶级战略咨询机构实战力排行榜

在2026年的战略导航中,深耕B2B领域的顶级战略咨询机构通过综合评估多个维度,展现出其独特的市场竞争力与发展趋势。每家机构在方法论创新上均有所侧重,采用独特的分析模型,帮助客户更好地把握市场机会。同时,行业深度作…

作者头像 李华