CVPR 2025 Oral | 港大提出OverLoCK：模仿人类视觉机制，让模型“先见森林，再见树木”-开发者社区

人类在观察复杂场景时，通常会先快速扫视整体轮廓，形成初步认知，再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力（Top-down Attention），是人类视觉系统高效强大的核心秘密。

如今，来自香港大学俞益洲教授实验室的研究团队，将这一认知机制成功引入视觉骨干网络的设计之中，提出了一种全新的动态卷积视觉模型——OverLoCK（Overview-first-Look-Closely-next ConvNet）。该模型在ImageNet、COCO、ADE20K等权威基准上取得了卓越性能，相关论文已被CVPR 2025接收为口头报告（Oral）。

一、突破瓶颈：传统视觉骨干的局限

二、核心思想：模拟人类视觉的双阶段处理

三、关键技术：上下文混合动态卷积ContMix

四、卓越性能：多项任务领先

五、消融研究

六、深入洞察：可视化的证据

总结与展望

论文地址：https://arxiv.org/abs/2502.20087 (arxiv)https://pse.is/8gyc6d (IEEE/CVF)
代码仓库：https://github.com/LMMMEng/OverLoCK

一、突破瓶颈：传统视觉骨干的局限

当前主流的视觉骨干网络（如Swin Transformer、ConvNeXt、VMamba等）大多采用经典的金字塔架构：从底层到高层逐层抽象特征。这种设计存在一个根本性限制——中层特征缺乏来自高层语义的显式指导。就像“只见树木，不见森林”，模型在局部处理时，无法有效利用对全局的已有理解来聚焦关键信息。

与此同时，现有的卷积算子也难以同时满足动态全局建模与强局部归纳偏置的双重要求：

大核卷积/动态卷积：感受野受固定核尺寸限制，在高分辨率输入下仍局限于局部。
可变形卷积：虽然能适应不同形状，但弱化了卷积固有的平移等变性，局部感知能力下降。

Self-Attention/SSM：虽能动态建模长程依赖，但缺乏卷积固有的空间归纳偏置，且计算开销大。

如何让一个纯粹的卷积网络，既能像Transformer一样灵活捕捉全局上下文，又能保持卷积的强局部性优势？OverLoCK给出了一个优雅的答案。

二、核心思想：模拟人类视觉的双阶段处理

研究团队的核心灵感直接来源于神经科学。他们摒弃了传统的金字塔构建策略，创新性地提出了 “深度阶段分解” 架构，将网络清晰地划分为三个功能明确的子模型：

Base-Net（基础网络）：扮演“视网膜”的角色，专注于快速提取图像的中低层特征（如边缘、纹理），为后续处理打下基础。
Overview-Net（概览网络）：实现“第一眼认知”。它基于Base-Net的特征，快速生成一个粗糙的全局语义先验（Top-down Guidance）。这相当于大脑对场景的初步整体理解。
Focus-Net（聚焦网络）：进行“凝视观察”。它在Overview-Net提供的全局先验指导下，对关键区域进行精细化特征提取与分析，最终形成鲁棒的特征表示。

最关键的是，来自Overview-Net的全局先验信息，会贯穿并持续指导Focus-Net的每一个计算步骤，不仅在特征层面进行调制，还直接参与动态卷积核权重的生成，实现了自上而下信号的全方位、深层次注入。

三、关键技术：上下文混合动态卷积ContMix

为了让模型在保持卷积强归纳偏置的同时，获得动态的全局建模能力，团队提出了全新的ContMix（Context-Mixing）动态卷积模块。这是OverLoCK的核心引擎。

ContMix的运作机制非常巧妙：

对于特征图上的每个局部位置（token），计算其与多个全局聚类中心token的亲和度（affinity）。

将这些亲和度关系，通过一个可学习的映射，动态生成该位置专属的卷积核权重。

这个生成的动态卷积核在局部窗口内进行操作，但由于其权重蕴含了该位置与全局上下文的关联信息，因此一次局部卷积实际上完成了局部特征与全局知识的混合。

简单来说，ContMix让每个局部的卷积操作都“心中有全局”。它不仅计算高效，而且保持了卷积的局部性和平移等变性优势。在设计中，团队发现将Focus-Net的当前特征作为“查询”（Query），而将Overview-Net的全局先验作为“键”（Key），来生成动态核权重，能获得最佳性能。

ContMix即插即用版本代码链接：

https://github.com/LMMMEng/OverLoCK/blob/main/models/contmix.py

四、卓越性能：多项任务领先

OverLoCK在多个极具挑战性的视觉任务上证明了其强大实力：

图像分类（ImageNet-1K）：参数量仅30M的OverLoCK-Tiny模型达到了84.2% 的Top-1准确率，在同等参数量下显著超越UniRepLKNet、MogaNet、VMamba等前沿ConvNet、Transformer和Mamba模型。

目标检测与实例分割（COCO）：在使用Mask R-CNN和Cascade Mask R-CNN框架时，OverLoCK均表现出色。例如，OverLoCK-S相比BiFormer-B和MogaNet-B在Box AP上分别提升0.8%和1.5%。这尤其证明了其在高分辨率输入下保持强大长程依赖建模能力的优势，弥补了许多卷积网络在检测任务上的性能缺口。

语义分割（ADE20K）：OverLoCK-T以超过VMamba-T 2.3% mIoU 的显著优势，展示了其在密集预测任务中对全局上下文和细节的卓越协调能力。

五、消融研究

ContMix是一种即插即用的模块。因此，我们基于不同的token mixer构建了类似的金字塔架构。如表7所示，我们的ContMix相较于其他mixer具有明显的优势，这种优势在更高分辨率的语义分割任务上尤为明显，这主要是因为ContMix具有强大的全局信息建模能力。

六、深入洞察：可视化的证据

研究提供了两项关键可视化，直观揭示了OverLoCK的工作机制：

有效感受野对比：OverLoCK产生的感受野既广阔又局部敏感，成功兼顾了全局上下文感知和细节捕捉能力，这是其他单一模型难以实现的。

Top-down Guidance可视化：通过Grad-CAM对特征图进行可视化，可以清晰看到：Overview-Net首先对目标物体（如飞机）进行粗粒度定位；当此信号作为指导注入Focus-Net后，目标的定位和轮廓被显著精细化。这一过程与人类视觉的注意力机制高度吻合，有力验证了OverLoCK设计理念的合理性。