news 2026/3/28 3:34:00

CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”

人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力(Top-down Attention),是人类视觉系统高效强大的核心秘密。

如今,来自香港大学俞益洲教授实验室的研究团队,将这一认知机制成功引入视觉骨干网络的设计之中,提出了一种全新的动态卷积视觉模型——OverLoCK(Overview-first-Look-Closely-next ConvNet)。该模型在ImageNet、COCO、ADE20K等权威基准上取得了卓越性能,相关论文已被CVPR 2025接收为口头报告(Oral)。

目录

一、突破瓶颈:传统视觉骨干的局限

二、核心思想:模拟人类视觉的双阶段处理

三、关键技术:上下文混合动态卷积ContMix

四、卓越性能:多项任务领先

五、消融研究

六、深入洞察:可视化的证据

总结与展望

论文地址:https://arxiv.org/abs/2502.20087 (arxiv)https://pse.is/8gyc6d (IEEE/CVF)

代码仓库:https://github.com/LMMMEng/OverLoCK


一、突破瓶颈:传统视觉骨干的局限

当前主流的视觉骨干网络(如Swin Transformer、ConvNeXt、VMamba等)大多采用经典的金字塔架构:从底层到高层逐层抽象特征。这种设计存在一个根本性限制——中层特征缺乏来自高层语义的显式指导。就像“只见树木,不见森林”,模型在局部处理时,无法有效利用对全局的已有理解来聚焦关键信息。

与此同时,现有的卷积算子也难以同时满足动态全局建模与强局部归纳偏置的双重要求:

  • 大核卷积/动态卷积:感受野受固定核尺寸限制,在高分辨率输入下仍局限于局部。

  • 可变形卷积:虽然能适应不同形状,但弱化了卷积固有的平移等变性,局部感知能力下降。

Self-Attention/SSM:虽能动态建模长程依赖,但缺乏卷积固有的空间归纳偏置,且计算开销大。

如何让一个纯粹的卷积网络,既能像Transformer一样灵活捕捉全局上下文,又能保持卷积的强局部性优势?OverLoCK给出了一个优雅的答案。


二、核心思想:模拟人类视觉的双阶段处理

研究团队的核心灵感直接来源于神经科学。他们摒弃了传统的金字塔构建策略,创新性地提出了 “深度阶段分解” 架构,将网络清晰地划分为三个功能明确的子模型:

  • Base-Net(基础网络):扮演“视网膜”的角色,专注于快速提取图像的中低层特征(如边缘、纹理),为后续处理打下基础。

  • Overview-Net(概览网络):实现“第一眼认知”。它基于Base-Net的特征,快速生成一个粗糙的全局语义先验(Top-down Guidance)。这相当于大脑对场景的初步整体理解。

  • Focus-Net(聚焦网络):进行“凝视观察”。它在Overview-Net提供的全局先验指导下,对关键区域进行精细化特征提取与分析,最终形成鲁棒的特征表示。

最关键的是,来自Overview-Net的全局先验信息,会贯穿并持续指导Focus-Net的每一个计算步骤,不仅在特征层面进行调制,还直接参与动态卷积核权重的生成,实现了自上而下信号的全方位、深层次注入。


三、关键技术:上下文混合动态卷积ContMix

为了让模型在保持卷积强归纳偏置的同时,获得动态的全局建模能力,团队提出了全新的ContMix(Context-Mixing)动态卷积模块。这是OverLoCK的核心引擎。

ContMix的运作机制非常巧妙:

对于特征图上的每个局部位置(token),计算其与多个全局聚类中心token的亲和度(affinity)。

将这些亲和度关系,通过一个可学习的映射,动态生成该位置专属的卷积核权重。

这个生成的动态卷积核在局部窗口内进行操作,但由于其权重蕴含了该位置与全局上下文的关联信息,因此一次局部卷积实际上完成了局部特征与全局知识的混合。

简单来说,ContMix让每个局部的卷积操作都“心中有全局”。它不仅计算高效,而且保持了卷积的局部性和平移等变性优势。在设计中,团队发现将Focus-Net的当前特征作为“查询”(Query),而将Overview-Net的全局先验作为“键”(Key),来生成动态核权重,能获得最佳性能。

ContMix即插即用版本代码链接:

https://github.com/LMMMEng/OverLoCK/blob/main/models/contmix.py


四、卓越性能:多项任务领先

OverLoCK在多个极具挑战性的视觉任务上证明了其强大实力:

图像分类(ImageNet-1K):参数量仅30M的OverLoCK-Tiny模型达到了84.2% 的Top-1准确率,在同等参数量下显著超越UniRepLKNet、MogaNet、VMamba等前沿ConvNet、Transformer和Mamba模型。

目标检测与实例分割(COCO):在使用Mask R-CNN和Cascade Mask R-CNN框架时,OverLoCK均表现出色。例如,OverLoCK-S相比BiFormer-B和MogaNet-B在Box AP上分别提升0.8%和1.5%。这尤其证明了其在高分辨率输入下保持强大长程依赖建模能力的优势,弥补了许多卷积网络在检测任务上的性能缺口。

语义分割(ADE20K):OverLoCK-T以超过VMamba-T 2.3% mIoU 的显著优势,展示了其在密集预测任务中对全局上下文和细节的卓越协调能力。


五、消融研究

ContMix是一种即插即用的模块。因此,我们基于不同的token mixer构建了类似的金字塔架构。如表7所示,我们的ContMix相较于其他mixer具有明显的优势,这种优势在更高分辨率的语义分割任务上尤为明显,这主要是因为ContMix具有强大的全局信息建模能力。


六、深入洞察:可视化的证据

研究提供了两项关键可视化,直观揭示了OverLoCK的工作机制:

有效感受野对比:OverLoCK产生的感受野既广阔又局部敏感,成功兼顾了全局上下文感知和细节捕捉能力,这是其他单一模型难以实现的。

Top-down Guidance可视化:通过Grad-CAM对特征图进行可视化,可以清晰看到:Overview-Net首先对目标物体(如飞机)进行粗粒度定位;当此信号作为指导注入Focus-Net后,目标的定位和轮廓被显著精细化。这一过程与人类视觉的注意力机制高度吻合,有力验证了OverLoCK设计理念的合理性。


总结与展望

OverLoCK的提出,为视觉骨干网络的设计开辟了一条崭新的路径。它首次将神经科学中成熟的Top-down Attention机制,以清晰、可扩展的架构形式引入深度学习模型,并通过创新的ContMix动态卷积解决了全局建模与局部归纳偏置的兼容难题。

这项工作表明,借鉴人脑的高效处理机制,依然是推动AI向前发展的宝贵源泉。OverLoCK不仅提供了强大的性能基线,其“深度阶段分解”的架构思想和ContMix模块也具有广泛的启发意义和移植价值,有望在更多需要精细理解与全局推理的视觉任务中发挥作用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 3:38:49

CASS插件合集 | 让你的测绘绘图效率翻倍!

🔧 大家好!作为测绘和地理信息行业的从业者,你一定对CASS软件不陌生。今天为大家带来一份 CASS插件合集,这些工具能够显著提升你的绘图效率和数据处理能力! 📊 合集 🛠️ 包含CASS插件类型 &a…

作者头像 李华
网站建设 2026/3/20 0:40:54

霍尔电流传感器在新能源汽车中的应用探讨

最近在研究新能源汽车电驱动系统的电流监测方案,发现霍尔电流传感器在电机控制、逆变器和BMS中扮演着关键角色。尤其是在高压、大电流场景下,非接触式测量的优势特别明显。不过,实际应用中也发现了一些技术细节和挑战,今天就聊聊霍…

作者头像 李华
网站建设 2026/3/15 12:20:54

渗透测试实战核心:ARP 欺骗攻击(ARP 断网攻击)全流程实操指南

一、目的:通过实训理解ARP欺骗的原理。掌握中间攻击的方法。 二、场景描述: 在虚拟机环境下配置 “Win7”和“Kali Linux”虚拟系统,使得2个系统之间能够相互通信。 三、实验环境: 1.软件:VMware Workstations14以…

作者头像 李华
网站建设 2026/3/24 2:34:04

基于区块链的传感器数据存证与溯源系统

基于区块链的传感器数据存证与溯源系统:用“不可篡改的指纹”守护数字世界的真实 一、引入:一盒冰淇淋的信任危机 夏天的午后,小明抱着刚从超市买的进口香草冰淇淋往家跑——包装盒上明明白白写着“全程冷链≤-18℃”。可打开时,冰淇淋已经化成了黏糊糊的液体。 他拿着购…

作者头像 李华
网站建设 2026/3/21 9:10:57

代码动态生成技术

1、非修改序列算法这些算法不会改变它们所操作的容器中的元素。1.1 find 和 find_iffind(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。find_if(begin, end, predicate):查找第一个满…

作者头像 李华
网站建设 2026/3/23 18:23:31

第一批笃信AI的人,也被解雇了

最近有这么个新闻,还怪幽默的。1月25日消息,俄甲知名俱乐部索契透露了前教练罗伯特莫雷诺被解雇的原因:他让AI替他工作。这位前西班牙国家队教练,大概是网上大家羡慕的那种最先拥抱AI的人。作为ChatGPT的忠实粉丝,他让…

作者头像 李华