news 2026/1/9 2:11:44

论文速览:《AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusi》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文速览:《AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusi》

论文链接:openaccess.thecvf.com/content/ICCV2025/papers/Zhong_AMDANet_Attention-Driven_Multi-Perspective_Discrepancy_Alignment_for_RGB-Infrared_Image_Fusion_and_ICCV_2025_paper.pdf

项目地址:https://github.com/Zhonghaifeng6/AMDANet


引言

如图 1 所示,由视觉差异(如不同模态间轮廓、形状和纹理的发散)引起的特征模糊,严重阻碍了一致语义表示的建立。对于基于融合损失的方法 [45, 65] 而言,最小化这种差异往往导致某一模态的特征占据主导地位(偏差);而对于跨模态注意力机制 [25, 60, 68] 而言,则存在着在特征匹配过程中丢弃任一模态关键细节的风险。

因此,多模态语义分割的关键步骤在于:在融合过程中压缩并对齐模态间的特征差异,从而精确构建语义一致且易于分割的特征。

为了系统性地解决模态间特征差异在构建统一融合特征时造成的障碍,我们提出了注意力驱动的多模态差异对齐网络(AMDANet)

我们将差异归类为两类:一是由特定模态外观引起的视觉差异;二是由编码器因正则化和非线性激活等因素 [35, 43, 47] 对特定模态的内在偏好所引入的经验性特征偏差(empirical feature biases)


方法

预备知识

我们的目标是消除阻碍语义一致性特征建立的不同模态间的差异,并将有效的多模态特征耦合到一个统一的框架中。

给定多模态输入为一对可见光和红外图像,分别记为

我们的方法采用一个编码器 [52] 在四个层级上执行特征提取,生成构建一致表示所需的基础可见光特征和红外特征

方法概览

图 2 展示了我们 AMDANet 的概览。

AMDANet 由三个关键组件组成:语义一致性推理(SCI)(3.1 节)、特征差异对齐模块(FDAM)(3.2 节)和互特征掩码学习(MFML)(3.3 节)。

  • 首先,为了解决编码器产生的内在特征偏差,我们利用 SCI 评估网络在不同模态下的偏差表现。根据评估结果,将偏差从 Fvi 和 Fin 中剔除,从而减轻多模态特征的对齐难度。
  • 其次,为了实现多模态特征间的语义对齐,我们采用 FDAM 从局部通道和全局空间维度去除了易于误判的无效特征。
  • 最后,我们利用 MFML 通过对特定模态特征随机应用掩码扰动 [37] 来实现多模态特征的融合。

1. 语义一致性推理 (Semantic Consistency Inference)

受正则化和激活函数等非线性因素的影响,模型中的编码器往往对特定模态表现出经验性特征偏差 [9, 35, 43, 47]。这种特征偏差加剧了跨模态特征表示的发散,阻碍了模型建立语义一致的多模态融合特征的能力。

为了解决这个问题,如图 3 所示,我们提出了语义一致性推理(SCI)

SCI 的核心在于强制编码器针对不同模态中的相同语义内容产生一致的语义表示,从而抑制由特征偏差引起的差异特征。

对于编码器从红外和可见光图像中提取的四个层级特征 Fin​ 和 Fvi,我们首先利用余弦相似度计算跨模态语义相似度作为偏差指标:

其中是偏差指标。我们使用阈值 τ=0.4(关于 τ 的分析见补充材料),当时,判定 Fin​ 和 Fvi 受到了编码器偏差的干扰。

对于 Fin 和 Fvi​ 中受编码器偏差影响的特征,我们计算其差异特征如下:

其中 ⊙ 是矩阵乘法,是由多层感知机(记为 ℓω )生成的模糊掩码:

其中 CAT是拼接操作,是 Sigmoid 函数。的作用是利用跨模态的相似语义内容来区分受偏差影响的差异特征。

基于​,我们通过将其与原始特征​、​ 进行对比,计算编码器对不同模态的偏差分量:

最后,通过引入一个可学习参数 λ,我们利用偏差分量从原始特征中抑制受特征偏差影响的差异特征:

经过差异特征压缩后,​ 和​ 可以在后续模块中更有效地对齐,从而简化融合特征的建模复杂性。


2. 特征差异对齐模块 (Feature Discrepancy Alignment Module)

为了解决由不同外观引起的多模态图像视觉差异,我们设计了特征差异对齐模块(FDAM)。FDAM 由局部对齐和全局对齐组成。

2.1局部对齐 (Local-Alignment)

局部对齐的作用是利用局部注意力机制 [23, 56],从细粒度视觉特征的角度对齐模态间的特征。

如图 2 所示,对于 SCI 的输出,我们沿通道维度应用全局最大池化和平均池化以捕获有效的响应特征。然后,我们使用 MLP 处理这些特征响应,生成针对有效和无效特征的注意力权重。基于,我们将其乘回以生成特征线索​:

其中 ϑa 和 ϑm​ 分别代表全局平均池化和最大池化。

传统的挤压-激励(squeeze-excitation)方法 [6, 11, 12] 专注于增强有效特征,但在抑制视觉差异方面面临挑战。为解决此问题,我们计算特征线索​ 与初始特征之间的差异,以消除模态间的差异。然后,我们使用 Sigmoid 将重新分配权重的差异结果添加到有效特征上,进一步压缩差异特征:

从局部空间角度来看,我们对应用最大池化和平均池化操作,以捕获其在局部空间维度上的像素级响应特征。

接着,我们使用卷积核映射有效的局部相关特征,并应用 Sigmoid 生成空间注意力权重​。然后,我们将相乘生成空间维度的特征线索

其中​ 分别代表平均池化和最大池化。同样,我们使用 Sigmoid 处理特征线索与初始特征之间的差异,消除局部空间维度内的视觉差异特征:

我们将特征相加,得到局部对齐结果

2.2 全局对齐 (Global-Alignment)

局部对齐专注于从特征图的局部视角对齐视觉差异,但缺乏从全局视角解决此类差异的能力 [2, 27]。先前的工作 [25, 60] 表明,跨模态长程上下文建模可以促进多模态特征对齐。然而,模态间的非关键特征可能导致跨模态匹配过程中的特征误判,使得模型丢弃某一模态的细节特征。

为了解决这个问题,如图 4 所示,我们在全局对齐中提出了显著性跨模态注意力

我们的方法基于每个模态的显著特征进行特征对齐,有效地避免了由非关键特征引起的特征误判。

首先,我们采用显著特征增强 [32] 对内的有效上下文特征进行自增强。

这里的参考文献[32]是:MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

论文精读(MobileVIT)《MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER》_mobilevit论文-CSDN博客

然后,我们对增强后的应用线性层计算,并对增强后的使用线性层计算

用于查询以获得跨模态匹配分数。这些分数突出了多模态特征中对有效信息和无效信息的不同关注点。然后,我们通过调制来细化两种多模态特征的一致表示:

其中是头数,是基于可见光特征的长程细化值。然后,我们使用​ 来增强​,从而得到基于红外特征全局视角的改进特征​:

同样的方法被应用于使用从生成的去匹配从​ 生成的​。

然后,我们计算基于红外特征的长程细化值。我们使用​ 从可见光特征的全局视角调制并细化特征​,最终输出多模态融合特征​。我们的跨模态注意力机制将红外和可见光模态中的有效信息无缝集成到一致的语义特征中,使其从全局视角易于融合和分割。

3. 相互特征掩码学习 (Mutual Feature Mask Learning)

多模态图像中不同的特征分布往往导致各模态特征对预测的贡献程度不同。在这种情况下,网络很难学习到互补的跨模态特征。为了解决这个问题,如图 2 所示,我们提出了相互特征掩码学习(MFML)策略,以促进模态间特征的互补与融合。与直接对图像应用掩码 [37] 不同,MFML 的创新之处在于直接在特征图上执行像素级掩码,从而防止主干网络错误地重建图像掩码。

对于输入,我们沿特征图的通道维度应用掩码,随机掩盖某一模态的特征以生成掩码特征

其中 R 代表随机选择红外或可见光特征图进行特征掩码操作。是一个与所选特征图维度相同的掩码矩阵,其中每个像素值为 0 或 1。基于,我们使用一致性正则化损失来衡量掩码特征和未掩码特征预测之间的一致性:

其中 D(⋅) 表示解码器 [60]。表示交叉熵损失。我们在一致性正则化预测 [31, 39, 58] 中的目标是最小化​,从而通过掩码提示促进不同模态特征间的互补性。

4. 损失函数 (Loss Function)

总损失函数由图像融合损失、语义分割损失和掩码一致性正则化损失组成。我们使用交叉熵损失作为语义分割损失:

其中和 g 分别代表预测值和真值。遵循先前的工作 [60],我们使用显著信息损失和一致性颜色损失来定义图像融合损失

其中的 ∇ 和 ∥⋅∥分别表示梯度算子和平均绝对误差 (MAE),而代表融合图像。具体而言,我们使用 [60] 的融合头处理 FDAM 的输出以生成融合图像。在中,指将图像转换到 YCrCb 颜色空间 [19] 后获得的红色和蓝色色度分量。S(⋅)表示数据增强。 总体而言,总损失定义为:

其中 α1,α2​ 和 α3​ 是超参数,具体值分别为 1, 0.5 和 0.5。关于 α1,α2和 α3的分析见补充材料。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/16 18:43:39

3.1IT治理

1、IT治理的驱动因素:解决信息孤岛 2、IT治理主要目标包括:与业务目标一致、有效利用信息与数据资源、风险管理。 3、管理层次分为三层:最高管理层、执行管理层、业务与服务执行层。 4、IT治理体系的具体构成包括:IT定位、IT治理架…

作者头像 李华
网站建设 2025/12/16 18:43:31

中小企业的营销“暖心伙伴”——北京易美之尚,让增长不再难

“深夜改完的营销方案,投出去却石沉大海;花大价钱引的流量,转头就成了‘一次性过客’”——这大概是很多中小企业主的日常焦虑。在互联网营销的浪潮里,不是不想冲,而是怕方向错;不是没投入,而是…

作者头像 李华
网站建设 2026/1/7 12:04:57

Excalidraw链接功能全解析:超链接与跳转处理

Excalidraw链接功能全解析:超链接与跳转处理 在远程协作日益频繁的今天,一张图是否“能点”,往往决定了它是装饰还是生产力工具。许多团队还在用静态截图传递信息时,另一些人已经通过 Excalidraw 构建起可交互的知识网络——点击一…

作者头像 李华
网站建设 2025/12/29 8:26:15

LobeChat能否实现AI香道师?气味搭配与情绪调节芳香疗法推荐

LobeChat能否实现AI香道师?气味搭配与情绪调节芳香疗法推荐 在快节奏的都市生活中,越来越多的人开始寻求非药物方式来缓解压力、调节情绪。冥想、音乐疗愈、自然接触……而其中,“香气”作为一种古老却始终鲜活的感官媒介,正悄然回…

作者头像 李华
网站建设 2025/12/16 18:39:51

HunyuanVideo-Foley:高保真拟音生成扩散模型

HunyuanVideo-Foley:高保真拟音生成扩散模型 你有没有遇到过这样的情况:一段精心制作的AI生成视频,画面流畅、细节丰富,可一旦播放,却像“默片”一样缺乏声音支撑?再逼真的奔跑镜头配上静音,观…

作者头像 李华