news 2026/4/15 15:56:32

TPAMI 2025 | CEM方法横空出世:量化输入输出因果关系,低级视觉可解释性新范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | CEM方法横空出世:量化输入输出因果关系,低级视觉可解释性新范式
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

在计算机视觉领域,低级视觉任务(如图像超分辨率、去噪、去雨等)的性能因深度学习的发展而突飞猛进,但模型的"黑箱"特性却始终是研究者难以突破的瓶颈。如何理解模型决策的内在逻辑?输入图像中哪些区域真正的影响输出结果?这些问题的答案对网络设计优化和实际应用可靠性至关重要。

近日,《Interpreting Low-level Vision Models with Causal Effect Maps》一文为我们带来了突破性解决方案。该研究首次将因果关系理论引入低级视觉可解释性分析,提出了通用的因果效应图(CEM)方法,让我们得以从相关性分析迈向更本质的因果性探究。

论文信息

题目:Interpreting Low-level Vision Models with Causal Effect Maps
用因果效应图解释低级视觉模型
作者:Jinfan Hu, Jinjin Gu, Shiyao Yu, Fanghua Yu, Zheyuan Li, Zhiyuan You, Chaochao Lu, Chao Dong
源码:https://github.com/J-FHu/CEM

从相关性到因果性:视觉模型解释的范式转变

传统的低级视觉模型解释方法往往局限于相关性分析,例如局部归因图(LAM)只能能高亮显示与输出相关的输入区域,但无法区分这些关联是否存在真正的因果关系。正如论文中生动的例子:夏季T恤和冰淇淋销量呈正相关,但干预实验会发现二者者并无因果联系——这正是"相关性≠因果性"的经典体现。

在视觉任务中,这种混淆可能导致严重误解。如图3所示,LAM显示输入图像块a、b、c均与输出ROI(感兴趣区域)相关,但通过CEM的因果分析发现:三者些区域的实际影响有正有负,并非所有相关区域都对重建有积极贡献。这种差异直接影响我们对模型行为的判断。

相关性与因果性对比示意图

CEM方法核心:定义合理干预,量化因果效应

CEM方法的核心在于通过科学的干预实验揭示输入与输出间的因果关系,其技术框架包含三个关键创新点:

1. 革命性的LV干预定义

论文首次明确定义了适用于低级视觉任务的"LV干预":在保持图像退化类型(如下采样、噪声、雨纹等)不变的前提下,仅改变图像内容。这种干预确保了干预后的图像仍处于模型训练时的退化分布中,避免了因分布偏移导致的分析偏差。

不同干预方式对比

如图4所示,传统干预方法(如模糊处理、置零操作)要么无法有效改变内容,要么破坏图像自然分布,而LV干预通过从自然图像库(如DIV2K)中随机裁剪同退化类型的图像块进行替换,既保证了干预的有效性,又维持了分布一致性。

2. 因果效应计算流程

CEM的计算基于平均处理效应(ATE)原理:通过多次替换输入图像块并计算输出ROI质量变化的平均值,消除个体干预的随机偏差。具体流程为:

  • 选择输入图像中ROI之外的图像块作为干预对象

  • 用自然图像库中同退化类型的图像块进行多次替换

  • 计算原始输出与干预后输出的质量差异(以PSNR衡量)

  • 差异值即为该图像块对ROI的因果效应(正值为正面影响,负值为负面影响)

3. 从粗到细的加速策略

为解决大规模干预带来的计算负担,论文提出两阶段加速方案:

  • 粗筛阶段:对每个图像块进行少量干预(3次),筛选出对ROI无显著影响的区域

  • 精细阶段:仅对敏感区域进行多次干预(50次),计算稳定的因果效应

该策略将计算量减少至原始方案的4.9%,同时保持82.6%的结果相似度,完美平衡了效率与精度。

CEM计算流程图

实验发现:颠覆常识的视觉模型认知

通过CEM对19种主流低级视觉模型(涵盖CNN、注意力机制、Transformer等架构)在超分辨率、去噪、去雨任务上的系统分析,研究团队得出了多项颠覆传统认知的发现:

1. 更多信息≠更好性能

普遍认为扩大感受野能提升模型性能,但CEM分析显示:SAN、RCAN等模型中,部分输入区域会对输出产生显著负面影响(最大PSNR下降4.98dB)。这表明网络利用的信息越多,被误导的风险也越高。通过优化最具负面影响的像素,RCAN的PSNR可提升5.13dB,验证了因果分析的实用价值。

不同模型的CEM对比

2. 任务特性决定网络行为

对比相同架构在不同任务上的表现发现:

  • 去噪网络仅关注ROI及邻近区域,对全局信息不敏感

  • 去雨网络因雨纹的区域性特征,会利用更广泛的输入信息

  • 超分辨率网络则需要平衡局部细节与全局上下文

这解释了为何盲目增加感受野对去噪任务收效甚微——任务特性决定了网络的最优信息利用模式。

不同任务的CEM分布

3. 通用模型的"局部化陷阱"

多任务训练的通用模型(处理超分、去噪、去雨等混合任务)呈现出有趣现象:即使架构支持全局感受野,模型也会倾向于仅利用局部信息,导致超分辨率性能显著下降。这揭示了通用低级视觉模型发展的关键挑战——如何避免网络默认陷入"局部化"工作模式。

单任务与通用模型的CEM对比

总结与展望

因果效应图(CEM)的提出,为低级视觉模型可解释性研究开辟了新路径。其核心价值在于:

  1. 通用性:适用于各类模型与任务,实现跨任务对比分析

  2. 因果性:突破相关性局限,量化输入区域的真实影响

  3. 实用性:为网络设计提供具体优化方向(如修正负面影响区域)

随着视觉模型向更复杂、更通用的方向发展,CEM这类解释工具将变得愈发重要。它不仅帮助我们理解模型"如何工作",更指引我们思考模型"应该如何设计"。未来,基于因果分析的模型优化或将成为低级视觉领域的新研究热点。

下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 2:42:56

【程序源代码】易经64卦摇签小程序(2026年最新版含源码)

关键字:易经64卦摇签小程序(2026年最新版含源码)(一)系统介绍1.1 系统介绍易经64卦摇签小程序(2026年最新版含源码)易经 64 卦摇签小程序是基于 **《周易》六十四卦体系 ** 开发的微信小程序应用…

作者头像 李华
网站建设 2026/4/8 13:29:57

印度作者投稿iMeta费用由政府统一支付APC

近日,iMeta期刊正式入选印度政府“一国订阅(One Nation One Subscription, ONOS)”计划支持名单。这意味着,来自印度符合条件的科研机构作者向 iMeta 投稿并被录用后,其文章处理费(APC)将由印度…

作者头像 李华
网站建设 2026/4/9 8:58:09

心理辅导辅助工具:语音情绪变化趋势监测

心理辅导辅助工具:语音情绪变化趋势监测 在心理咨询和心理辅导实践中,来访者的情绪状态往往不是静态的,而是随着对话进程不断起伏变化。传统依赖咨询师主观观察的方式,容易遗漏细微的情绪波动,也难以量化评估干预效果…

作者头像 李华
网站建设 2026/4/15 11:14:12

《简易制作 Linux Shell:详细分析原理、设计与实践》

《简易制作 Linux Shell:详细分析原理、设计与实践》 Linux Shell 是用户与内核互动的桥梁,负责命令解析、执行和环境管理。自己做一个简易 Shell,能让你深刻理解操作系统原理(如进程管理、I/O 重定向、管道)。 这个指…

作者头像 李华
网站建设 2026/4/13 23:19:38

vdsldr.exe文件丢失找不到 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/14 20:06:04

【开题答辩全过程】以 基于SpringBoot的养老服务系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华