news 2026/3/20 20:11:49

【ICLR26-Oral Paper-韩国OGQ】TRACE:你的扩散模型其实是一个实例边缘检测器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-Oral Paper-韩国OGQ】TRACE:你的扩散模型其实是一个实例边缘检测器

文章:TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

代码:暂无

单位:韩国OGQ、韩国首尔国立大学


一、问题背景

想要做好实例分割和全景分割,传统方法高度依赖密集的实例级人工标注,比如给每个物体标掩码、画检测框、标关键点,不仅标注成本极高,不同标注者的结果还容易不一致,根本没法大规模落地。

为了降低标注依赖,学界提出了无监督和弱监督分割方法,但这些方法依旧弊端明显:无监督方法大多基于视觉Transformer的语义特征聚类,天生更关注跨图像的语义相似性,而非单张图像内的实例区分,经常把相邻的同类物体合并,或是把单个完整物体拆成碎片;弱监督方法虽能通过图像级标签实现接近监督的语义分割效果,但要做全景分割,还是得依赖点、框这类实例级标注,依旧避不开标注成本高、易出错的问题,尤其是物体重叠时,标注的弊端会被进一步放大。

简单来说,现有方法要么绕不开昂贵标注,要么分割效果差,始终没有一个能兼顾低成本和高精度的解决方案。

二、方法创新

研究团队的核心发现颠覆了对扩散模型的认知:文本到图像的扩散模型在去噪过程中,其自注意力图谱会在特定步骤清晰呈现出实例级的物体边界,而这一能力此前一直被隐藏,团队提出的TRACE框架,正是把这份隐藏能力彻底挖掘并落地,核心创新点体现在四个方面:

  1. 定位关键步骤:实例出现点(IEP)扩散模型从噪声还原成图像的去噪过程中,并非一步成型,团队通过计算相邻时间步自注意力图谱的KL散度,找到散度峰值对应的实例出现点(IEP)——这一时刻扩散模型的自注意力图谱会从语义特征转向实例结构,物体边界轮廓最为清晰。

  2. 提取边缘信息:注意力边界散度(ABDiv)基于IEP时刻的自注意力图谱,提出ABDiv计算方法:同一物体内的像素,自注意力分布高度相似,而不同物体的像素,自注意力分布会出现剧烈差异,这种差异的峰值就是真实的实例边界。通过计算像素四邻域的注意力散度,直接将自注意力图谱转化为实例边缘图,无需任何聚类或人工标注。

  1. 实现快速推理:一步自蒸馏为了解决逐图计算IEP和ABDiv的高计算成本问题,团队将边缘提取结果蒸馏到一个轻量级的边缘解码器中,结合低秩适配(LoRA)微调扩散模型主干。最终实现单步推理,无需再为每张图重新计算IEP和ABDiv,推理速度提升81倍,还能让提取的边缘更连贯、更少碎片。

  2. 优化分割结果:背景引导传播(BGP)把TRACE提取的实例边缘作为约束,融入现有分割模型的后处理环节。通过边缘作为分隔符,将合并的物体沿边界拆分,将破碎的实例沿边界补全,还能通过迭代合并高IoU的重叠掩码,最终得到完整、精准的实例分割掩码,从根本上解决现有方法合并、碎片的问题。

整体而言,TRACE全程无需任何实例级标注,也无需对扩散模型做大规模重训,仅通过挖掘其自注意力的隐藏信息,就实现了实例边缘的精准提取。

三、实验结果

研究团队在COCO、VOC等主流计算机视觉基准数据集上,对TRACE进行了全面测试,在无监督实例分割、弱监督全景分割等任务中均取得了突破性效果,核心结果如下:

  1. 无监督实例分割:在COCO基准上,TRACE让现有无监督方法的AP指标提升5.1个点,仅引入6%的运行时开销,相比依赖深度估计的现有方法,在COCO2014/2017上的APmk指标分别提升2.2、2.1个点,彻底解决了相邻物体合并、单实例碎片的问题;

  2. 弱监督全景分割:仅使用图像级标签(无任何实例级标注),在VOC2012上PQ指标最高提升7.1个点,在COCO2017上超越点监督的主流基线方法1.7个PQ点,首次实现了仅靠图像标签就超越点标注的全景分割效果;

  3. 边缘检测质量:在基于COCO2014构建的实例边缘基准上,TRACE的ODS指标达到0.889,是传统边缘检测器(Canny、HED等)的2倍以上,clDice指标0.826,证明其提取的边缘拓扑连通性远优于传统方法;

  4. 通用拓展性:将TRACE作为SAM的种子点,在开放词汇分割任务中,相比现有开放词汇检测器,stuff类PQ指标提升16.5个点;在7个不同领域的无监督实例分割基准上,平均AP提升2.3倍,展现出极强的跨数据集泛化能力。

此外,对比扩散模型和非扩散模型(如DINO、LLaVA等),即便是参数量仅0.6B的小型扩散模型,提取实例边缘的效果也远超72B参数量的非扩散大模型,证明这一能力是扩散模型的固有属性,而非通用视觉模型的共性。

四、优势与局限

核心优势

  1. 零实例标注成本:全程无需任何掩码、点、框等实例级标注,仅靠扩散模型的自注意力隐藏信息,就能提取高精度实例边缘,大幅降低图像分割的落地成本;

  2. 推理速度极快:通过一步自蒸馏将边缘提取过程轻量化,推理速度提升81倍,单步即可输出边缘图,满足实际应用的实时性需求;

  3. 分割效果显著:从根本上解决现有无监督/弱监督方法的物体合并、实例碎片问题,在主流基准上全面超越现有方法,还能兼容现有分割模型,即插即用;

  4. 泛化能力强:在自然图像、自动驾驶场景等多个领域均表现优异,还能适配开放词汇分割、SAM等主流框架,拓展性极强。

现存局限

  1. 小目标处理效果不佳:针对卫星影像中占比仅0.01%的极小实例,由于扩散模型的VAE编码会造成空间压缩,导致小目标边界模糊,TRACE无法有效区分密集的极小物体;

  2. 域外数据适配性差:扩散模型基于自然图像训练,面对病理切片等医学影像这类域外数据,其内置的自然图像先验会与医学图像的实例边界不匹配,直接应用会导致分割效果下降;

  3. 依赖扩散模型主干:TRACE的效果与扩散模型的容量强相关,虽能兼容主流扩散模型,但暂时无法脱离扩散模型单独使用,对计算资源仍有一定要求。

五、一句话总结

TRACE框架首次发现并挖掘了扩散模型自注意力图谱中隐藏的实例边缘检测能力,通过定位实例出现点、提取注意力边界、一步蒸馏轻量化和边界引导优化,实现了零实例标注的高精度实例边缘提取,大幅提升了无监督/弱监督图像分割的效果,还兼具高速推理和强泛化性,为图像分割摆脱人工标注依赖提供了全新的扩散模型驱动思路,同时也为扩散模型在计算机视觉任务中的跨领域应用打开了新窗口。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 23:09:36

XMSLEEP:白噪音神器,哄娃睡觉不再难

XMSLEEP:白噪音神器,哄娃睡觉不再难 有宝宝的家长或许都有过类似经历:为了让哭闹的宝宝安静下来,我们不得不长时间举着嗡嗡作响的吹风机,或是让水龙头持续哗哗地流水。这些临时制造的“白噪音”虽然偶尔能短暂起效&am…

作者头像 李华
网站建设 2026/3/18 5:32:22

Windows Android子系统探索指南:从入门到精通

Windows Android子系统探索指南:从入门到精通 【免费下载链接】WSABuilds Run Windows Subsystem For Android on your Windows 10 and Windows 11 PC using prebuilt binaries with Google Play Store (MindTheGapps) and/or Magisk or KernelSU (root solutions) …

作者头像 李华
网站建设 2026/3/15 22:51:52

Qwen2.5-VL-7B零基础教程:5分钟搭建RTX 4090专属视觉助手

Qwen2.5-VL-7B零基础教程:5分钟搭建RTX 4090专属视觉助手 你不需要懂模型结构,不用配环境变量,不装CUDA驱动——只要有一张RTX 4090显卡,5分钟内就能跑起一个真正能“看图说话”的本地视觉助手。它不是网页版Demo,不是…

作者头像 李华
网站建设 2026/3/18 17:19:24

Chord多场景应用:从安防到内容审核的落地实践

Chord多场景应用:从安防到内容审核的落地实践 1. 引言 在视频数据爆炸式增长的时代,如何高效理解视频内容成为各行各业面临的共同挑战。传统视频分析工具往往存在显存溢出、部署复杂、隐私安全等问题。基于Qwen2.5-VL架构的Chord视频时空理解工具&…

作者头像 李华
网站建设 2026/3/16 2:12:41

60 万人的同频共振:MrBeast 直播为何能“稳到离谱”?

MrBeast(野兽先生)真的太会玩了!为了庆祝超级碗,他在 2 月 8 日于旧金山开启了一场 60 分钟的直播盛宴,直接豪送超 100 万美元福利,直接炸场????。这场直播独家在海外超火的 Whatnot 平台播出&#xff…

作者头像 李华