news 2026/2/23 8:07:08

【厦门大学-纪荣嵘组-arXiv25】全参考图像分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【厦门大学-纪荣嵘组-arXiv25】全参考图像分割

文章:Omni-Referring Image Segmentation

代码:https://github.com/As-Time-Goes-By/OmniSegNet

单位:厦门大学


一、问题背景

现有图像分割任务主要分为两类:一类是基于文本提示的RIS(Referring Image Segmentation),擅长通过文字描述定位具有特定属性或空间关系的常见物体,但面对难以用语言表达的目标时精度大幅下降;另一类是基于视觉参考的Visual RIS,依靠参考图像能有效定位罕见或难描述物体,却难以区分同类别下细节不同的对象。

此外,现有任务的分割设置较为单一,大多局限于一对一、一对多等简单场景,缺乏对多对多等复杂场景的支持,且无法灵活切换单模态与多模态提示,通用性和实用性受到极大限制。如何融合两种模态的优势,构建更通用、灵活的分割框架,成为当前领域的重要研究方向。

二、方法创新

1. 提出新型任务OmniRIS

首次提出全参考图像分割(Omni-Referring Image Segmentation, OmniRIS)任务,支持文本指令、带掩码/边界框/涂鸦的参考图像作为输入,可灵活组合单模态或多模态提示。同时覆盖一对一、一对多、多对一、多对多及无目标五种分割场景,实现高度通用的图像分割。

2. 构建大规模数据集OmniRef

为支撑任务研究,构建了包含30,956张图像、186,939个全模态提示的OmniRef数据集。数据集经过严格的四步构建流程(图像筛选、视觉标注、文本标注、全模态标注融合),划分了文本仅、视觉仅、全模态三种测试集,覆盖单目标、多目标、无目标等多种场景,规模远超现有RIS基准数据集。

3. 设计基线模型OmniSegNet

提出强基线模型OmniSegNet,核心创新在于:

  • 新型全提示编码器(Omni-Prompt Encoder),包含提示嵌入模块(PEM)和提示生成器,实现文本与视觉空间提示的有效融合;

  • 三步训练机制:先通过视觉-语言对齐预训练,再进行视觉指令微调,最后开展全模态联合训练,兼顾单模态与多模态处理能力;

  • 多尺度特征融合与自适应掩码解码,可根据输入提示动态调整输出掩码数量。

三、实验结果

1. 数据集测试表现

在OmniRef的三种测试集上,OmniSegNet均表现优异:

  • 文本仅测试集:与同规模骨干网络的方法相比,性能更优,展现出强大的文本指令理解能力;

  • 视觉仅测试集:在掩码、边界框、涂鸦三种提示类型下,各项指标(cIoU、gIoU、Pr@0.7等)均超过现有先进视觉RIS方法;

  • 全模态测试集:大幅超越ReLA+VRP-SAM等组合基线,证明其在多模态融合推理上的优势。

2. 泛化能力验证

  • 在gRefCOCO、RefCOCO等传统RIS基准数据集上,OmniSegNet超越ReLA等SOTA方法,部分指标甚至优于大语言模型驱动的方法;

  • 在PASCAL-5ᵢ少样本语义分割任务中,平均mIoU达到53.0,显著优于PerSAM、MIAPnet等专用模型,展现出极强的泛化能力。

3. 消融实验结论

  • 视觉提示类型中,掩码提示因信息最完整表现最佳,边界框次之,涂鸦因覆盖有限表现稍弱;

  • 提示嵌入模块中,加法融合比乘法融合更稳定,无融合时性能大幅下降,验证了模块的必要性;

  • 文本与视觉数据的训练采样比为7:2时,模型在双模态任务上均达到最优平衡。

四、优势与局限

优势

  1. 模态融合:充分发挥文本的细粒度属性描述优势与视觉的罕见目标定位优势,解决单模态任务的固有缺陷;

  2. 场景灵活:支持五种分割场景和多种提示类型,可适配人机交互等实际应用中的复杂需求;

  3. 泛化性强:在传统RIS任务、少样本分割任务中均表现出色,无需针对特定任务重新设计模型;

  4. 数据优质:OmniRef数据集标注严格、场景丰富,为多模态分割研究提供了高质量基准。

局限

  1. 模型复杂度较高,全模态联合训练需要更多计算资源支持;

  2. 面对极端相似的同类别对象时,对细节差异的区分能力仍有提升空间;

  3. 长文本指令的理解效率和复杂空间关系的推理精度可进一步优化。

五、一句话总结

OmniRIS通过融合文本与视觉多模态提示,结合大规模数据集OmniRef和强基线模型OmniSegNet,突破了单模态分割任务的局限,实现了多场景、高通用的图像分割,为复杂场景下的交互式分割应用提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/14 8:50:43

CAN回环测试 QA

收发器(TJA1042T/3)的作用:1.TTL转差分信号;2.stm32输出的3.3V或5V与CAN总线差分电平标准不匹配;双设备CAN通信数据流向:发送端:内存->发送邮箱->总线接收端:总线->筛选器-…

作者头像 李华
网站建设 2026/2/19 14:22:22

MySQL 分区、分表、分库:从原理到生产实践

目录 1、分库分表分区 1.1、联系 1.2、对比 2、分区(Partitioning) 2.1、介绍 2.2、核心原理 2.3、常见分区类型 2.4、分区管理命令 3、分表(Table Sharding) 3.1、介绍 3.2、使用原因 3.3、分片策略设计 3.4、MyBa…

作者头像 李华
网站建设 2026/2/10 18:09:03

IDA Pro下载后如何配置?手把手教你搭建逆向环境

从零开始配置 IDA Pro:打造你的专业级逆向分析环境 你刚完成 idapro下载 ,双击安装包一路“下一步”走完,打开软件却一脸茫然——界面密密麻麻、菜单看不懂、调试器起不来、Python 脚本报错……别急,这几乎是每个逆向新手的必经…

作者头像 李华
网站建设 2026/2/5 19:10:12

Dify平台能否构建AI导游?文旅产业智能化服务

Dify平台能否构建AI导游?文旅产业智能化服务 在智慧旅游浪潮席卷全球的今天,游客早已不再满足于千篇一律的语音导览或静态展板。他们希望获得更个性、更智能、更有温度的游览体验——比如,站在一座古建筑前,只需轻声一问&#xff…

作者头像 李华
网站建设 2026/2/21 23:21:48

零基础构建本地视频监控:UVC设备接入操作指南

零基础也能搭监控?手把手教你用UVC摄像头打造本地视频系统 你有没有过这样的需求:想在家门口装个摄像头看看谁按门铃,或者在仓库临时架一台设备盯一盯货物安全?但一想到要布线、买NVR、配网络、设IP……头都大了。 其实&#xf…

作者头像 李华
网站建设 2026/2/9 6:42:22

Dify平台语音识别扩展可能性:结合ASR模型的应用

Dify平台语音识别扩展可能性:结合ASR模型的应用 在智能办公、远程协作和无障碍交互日益普及的今天,用户对“动口不动手”的交互体验提出了更高要求。无论是会议中快速记录要点,还是现场工作人员边操作边发起指令,传统的键盘输入方…

作者头像 李华