news 2026/5/26 7:58:24

【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

文章:GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码:https://reachomk.github.io/gen2seg

单位:加州大学戴维斯分校


一、问题背景

人类仅凭有限经验就能识别各类陌生物体,而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中,现有模型要么需要大规模标注数据(如SAM依赖1100万张图像和11亿个掩码),要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练,就具备强大的跨类别、跨风格实例分割能力,成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

  1. 核心思路:借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构,天然蕴含感知分组机制,将其适配到类别无关的实例分割任务。

  2. 模型选择与微调:基于Stable Diffusion 2和MAE(仅经ImageNet-1K预训练),通过端到端微调实现分割,无需互联网规模预训练或文本监督。

  3. 实例着色损失设计:将分割掩码编码为RGB图像(每个实例分配唯一颜色、背景为黑色),设计三重损失: intra-实例方差损失(保证实例内像素颜色一致)、inter-实例分离损失(推开实例外像素与实例颜色)、均值分离损失(区分不同实例的颜色中心),无需固定颜色映射即可实现精准分割。

  4. 点提示分割方案:通过高斯加权平均计算提示点的查询向量,结合相似度映射与双边滤波,实现简单高效的点提示二进制掩码生成,无需额外训练掩码解码器。

三、实验结果

  1. 零样本泛化表现:在COCOexc、DRAM(艺术)、EgoHOS(第一视角)、iShape(精细结构)、PIDRay(X光)5个数据集上,SD模型性能接近强监督的SAM,iShape数据集上mIoU达51.4,远超SAM的16.8。

  2. 边缘检测优势:BSDS500数据集上,SD模型边缘AP达93.4,显著优于SAM的79.0,即使训练数据为多边形边缘的COCO,仍保持10个百分点以上的优势。

  3. 数据鲁棒性:仅用5类物体(书籍、椅子等)或简单形状数据集(ClevrTex)训练,仍能保持良好泛化;面对色调调整、灰度化等图像扰动,掩码质量下降有限。

  4. 高效训练特性:SD模型仅需4块RTX6000 Ada GPU训练29小时(8.7万张图像、370万掩码),远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势
  1. 泛化能力突出:无需见过目标类别掩码,就能分割人类、动物、印象派艺术、X光图像等未训练场景,突破数据依赖。

  2. 细节分割精准:在精细结构(如电线)和模糊边界(如马车与马匹)分割上优于SAM,边缘更清晰。

  3. 训练高效灵活:仅需微调解码器或少数层即可达到理想效果,支持少量标注数据训练,适配不同硬件资源。

  4. 鲁棒性强:对图像颜色、纹理变化不敏感,适配复杂真实场景。

局限
  1. 小物体分割薄弱:受预训练偏置影响,对小型物体的分割性能较差(COCO S exc的mIoU仅8.5)。

  2. 训练分辨率受限:微调分辨率低于SAM(480×640/224×224 vs 1024×1024),可能影响细节捕捉。

  3. 部分场景边界模糊:倾向于将云层、草地等归为背景,高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失,实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割,为低成本、高泛化的视觉感知任务提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 22:51:59

股市估值差异对国际技术标准制定的影响

股市估值差异对国际技术标准制定的影响关键词:股市估值差异、国际技术标准制定、技术创新、市场竞争、产业发展摘要:本文深入探讨了股市估值差异对国际技术标准制定的影响。首先介绍了研究的背景、目的、范围以及预期读者等内容。接着阐述了股市估值差异…

作者头像 李华
网站建设 2026/5/22 13:22:27

丹诺医药拿到IPO备案:暂无收入,9个月亏1.15亿 估值20亿

雷递网 雷建平 2月8日丹诺医药(苏州)股份有限公司(简称:“丹诺医药”)日前通过IPO备案,拿到了上市的钥匙。丹诺医药目前无收入,2025年前9个月亏损1.15亿。丹诺医药成立以来获得过多次融资&#…

作者头像 李华
网站建设 2026/5/21 7:11:05

王宝强身家上亿,亲哥哥却在村头卖大饼,哥哥的回答太扎心了?

在娱乐圈的璀璨星河中,王宝强宛如一颗耀眼的流星,凭借自身努力从草根逆袭成身家上亿的明星。然而,与之形成鲜明对比的是,他的亲哥哥却在村头卖大饼,这一反差如同一颗石子投入舆论的湖面,激起层层涟漪。王宝…

作者头像 李华
网站建设 2026/5/23 10:59:19

惊艳效果!Qwen3-ASR-1.7B语音识别实测展示

惊艳效果!Qwen3-ASR-1.7B语音识别实测展示 你是否好奇,一个开源的语音识别模型,到底能把你的声音转换成多准确的文字?今天,我们就来实测一下Qwen3-ASR-1.7B这个“明星选手”。它号称能听懂52种语言和方言,…

作者头像 李华
网站建设 2026/5/1 15:49:52

3大方案突破Rhino建模效率瓶颈:RhinoPython脚本编程实战指南

3大方案突破Rhino建模效率瓶颈:RhinoPython脚本编程实战指南 【免费下载链接】rhinoscriptsyntax rhinoscriptsyntax library for Python scripting engine that runs on both the Windows and OSX Rhino as well as Grasshopper 项目地址: https://gitcode.com/g…

作者头像 李华
网站建设 2026/5/26 1:20:11

Qwen-Image-2512教程:如何用中文提示词创作

Qwen-Image-2512教程:如何用中文提示词创作 你是不是也遇到过这种情况?想用AI画一张“水墨江南”的风景图,结果生成出来的画面,要么是颜色不对,要么是意境全无,怎么看都像是个外国画家凭想象画出来的“伪中…

作者头像 李华