【ICLR26-加州大学】GEN2SEG：生成模型实现可泛化的实例分割-开发者社区

文章：GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码：https://reachomk.github.io/gen2seg

单位：加州大学戴维斯分校

一、问题背景

人类仅凭有限经验就能识别各类陌生物体，而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中，现有模型要么需要大规模标注数据（如SAM依赖1100万张图像和11亿个掩码），要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练，就具备强大的跨类别、跨风格实例分割能力，成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

核心思路：借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构，天然蕴含感知分组机制，将其适配到类别无关的实例分割任务。
模型选择与微调：基于Stable Diffusion 2和MAE（仅经ImageNet-1K预训练），通过端到端微调实现分割，无需互联网规模预训练或文本监督。
实例着色损失设计：将分割掩码编码为RGB图像（每个实例分配唯一颜色、背景为黑色），设计三重损失： intra-实例方差损失（保证实例内像素颜色一致）、inter-实例分离损失（推开实例外像素与实例颜色）、均值分离损失（区分不同实例的颜色中心），无需固定颜色映射即可实现精准分割。
点提示分割方案：通过高斯加权平均计算提示点的查询向量，结合相似度映射与双边滤波，实现简单高效的点提示二进制掩码生成，无需额外训练掩码解码器。

三、实验结果

零样本泛化表现：在COCOexc、DRAM（艺术）、EgoHOS（第一视角）、iShape（精细结构）、PIDRay（X光）5个数据集上，SD模型性能接近强监督的SAM，iShape数据集上mIoU达51.4，远超SAM的16.8。
边缘检测优势：BSDS500数据集上，SD模型边缘AP达93.4，显著优于SAM的79.0，即使训练数据为多边形边缘的COCO，仍保持10个百分点以上的优势。
数据鲁棒性：仅用5类物体（书籍、椅子等）或简单形状数据集（ClevrTex）训练，仍能保持良好泛化；面对色调调整、灰度化等图像扰动，掩码质量下降有限。
高效训练特性：SD模型仅需4块RTX6000 Ada GPU训练29小时（8.7万张图像、370万掩码），远低于SAM的256块A100 GPU训练68小时的成本。