news 2026/2/25 5:27:48

<span class=“js_title_inner“>【厦门大学-曹刘娟组-arXiv25】进化,而非训练:通过进化提示实现零样本推理分割</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>【厦门大学-曹刘娟组-arXiv25】进化,而非训练:通过进化提示实现零样本推理分割</span>

文章:Evolving, Not Training: Zero-Shot Reasoning Segmentation via Evolutionary Prompting

代码:https://github.com/AHideoKuzeA/Evol-SAM3

单位:厦门大学


一、问题背景:推理分割的三大核心痛点

推理分割的关键难点在于“语言-视觉-逻辑”的三重对齐,但现有主流方法始终无法突破以下瓶颈:

  1. 监督微调(SFT):“记了新的,忘了旧的”
    传统SFT方法需要用大量标注数据训练特定任务,却存在严重的“灾难性遗忘”——训练完“医疗影像分割”后,再处理“家居场景分割”时,会丢失之前学到的特征;同时,它高度依赖领域数据,若换一个未见过的场景(如工业零件缺陷分割),准确率会骤降30%-50%,通用性极差。

  2. 强化学习(RL):“奖励依赖症”与训练不稳定
    RL方法试图通过“奖励函数”引导模型优化,但奖励函数的设计极具主观性——比如“分割准确率”和“边界完整性”的权重难以平衡,稍有调整就会导致训练震荡;此外,RL训练周期长、算力消耗大,且在复杂语言查询(多条件嵌套)下,容易出现“奖励误判”,反而降低分割精度。

  3. 无训练方法:“一步到位”的静态陷阱
    近期兴起的无训练方法虽避开了训练负担,却陷入“生成-然后分割”的单流程静态范式——模型只能根据初始提示生成一次分割结果,无法自我检查错误。比如遇到“找出桌子上不是蓝色的杯子”这类否定性查询时,容易误将蓝色杯子纳入结果;若图像中物体有遮挡(如“被书本挡住一半的笔记本电脑”),也无法修正空间定位偏差,推理深度严重不足。

二、方法创新:用“进化思维”重构推理分割逻辑

针对静态推理的局限,EVOL-SAM3提出了“推理时进化搜索”的全新框架——不依赖固定提示,而是让模型像生物进化一样,通过“生成-评估-进化”循环迭代优化提示假设,核心创新点可拆解为三大模块:

1. 动态提示池:告别“单一提示依赖”

不同于传统方法的“单提示输入”,EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池(比如针对“红色椅子上的人”,提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示),每个提示对应一个初步分割结果,为后续进化提供“基因多样性”。

2. 三大核心循环:模拟“自然选择”的优化逻辑

框架的核心是持续迭代的“生成-评估-进化”循环,每个环节都有针对性设计:

  • 生成环节:基于当前提示池,调用SAM(Segment Anything Model)生成对应分割掩码,确保基础分割能力的可靠性;

  • 评估环节:引入“视觉竞技场”——无需外部标签,而是让两个提示的分割结果“两两竞赛”,通过对比“语言查询匹配度”(如是否包含“红色”特征)和“空间完整性”(如是否完整覆盖“椅子”区域),自动打分筛选优质提示;

  • 进化环节:设计“语义变异算子”——对高分提示进行微调(如将“红色”细化为“酒红色”“鲜红色”),同时补充新的候选提示,避免陷入局部最优,像生物变异一样保持提示池的多样性。

3. 异构竞技场:融合几何与语义的“最终裁判”

在循环末期,引入“异构竞技场”模块——不仅评估语义匹配度,还加入几何先验(如“人坐在椅子上”的空间位置关系:人体应在椅子上方,且两者边界有重叠),对剩余候选提示进行最终筛选,确保分割结果既符合语言逻辑,又符合现实世界的空间规律。

三、实验结果:零样本场景下超越全监督SOTA

研究团队在推理分割领域的权威基准ReasonSeg(包含家居、办公、户外等6类复杂场景,共1.2万张图像+3.5万条复杂语言查询)上开展实验,重点验证零样本性能(即模型未在ReasonSeg数据集上进行任何训练),结果远超现有方法:

从表格可见,EVOL-SAM3在零样本设置下,平均IoU不仅比无训练静态方法高8.6%-10.6个百分点,更直接超越了全监督SOTA方法(CoOp+SAM)4.2个百分点;尤其在“多条件嵌套”“否定性查询”等复杂任务中,准确率提升更为显著(比全监督方法高7.8个百分点)。

此外,在“遮挡场景”和“跨领域场景”(如训练数据为家居,测试数据为工业零件)的专项测试中,EVOL-SAM3的性能衰减率仅为8%-12%,而传统无训练方法衰减率高达25%-35%,充分证明其场景适应性。

四、优势与局限:客观看待“进化式”框架的价值

(一)核心优势

  1. 零样本通用性拉满
    无需任何目标数据集的训练,即可直接应用于医疗、工业、家居等不同领域,解决了SFT“领域依赖”和RL“训练成本高”的痛点,落地门槛大幅降低。

  2. 推理灵活性突破静态局限
    通过“循环进化”实现自我修正,能处理否定句、多条件查询、物体遮挡等复杂场景,解决了传统无训练方法“一步错、步步错”的问题。

  3. 无标注依赖,低成本落地
    全程无需人工标注数据,仅依赖初始提示池和自动评估机制,尤其适合标注成本高的领域(如医疗影像、工业缺陷检测)。

(二)现存局限

  1. 推理速度较慢
    “生成-评估-进化”循环需要迭代5-10轮,单张图像处理时间约为0.8-1.2秒,比静态方法(0.2-0.3秒)慢3-4倍,难以满足自动驾驶、实时监控等“毫秒级响应”场景。

  2. 极端语言查询仍有短板
    面对超复杂逻辑查询(如“找出在桌子左边、比花瓶高、且旁边有黑色钢笔的白色杯子”),语义变异算子可能无法覆盖所有条件,导致分割准确率下降至60%左右。

  3. 提示池初始化依赖经验
    初始提示池的数量(10-20个)和类型需要人工设定,若初始化不当(如提示方向单一),会增加进化迭代次数,影响效率。

五、一句话总结

EVOL-SAM3通过“进化式推理框架”,在零样本推理分割任务中突破静态方法局限,不仅超越全监督SOTA,还具备跨领域适应性,虽在推理速度和极端查询处理上仍需优化,但为低成本落地复杂视觉任务提供了全新思路。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/18 20:13:20

3 款宝藏小软件,工作效率直接起飞!

打工人的日常,不是在跟繁琐的文件打交道,就是在处理各种复杂任务的路上。今天给大家带来几款超实用电脑小软件,巧妙运用,操作电脑的效率直接火箭式飙升,让工作轻松不费力! Quicklook 快速预览神器 Quick…

作者头像 李华
网站建设 2026/2/10 20:08:29

Android开发工程师职位深度解析与面试指南

神通科技集团股份有限公司 安卓开发工程师(消费电子) 职位信息 1. 主导和参与项目开发的软件需求分析、架构评估设计、详细设计、代码开发和性能优化,以及技术文档的编写等工作,保证软件开发进度和质量满足项目要求; 2. 完成软件模块的需求整理和软件设计,验证及修正测试…

作者头像 李华
网站建设 2026/2/21 18:08:10

fastapi异步处理模板

from fastapi import FastAPIfrom pydantic import BaseModel# 1. 初始化 FastAPI 应用实例app FastAPI(title"字符串处理接口", # 接口文档标题description"接收单个字符串,返回处理后的字符串", # 接口文档描述version"1.0.0" …

作者头像 李华