news 2026/5/31 2:29:35

【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

文章:SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

代码:https://github.com/earth-insights/SegEarth-R2

单位:西安交通大学



Attention:The LaSeRS dataset will be used as part of theAIRS 2026contest, thus its release is delayed. Stay tuned! Important information will be updated on https://github.com/earth-insights/SegEarth-R2

一、问题背景:现有AI“听不懂”复杂遥感指令

遥感图像的语言引导分割技术,是灾害响应、环境监测、城市规划等领域的核心支撑,它需要AI将自然语言指令精准映射到像素级的目标区域。但长期以来,这项技术面临四大关键瓶颈:

  1. 粒度层级复杂:从“飞机”这类大类到“飞机发动机”等部件级细分,目标尺度跨度极大,现有模型难以兼顾;

  2. 多目标并行难:单一指令需同时识别多个目标(如“找避难所+避危险建筑”),传统模型只能逐一处理;

  3. 隐含意图难推断:指令常包含隐含逻辑(如“地震逃生方向”需推断“开阔地=安全”),而非直接标注类别;

  4. 语言风格多变:指令可长可短、可详可略,模型鲁棒性不足。

更关键的是,现有数据集多聚焦简单单目标场景,缺乏覆盖上述复杂维度的训练资源,导致AI在真实场景中“水土不服”,难以落地实用。

二、方法创新:两大核心突破,兼顾全面性与高效性

为破解上述难题,研究团队推出“数据集+模型”的完整解决方案,双管齐下突破技术瓶颈:

1. 首个全能数据集LaSeRS:覆盖四大复杂维度

LaSeRS是首个专门针对遥感复杂语言引导分割的大规模数据集,堪称AI的“全能训练题库”:

  • 规模庞大:包含40396张高质量像素掩码、30830组问答对,覆盖122类目标,是现有数据集类别数量的5倍以上;

  • 维度全面:系统涵盖层级粒度(概念+分割双层级)、多目标、推理需求(显式+隐式)、语言变异性(长+短指令)四大核心场景;

  • 质量过硬:通过“自动筛选+人工审核”的半自动化流程构建,既保证标注精度(含掩码、边界框等多类型标注),又确保指令与场景的逻辑一致性。

2. 高效模型SegEarth-R2:精准应对复杂场景

针对LaSeRS数据集的挑战,研究团队设计了30亿参数的MLLM架构SegEarth-R2,核心亮点的两大创新机制:

  • 空间注意力监督:解决小目标/部件级分割不准的痛点,通过直接监督模型内部的视觉-语言注意力映射,强制模型聚焦目标区域,避免细节丢失;

  • 灵活分割查询机制:摒弃传统“先生成候选再筛选”的低效模式,通过动态输出[SEG]令牌,直接适配单/多目标场景,既提升速度又减少冗余计算。

模型整体架构简洁高效,由视觉编码器提取多尺度特征,LLM负责指令理解与推理,分割头基于[SEG]令牌生成精准掩码,实现“理解-推理-分割”端到端完成。

三、实验结果:刷新多项纪录,性能全面领先

在LaSeRS及三大主流遥感基准测试(RRSIS-D、RefSegRS、EarthReason)中,SegEarth-R2表现惊艳:

  1. LaSeRS数据集上:平均gIoU/cIoU达57.2/67.9,在部件级分割任务中以20个百分点的优势超越第二名,单目标任务排名第一,多目标任务位列第二(仅落后80亿参数模型);

  2. 跨数据集泛化:在RRSIS-D测试集gIoU达67.9,RefSegRS测试集达74.8,EarthReason推理分割平均得分70.9,均刷新当前最优纪录;

  3. 效率优势显著:仅30亿参数,比70亿、130亿参数的竞品更轻巧,推理时间减少34.1%,计算成本降低27.4%,兼顾性能与部署可行性。

四、优势与局限:看清技术落地的潜力与方向

核心优势

  1. 场景覆盖最全:首次实现四大复杂维度的全覆盖,真正适配真实遥感应用需求;

  2. 性价比突出:参数规模小但性能领先,降低算力门槛,更适合实际部署;

  3. 泛化能力强:在多个公开基准上均表现优异,证明模型的通用性与稳健性;

  4. 开源开放:数据集与代码均已公开,为行业提供高质量基准与工具。

现存局限

  1. 多目标场景下,相比80亿参数的GeoPixel模型仍有差距,复杂推理能力受参数规模限制;

  2. 对极端长尾分布的细分类别,分割精度仍有提升空间;

  3. 模型推理速度虽优于传统方法,但在实时性要求极高的场景(如灾害应急响应),仍需进一步优化。

五、一句话总结

LaSeRS数据集填补了遥感复杂语言引导分割的训练资源空白,SegEarth-R2模型以两大创新机制实现“精准+高效”的双重突破,共同推动遥感AI从“听懂简单指令”迈向“应对复杂真实场景”,为灾害救援、城市规划等领域提供更实用的技术支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 18:11:44

18、软件开发中的测试与数据库访问

软件开发中的测试与数据库访问 1. 测试的重要性与代码覆盖 在软件开发过程中,测试是至关重要的一环。以 Drupal 框架为例,在版本 7 之前,测试并未得到足够重视,测试模块甚至需要对核心进行修改才能运行。但从 Drupal 7 开始,开发者将测试置于开发的核心位置,没有全面的…

作者头像 李华
网站建设 2026/5/29 1:54:57

19、Drupal数据库操作与模块部署全解析

Drupal数据库操作与模块部署全解析 1. 动态查询模型概述 动态查询模型具备静态查询模型的所有功能,并且具有跨数据库兼容性的额外优势。其自文档化的表达方式,使得代码更易于阅读和维护。许多适用于SELECT查询的方法,同样可用于其他类型的查询。 2. 动态插入查询 db_inse…

作者头像 李华
网站建设 2026/5/29 23:07:14

python小程序 寻人失踪人员信息发布与管理系统_pycharm django vue flask

目录已开发项目效果实现截图开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果实现截图 同行可拿货,招校园代理 python小程序 寻人失踪人员信息发布与管理系统_pycharm djang…

作者头像 李华
网站建设 2026/5/29 21:24:43

30、深入探索 Git:高级操作与远程交互

深入探索 Git:高级操作与远程交互 在使用 Git 进行版本控制时,除了基本的操作外,还有许多高级功能和远程交互的方法可以帮助我们更高效地管理项目。以下将为大家详细介绍一些实用的 Git 技巧和远程操作的相关知识。 1. 自动暂存 rerere 解决的文件 在使用 Git 的 rerere …

作者头像 李华
网站建设 2026/5/28 18:11:50

39、Git 子树操作与钩子功能全解析

Git 子树操作与钩子功能全解析 1. Git 子树操作 在进行 Git 子树操作前,需要满足一定的前提条件。你需要有网络连接,并且至少完成了相关实验的前两个步骤,即把原始 calc2 项目的各个拆分项目 fork 到你在 GitHub 的区域,并将 super_calc 项目克隆到本地系统。 以下是具体…

作者头像 李华
网站建设 2026/5/28 18:11:50

STM32CubeMX汉化环境下外设初始化代码生成解析

深入STM32CubeMX中文环境:外设初始化代码是如何“一键生成”的?你有没有经历过这样的场景?刚打开STM32参考手册,上千页的英文文档扑面而来,RCC_APB2ENR、GPIOx_MODER这些寄存器看得人头晕眼花。明明只是想点亮一个LED&…

作者头像 李华