news 2026/5/8 14:39:23

告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA

来自厦门大学、上海创智学院、复旦大学、字节跳动等机构的研究团队提出了一种全新的解决方案——MVGGT。

试想一下,如果你在一个未曾去过的杂乱房间,你只能快速地看三次房间里的布置,接下来就要求你去定位墙角的一张木桌子。

这就是具身智能体目前所面对的真实处境。在真实世界里,机器人缺少上帝视角,获得的往往只有几张稀疏、破碎的RGB照片。

面对这一难题,现有的3D指代分割方法往往难以奏效。

于是,来自厦门大学、上海创智学院、复旦大学、字节跳动等机构的研究团队提出了一种全新的解决方案——MVGGT

该工作根据上述问题定义了更符合需求的MV-3DRES任务,并且通过几何和语言双分支Transformer架构和创新的PVSO优化策略,实现了在稀疏多视角下对3D场景的高效理解和精确分割。

从理想点云到现实稀疏视角

三维指代表达分割(3DRES)是具身智能领域的一个重要任务,要求模型根据文本描述分割出三维场景中的目标对象。

尽管近年来的方法已经取得了显著成果,但他们都基于理想化假设:能够获取到密集、完整且可靠的点云输入。

而真实世界的智能体的感知,仅能通过少量随机拍摄的RGB图片来实现。而由这种稀疏的多视图图片生成的三维重建结果往往存在噪声而且是不完整的、模糊的。

于是引发了核心问题:当必须从稀疏、不一致的视图中推理时,该如何实现基于语言的三维感知?

为了解决上述问题,研究团队定义了一个贴近实际应用的新任务——多视图3D指代分割(MV-3DRES),即要求模型模型在没有稠密点云作为输入的情况下,直接利用稀疏的多视角RGB视图和文本指令,联合重建场景并分割被指代对象。

MVGGT——几何与语言的深度交融

针对稀疏视角下的感知难题,论文提出了一种端到端的双分支架构:Multimodal Visual Geometry Grounded Transformer(MVGGT)。

MVGGT的架构如上图所示,采用互补的双分支范式:

冻结的几何重建分支(Reconstruction Branch)

该分支以预训练的几何模型(Pi3)为基础,提供三维几何先验信息(相机位姿、深度图、粗糙点云结构)。

关键在于,该分支中的所有参数保持冻结,保证了训练过程中几何特征的稳定性,并消除了从稀疏图像中重新学习3D几何的需要。

可训练多模态分支(Multimodal Branch)

该分支接收几何特征,并利用交叉注意力机制将语言指令注入到视觉特征中。

简单来说,就是利用文本里的语义信息来辅助视觉判断,在画面不完整的时候,引导模型推断出正确的空间位置。

核心优化障碍:PVSO策略

但是,稀疏的多视图学习会带来一个棘手的优化挑战。

目标实例往往仅有极少数分散的点来表示,这远少于传统的3DRES方法中所使用的密集点云。

在这种较为极端的情况下,硬用Dice Loss这种标准损失函数是行不通的—前景的梯度信号极其微弱,容易被背景信号淹没,使得模型难以收敛。

这也就是研究团队在训练过程中发现的核心优化障碍:前景梯度稀释(Foreground Gradient Dilution,FGD)。

于是,研究团队引入了逐视图无目标抑制优化方法(PVSO):

2D梯度集中:将3D预测结果投影回2D图像空间。在2D视图中,目标占据的区域更大且更可靠,远高于3D空间,从而能够放大目标区域的梯度信号。

无目标视图的抑制:由于在稀疏视角中存在大量无目标视图(No-target views),PVSO引入了加权抑制机制,放大来自有效视图的有意义梯度,同时抑制来自无目标视图的误导性信号,有效防止了训练过程中的梯度偏差。

实验结果

为了填补评估标准的空白,研究团队构建了首个为多视图三维指代表达分割(MV-3DRES)定义设置、指标和数据协议的基准测试集——MVRefer。

该基准基于经典的ScanRefer和ScanNet数据集构建,模拟了在场景中随机采集8个稀疏视角的情况。

实验结果显示,MVGGT在各项指标上均显著优于现有的基线方法(如2D-Lift和Two-stage方法):

在MVRefer基准上,MVGGT在各项关键指标上均大幅领先于现有基线(如图中的2D-Lift和Two-stage方法)。在目标像素占比极低的困难(Hard)模式下,MVGGT依然保持了较高的分割精度,展现了极强的鲁棒性。

可视化结果进一步证明了模型的优势:

在深度噪声严重或遮挡复杂的场景中,基线方法往往会跟丢目标。

而MVGGT借助多模态语义的导航,往往能精准区分“墙面上的白板”等几何特征相似的目标。即使目标被杂物遮挡,它也能利用上下文信息实现精准定位目标实例。

总结

这项工作具有重要的实践意义,它提出了多视图三维指代表达分割(MV-3DRES)这一新任务设置,使三维接地与真实感知条件对齐,并提出了MVGGT和优化策略,实现了在没有稠密点云输入的情况下高质量的3D指代表达分割。这为具身智能在受限环境下的感知能力提供了新的思路与方向。

最后,研究团队诚挚邀请大家基于此基准进行测试与改进,共同探索稀疏感知在具身智能中的更多可能性,推动该领域向更高效、更通用的方向发展。

作者介绍

本论文共同第一作者为厦门大学与上海创智学院联合培养博士生吴昌鲡、厦门大学本科生王浩东,厦门大学博士后研究员纪家沂参与本研究,通讯作者为厦门大学多媒体可信感知与高效计算教育部重点实验室曹刘娟教授。该研究团队长期深耕3D视觉、多模态学习领域。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 18:59:17

T3Ster®热瞬态测试仪采用电压法(Voltage Method)来测量半导体器件的结温(Junction Temperature)和瞬态热响应

测试流程中关键步骤的详细讲解 T3Ster热瞬态测试仪采用电压法(Voltage Method)来测量半导体器件的结温(Junction Temperature)和瞬态热响应。这种方法基于p-n结(半导体器件中的基本结构,如二极管、晶体管中的结)的温度敏感特性。具体来说,它利用p-n结在恒定小电流下的…

作者头像 李华
网站建设 2026/5/5 14:55:32

救命神器9个AI论文平台,研究生高效写作必备!

救命神器9个AI论文平台,研究生高效写作必备! AI 工具如何成为论文写作的得力助手? 在研究生阶段,论文写作不仅是学术能力的体现,更是时间与精力的巨大考验。面对繁重的文献阅读、数据整理和内容撰写,许多学…

作者头像 李华
网站建设 2026/5/3 6:03:14

抽象类反汇编

抽象类反汇编 #include <stdio.h> class AbstractBase {public:AbstractBase(){printf("AbstractBase()");}virtual void show() 0; // 定义纯虚函数 }; class VirtualChild : public AbstractBase { // 定义继承抽象类的子类public :virtual voidshow(){ // …

作者头像 李华
网站建设 2026/5/7 14:45:54

救命神器2026 TOP10 AI论文写作软件测评:专科生毕业论文必备工具推荐

救命神器2026 TOP10 AI论文写作软件测评&#xff1a;专科生毕业论文必备工具推荐 2026年AI论文写作工具测评&#xff1a;专科生毕业论文的得力助手 随着人工智能技术的不断进步&#xff0c;AI写作工具在学术领域的应用越来越广泛。对于专科生而言&#xff0c;撰写一篇合格的毕业…

作者头像 李华
网站建设 2026/5/1 8:52:13

继续堆 Prompt,真的不如早点学 Skill

最近在 AI 圈&#xff0c;尤其是 Claude 社区&#xff0c;Skill 这个词刷屏刷得特别狠。有人说它是“下一个 Prompt Engineering”&#xff0c;有人直接喊“Prompt 已死&#xff0c;Skill 当立”。 我自己从去年底开始大量用 Skill 替换长 prompt 后&#xff0c;真实感受是&am…

作者头像 李华
网站建设 2026/5/1 16:29:59

Spring AI 支持 Agent 人机交互:让 AI 先问清楚再行动

传统的 AI 交互往往遵循一个固定模式&#xff1a;你提供问题&#xff0c;AI 基于假设给出答案。 当这些假设与你的实际需求不符时,你就会陷入反复修正的循环&#xff0c;每一个错误的假设都意味着返工——浪费时间和上下文。 如果你的 AI Agent 能够在提供答案之前主动询问明…

作者头像 李华