news 2026/1/27 11:55:23

TPAMI 2025 | 超矩形嵌入新突破!多机构联合提出无偏3D场景图预测框架,革新RGB序列语义理解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | 超矩形嵌入新突破!多机构联合提出无偏3D场景图预测框架,革新RGB序列语义理解
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

在自动驾驶、机器人导航等领域,3D场景图作为环境的高级语义表示,扮演着至关重要的角色。然而,现有方法在处理语义多义性、数据偏差和预测可靠性等问题上仍存在瓶颈。近期发表于TPAMI 2025的论文《Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences》提出了一种基于超矩形嵌入的创新方案,为解决这些挑战提供了新思路。

论文信息

题目:Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences
从RGB序列中进行无偏3D场景图预测的超矩形嵌入
作者:Mingtao Feng, Chenbo Yan, Zijie Wu, Weisheng Dong, Yaonan Wang, Ajmal Mian
源码:https://github.com/cbyan1003/HEDSGP

核心痛点:3D场景图预测的三大难题

传统3D场景图方法通常将实体表示为固定维度的特征向量,这种粗糙的表示方式难以应对语义角色的多义性。例如,在"<橱柜,在……上,地板>"和"<水槽,附着于,橱柜>"两个关系中,"橱柜"作为宾语和主语时需要强调的语义属性截然不同,但向量表示无法有效区分这些细微差别。

此外,3D场景数据集普遍存在的长尾分布问题(即少数关系类别占据大量样本,多数类别样本稀缺),导致模型倾向于预测常见类别,产生严重偏差。同时,现有方法从未考虑预测结果的可靠性,使得模型在关键决策场景中面临巨大风险。

创新突破:超矩形嵌入的表示革命

论文提出用超矩形嵌入(hyperrectangle embedding)替代传统向量表示实体节点,这一几何化的表示方式为场景理解带来三大优势:

  1. 细粒度语义捕捉:超矩形通过n维空间中的区间范围(如[x₁⁻,x₁⁺]×[x₂⁻,x₂⁺]×...×[xₙ⁻,xₙ⁺])建模实体,相比向量能更自然地表达语义的模糊性和多模态性。

  2. 关系的几何解释:两个实体的关系通过各自超矩形经仿射变换后的交集表示(如图1所示),交集体积直接反映关系的置信度,实现了关系推理的可视化解释。

  3. 灵活的角色适配:同一实体在不同关系中(如作为主语或宾语)会被赋予不同的仿射变换,完美解决语义角色多义性问题。

图1:传统向量表示(a)与超矩形嵌入表示(b)的对比,超矩形通过几何交集建模关系

方法解析:从RGB序列到可靠场景图

整体框架

论文框架包含三个核心模块(如图2所示):RGB序列重建管道、超矩形嵌入节点表示、去偏边表示与可靠性增强。

图2:基于超矩形嵌入的3D场景图预测框架

1. RGB序列重建管道

从连续RGB帧出发,通过ORB-SLAM3生成稀疏点云,结合2D实体检测与多视图图像特征,为每个实体构建包含几何特征、图像特征和空间属性(边界框中心、体积等)的初始描述,为后续超矩形嵌入提供丰富输入。

2. 超矩形嵌入生成

将实体编码为n维超矩形:

  • 通过盒解码器将初始特征转换为超矩形的中心坐标和偏移参数

  • 利用Gumbel分布建模超矩形边界,解决训练中的梯度稀疏问题

  • 节点分类通过计算实体超矩形与类别原型超矩形的交集体积实现

3. 去偏关系推理

为解决长尾分布偏差,论文设计了混淆历史块(confusion history block)机制(如图3所示):

图3:逻辑约束与历史信息融合机制

  • 构建三维立方体矩阵记录历史预测结果(主语、谓词、宾语)

  • 通过注意力机制从数据丰富类别向稀缺类别转移知识

  • 引入一阶逻辑规则(如关系传递性)约束超矩形变换,增强推理合理性

4. 可靠性增强策略

通过高斯核函数分析混淆历史块,计算预测的边界不确定性(决策边界附近样本)和内部不确定性(高误分类区域样本),识别不可靠样本并精炼训练集,最终提升模型预测的稳定性。

图4:混淆历史块的三维结构与切片方式,蓝色切片用于主语分析,红色切片用于宾语分析

实验验证:3DSSG数据集上的全面超越

在3DSSG数据集(包含1335个室内场景、160个实体类别和26个关系类别)上的实验表明:

  • 对象分类:在20个NYUv2实体类别上准确率提升4.3%

  • 谓词分类:对稀有关系类别的召回率提升12.7%

  • 三元组预测:R@1指标超过现有SOTA方法5.8个百分点

尤其值得注意的是,在包含160个实体类别和26个关系类别的完整设置下,该方法在场景图分类(SGCls)和谓词分类(PredCls)任务中均保持显著优势,证明了其在复杂场景中的鲁棒性。

总结与展望

该研究通过几何化的超矩形嵌入打破了传统向量表示的局限,结合历史引导去偏和可靠性增强策略,为3D场景图预测开辟了新方向。未来工作可探索更高维超矩形的优化方法,以及在动态场景中的应用拓展。

下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/24 10:29:27

YOLO26 vs YOLOv8实战对比:GPU利用率与推理速度全面评测

YOLO26 vs YOLOv8实战对比&#xff1a;GPU利用率与推理速度全面评测 在目标检测领域&#xff0c;YOLO系列模型持续迭代演进。近期社区热议的YOLO26并非官方发布的正式版本——目前Ultralytics官方最新稳定版为YOLOv8&#xff0c;而所谓“YOLO26”实为部分开发者基于YOLOv8架构…

作者头像 李华
网站建设 2026/1/24 10:28:59

港科校友|荣义:在量化交易的世界里寻找数学与现实的交汇点

在香港科技大学的清水湾畔&#xff0c;荣义学长曾无数次在实验室的灯光下&#xff0c;思考着数学与现实的交汇点。如今&#xff0c;作为高盛量化交易团队的一员&#xff0c;他依然在用自己的方式&#xff0c;寻找着数学与现实世界的连接。荣义的职业选择&#xff0c;看似偶然&a…

作者头像 李华
网站建设 2026/1/24 10:27:05

NewBie-image-Exp0.1怎么用?XML结构化提示词保姆级教程入门必看

NewBie-image-Exp0.1怎么用&#xff1f;XML结构化提示词保姆级教程入门必看 1. 这不是普通动漫生成模型&#xff0c;而是专为新手设计的“可理解型”创作工具 你可能已经试过不少AI画图工具——输入一串关键词&#xff0c;点下生成&#xff0c;等几秒&#xff0c;出来一张图。…

作者头像 李华
网站建设 2026/1/24 10:25:58

利用Altium Designer生成精准走线宽度对照表实战案例

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。全文已彻底去除AI生成痕迹,采用真实工程师口吻写作,逻辑层层递进、语言自然流畅、重点突出实战价值,并严格遵循您提出的全部优化要求(无模块化标题、无总结段、无参考文献、不使用“首先/其次/最后”等机…

作者头像 李华
网站建设 2026/1/24 10:25:57

1小时速成:用NEO4J快速验证知识图谱创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个快速知识图谱原型生成器&#xff0c;功能包括&#xff1a;1. 从CSV/Excel文件自动导入数据&#xff1b;2. 可视化定义实体和关系&#xff1b;3. 一键生成NEO4J数据库&…

作者头像 李华
网站建设 2026/1/24 10:25:51

CNPM vs NPM:安装速度实测对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个性能对比测试工具&#xff0c;功能包括&#xff1a;1.自动创建测试项目2.并行运行CNPM和NPM安装3.记录下载速度、依赖解析时间等指标4.生成可视化对比图表。要求支持测试不…

作者头像 李华