点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达在自动驾驶、机器人导航等领域,3D场景图作为环境的高级语义表示,扮演着至关重要的角色。然而,现有方法在处理语义多义性、数据偏差和预测可靠性等问题上仍存在瓶颈。近期发表于TPAMI 2025的论文《Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences》提出了一种基于超矩形嵌入的创新方案,为解决这些挑战提供了新思路。
论文信息
题目:Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences
从RGB序列中进行无偏3D场景图预测的超矩形嵌入
作者:Mingtao Feng, Chenbo Yan, Zijie Wu, Weisheng Dong, Yaonan Wang, Ajmal Mian
源码:https://github.com/cbyan1003/HEDSGP
核心痛点:3D场景图预测的三大难题
传统3D场景图方法通常将实体表示为固定维度的特征向量,这种粗糙的表示方式难以应对语义角色的多义性。例如,在"<橱柜,在……上,地板>"和"<水槽,附着于,橱柜>"两个关系中,"橱柜"作为宾语和主语时需要强调的语义属性截然不同,但向量表示无法有效区分这些细微差别。
此外,3D场景数据集普遍存在的长尾分布问题(即少数关系类别占据大量样本,多数类别样本稀缺),导致模型倾向于预测常见类别,产生严重偏差。同时,现有方法从未考虑预测结果的可靠性,使得模型在关键决策场景中面临巨大风险。
创新突破:超矩形嵌入的表示革命
论文提出用超矩形嵌入(hyperrectangle embedding)替代传统向量表示实体节点,这一几何化的表示方式为场景理解带来三大优势:
细粒度语义捕捉:超矩形通过n维空间中的区间范围(如[x₁⁻,x₁⁺]×[x₂⁻,x₂⁺]×...×[xₙ⁻,xₙ⁺])建模实体,相比向量能更自然地表达语义的模糊性和多模态性。
关系的几何解释:两个实体的关系通过各自超矩形经仿射变换后的交集表示(如图1所示),交集体积直接反映关系的置信度,实现了关系推理的可视化解释。
灵活的角色适配:同一实体在不同关系中(如作为主语或宾语)会被赋予不同的仿射变换,完美解决语义角色多义性问题。
图1:传统向量表示(a)与超矩形嵌入表示(b)的对比,超矩形通过几何交集建模关系
方法解析:从RGB序列到可靠场景图
整体框架
论文框架包含三个核心模块(如图2所示):RGB序列重建管道、超矩形嵌入节点表示、去偏边表示与可靠性增强。
图2:基于超矩形嵌入的3D场景图预测框架
1. RGB序列重建管道
从连续RGB帧出发,通过ORB-SLAM3生成稀疏点云,结合2D实体检测与多视图图像特征,为每个实体构建包含几何特征、图像特征和空间属性(边界框中心、体积等)的初始描述,为后续超矩形嵌入提供丰富输入。
2. 超矩形嵌入生成
将实体编码为n维超矩形:
通过盒解码器将初始特征转换为超矩形的中心坐标和偏移参数
利用Gumbel分布建模超矩形边界,解决训练中的梯度稀疏问题
节点分类通过计算实体超矩形与类别原型超矩形的交集体积实现
3. 去偏关系推理
为解决长尾分布偏差,论文设计了混淆历史块(confusion history block)机制(如图3所示):
图3:逻辑约束与历史信息融合机制
构建三维立方体矩阵记录历史预测结果(主语、谓词、宾语)
通过注意力机制从数据丰富类别向稀缺类别转移知识
引入一阶逻辑规则(如关系传递性)约束超矩形变换,增强推理合理性
4. 可靠性增强策略
通过高斯核函数分析混淆历史块,计算预测的边界不确定性(决策边界附近样本)和内部不确定性(高误分类区域样本),识别不可靠样本并精炼训练集,最终提升模型预测的稳定性。
图4:混淆历史块的三维结构与切片方式,蓝色切片用于主语分析,红色切片用于宾语分析
实验验证:3DSSG数据集上的全面超越
在3DSSG数据集(包含1335个室内场景、160个实体类别和26个关系类别)上的实验表明:
对象分类:在20个NYUv2实体类别上准确率提升4.3%
谓词分类:对稀有关系类别的召回率提升12.7%
三元组预测:R@1指标超过现有SOTA方法5.8个百分点
尤其值得注意的是,在包含160个实体类别和26个关系类别的完整设置下,该方法在场景图分类(SGCls)和谓词分类(PredCls)任务中均保持显著优势,证明了其在复杂场景中的鲁棒性。
总结与展望
该研究通过几何化的超矩形嵌入打破了传统向量表示的局限,结合历史引导去偏和可靠性增强策略,为3D场景图预测开辟了新方向。未来工作可探索更高维超矩形的优化方法,以及在动态场景中的应用拓展。
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~