【清华大学-MM25】Open3D VQA：面向无人机开放空间的多模态大语言模型空间推理基准-开发者社区

文章：Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space

代码：https://github.com/EmbodiedCity/Open3D-VQA.code

单位：清华大学

。

随着AI在自动驾驶、机器人操作等领域的应用落地，对三维空间推理的需求日益迫切。但当前主流的评估基准存在三大局限：

这些问题导致AI在处理无人机航拍分析、城市三维建模等实际任务时，常常出现"看不懂距离""辨不清方向"的尴尬情况，严重制约了相关技术的落地应用。

为解决上述痛点，团队打造了Open3D-VQA基准，核心创新体现在三方面：

多维任务设计：涵盖4种空间视角（如上帝视角、第一人称视角）和7类推理任务，包括物体大小对比、绝对距离测算、视角转换推理等，全面覆盖城市空间推理需求；
双源数据支撑：整合真实无人机航拍数据（来自深圳、罗马尼亚等地）和高保真模拟场景数据，共7.3万条问答对，既保证真实性又提升数据多样性；
智能生成 pipeline：通过GPT-4o生成物体描述，结合SegCLIP、SAM等工具提取三维空间关系，再经多模态校正流程减少误差，实现问答对自动生成与质量控制。

团队对13款主流多模态大模型（包括GPT-4o、Gemini、LLaVA等）进行了全面评测，得出重要结论：

Open3D-VQA基准首次构建了空中视角下的三维空间推理评测体系，既揭示了当前AI在距离测算、视角转换等任务中的短板，也为无人机导航、城市智能分析等领域的技术优化提供了关键支撑。

Langchain-Chatchat 能否实现问答结果 XML 导出？ 在企业级智能系统日益普及的今天，一个常见的集成难题浮出水面：如何让先进的 AI 问答系统与老旧但关键的内部系统“对话”？比如，某公司部署了基于大模型的知识库助手来解…

李华

传统产品经理，正在成为下个被淘汰的“传统岗位”。过去画原型、写 PRD、跟进度的“传统技能包”，在AI时代正迅速贬值。63% 的企业转型做 AI 产品！当下的问题不再是“要不要学 AI ”，而是“如何构建 AI 产品”。前段时间还跟字节、…

李华

在工业生产、研发、运维中，数据记录是企业核心基础 —— 优化流程、研发技术、维护设施，都离不开真实完整的历史数据，这是高效运营与创新的前提。但多数企业面临三大难题：设备品牌杂、数据分散，协议不兼容导致 “连不上…

李华

Langchain-Chatchat文档解析任务失败报警机制设计与实现在企业级智能问答系统中，一个看似不起眼的PDF文件上传失败，可能悄然导致整个知识库更新中断。几天后当员工提问时，系统却因缺失关键文档而返回“我不知道”——这种“静默故障”正是本…

李华

本文来源：苏州大学据苏州大学官网，12月13日，苏州大学数学科学学院张涵副教授与合作者关于丢番图逼近的论文“Khintchine dichotomy for self-similar measures”被数学四大顶刊之一《美国数学杂志》（Journal of the American Math…

李华

Langchain-Chatchat问答系统灰度期间问题响应SLA 在企业数字化转型不断深入的今天，知识管理正面临前所未有的挑战：制度文件越积越多，员工找不到答案；客服面对重复咨询疲于应对；敏感信息又不敢上传到公有云AI助手。这些…

李华