news 2026/5/11 4:43:49

集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

# 集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

![ ](http://s1.llamafactory.online/lmlab/docs/v1.0/blog/synchronize/AutoLabeling-1.jpg)

![ ](http://s1.llamafactory.online/lmlab/docs/v1.0/blog/synchronize/AutoLabeling-2.jpg)

论文标题:*FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos*

作者团队:麻省理工学院(MIT)、英伟达(NVIDIA)、密歇根大学、加州大学伯克利分校、斯坦福大学

发布时间:2025年12月11日

[👉一键直达论文](https://arxiv.org/pdf/2512.10927)

[👉Lab4AI大模型实验室论文阅读](https://www.lab4ai.cn/paper/detail?utm_source=csdn_AutoLabeling&id=96eb1de43262427fb11bde8743915e13&type=paper)

## ✨研究背景

运动理解是物理推理的基础,但现有视觉-语言模型在真实世界视频的运动分析上仍表现不足:缺乏大规模、细粒度的运动标注数据是关键限制。手动标注成本极高,且难以覆盖复杂运动场景,导致模型难以学习“物体如何运动、空间关系如何变化”的深层逻辑。

## ✨研究方法

FoundationMotion是全自动数据标注pipeline,通过“检测-跟踪-生成”三步提取视频运动信息并生成结构化数据,视频预处理裁剪片段、过滤摄像机剧烈运动视频,物体检测与跟踪含开放词汇检测、人类中心检测及时序跟踪,分别识别通用物体、聚焦人机交互、维持跨帧一致性,GPT-4o-mini将跟踪数据转为含7维度的自然语言,同时生成5类运动理解问答对,模拟运动逻辑推理需求。

## ✨研究结果

FoundationMotion Dataset含50万组“视频-描述-QA”对(46.7K视频/QA),标注密度1.671问题/秒;微调相关模型后运动理解性能显著提升,前者MotionBench提升至46.7%、AV-Car提升7.1%,后者提升至41.3%并超越闭源模型;边界框JSON提升QA质量,不同QA类型互补最优。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 13:34:19

(独家揭秘)Open-AutoGLM数字孪生控制系统的5层安全防护机制

第一章:Open-AutoGLM 数字孪生联动控制Open-AutoGLM 是一个面向工业自动化与人工智能融合的开源框架,专注于实现数字孪生系统与大语言模型的深度协同。通过将物理设备的实时数据映射至虚拟模型,并结合自然语言指令解析能力,Open-A…

作者头像 李华
网站建设 2026/5/6 13:22:29

【文创AI新纪元】:Open-AutoGLM让内容创作效率提升10倍

第一章:【文创AI新纪元】:Open-AutoGLM让内容创作效率提升10倍在人工智能与文化创意深度融合的当下,Open-AutoGLM 正在重新定义内容生成的边界。作为一款开源的自动文本生成框架,它结合了 GLM 架构的强大语义理解能力与自动化流程…

作者头像 李华
网站建设 2026/5/1 16:26:17

Open-AutoGLM赋能非遗保护(AI驱动的文化复兴新范式)

第一章:Open-AutoGLM赋能非遗保护(AI驱动的文化复兴新范式)在数字化浪潮席卷全球的今天,非物质文化遗产的传承面临前所未有的挑战与机遇。Open-AutoGLM作为一种先进的开源大语言模型框架,正以其强大的语义理解与生成能…

作者头像 李华
网站建设 2026/5/10 2:25:40

【独家深度解读】Open-AutoGLM进化引擎:如何让模型越用越聪明?

第一章:Open-AutoGLM进化引擎的核心理念Open-AutoGLM进化引擎是一种面向下一代生成式语言模型训练与推理优化的开源架构,旨在通过动态自适应机制实现模型能力的持续进化。其核心不依赖于静态参数固化,而是强调在真实应用场景中实现模型行为的…

作者头像 李华
网站建设 2026/5/10 2:23:35

CVE-2022-21697_ Jupyter Server 代码问题漏洞

CVE-2022-21697_ Jupyter Server 代码问题漏洞1. 漏洞原理2. 漏洞危害3. 漏洞修复CVSS评分:6.3 1. 漏洞原理 CVE-2022-21697 是一个影响 Jupyter Server Proxy 的 服务器端请求伪造(SSRF)漏洞。该扩展常用于 Jupyter Server / Notebook 环境…

作者头像 李华