NTU、HKU等多所顶校联手，让AI同时“多角度看片“-开发者社区

这项由南洋理工大学、香港大学、香港科技大学（广州）、清华大学及LMMs-Lab联合开展的研究，以预印本形式于2025年5月发布于arXiv（编号：arXiv:2605.20342v2），感兴趣的读者可通过该编号查阅完整论文。

**一、AI看长视频的老难题，和一个新想法**

假设你是一位法庭速记员，需要在90分钟的庭审录像里找出某个关键的证词瞬间。如果你只能一次快进一小段、记下笔记、再快进下一段、再记笔记……不仅效率低，还存在一个致命隐患：前一段的记忆误差会直接影响你对后一段的判断，错误会像滚雪球一样越滚越大。

这正是当前主流AI视频理解系统面临的困境。这类系统被称为"大型多模态模型"（可以简单理解为既能看图、看视频，又能读文字的大型AI），它们被训练成一个"工具调用侦探"：先快速浏览一遍视频，发现可疑片段，然后发出一条指令"截取第42秒到第48秒仔细看"，看完再发下一条指令，如此往复。这种"一次看一段，顺序排队"的工作方式，研究团队将其称为**顺序工具调用**。

顺序调用有三个明显的软肋。第一，一旦某一次截取的片段选错了，这个错误就会被带入下一轮分析，没有任何同伴能纠正它；第二，每一轮调用都会把之前所有的对话记录堆进AI的"记忆"里，越到后面"记忆"越拥挤，噪音越多；第三，要看几段就得等几轮，时间成本与调用次数成正比线性增长。

这支研究团队提出了一个思路上的根本性转变：既然人类刑警在侦查重大案件时会同时派出多路便衣警察分别跟踪不同嫌疑人，为什么AI不能在同一时刻把多个视频片段分发给多个"分析小组"并行处理？这个想法催生了论文的核心系统——**ParaVT**，即并行视频工具调用框架。

**二、ParaVT的工作方式：一个主侦探，多个外勤**

ParaVT的架构设计借鉴了案件指挥中心的运作逻辑。整个系统由一个"主侦探"（主智能体）和若干"外勤侦探"（子智能体）组成，所有成员共用同一套知识背景，即共享模型权重。

当一段90分钟的足球比赛录像配上问题"谁打进了决定性的一球"送进系统时，主侦探先快速翻看全场概览帧，形成初步判断："第32分钟左侧禁区附近有争抢，第67分钟中路有一次定向传球，第78分钟有庆祝动作——这三段都值得细看。"于是主侦探在同一轮对话里同时发出三条截取指令，分别交给三位外勤侦探并发执行。三位外勤侦探各自只看自己负责的那段视频，独立得出文字摘要，再汇报回主侦探。主侦探综合三份报告，做出最终判断。

这种设计带来了三项具体优势。其一是"少数服从多数"的纠错机制：三位外勤中即便一位截错了片段，另两位的正确报告仍能压过错误，最终答案不会被单一误判带偏。其二是上下文保持清洁：外勤汇报的是文字摘要而非重新塞入大量视频帧，主侦探的"记忆桌面"不会被不断增长的视觉数据淹没。其三是推理延迟有天花板：三位外勤同时出发，总等待时间取决于最慢的那位，而不是三人等待时间的总和——多派人手不再意味着等更久。

**三、训练这套系统，碰上了一道意想不到的"悖论"**

一套设计再精妙的系统，如果训练不好，也是白搭。研究团队选择了一种叫做**强化学习**（RL，可以理解为"通过反复试错和奖惩来磨练技能"）的训练方式，在一个已经具备基础能力的视频AI模型——Qwen3-VL-8B-Instruct——上进行训练。

然而，训练刚开始没多久，团队就发现了一个棘手的现象，他们给它起了个名字：**工具先验悖论**（Tool Prior Paradox）。

要理解这个悖论，先得知道什么是"工具先验"。这个词的意思是：模型在被正式训练成"视频分析侦探"之前，已经在海量互联网文本上预先学习过，其中包括大量代码示例、API文档、工具调用格式等内容。这些预训练经历让模型心里已经有了一套"调用工具应该长什么样"的感觉，就像一个从小看武侠小说长大的人，脑子里已经有了剑法应有的套路，哪怕他还没系统学过武术。

悖论正在这里浮现。Qwen3-VL这类较新的强模型，预训练中接触过大量工具调用格式，"工具直觉"很强。这种强直觉在训练过程中确实帮助模型敢于尝试调用工具——但与此同时，这种"旧习惯"在强化学习的温度采样阶段（可以理解为：AI在思考时允许一定的随机性和创造性，而不是每次都给出最保险的答案）会悄悄反弹，把研究团队费力教好的"用``标签"的格式，偷偷替换回预训练时更熟悉的``标签，甚至直接省略掉结尾的``标签。这种现象被团队命名为**格式脆弱性**。

为了验证这个悖论的另一面，团队用了一个"工具直觉"更弱的老款模型Qwen2.5-VL做对照实验。结果恰好相反：老款模型的格式保持得很好，从不乱用标签，但正因为它对工具调用没什么"热情"，整个强化学习过程中它几乎从不主动去调用任何工具，仿佛那些工具根本不存在。

两个模型的对照揭示了一个两难困境：预训练"工具直觉"强的模型有勇气探索工具，却容易格式崩溃；"工具直觉"弱的模型格式完美，却对工具视而不见。这就是悖论的全貌——先验越强，探索越活跃，但稳定性越差；先验越弱，稳定性越好，但探索为零。

还有另一个相关问题，团队将其称为**工具必要性缺口**。强化学习的运作原理是：如果某个行为（比如调用工具）带来的奖励明显高于不做这个行为，模型就会学着去做。但许多视频问题仅靠浏览概览帧就能答对，调用工具和不调用工具的得分差异几乎为零。在这种情况下，模型很快学会了"偷懒"——跳过工具调用直接作答，既能得差不多的分，还省掉了调用的麻烦。这是一条典型的"捷径"。

**四、PARA-GRPO：给悖论开出的两味药**

面对工具先验悖论，研究团队没有选择换一个"工具直觉"弱的基础模型——因为那样会丢掉工具探索能力。他们选择正面应对，设计了一套专门针对这两个问题的训练算法：**PARA-GRPO**（可解析性锚定与比率门控的GRPO算法）。

算法名字很长，但背后的思路其实可以用两句话说清楚：第一句，"把格式最容易崩的地方钉牢"；第二句，"给工具创造真正不可绕过的必要性"。

针对格式脆弱性，团队设计了**探索锚定**机制，它由两个部分协同工作。第一个部分叫"约束生成"：在每条响应的开头，系统强制模型先写出`\n`这个起手式，相当于在侦探每次开口前先说"根据现有线索……"——这样就堵死了模型一上来就乱发工具调用或直接给答案的可能性，但模型在这之后如何推理、推理什么，依然完全自由。在响应结尾，奖励函数额外奖励出现了``闭合标签的情况，即便中间过程有些混乱，只要最后能收尾，就不全面惩罚。第二个部分叫"选择性锚定"：团队专门为最容易断裂的结构边界设计了一套精细的奖惩规则——如果``标签被正确关闭，加分；如果整个`→→`流程完整保持，再加分；如果``被打开了但始终没关闭，扣分。这套奖惩只作用于格式标签的位置，完全不干涉推理内容，因此不会压制模型的思维创造力。

针对工具必要性缺口，团队设计了**帧数门控**机制。核心操作是：每次给模型一个视频问题时，随机从`{4, 8, 16, 32, 64}`这几个数字中抽一个，决定这道题"只能看这么多帧的概览"。当帧数被限制到只有4帧或8帧时，许多问题的关键证据根本不在这几帧里，模型如果不去主动截取更细的片段，就几乎无法答对——这时候调用工具的得分就会明显高于不调用工具，训练信号终于有了真实的梯度可以引导模型学习调工具。与此同时，保留64帧的"宽松模式"确保了并非所有问题都强迫调用工具，当问题本身在概览帧里就能看清楚时，模型仍然可以自由选择不调用工具而不受惩罚。两种情形的混合，既不让模型养成无论何时都强迫自己调工具的坏习惯，又确保了相当比例的训练样本上存在真实且可感知的"用工具 vs. 不用工具"的奖励差距。

两种机制的顺序很关键，团队特别强调这一点：必须先让锚定机制保证格式是正确的、可以被解析的，只有在格式正确的前提下，帧数门控产生的工具使用奖励信号才能被正确地归因到工具调用行为上，否则即便信号存在，格式混乱的输出也无法被奖励函数正确评分。

**五、训练数据是怎么来的：一场精心的"厨房备料"**

ParaVT的训练分为两个阶段，第一阶段是监督微调（SFT，可以理解为"先让模型跟着示范例子学基本动作"），第二阶段才是强化学习（RL，"在比赛中通过得失反馈磨练判断力"）。

第一阶段的数据集共97000条，来自七个不同来源，就像一份精心配比的食材清单。其中50000条是普通视频问答，用于保住模型的基础视频理解能力；15000条是从一个叫LongVT的先前研究中提取的工具调用记录；还有12000条是视频时间定位训练数据，6000条是带并行工具调用的时间定位数据；5000条是长视频多步推理链数据；5000条是用Gemini-2.5-Flash这个强力AI蒸馏生成的工具调用示范；2500条来自MUSEG数据集，每条平均包含约4.4次并行工具调用，是并行调用示范最密集的来源。

其中有一个值得细说的数据转换过程。LongVT等来源的原始数据是"顺序格式"——一个问题对应多轮对话，每轮只有一次截取。团队开发了一套转换规则，把可以合并的相邻截取操作合并到同一轮里，前提是这两次截取的目标时间段不重叠，且它们的结果彼此独立不相互引用（比如"看第30秒到50秒"和"看第130秒到145秒"各自独立，可以合并；而"看了第30秒到50秒之后，为了确认，再看第52秒到55秒"则属于有依赖关系，不能合并）。此外，每次截取原本会返回视频帧，转换后统一改为返回该片段的文字摘要，这样做一方面对齐了第二阶段强化学习时子智能体的输出格式，另一方面也把上下文长度控制在可管理的范围内。

第二阶段的强化学习数据集共4406条，来自三类任务：1606条开放式问答（来自HACS和Ego4D-NaQ视频）、1600条多项选择题、1200条视频时间定位查询。在正式训练之前，团队还做了一轮数据过滤，剔除掉那些无论模型怎么回答都不会产生有效学习信号的样本——包括标准答案超过15个词的开放式问题（模型几乎永远答不对，奖励始终为零，没有学习价值），以及用当前冷启动模型跑了8次都全部答错的问题（同样没有正向信号可以强化）。

**六、实验结果：数字背后的故事**

训练好的ParaVT-8B模型在六个长视频理解基准测试上与同类系统进行了全面对比。这些测试覆盖了多项选择题形式的综合视频理解（VideoMME、LongVideoBench、LVBench、MLVU、MMVU）和视频时间定位（Charades-STA，用交并比衡量定位准确度）。

与基础模型Qwen3-VL-8B相比，ParaVT在全部六个测试上均有提升，平均提升幅度约为7.9个百分点，其中在LongVideoBench上提升了15.7个百分点，在LVBench上提升了20.2个百分点，在MLVU上提升了11.5个百分点。时间定位任务上，ParaVT在Charades-STA上达到50.1的交并比，相比基础模型的49.3有明显提升——这个数字说明并行截取机制确实把时间定位从模型的"顺带能力"转化成了有意识的证据聚合子流程。

ParaVT还在两个指标上超越了GPT-4o这个商业闭源模型的已报告成绩：LVBench上39.8对34.7，MMVU上68.6对66.7。

消融实验（即逐步去掉某个组件看效果如何变化的对比实验）进一步验证了每个设计决策的价值。仅做监督微调不做强化学习时，模型在训练中平均每个样本使用2.5次工具，但测试时工具使用率一旦不在示范数据覆盖的分布内就会不稳定；加上普通的GRPO强化学习之后，工具使用率在7步之内就崩溃到接近零——这印证了工具必要性缺口的存在；加入完整的PARA-GRPO之后，格式合规率从0.13稳定攀升至最高0.64，工具使用率维持在合理的每样本约0.21次，同时所有基准测试成绩都优于普通GRPO版本。

单独开启探索锚定（不开帧数门控）时，格式合规率回升至0.35，但工具使用率仅0.19，说明仅仅保证格式不够；单独开启帧数门控（不开探索锚定）时，工具使用率跃升至1.36，但格式合规率仅0.10，说明光有工具使用动力而格式混乱一样不行。只有两者结合，才同时稳住了两个指标。

在推理方式的对比上，团队用同一个训练好的检查点分别测试了"顺序调用"和"并行调用"两种方式，结果并行调用在每个测试集上都优于顺序调用，尤其在LongVideoBench和LVBench上差距最明显。这个对比特别有价值——它排除了"是不是因为训练方式不同才更好"的疑虑，证明了并行调用本身在推理阶段就是一个质量更高的选择，不需要重新训练模型。

**七、经验与教训：哪些路走不通**

研究团队在论文附录中诚实地记录了多个"失败的尝试"，这些记录对整个领域同样有参考价值。

有一个尝试是"先单独优化格式，等格式稳定了再引入准确率奖励"。结果是：单独优化格式信号跑了160步，格式合规率依然停在0.13毫无起色。这说明格式学习和内容学习是相互依存的，模型需要从准确率信号中找到"为什么要认真写格式"的动机，两者无法完全脱钩。

另一个尝试是"替换工具调用标签"。团队考虑过，既然格式脆弱性的根源是模型的预训练习惯想用``，那干脆就把监督微调也改成用``，让旧习惯和新训练对齐。实验结果出乎意料：用``训练的模型，在强化学习过程中反而更多地输出``（出现率5.4%），远超其被训练过的``（出现率1.8%）。这种双向反弹证明了格式脆弱性的根源不是单一标签的不匹配，而是预训练阶段在模型权重里留下了多种工具调用格式的竞争记忆，在强化学习的随机温度采样下，任何一种格式都可能冒出来，换哪个标签都逃不开这个问题。

还有一个反直觉的发现：用更多数据做更强的监督微调冷启动，未必带来更好的强化学习结果。团队把冷启动数据从97000条扩充到106000条、工具比例从30%提升到更高，得到的冷启动模型在静态测试上确实更强（VideoMME从61.3提升到62.3），但以此为起点做强化学习，工具使用率全程为零。原因在于：更强的冷启动让模型已经能在大多数帧数受限的情况下答对问题，帧数门控产生的"必须调工具"的困难场景被轻松绕过，工具奖励信号被稀释至可以忽略，强化学习完全失效。这个教训告诉我们：冷启动的目标应当是教会格式的骨架，而不是把工具调用能力本身全部教完——那是强化学习该做的事。

**八、局限与未来：还有哪些路没走**

研究团队在论文中坦率地指出了现有工作的边界。首先，整个PARA-GRPO的验证仅在Qwen3-VL-8B这一个模型上完成，是否适用于其他具有不同预训练背景的工具原生大模型，尚待验证。其次，双模型对照实验（Qwen2.5-VL vs. Qwen3-VL）在逻辑上支持"先验强度是问题根源"这个解释，但并非严格控制变量的因果实验，还存在其他可能的影响因素。第三，整套框架目前只验证了视频截取（crop_video）这一种工具，对于文字检索、场景图提取、音频转录等其他类型的工具是否同样适用，目前仍是开放问题。

在未来方向上，团队提到了两个最自然的扩展：一是把PARA-GRPO用于更大的模型（32B到72B参数量），更强的基础能力或许会让强化学习的探索更有效率；二是把帧数门控背后的"制造工具必要性"思路迁移到其他场景，比如检索增强生成（当文档块已经够大足以直接回答时，模型会跳过检索，道理和视频帧够多时跳过截取完全一样）和代码执行（当模型凭推断就能得出答案时，它会跳过实际运行代码的步骤）。

归根结底，ParaVT这篇论文解决的核心问题并不只是"怎么让AI同时看多段视频"，更深层的贡献是揭示了一个在工具原生大模型强化学习训练中普遍存在却此前未被命名的障碍——工具先验悖论——并提供了一套可供后续研究借鉴的干预逻辑：与其试图消除预训练先验，不如设计训练机制与先验合作，既顺应探索动力，又在格式的关键节点加以固定。随着越来越多的大模型在预训练阶段就内化了各种工具调用能力，这个问题的重要性只会越来越高而不会消失。

Q&A

Q1：ParaVT的并行视频截取是同时把视频的不同片段发给多个AI实例分析吗？

A：是的。ParaVT的主智能体在同一轮对话里发出多条截取指令，每条指令分配给一个独立的子智能体并发处理。每个子智能体只负责自己分得的那段视频，最后各自返回文字摘要，由主智能体综合判断。这样即便某个子智能体截取的片段有误，其他子智能体的正确报告仍能压过错误，避免单一错误被传播放大。

Q2：PARA-GRPO中的帧数门控具体是怎么制造"工具必要性"的？

A：训练时，每个问题会被随机分配一个"只能看这么多帧概览"的限制，可能是4帧、8帧、16帧、32帧或64帧中的某一个。当限制很严（比如只有4帧）时，关键证据很可能不在这几帧里，模型不调用截取工具几乎答不对，于是调工具的奖励就会明显高于不调工具，训练信号有了真实梯度。保留64帧的宽松情况确保并非所有题都强迫调用，让模型学会"该调时调，不需要时跳过"。

Q3：为什么更强的冷启动监督微调反而导致强化学习阶段工具使用率为零？

A：当冷启动把工具调用能力已经教到相当强的程度后，模型在帧数受限的训练场景下也能凭自身能力答对大多数问题，于是"调工具"和"不调工具"的奖励差距接近零，强化学习的梯度信号几乎消失，模型就稳定在不调工具的状态。这揭示了一个平衡点：冷启动应只教格式骨架，把工具调用的决策能力留给强化学习阶段，过度的冷启动反而会让强化学习失去用武之地。

NTU、HKU等多所顶校联手，让AI同时“多角度看片“

西湖大学等机构联手破解AI图像生成的“翻译失真“难题

别再死磕理论了！用Python+PyTorch实战MAPPO，搞定多智能体协同控制（附完整代码）

量子谱估计新方法ITQDE：突破传统计算限制

Claude财报分析到底准不准？中注协认证测试结果首发：关键指标准确率达96.4%，但第4项必须人工复核！

TranslucentTB：Windows任务栏透明化终极指南与完整解决方案

Claude风险评估不是选择题，而是生存线：1份含12项量化KRI指标、8个红黄蓝预警阈值的独家评估矩阵（仅限本周开放下载）