加州大学圣地亚哥分校等机构团队破解AI规划决策难题-开发者社区

这项由加州大学圣地亚哥分校的Shresth Grover、中佛罗里达大学的Priyank Pathak、Akash Kumar、Yogesh S Rawat，以及微软研究院的Vibhav Vineet共同完成的研究发表于2025年12月，论文编号为arXiv:2512.10342v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈论人工智能时，往往会被那些令人惊叹的成就所吸引：能够生成精美图片的AI、可以流畅对话的聊天机器人，以及在各种任务中表现出色的视觉语言模型。但是，当我们真正需要这些AI系统在现实世界中执行复杂任务时，比如指导机器人整理房间、规划行走路径，或是完成多步骤的操作序列时，一个令人意外的问题浮现了：这些看起来聪明绝顶的AI系统，在面对需要多个步骤才能完成的任务时，表现得就像一个容易迷路的新手司机。

更令人困扰的是，在现实世界中，错误是不可避免的。就像我们在做菜时可能会放错调料，或者在组装家具时拧错螺丝一样，AI系统在执行多步骤任务时也会犯错。问题的关键在于：当AI犯了错误后，它们能否像一个经验丰富的厨师那样，发现问题所在并及时调整，最终还是能做出一道美味的菜肴？

研究团队发现，目前最先进的视觉语言模型，包括我们熟知的GPT-4o、InternVLM等，在这种需要"纠错重来"的场景中表现令人担忧。当这些AI系统需要识别之前步骤中的错误，并制定新的计划来达成最终目标时，它们的表现几乎等同于随机猜测。这就好比一个人在走迷宫时，即使知道终点在哪里，也看得见起点，但就是无法发现自己在中途走错了路，更别说找到正确的路径继续前进。

为了深入研究这个问题，研究团队开发了一个名为CoSPlan（Corrective Sequential Planning，纠错式序列规划）的测试基准。这个基准就像一个专门设计的"考试卷"，用来检验AI系统在面对包含错误的多步骤任务时的表现。

一、当AI遇到"走错路"的挑战：CoSPlan基准的诞生

CoSPlan基准的核心思想可以用一个简单的生活场景来理解。假设你要从家里到一个新的购物中心，你已经按照导航走了一半的路程，但突然发现刚才在某个路口走错了方向。这时候，你需要做两件事：第一，找出你在哪一步走错了（错误检测）；第二，从当前位置制定新的路径到达目的地（步骤完成）。

CoSPlan基准正是模拟了这样的情况，但针对的是AI系统。研究团队精心设计了四个不同的测试场景，每个都代表着现实世界中可能遇到的不同类型挑战。

第一个场景是迷宫导航任务（Maze-E）。这就像给AI一个简单的走迷宫游戏，告诉它起点和终点，然后给出一系列已经执行的移动步骤，但其中包含一个错误的步骤，比如撞到了墙壁或者走进了死胡同。AI需要识别出这个错误，然后找到从当前位置到达终点的正确路径。

第二个场景是积木重新排列任务（Blocks-World-E）。可以把这想象成一个儿童积木游戏，你有不同颜色的积木块，需要按照特定的顺序堆叠起来。系统会给出一系列已经执行的移动指令，但其中有一步是错误的，比如把红色积木放到了错误的位置。AI需要发现这个错误，并制定正确的步骤来完成最终的积木排列。

第三个场景是图片重建任务（Shuffle-E）。这类似于拼图游戏，一张完整的图片被分割成若干个小块并打乱了顺序。系统会提供一系列交换图片块的操作记录，但其中包含错误的交换。AI需要识别错误并找到正确的交换序列来恢复原始图片。

第四个场景是真实世界物体重新组织任务（Robo-VQA-E）。这个场景最接近现实应用，涉及真实的物品摆放和整理。比如，要求将桌子上的各种物品按照特定方式摆放，系统提供一系列已执行的操作，但其中包含错误的步骤，如把某个物品放错了位置。

这四个测试场景覆盖了从简单的几何导航到复杂的现实世界操作的各种情况，总共包含了数万个测试样本。每个测试都被设计成多选题的形式，AI需要从几个选项中选择正确的答案，就像人类参加选择题考试一样。

二、令人意外的测试结果：顶级AI的"盲点"

当研究团队将这些测试题交给目前最先进的AI系统时，结果令人震惊。包括GPT-4o、CoG-VLM、InternVLM-26B、Qwen2 VL-8B、Janus-pro-7B在内的五个顶级视觉语言模型，在这些看似简单的任务上表现得异常糟糕。

最令人震惊的发现是，大多数模型的表现几乎等同于随机猜测。想象一下，如果你让一个人闭着眼睛随机选择答案，他们的正确率大约是20%（因为有5个选项）。而这些被誉为"智能"的AI系统，在CoSPlan测试中的表现往往就在这个水平左右，有些甚至更差。

在错误检测任务中，AI系统需要从一系列已执行的步骤中找出哪一步是错误的。就像在一串珍珠项链中找出那颗有瑕疵的珍珠一样。但测试结果显示，这些AI系统在这个任务上表现得像是色盲的珠宝鉴定师，几乎无法准确识别出问题所在。

在步骤完成任务中，情况同样不乐观。给定了起始状态、目标状态，以及包含错误的执行历史，AI需要制定一个新的行动计划来达成目标。这就像一个厨师在做菜过程中发现盐放多了，需要想办法补救并最终做出美味的菜肴。但测试结果表明，这些AI系统往往无法制定出合理的补救方案。

更有趣的是，研究团队发现了一些AI行为模式上的"怪癖"。比如，有些模型表现出明显的选项偏好，会过度频繁地选择选项A，就像一个考试时紧张的学生总是习惯性地选择第一个答案一样。Janus模型甚至在94%的情况下都选择选项A，这显然不是基于对问题内容的理解，而更像是一种机械性的反应。

另一个发现是，当问题不包含错误时，这些AI系统的表现要好得多。GPT-4o在无错误情况下可以达到接近完美的准确率，但一旦引入错误，性能就急剧下降。这就像一个习惯了标准食谱的厨师，当食谱没有问题时可以做出完美的菜肴，但一旦食谱中有错误信息，就完全不知所措了。

研究还发现了一个有趣的现象：AI系统更擅长处理"显而易见"的错误，比如尝试移动场景中不存在的物体，但对于那些看起来合理但实际上并非最优的步骤，它们就难以识别了。这就像人们容易发现明显的语法错误，但对于微妙的逻辑谬误就可能视而不见。

三、探索解决方案：链式思维和场景图方法

面对这些令人困扰的结果，研究团队并没有止步于发现问题，而是积极探索可能的解决方案。他们尝试了两种在AI领域颇具声誉的推理增强技术：链式思维（Chain-of-Thought，CoT）和场景图（Scene Graph，SG）。

链式思维方法就像是教AI"出声思考"。当人们解决复杂问题时，往往会在心中或者口头上一步步分析："首先我需要做什么，然后做什么，最后做什么。" 链式思维方法试图让AI也采用这种逐步分析的方式。研究团队为AI提供了详细的分析框架，包括识别问题约束、描述初始情况、逐步规划路径，以及验证所有约束条件是否满足。

场景图方法则像是让AI建立一个"心理地图"。就像我们在脑海中构建对房间布局的三维印象一样，场景图方法要求AI将视觉场景转换为结构化的表示，包括物体、它们的属性（如颜色、大小）、空间关系（如"在...上方"、"靠近..."），以及它们之间的相互作用。

实验结果显示，这两种方法确实能够带来一定的改善。链式思维方法通过让AI更有条理地分析问题，提高了整体的推理质量。场景图方法通过提供更结构化的场景表示，帮助AI更好地理解复杂的空间关系。

但是，即使采用了这些先进技术，AI系统在CoSPlan基准上的表现仍然远未达到令人满意的水平。特别是在处理包含错误的序列时，这些方法的改善效果有限。这就像给一个方向感不好的人提供了指南针和地图，虽然有所帮助，但他们仍然容易在复杂路况中迷路。

四、突破性创新：场景图增量更新技术

认识到现有方法的局限性后，研究团队开发了一种全新的解决方案：场景图增量更新（Scene Graph Incremental updates，SGI）。这个方法的核心思想可以用电影制作的概念来理解。

传统的场景图方法就像只看电影的第一帧和最后一帧，然后试图推断中间发生了什么。而SGI方法则像是逐帧观看电影，记录每一个场景变化的细节。具体来说，SGI会为序列中的每一个动作步骤生成相应的中间状态表示，就像创建一系列连续的快照。

SGI的工作流程可以分为三个主要阶段。第一个阶段是建立初始和目标的场景图表示，这就像为电影的开头和结尾拍摄定格照片。第二个阶段是增量场景更新，系统会模拟每一个动作对场景的影响，逐步更新场景图。这就像制作动画时的逐帧绘制过程，每一帧都在前一帧的基础上进行微调。

第三个阶段是相似度比较。对于每个可能的行动选项，系统都会模拟其执行结果，并将结果与目标状态进行比较，选择最匹配的选项。这就像一个导演在多个结局中选择最符合故事主题的那一个。

SGI方法的关键创新在于它不再试图在单一步骤中从初始状态跳跃到最终状态，而是建立了一系列中间桥梁。这就像建造一座桥梁，不是试图一跨越过整条河流，而是在河中设置多个支撑点，让桥梁更加稳固和可靠。

五、显著的性能提升和广泛适用性

SGI方法的测试结果令人振奋。在CoSPlan基准的各项测试中，SGI都带来了显著的性能提升。对于步骤完成任务，使用InternVLM模型时，SGI在不同测试场景中带来了1.8%到10.3%的改善。对于GPT-4o模型，改善幅度在1%到10%之间。

在错误检测任务中，SGI的表现更加出色。使用InternVLM时，改善幅度达到了1.4%到5.6%，而使用GPT-4o时，最高改善幅度达到了13.2%。这意味着AI系统发现错误的能力得到了大幅提升。

更令人鼓舞的是，SGI的优势不仅限于包含错误的场景。即使在没有错误的理想情况下，SGI同样能够提升AI系统的表现。这就像一个优秀的导航系统，不仅能在遇到路障时找到替代路线，在正常情况下也能提供更高效的路径规划。

为了验证SGI方法的普适性，研究团队还在其他类型的任务上进行了测试。在视觉问答（VQA）任务中，SGI同样展现出了改善效果。这些任务虽然不涉及序列规划，但需要对静态场景进行深入理解和推理。SGI通过其独特的逐步分析方法，帮助AI系统更好地理解复杂场景。

研究团队还在PlanBench这个专门的规划基准上测试了SGI。即使在纯文本环境中（没有视觉信息），SGI也显示出了改善效果，进一步证明了这种方法的通用性和鲁棒性。

六、深入分析：为什么SGI如此有效

要理解SGI为什么如此有效，我们可以用学习驾驶的过程来类比。当一个新手司机学习驾驶时，教练不会只告诉他起点和终点，然后期望他一次性规划出完美的路线。相反，教练会陪同学员逐段练习，在每个重要路口提供指导，逐步建立对整个路线的理解。

SGI方法正是采用了这种逐步指导的策略。传统的场景图方法就像给新手司机一张地图，告诉他起点和终点，然后期望他能够一次性规划出完美路线。而SGI则像是经验丰富的教练，在整个旅程中提供持续的指导和纠正。

SGI的另一个关键优势在于它能够捕捉动态变化。在现实世界中，每一个动作都会改变环境状态，就像投石入水会产生涟漪一样。传统方法往往忽略了这些细微但重要的变化，而SGI通过逐步更新场景表示，能够准确跟踪这些变化。

此外，SGI还解决了AI系统在长序列推理中的一个根本问题：记忆负担。当需要同时考虑多个步骤和复杂状态时，AI系统往往会像一个试图同时记住太多信息的人一样出现"短路"。SGI通过将复杂问题分解为一系列简单的步骤，大大减轻了AI系统的认知负担。

七、现实世界的意义和未来影响

SGI方法的成功不仅仅是学术研究的突破，更重要的是它为AI在现实世界中的应用开辟了新的可能性。在机器人技术领域，SGI可以帮助机器人更好地执行复杂的任务序列，比如整理房间、准备餐食，或者组装产品。当机器人在执行过程中遇到意外情况或犯错时，SGI能够帮助它们快速识别问题并调整策略。

在自动驾驶领域，SGI的价值同样显著。自动驾驶汽车需要在复杂的交通环境中做出一系列决策，而且必须能够应对突发情况。SGI提供的逐步规划和错误纠正能力，可以让自动驾驶系统更加安全和可靠。

在智能家居和个人助手领域，SGI可以让AI系统更好地理解和执行复杂的多步骤指令。比如，当用户说"帮我准备明天的会议资料"时，AI需要执行查找文档、整理信息、发送邮件等多个步骤，SGI可以确保这个过程更加顺畅和准确。

八、研究的局限性和未来发展方向

尽管SGI方法取得了显著成功，研究团队也诚实地指出了当前研究的一些局限性。首先，CoSPlan基准目前只考虑了包含单个错误的情况。在现实世界中，错误往往会连锁反应，一个错误可能导致后续的多个错误。如何处理包含多个错误的复杂情况，仍然是一个有待解决的挑战。

其次，当前的研究主要集中在2D视觉任务上。虽然这为理解AI系统的基本能力提供了良好的基础，但现实世界的应用往往涉及更复杂的3D环境。如何将SGI方法扩展到视频处理和3D场景理解，是未来研究的重要方向。

另一个需要考虑的问题是计算效率。SGI方法通过逐步处理每个动作步骤，提高了推理质量，但也增加了计算负担。在每个步骤都需要进行场景图更新和相似度比较的情况下，如何平衡性能提升和计算成本，是实际应用中需要解决的问题。

研究团队还指出，当前的SGI方法依赖于AI系统生成的场景图表示，而这些表示本身可能包含噪声或错误。如何提高场景图生成的质量和鲁棒性，是进一步改善SGI效果的关键。

九、对AI发展的深远影响

CoSPlan基准和SGI方法的提出，不仅为解决特定技术问题提供了方案，更重要的是为AI研究界提供了新的思考角度。长期以来，AI研究更多关注在理想条件下的性能表现，而忽略了现实世界中无处不在的错误和不确定性。

这项研究提醒我们，真正的智能不仅在于做正确的事情，更在于能够识别和纠正错误。人类智能的一个重要特征就是从错误中学习和适应的能力。当我们走错路时，我们能够意识到错误，重新规划路线；当我们在工作中犯错时，我们能够反思原因，调整方法。

SGI方法向这个目标迈出了重要一步。它不是简单地让AI避免错误，而是让AI具备了处理错误的能力。这种能力对于AI系统在现实世界中的部署至关重要。

此外，这项研究也揭示了当前视觉语言模型的一个重要盲区。尽管这些模型在许多任务上表现出色，但在需要多步推理和错误处理的情况下仍然存在显著不足。这提醒我们，AI的发展仍有很长的路要走，我们不能因为在某些领域的成功而忽视其他重要能力的培养。

说到底，这项研究为我们展现了一个更加真实和全面的AI能力图景。它不仅指出了当前AI系统的不足，更重要的是提供了改进的方向和方法。SGI技术的成功证明，通过巧妙的算法设计和深入的问题分析，我们可以显著提升AI系统在复杂现实场景中的表现。

对于普通人来说，这项研究意味着未来的AI助手将更加可靠和实用。当你的智能家居系统在执行复杂指令时出现小差错，它将能够自我纠正而不是完全停止工作。当自动驾驶汽车面对意外路况时，它将能够快速调整策略而不是陷入困境。

这项研究还告诉我们，AI技术的发展并非一帆风顺，每一个看似简单的问题背后都可能隐藏着复杂的技术挑战。但正是通过不断发现问题、分析问题、解决问题的过程，AI技术才能真正走向成熟。CoSPlan基准和SGI方法的提出，正是这个发展过程中的重要里程碑。

有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2512.10342v1查询完整的技术细节。研究团队承诺将公开相关代码和数据集，为后续研究提供支持，这也体现了科学研究开放合作的精神。

Q&A

Q1：CoSPlan基准是什么？

A：CoSPlan是一个专门测试AI系统纠错能力的测试基准，包含四个不同场景：迷宫导航、积木排列、图片拼接和真实物品整理。它模拟了AI在执行多步骤任务时遇到错误的情况，考验AI能否发现错误并制定正确的后续行动计划。

Q2：为什么现在的AI系统在CoSPlan测试中表现这么差？

A：主要原因是现有AI系统缺乏处理序列中错误的能力。它们更像是只能按照完美食谱做菜的厨师，一旦食谱中有错误就完全不知所措。这些系统在训练时很少接触包含错误的序列，因此缺乏纠错经验。

Q3：SGI场景图增量更新技术是如何工作的？

A：SGI技术就像制作动画时的逐帧绘制，为序列中每个步骤创建详细的场景快照。它不是试图一次性从开始跳到结束，而是逐步追踪每个动作对环境的影响，最后通过比较不同选项的结果来选择最佳方案。

加州大学圣地亚哥分校等机构团队破解AI规划决策难题

16、系统管理：系统维护脚本全解析

JAVA不好找工作了

12、Unix 文件操作与系统信息获取实用指南

基于51单片机的厨房温湿度烟雾CO粉尘多参数环境监测报警系统设计

海立股份子公司亮相行业双会 AI赋能与绿色技术引领压缩机创新

自动化运维工具 Ansible 集中化管理服务器