斯坦福 ICLR 2026 AgentFlow: Agent 为什么总学不会长期规划-开发者社区

很多人现在谈 agent，会把注意力放在两个方向上。

一个方向是把模型做得更强，让它自己在一条长上下文里想、查、算、调用工具。另一个方向是把系统拆成 planner、executor、critic 之类的模块，用工程编排把它们串起来。

但这两条路各有明显短板。

前者的问题是，一条单体策略要同时负责思考、选工具、处理反馈、生成答案。任务一长、工具一多、交互一复杂，训练就会越来越不稳。后者的问题是，很多 agent system 虽然结构上更像“团队协作”，但模块大多是冻结的，靠 prompt 和手工规则协调，真正上线后并不会从动态交互里继续学。

斯坦福大学、德州农工大学、UC San Diego 和 Lambda 的这篇被ICLR 2026 (Oral)接收的《In-the-Flow Agentic System Optimization for Effective Planning and Tool Use》，要解决的正是这个断层。

论文提出的核心判断很直接：

**Agent 的问题，不只是“要不要多模块”，而是这些模块能不能在真实多轮交互流里被 on-policy 地训练。**

作者提出了一个四模块系统AgentFlow，再配上一套叫Flow-GRPO的训练方法，把 planner 直接放回真实的 agent loop 里做强化学习。结果是，在搜索、agentic、数学和科学推理四类任务上，这个 7B 级别系统不仅稳定超过一批专用 baseline，甚至整体上还压过了 GPT-4o。

下面这篇文章重点讲六件事：

1.这篇论文到底在纠正什么旧范式

2.AgentFlow 这个系统是怎么运转的

3.Flow-GRPO 的奖励和更新规则为什么适合多轮 agent

4.实验到底强在哪，强得有多稳定

5.论文怎样证明“在线流程内训练”比离线模仿更关键

6.这篇工作的边界在哪里

它真正要修的，不是工具调用，而是 agent 训练范式

论文把现有方法分成两类。

第一类是 tool-integrated reasoning，也就是把

<think>、<tool\_call>、<answer>

全部塞进同一个大模型策略里训练。它的优点是端到端，缺点也很明显：上下文越来越长，动作空间越来越杂，最终奖励又很稀疏，训练时很难知道前面哪一步决策真正贡献了最后答案。

第二类是 training-free agentic systems。它们看上去更工程化，也更像“团队合作”，但 planner、executor、verifier 往往都只是预训练模型加 prompt 模板。系统虽然在运行，却没有在运行中学习。

所以这篇论文要补上的，不是某一个工具能力，而是中间缺失的那条路：

**既保留多模块 agent system 的分工结构，又让核心决策模块在真实交互流里直接优化。**

[AgentFlow 总览]

这张图先看左边。系统不是一口气生成最终答案，而是在多轮里循环：Planner -> Executor -> Verifier，直到 verifier 判断信息已经够了，才交给 generator 输出答案。右边是单轮展开图。planner 读 query、toolkit 和当前 memory，给出当前子目标、选用工具和工具使用上下文；executor 真正调用工具；verifier 再判断这一步是否有效、memory 是否足够继续推进。

AgentFlow 到底做了什么

AgentFlow的核心不是“模块更多”，而是模块边界被定义得比较清楚。

系统有四个模块：

Planner：唯一被训练的策略模块，负责拆当前子目标、选工具、决定这一步怎么做. 后面的a_t都指planner生成的token
Executor：执行工具调用，把 planner 的动作变成真实外部操作
Verifier：判断执行结果是否有效、当前记忆是否足以终止
Generator：在最终轮基于积累下来的 memory 生成答案

这里最关键的中间状态叫Memory。

论文没有把推理过程完全藏在不可见的 latent thoughts 里，而是把每一轮的 action、execution result、verification status 组织进一个显式、可更新的 memory。这样做有两个直接后果。

第一，系统状态是可观察的。planner 在第t轮看到的不是一团隐式上下文，而是query + toolset + M\_t。

第二，后续 RL 优化就有了清晰的“状态-动作-反馈”接口。也就是说，作者不是直接对整条长链做黑箱强化学习，而是先把 agent 运行过程形式化成一个有限步长、多轮更新的 MDP。

这个设计很重要，因为论文的真正贡献不在框图，而在后面的训练目标。

Flow-GRPO：它怎样把多轮 agent RL 变得可训练

如果只看直觉，多轮 agent 强化学习最难的地方有两个。

一个是长时程 credit assignment，也就是最后答对了，到底该把功劳算给哪一轮。另一个是 reward 稀疏，大多数中间步骤本身没有一个可靠、细粒度、低噪声的局部奖励。

论文的处理思路相当克制。

它没有发明一套复杂的逐步奖励工程，而是反过来做了一件更简单、但很符合 agent 结构的事：

**把最终结果是否正确，广播给整条轨迹里的每一轮 planner 决策。**

论文先定义最终结果奖励：

这里o是最终答案，q是问题，y\*是标准答案，R̄是一个二值奖励，由 LLM-as-judge 判定最终答案是否正确。它的意思非常直接：某一轮 actiona\_t本身没有单独奖励，但如果整条轨迹最后答对了，那么轨迹中的每一轮都拿到同一个全局成功信号。

这是Flow-GRPO的目标函数。T_i 为rollout i的轮次, a_i^t 表示第 i 条轨迹里，第 t 轮 planner 生成的 action。这个 action 不是最终答案，而是 planner 在当前轮做出的计划，比如当前子目标是什么、选哪个工具、给工具什么上下文。它本质上还是 PPO 风格的裁剪目标，只是更新对象不再是一条单轮文本轨迹，而是一个多轮 agent rollout 里的 planner token。论文的关键改写有两层。

第一层，是把多轮 RL 近似拆成一组“单轮更新问题”。

具体做法是：同一条 rollout 中每一轮 planner action 都拿到同一个 trajectory-level reward，于是局部更新就不需要再为每一步单独设计奖励函数。

第二层，是做 group-normalized advantage:

作者不是直接用原始成功或失败，而是在同一组并行 rollout 里做均值和方差归一化，让 advantage 变成“这条 rollout 比同组其他 rollout 好多少”。这一步的作用是减小方差，也让训练更稳定。

如果把这套目标翻成更容易理解的话，它在做的是：

**对同一个问题，同时采样多条 agent 轨迹；谁最终做对了，就把这条轨迹里的 planner 决策整体往上推；谁做错了，就整体往下压。**

实验不是只赢一点，而是跨任务一起赢

论文总共测了四类任务：

搜索密集型任务：Bamboogle、2Wiki、HotpotQA、Musique
agentic 任务：GAIA
数学推理：AIME24、AMC23、GameOf24
科学推理：GPQA、MedQA

主系统里四个模块都用Qwen2.5-7B-Instruct，只有 planner 可训练。工具包括 base generator、Python coder、Google Search、Wikipedia Search 和 Web Search。训练时混用了 Search-R1 和 DeepMath 数据，最多 3 轮 rollout，8 条并行 rollout，最终结果奖励由 GPT-4o 做 judge。

这张表可以分两层读。

第一层，看和同规模 7B baseline 的对比。

带Flow-GRPO的 AgentFlow 在搜索任务平均 57.3%，比 AutoGen 的 42.4% 高 14.9 个点；在 GAIA 上做到 33.1%，比 Search-R1 的 19.1% 高 14.0 个点；在数学任务平均 51.5%，比 ToRL 的 37.0% 高 14.5 个点；在科学任务平均 63.5%，比 TIR 的 59.4% 高 4.1 个点。

第二层，看和更大闭源模型的对比。

GPT-4o 在这些四大类任务上的平均表现分别是 49.1%、17.3%、35.1%、45.5%，而 AgentFlow 对应是 57.3%、33.1%、51.5%、63.5%。也就是说，这篇论文不是只在某个窄 benchmark 上抬了一点分，而是在四种能力结构差异很大的任务上都保持领先。

论文怎样证明：提升来自 in-the-flow，而不只是更强 planner

这篇论文一个很扎实的地方，是它没有把提升简单归因于“planner 更聪明了”，而是专门做了训练策略对比。

表 3 有三个非常关键的结论:

第一，直接把 planner 从 Qwen-2.5-7B 换成 GPT-4o，平均只涨了 5.8 个点。

这说明更强底模当然有帮助，但它解决不了系统级协同问题。

第二，把 GPT-4o 轨迹拿来离线做 SFT，性能不仅没涨，反而平均掉了 19.0 个点。

这件事很重要，因为它直接反驳了一种常见直觉：只要把“好轨迹”收集起来做蒸馏，agent 就会变强。论文的结果恰恰表明，多轮 agent 的关键不是像不像一条参考轨迹，而是能不能在真实反馈里继续修正。

第三，真正把性能拉开的是 on-policy、in-the-flow 的 RL。

同样的系统、同样的工具，换成Flow-GRPO后，平均比 frozen planner 高 17.2 个点。

这三条结论合在一起，其实已经把论文最重要的论点讲透了：

**Agent 系统的瓶颈不是单个 planner 模型不够强，而是 planner 没有在活的多轮流程里学会和 executor、verifier、memory 一起协同。**

不只是分数更高，工具使用也更像“学会了”

这篇论文没有停在 leaderboard。

作者进一步去看 RL 前后 planner 的工具调用分布，以及调用错误率怎么变。

这组图左边两张是工具调用比例变化。2Wiki 需要广泛事实检索，训练后 Google Search 占比提升了 42.0%；MedQA 更依赖专业知识，训练后 Google Search 反而从 66.2% 掉到 10.9%，Wikipedia Search 提升到 59.8%，Web Search 提升到 19.5%。这说明 planner 学到的不是一个固定偏好，而是会按任务类型重新分配工具。

右边这张图看的是 tool-calling error rate。随着训练推进，GAIA 下降 28.4%，2Wiki 下降 19.4%，Bamboogle 下降 7.8%，AIME24 下降 8.4%。这说明论文优化的也不只是“选哪个工具”，而是“怎么把工具调对”。

换句话说，Flow-GRPO 让 planner 学到的是更稳定的操作策略，而不是单纯更长的思维链。

这篇论文还有两个很重要的外推结论

第一，效果会随着 backbone 规模提升而继续存在。

作者把整套系统从 3B 扩到 7B，发现两种规模下 Flow-GRPO 都能稳定带来收益。也就是说，这个训练方法不是只在某个特定模型上有效，而是和 backbone scaling 基本兼容。

第二，推理时允许更多 turns，性能也会继续提升。

这张图上半部分是 3B 和 7B 的训练扩展结果，下半部分是测试时 turn budget 从 3 提到 10 的变化。论文给出的趋势很清楚：2Wiki、GAIA、GameOf24、AIME24 全都随着T\_max提升而继续上涨，而且没有出现明显的退化循环。作者据此认为，系统确实会把更多 turn 用在更深的信息检索、子目标拆解和错误修正上。

这点其实很关键，因为很多人对多轮 agent 的担心就是“turn 一多就会原地打转”。至少在论文覆盖的任务里，AgentFlow 没有表现出这种明显退化。

这篇工作最值得记住的，不是一个新框架名，而是一个训练立场

如果只从表面看，AgentFlow 像是一个“四模块 agent + RL”的组合。

但更深一层，它表达的是一种训练立场：

**对 agent system 来说，最该被训练的，不一定是整条单体思维链，而是处在真实交互回路中的关键决策模块。**

这也是为什么这篇论文会比很多“再多几个 agent 角色”或者“再做一个工具调用数据集”的工作更有方法论价值。它把训练目标重新放回了系统运行现场，而不是停留在离线轨迹上。

当然，这篇工作也有明显边界。

论文目前只训练 planner，没有训练 executor、verifier 和 generator；训练阶段最大 rollout turn 只有 3，虽然测试时可以放大到 10；最终奖励依赖 GPT-4o 作为 judge；任务虽然跨四个领域，但仍以可验证问答和工具推理为主，还没有真正走到更开放、更长期的软件或真实互联网任务。

**这篇论文证明了，多模块 agent 的核心优化可以被正式写成一个 in-the-flow 的 RL 问题，而且这样做确实有效。**

结尾

AgentFlow 这篇论文做成的，不只是一个新 agent 框架。

它真正完成的是一次训练视角的转向。过去大家要么训练单体工具推理模型，要么搭训练外的多模块系统；这篇论文把两者接到了一起，让 agent system 第一次比较完整地进入“在真实流程里学习”的范式。

从结果上看，它证明了四件事：多模块分工可以和 on-policy RL 共存；最终结果奖励可以有效回传到多轮 planner 决策；离线模仿并不能替代 live dynamics 中的协同学习；而一旦训练目标对齐，7B 级别系统也能在跨领域任务上打出很高的上限。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

批量删除Word和PDF页眉页脚的工具使用指南