- 摘要速览
复杂推理能力的提升依赖大量高质量、可验证的训练数据,但人工标注成本高昂且难以规模化。现有数据合成方法面临两难权衡:有效性和难度——保证问题有效性则难度受限,放宽约束提升难度又容易产生逻辑矛盾甚至无解的问题。
为此,作者提出了一种全新的问题合成框架Agentic Proposing。该方法将问题生成视为一个目标驱动的序列决策过程,由专门设计的Proposer Agent动态选择并组合模块化的推理技能(Composable Agent Skills),通过内部反思(internal reflection)与工具调用(tool-use)实现闭环自我修正。作者基于多粒度策略优化(MGPO)算法训练出Agentic-Proposer-4B/30B模型,在数学、编程与科学领域成功生成了高精度、可验证的训练轨迹。实验证明,仅用11,000条合成轨迹训练的30B模型在AIME 2025上达到91.6%准确率,超越众多百亿乃至千亿级参数的开源和闭源模型,充分证明"高质量信号比大规模数据更重要"。
- 研究背景与动机
2.1 LLM推理所依赖的数据
- 核心瓶颈:当前 LLM 的推理能力突破(如 OpenAI o1, DeepSeek-R1)极度依赖强化学习(RL)和可验证的环境反馈,这需要海量的高难度、可验证问题数据。然而,人工标注此类数据成本极高,难以扩展。
2.2 现有数据合成范式的局限性
现有数据合成方法可分为三类,均面临结构性有效与生成灵活性之间的根本权衡。
- 种子扩展法(Seed-Based Expansion):通过演化少量种子问题生成新数据,如Self-Instruct、WizardMath、MetaMath等。该方法受限于初始种子质量,且缺乏根据模型能力动态调整难度的机制。
- 语料提取法(Corpus-Based Extraction):从文本或知识库中提取并构造问题,如ScaleQuest、MathSmith、DESIGNER。尽管覆盖广泛事实基础,但难以精确控制问题难度,也难针对特定弱点定制训练。
- 基于智能体博弈法(Agent-Based Self-Play):利用多智能体自博弈生成推理数据,如DeepSeek-R1、R-Zero、Socratic-Zero。这些方法多依赖静态提示或单一架构,缺乏真正反应式、适应性的智能体行为。
总体而言,现有方法依赖人工模板或固定先验以保证有效性,限制了对新颖高难度组合的探索;若放宽约束提高灵活性,则易产生逻辑错误或不可解实例。这种矛盾体现在传统开环生成(图1a)的不稳定与不可验证性上。
图1:数据合成范式对比(传统 v.s. Agent proposing)
2.3 Agent proposing的提出
面对上述挑战,亟需一种既能自主探索复杂推理空间,又能保障逻辑正确性的新型合成范式来应对。论文提出应将高难度问题合成视为组合逻辑工程过程,而非简单文本生成。
具体而言,论文引入可组合智能体技能概念,将问题构建分解为原子化模块,并提出Agentic Proposing框架(图1b):由专门的提议者智能体,在目标驱动下通过内部反思与工具使用,动态选择并组合这些技能,迭代生成逻辑合理、难度可控的复杂问题。该闭环流程由技能库驱动、策略控制,旨在解决传统方法在结构稳定与问题复杂度间的长期矛盾。
图2:Agent Proposing在AIME25任务上在准确率和性价比上都遥遥领先
- Agent Proposing详解
3.3. POMDP问题合成建模与认知状态管理
为了对合成过程进行精确建模和控制,Agentic Proposing将问题合成定义为一个部分可观测马尔可夫决策过程(POMDP),由元组γ描述。在这一框架中,状态空间表示底层问题的逻辑完整性与难度,这是一个潜在的、不能直接观测的属性。选择POMDP建模的关键洞见在于:合成问题的逻辑可解性是一种潜在属性,仅通过表面的对话历史无法直接观测。因此,智能体必须主动“探测”环境——通过工具调用和内部反思——以减少不确定性并收敛到一个有效的问题实例。
3.3.1 观测与认知上下文
为了赋予智能体多样化的构建模式,首先初始化一个自主技能库 ,由原子推理模块组成。在每个时间步 ,智能体接收一个观测 ,其定义为:
其中:
- :当前激活的技能子集。
- :对话历史,包括先前的工具输出。
- :认知阶段指示符,跟踪智能体在诸如起草(Draft)、检查(Check)、精炼(Refine)等语义阶段的进展。
认知阶段指示符 的引入是该框架的一个关键创新。智能体并非被状态机所约束,而是将 作为一个功能上下文,以自适应的方式引导合成过程——例如,如果在验证过程中发现逻辑缺陷,智能体可以主动返回到精炼模式——从而维持一个自我纠正的推理循环。
3.3.2 动作空间
动作空间 被划分为三个功能域::
- 认知动作:自然语言回应的集合,包括一个内部反思动作,用于在提交可观察输出之前生成用于逻辑审计的推理链。
- 交互工具:工具调用的集合,包括用于沙箱化代码执行的 和用于动态技能剪枝的 。具体而言, 允许智能体通过执行 来更新激活集 ,从而自主移除一个不协调的技能 。
- **终端提交 **:动作 ,用于在问题空间 内提交最终合成的问题 。
3.3.3 可组合智能体技能的形式化建模
框架的技术基石在于引入了可组合智能体技能的概念,即将问题构建逻辑分解为可执行的原子推理模块。这一设计的理论基础源于涌现组合性原理:对于组合性任务,如果强化学习目标仅在输出与任务匹配时提供正奖励,智能体能够以高概率学习编排子技能来解决该任务,即使该特定组合在预训练期间未曾见过。
基于此原理,每个原子技能 被形式化为一个结构化的属性四元组
其中:
- :推理意图(Reasoning Intent),编码技能的底层认知目的。
- :构造方法(Construction Method),描述构建或解决问题的核心操作逻辑。
- :难度效应(Difficulty Effect),量化该技能对整体问题复杂度的影响(通常在1-10的尺度上)。
- :工具提示(Tool-Use Hint),提供调用外部效用(如Python/SymPy脚本)进行验证的指导。
为了将这些原子模块组合成复杂问题,定义了一个映射算子 ,该算子将n个选定技能的组成转换为高维指令空间 中的自然语言约束。最终的问题生成过程由一个参数为 的策略 控制:
公式表明,智能体在给定当前观测、技能组合映射以及当前激活技能集的条件下,采样生成最终的问题 。这种形式化建模使得从简单的技能中涌现出复杂的推理结构成为可能,实现了对问题逻辑结构与难度的精确控制。
3.1 Agentic Proposing 总体架构和流程
总体架构如下图所示,包含三个顺序演进的阶段:
stage1.技能获取与库形式化:从大规模语料库中提取和形式化多样化的原子技能,构建作为代理先验知识的基础技能库 。 stage2.智能体监督微调(SFT):利用教师策略合成展现复杂行为(如内部反思和工具使用)的专家轨迹,通过行为克隆初始化代理策略 。 stage3.基于MGPO的智能体后训练:为了弥合逻辑有效性与极高难度之间的鸿沟,采用多粒度策略优化(MGPO)算法来优化代理编排模块化技能的能力,使其能够生成高精度、可验证且具有挑战性的任务。
Stage1 技能获取与动态剪枝
- 自主技能库构建: 为了赋予智能体先验的构造逻辑,我们首先从一个混合来源语料库 中提取原子技能。我们利用一个教师策略 从语料中诱导出候选技能集 ,并为每个技能 分配质量分数 。
通过拒绝采样(设定阈值 ),我们定义了过滤后的技能分布:
其中 为指示函数。智能体通过最大化对数似然来学习这些高质量技能:
最终形成**自主技能库 **。
- 动态剪枝机制: 在问题合成的起草阶段,智能体可以调用内部反思动作 来评估当前激活技能集 的适配度。若预判某技能 与目标不一致或易引发逻辑错误,智能体会主动调用工具 执行剪枝操作 。这种前瞻式的自校正从源头拦截了低质量的生成路径,确保了合成过程的鲁棒性。
Stage2 智能体监督微调
第二阶段的目标是让模型模仿专家在复杂决策过程中的行为。我们使用教师策略生成高质量的智能体轨迹数据集,每条轨迹 包含内部反思、工具调用及技能剪枝等丰富行为。
为了确保演示数据的可靠性,所有最终合成的问题 必须通过高精度验证器 的严格筛选。我们定义二元有效性指标 ,仅保留通过验证的轨迹构成最终的 SFT 数据集 。
通过在 上进行行为克隆,我们最小化以下交叉熵损失以获得后续强化学习阶段的参考策略 :
Stage3 智能体强化学习:多粒度策略优化
这是框架的第三阶段,核心是多粒度策略优化算法。它旨在通过细粒度的奖励信号引导智能体将模块化技能编排为高难度、高精度的任务。
3.3.1 基于课程的技能分布
为了动态聚焦于智能体表现欠佳的技能类别 ,系统维护熟练度向量 。每个类别 的熟练度通过指数移动平均更新:
在下一轮迭代中,技能类别的采样概率与其熟练度成反比:。这一机制强制模型探索高难度技能组合,避免陷入"低难度安全区"。
3.3.2 分层奖励函数
我们设计了一个结合轨迹级与步骤级反馈的奖励结构。设验证器输出为 ,外部探针估计的通过率为 ,则终端奖励定义为:
其中 为逻辑有效性基础奖励, 为难度缩放因子。此外,我们辅以中间过程奖励 来奖励成功的工具执行或逻辑连贯的反思。该设计确保:无效问题得分为零,且难度奖励仅赋予可解实例。
3.3.3 多粒度优势估计与优化目标
MGPO 通过变分重构解决了 KL 约束下的奖励最大化问题。根据命题,最优策略具有闭式解 ,且定义隐式奖励为 。
为了平衡全局信号与局部反馈,MGPO 在两个粒度上进行优势估计:
- 轨迹级优势:基于批次内终端奖励的标准化。
- 阶段级优势:基于相同认知阶段 内过程奖励的标准化。
融合后的优势定义为:
最终的优化权重 由中心化融合优势与中心化隐式奖励的差值构成,并受非对称双曲正割门调控以增强训练稳定性:
其中重要性比率 ,温度参数满足 以对负优势施加更强约束。策略最终通过令牌归一化的加权最大似然更新:
L _ M G P O ( θ ) = − 1 N ∑ _ i , t , j w _ i , t ′ log π _ θ ( x _ i , t , j ∣ o _ t ( i ) , a _ i , < j ( i ) ) \mathcal{L}\_{\mathrm{MGPO}}(\theta) = -\frac{1}{N} \sum\_{i,t,j} w\_{i,t}' \log \pi\_{\theta}(x\_{i,t,j} \mid o\_t^{(i)}, a\_{i,<j}^{(i)})L_MGPO(θ)=−N1∑_i,t,jw_i,t′logπ_θ(x_i,t,j∣o_t(i),a_i,<j(i))=“” 4. 实验
4.1 实验设置
1. 基础模型与训练配置
- 合成器:核心是经过多粒度策略优化训练的Agentic-Proposer-4B模型,用于生成训练数据。
- 求解器:
- 4B 规模:使用
Qwen3-4B-Instruct-2507模型,在10,000条数学轨迹上训练。 - 30B 规模:使用
Qwen3-30B-A3B-Thinking-2507模型,在11,000条混合(数学+代码)轨迹上训练。
- 训练算法:所有求解器均统一使用GRPO算法进行微调,并采用仅结果监督的二元奖励函数。
- 对比基线:涵盖了三大类数据合成方法,共 15 种以上的基线,包括:
- 传统合成方法:MetaMath, WizardMath, PromptCoT 系列, MathSmith 等。
- 人工标注/精选数据集:OpenR1, OpenMathReasoning, Polaris 等。
- 顶尖大模型生成数据:GPT-5.2, Gemini-3-Pro, Claude-4.5-Opus 等。
2. 评估基准与协议
- 竞赛数学:AIME 2024/2025、HMMT、AMO-Bench。采用Mean@64评估以减少采样方差。
- 算法编程:LiveCodeBench v5/v6。采用Best-of-5评估,即生成5个候选答案,有1个通过测试即算正确。
- 科学及通用推理:GPQA, SuperGPQA, MMLU-Pro/Redux, OlympicArena。采用Mean@1评估。
4.2 主要结果
实验结果表明,Agentic Proposing 生成的数据在所有基准测试上均显著优于现有方法,尤其在模型规模与数据效率方面表现出色。
4.2.1 4B模型上的数学推理表现(表1)
- 现有方法的负优化现象:许多传统合成数据方法导致性能相较于baseline下降(MetaMath下降至30.8%)。这说明对于先进的4B模型,传统数据的难度已处于“舒适区”,无法提供有效的RL训练梯度,甚至导致熵崩溃。
- 本文提出的agentic Proposing有显著且全面的提升:相比基线提高 +4.1 个百分点。在高难度基准如AIME 2025上提升 +4.5%,HMMT提升 +5.5%。证明:Agentic Proposer合成的数据具有极高的“信号密度”,精准命中了模型的推理前沿。
4.2.2模型缩放与跨领域泛化(表2)
使用11,000条混合轨迹(数学和编程)训练30B求解器。在AIME 2025上达到91.6%的准确率,为该规模建立了新的SOTA,超越了Grok-4.1-Fast和Claude-4.5-Opus,媲美GPT-5。在编程领域,LiveCodeBench v5上取得73.4%(+5.3),v6上取得71.2%(+5.2),超越了OpenMathReasoning和PromptCoT 2.0等领先开源推理数据集。
| 指标维度 | Qwen3-30B 基线 | 使用本文数据训练后 | 结果分析与说明 |
|---|---|---|---|
| AIME 2025 准确率 | 85.0% | 91.6% | SOTA级别表现:仅用1.1万条合成数据,30B模型在AIME25上达到了+6.6%的绝对提升,超越了GPT-5.2等前沿闭源模型。证明高质量合成信号可以弥补甚至超越海量参数量带来的优势(图2印证了这一点)。 |
| 代码能力 (LCB v5) | 68.1% | 73.4% | 跨领域迁移:尽管主要针对数学优化,模型在代码基准上也获得+5.3%的提升。证明:Agentic Proposing锻炼的“逻辑组合与自校正”能力具有通用性,不仅限于单一学科。 |
4.2.3 跨领域鲁棒性与迁移
训练4B求解器后,在多个基准上取得显著进步:
研究生级推理:SuperGPQA提升+7.3个百分点(至50.1%),GPQA提升+6.3个百分点(至68.3%)
通用知识:MMLU-Redux提升+3.2个百分点(至87.3%),MMLU-Pro提升+5.6个百分点(至75.2%)
认知鲁棒性:OlympicArena提升+4.4个百分点(至47.2%)
说明该框架一定程度上能避免了传统数据增强导致的过拟合,合成的逻辑链条赋予了模型解决未知复杂问题的鲁棒认知能力。
- 分析与消融研究
5.1 提议者专业化:训练 vs. 提示
将GPT-5.2模型在不同配置下与专门的4B提议者进行比较:
- GPT-5.2-High(原始提示):AIME平均32.8%
- +技能库(结构化属性):34.6%(+1.8)
- +代理工作流(起草-检查-精炼):36.4%(+3.6)
- Agentic-Proposer-4B(本文):**38.3%**(+5.5)
专门的4B提议者优于增强后的GPT-5.2达+1.9个百分点,证明了领域特定的强化学习对于专业化推理合成任务至关重要。
5.2 代理流水线消融
- 单次提议:AIME平均31.5%
- +工具使用():33.8%(+2.3)
- +内部反思():33.4%(+2.1)
- 完整流水线(起草-检查-精炼):**38.3%**(+6.8)
工具使用和内部反思各自作为"质量门控"都有效,但只有在迭代式自我修正循环中被协同激活时才能充分发挥潜力。
5.3 MGPO有效性
- 标准GRPO(仅轨迹级):AIME平均31.8%
- MGPO(无阶段级优势):35.1%(+3.3)
- 完整MGPO:**38.3%**(+6.5)
细粒度信用分配对于长序列合成任务至关重要,MGPO通过阶段级优势为中间行为提供即时反馈,有效引导代理学习更优的合成策略。
6 总结与展望
通过提出的Agentic Proposing,本文发现先进推理的瓶颈不在于参数规模,而在于高质量训练信号的密度,这挑战了传统观点。这一进展的核心在于将复杂推理分解为可组合的原子技能——从静态提示转向动态的逻辑构建。通过弥合自主合成与复杂逻辑构建之间的差距,Agentic Proposing为通往自我演化的推理生态系统建立了一条可扩展的路径,使模型能够系统性地掌握日益复杂的智力前沿。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~