news 2026/5/7 23:59:28

RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

概述

本文报告了 rStar2-Agent 的开发和成果,这是一个专门用于数学推理的大规模语言模型。

尽管该模型的参数规模高达 140 亿个,但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。

这背后的原因是依赖冗长的思维链(CoT)的传统方法的局限性。

换句话说,仅仅通过 “保持足够长的思考时间”,很难发现中间错误和灵活的政策变化。

为了克服这一难题,作者引入了代理强化学习(Agentic Reinforcement Learning),旨在 “让思考更聪明”。
具体来说,强化学习用于学习一种机制,使模型能够恰当地生成和执行 Python 代码,并在反思结果的同时改进其推理能力。

在此基础上,设计了能同时处理 45,000 次工具调用的高效代码执行环境、减少环境噪音的新 GRPO-RoC 算法以及高效的多阶段学习配方。
结果表明,只需 510 个步骤和一周的培训就能达到最先进的水平,而且推理能力可以推广到非数学领域。

建议的方法

我们提出的方法由三个部分组成,用于高效地大规模部署代理强化学习。

首先,构建支持大规模代码执行的基础设施。

作者设计了一个专用执行环境,可在平均 0.3 秒内处理多达 45 000 次并行工具调用。

此外,还实施了动态分配 GPU 计算资源的调度程序,以消除负载偏差。

第二,一种名为 GRPO-RoC(Group Relative Policy Optimisation with Resampling on Correct)的新算法。

这是一种优先强化积极答案轨迹的方法,积极答案轨迹很少出现工具错误或格式违规,而失败轨迹则通过保持其多样性用于训练。

这使得学习既能抵御环境噪声,又能防止奖励黑客。

第三,高效的学习方法。
与传统的以推理为导向的 SFT(监督微调)不同,该系统首先只学习简单指令遵循和工具使用的基础知识,然后通过多阶段 RL 逐步加强推理能力。

这三者使我们能够用比以前更少的计算资源建立实用而强大的推理代理。

实验

在实验中,我们使用 rStar2-Agent-14B 评估了它在数学竞赛问题 AIME24 和 AIME25 以及 HMMT25 等高难度基准上的性能。
结果显示,rStar2-Agent-14B 在 AIME24 和 AIME25 中的正确率分别为 80.6% 和 69.8%,高于 DeepSeek-R1 (671B) 和 Claude-Opus-4.0。

平均响应长度也更短,表明推理精简高效。

在训练过程中,每个阶段的性能提高都很明显。

第一阶段,在 8K 响应长度令牌限制下获得了基本的推理能力,第二阶段将限制扩展到 12K,进一步提高了准确性。

在最后阶段,训练集中在难度更大的问题上,并达到了最先进的标准。

此外,在数学以外的其他领域,通用化性能也得到了证实,在科学推理基准 GPQA-Diamond 和代理工具使用任务 BFCL v3 上都取得了优异成绩。

此外,对错误轨迹和自我反思行为的分析表明,模型学会了 "反思标记 "行为,即积极利用来自环境的反馈,通过试错改进推理。

这证明该方法不仅能提高性能,还能模仿更像人类的思维过程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 23:55:23

NVIDIA Profile Inspector终极探索:从新手到专家的显卡调优成长之路

NVIDIA Profile Inspector终极探索:从新手到专家的显卡调优成长之路 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否曾在游戏中遭遇画面卡顿,却不知如何释放显卡的真正潜力…

作者头像 李华
网站建设 2026/5/1 4:26:09

百度网盘直链解析工具:告别龟速下载的终极解决方案

还在为百度网盘几十KB的下载速度而苦恼吗?这款开源直链解析工具正是你需要的救星!它能将普通分享链接转化为真实下载地址,配合专业下载工具实现全速下载,让你真正发挥网络带宽的潜力。 【免费下载链接】baidu-wangpan-parse 获取百…

作者头像 李华
网站建设 2026/5/6 0:37:14

全面讲解Arduino Uno与WiFi模块构建智能插座

用Arduino Uno和WiFi模块亲手打造一个智能插座:从零开始的物联网实战你有没有想过,花不到一百块钱,就能做出一个能用手机控制家里电灯、风扇甚至咖啡机的“智能插座”?听起来像是高科技产品,其实只要一块Arduino Uno、…

作者头像 李华