使用BroRL扩展探索突破强化学习训练瓶颈-开发者社区

使用BroRL的扩展探索突破强化学习训练瓶颈

在使用基于可验证奖励的强化学习（RLVR）训练大语言模型（LLMs）时，一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习（ProRL）表明，在延长训练期间增加更多强化学习步骤可以扩展LLMs的推理边界。

但最终，团队遇到了瓶颈。经过数千步训练后，性能提升减弱，模型的改进停滞，甚至开始退化。关于此的更多细节，请参阅《使用ProRL v2通过延长训练来扩展LLM强化学习》。

这引发了一个关键问题：这个瓶颈是RL的根本限制，还是执行扩展方式导致的假象？

今天，我们很高兴介绍扩展强化学习（BroRL），这是一个探索互补且强大的扩展维度：路径扩展的新范式。BroRL不是仅仅训练更多步骤，而是将每个提示的探索性路径数量大幅增加到数百的量级。这种方法突破了其他方法停滞的性能上限，并被证明在数据和计算效率上显著更高。我们将发布使用BroRL训练的最先进的15亿参数模型。

本文深入探讨了相关的核心理论见解、新的实证结果，以及为什么扩展路径是解锁LLMs下一层级推理能力的关键。

BroRL如何实现持续学习？

大多数RL扩展工作侧重于训练长度。这通常导致学习信号不稳定，模型难以摆脱其现有的知识库。RL的感知限制通常只是其探索策略的限制。

BroRL通过专注于在每个更新步骤进行路径扩展来探索，从而挑战这一范式。其目标是通过从根本上稳定RL过程，实现在先前停滞处的持续学习，超越渐进式收益。

表1. 步骤扩展（ProRL）与路径扩展（BroRL）的核心比较

特性	步骤扩展（例如ProRL）	路径扩展（BroRL）
扩展方式	增加更多训练步骤（3000+）	增加每个提示的路径数量（N=512）
性能趋势	遇到性能瓶颈；收益递减	突破瓶颈；稳健、持续改进
学习信号	可能不稳定且嘈杂	来自详尽探索的稳定、高质量更新
效率	在饱和点效率低下	计算和数据效率更高

路径扩展如何控制RL的不稳定性？

如《BroRL：通过扩展探索来扩展强化学习》中详细所述，我们的理论分析（第2节）揭示，RL更新过程受两种竞争力量支配：已采样的路径和未采样的空间。

可以做一个类比：想象探索一片广阔、浓雾笼罩的景观以找到最高峰。你实际走过的路径（已采样的路径）提供了可靠、积极的反馈，帮助你提升高度。然而，你没有走的无数条路径（未采样的空间）产生了不确定性和噪声。这种噪声就像引力，把你拖下山坡。当你只派出少数侦察兵（ProRL中N=16）时，他们的报告是嘈杂的，这种向下的拉力可能强大到足以阻止你上升，让你困在高原上。

BroRL的解决方案简单而强大：派出整支侦察大军（N=512）。通过绘制景观的绝大部分，来自未探索迷雾的随机噪声被平均化，并变得极其微弱。所有成功路径带来的“向上信号”变得极其强大。

在我们的形式化分析中，这意味着当N很大时，模型性能的净变化变为正（ΔJ > 0）。这提供了一个稳定、高质量的学习信号，使模型能够攀升越过瓶颈。

突破RL性能瓶颈

我们将BroRL方案应用于一个在3000个训练步骤后已经达到瓶颈的强大ProRLv2模型。结果是决定性的。

图1讲述了一个有力的故事。继续使用ProRL方案（蓝线）会导致停滞和最终的退化，而BroRL（橙线）则使模型恢复活力，实现了稳健且持续的绩效提升，突破了先前的上限。

图1.BroRL (N=512) 在数学基准测试上展示了持续的绩效提升，而ProRL (N=16) 则达到瓶颈并随着延长训练而退化

BroRL综合结果

我们使用64个某中心H100 GPU，继续使用原始方案（N=16）和新的BroRL方案（N=512）训练3000步的ProRLv2检查点。分歧是明显的：ProRL停滞不前，而BroRL在更短的时间内带来了稳定、显著的提升。

表2. BroRL与ProRL在关键推理基准测试上的综合性能比较

方法	N	RL 步骤	总时间 (小时)	数学分数	代码分数	Reasoning Gym 分数
Baseline	16	2,000	–	60.14	51.43	59.06
Baseline	16	3,000	–	61.69	52.00	61.29
ProRL	16	3,000+225	+56.3	62.08	52.26	62.10
ProRL	16	3,000+535	+133.8	62.02 (停滞)	52.74	61.45 (退化)
BroRL	512	3,000+107	+98.1	62.62	53.31	62.71
BroRL	512	3,000+134	+122.8	62.85	53.48	62.82
BroRL	512	3,000+419	+393.9	63.66	56.64	63.40

仅用98.1小时后，BroRL已经在所有指标上决定性地超越了ProRL方法的最终性能，完成时间大约少了35小时。这证实了，对于推动饱和模型的边界，扩展路径规模是一个更有效且计算效率更高的策略。

BroRL为15亿参数的推理模型设定了最先进的水平，在数学（63.66）、代码（56.64）和推理健身房（63.40）基准测试中取得了最高分。

卓越的计算效率

BroRL不仅更好，而且在使用计算方面更快、更智能。

算法效率：大量N的路径产生了更多样化的候选样本集。用于过滤无信息轨迹的动态采样通过率从41%跃升至62%，意味着浪费的计算更少。
硬件效率：BroRL将生成过程从内存限制转变为计算限制，并提高了前缀缓存命中率。因此，GPU可以充分利用其并行处理能力，在我们的硬件设置中，吞吐量从36.5样本/秒几乎翻倍至72.4样本/秒。

表3. BroRL与ProRL的计算效率指标（采样通过率和吞吐量）

方法 (N)	动态采样通过率	生成吞吐量 (样本/秒)
ProRL (16)	41%	36.5
BroRL (512)	62%	72.4

更高的令牌效率

BroRL在数学和代码基准测试上都以更少的输出令牌实现了更高的准确性，表明具有更好的“分数-每-令牌”效率和更紧凑、冗余更少的推理。

大量N的路径探索（N=512）为每个提示展示了众多简洁、高收益的轨迹，这既提高了采样紧凑正确链条的机会，又减少了对冗长、低信号推理的依赖。这在步骤扩展通常会导致令牌膨胀的情况下，将质量与响应长度解耦。

表4. BroRL与ProRL在数学和代码任务上的令牌效率比较

任务	ProRL 分数	BroRL 分数	分数差异	ProRL 令牌数	BroRL 令牌数	令牌差异
数学	62.02	63.66	+1.64	16,506	15,760	-745
代码	52.74	56.64	+3.90	26,808	26,090	-717

开始使用BroRL

我们的研究结果确立了路径规模不仅是超参数，而且是扩展强化学习的关键且高效的维度。步骤扩展方法遇到的性能瓶颈并非RL的根本限制，而是探索不足的假象。关键的见解和要点包括：

路径扩展是RL一个新的、至关重要的扩展维度。它在仅靠深度扩展会失败的地方提供了稳定的学习信号。
性能瓶颈并非死胡同。可以通过扩展路径规模以生成更高质量的策略更新来克服。
BroRL计算效率更高，使硬件吞吐量翻倍并提高了算法样本效率。
BroRL令牌效率更高，用更少的资源实现更多。
新的BroRL训练检查点为15亿参数的推理模型设定了最先进水平。

对于那些希望用RL最大化其模型潜力的人来说，BroRL提供了一条有原则的前进道路：当你遇到瓶颈时，不要只是向前推进——要拓宽探索。

要开始使用，请通过Hugging Face探索和评估BroRL模型。

致谢
感谢Yejin Choi、Fang Wu、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz和Jun Yang对本文的贡献。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）