news 2026/5/14 22:54:38

使用BroRL扩展探索突破强化学习训练瓶颈

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用BroRL扩展探索突破强化学习训练瓶颈

使用BroRL的扩展探索突破强化学习训练瓶颈

在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL)表明,在延长训练期间增加更多强化学习步骤可以扩展LLMs的推理边界。

但最终,团队遇到了瓶颈。经过数千步训练后,性能提升减弱,模型的改进停滞,甚至开始退化。关于此的更多细节,请参阅《使用ProRL v2通过延长训练来扩展LLM强化学习》。

这引发了一个关键问题:这个瓶颈是RL的根本限制,还是执行扩展方式导致的假象?

今天,我们很高兴介绍扩展强化学习(BroRL),这是一个探索互补且强大的扩展维度:路径扩展的新范式。BroRL不是仅仅训练更多步骤,而是将每个提示的探索性路径数量大幅增加到数百的量级。这种方法突破了其他方法停滞的性能上限,并被证明在数据和计算效率上显著更高。我们将发布使用BroRL训练的最先进的15亿参数模型。

本文深入探讨了相关的核心理论见解、新的实证结果,以及为什么扩展路径是解锁LLMs下一层级推理能力的关键。

BroRL如何实现持续学习?

大多数RL扩展工作侧重于训练长度。这通常导致学习信号不稳定,模型难以摆脱其现有的知识库。RL的感知限制通常只是其探索策略的限制。

BroRL通过专注于在每个更新步骤进行路径扩展来探索,从而挑战这一范式。其目标是通过从根本上稳定RL过程,实现在先前停滞处的持续学习,超越渐进式收益。

表1. 步骤扩展(ProRL)与路径扩展(BroRL)的核心比较

特性步骤扩展(例如ProRL)路径扩展(BroRL)
扩展方式增加更多训练步骤(3000+)增加每个提示的路径数量(N=512)
性能趋势遇到性能瓶颈;收益递减突破瓶颈;稳健、持续改进
学习信号可能不稳定且嘈杂来自详尽探索的稳定、高质量更新
效率在饱和点效率低下计算和数据效率更高

路径扩展如何控制RL的不稳定性?

如《BroRL:通过扩展探索来扩展强化学习》中详细所述,我们的理论分析(第2节)揭示,RL更新过程受两种竞争力量支配:已采样的路径和未采样的空间。

可以做一个类比:想象探索一片广阔、浓雾笼罩的景观以找到最高峰。你实际走过的路径(已采样的路径)提供了可靠、积极的反馈,帮助你提升高度。然而,你没有走的无数条路径(未采样的空间)产生了不确定性和噪声。这种噪声就像引力,把你拖下山坡。当你只派出少数侦察兵(ProRL中N=16)时,他们的报告是嘈杂的,这种向下的拉力可能强大到足以阻止你上升,让你困在高原上。

BroRL的解决方案简单而强大:派出整支侦察大军(N=512)。通过绘制景观的绝大部分,来自未探索迷雾的随机噪声被平均化,并变得极其微弱。所有成功路径带来的“向上信号”变得极其强大。

在我们的形式化分析中,这意味着当N很大时,模型性能的净变化变为正(ΔJ > 0)。这提供了一个稳定、高质量的学习信号,使模型能够攀升越过瓶颈。

突破RL性能瓶颈

我们将BroRL方案应用于一个在3000个训练步骤后已经达到瓶颈的强大ProRLv2模型。结果是决定性的。

图1讲述了一个有力的故事。继续使用ProRL方案(蓝线)会导致停滞和最终的退化,而BroRL(橙线)则使模型恢复活力,实现了稳健且持续的绩效提升,突破了先前的上限。

图1.BroRL (N=512) 在数学基准测试上展示了持续的绩效提升,而ProRL (N=16) 则达到瓶颈并随着延长训练而退化

BroRL综合结果

我们使用64个某中心H100 GPU,继续使用原始方案(N=16)和新的BroRL方案(N=512)训练3000步的ProRLv2检查点。分歧是明显的:ProRL停滞不前,而BroRL在更短的时间内带来了稳定、显著的提升。

表2. BroRL与ProRL在关键推理基准测试上的综合性能比较

方法NRL 步骤总时间 (小时)数学分数代码分数Reasoning Gym 分数
Baseline162,00060.1451.4359.06
Baseline163,00061.6952.0061.29
ProRL163,000+225+56.362.0852.2662.10
ProRL163,000+535+133.862.02 (停滞)52.7461.45 (退化)
BroRL5123,000+107+98.162.6253.3162.71
BroRL5123,000+134+122.862.8553.4862.82
BroRL5123,000+419+393.963.6656.6463.40

仅用98.1小时后,BroRL已经在所有指标上决定性地超越了ProRL方法的最终性能,完成时间大约少了35小时。这证实了,对于推动饱和模型的边界,扩展路径规模是一个更有效且计算效率更高的策略。

BroRL为15亿参数的推理模型设定了最先进的水平,在数学(63.66)、代码(56.64)和推理健身房(63.40)基准测试中取得了最高分。

卓越的计算效率

BroRL不仅更好,而且在使用计算方面更快、更智能。

  • 算法效率:大量N的路径产生了更多样化的候选样本集。用于过滤无信息轨迹的动态采样通过率从41%跃升至62%,意味着浪费的计算更少。
  • 硬件效率:BroRL将生成过程从内存限制转变为计算限制,并提高了前缀缓存命中率。因此,GPU可以充分利用其并行处理能力,在我们的硬件设置中,吞吐量从36.5样本/秒几乎翻倍至72.4样本/秒。

表3. BroRL与ProRL的计算效率指标(采样通过率和吞吐量)

方法 (N)动态采样通过率生成吞吐量 (样本/秒)
ProRL (16)41%36.5
BroRL (512)62%72.4

更高的令牌效率

BroRL在数学和代码基准测试上都以更少的输出令牌实现了更高的准确性,表明具有更好的“分数-每-令牌”效率和更紧凑、冗余更少的推理。

大量N的路径探索(N=512)为每个提示展示了众多简洁、高收益的轨迹,这既提高了采样紧凑正确链条的机会,又减少了对冗长、低信号推理的依赖。这在步骤扩展通常会导致令牌膨胀的情况下,将质量与响应长度解耦。

表4. BroRL与ProRL在数学和代码任务上的令牌效率比较

任务ProRL 分数BroRL 分数分数差异ProRL 令牌数BroRL 令牌数令牌差异
数学62.0263.66+1.6416,50615,760-745
代码52.7456.64+3.9026,80826,090-717

开始使用BroRL

我们的研究结果确立了路径规模不仅是超参数,而且是扩展强化学习的关键且高效的维度。步骤扩展方法遇到的性能瓶颈并非RL的根本限制,而是探索不足的假象。关键的见解和要点包括:

  1. 路径扩展是RL一个新的、至关重要的扩展维度。它在仅靠深度扩展会失败的地方提供了稳定的学习信号。
  2. 性能瓶颈并非死胡同。可以通过扩展路径规模以生成更高质量的策略更新来克服。
  3. BroRL计算效率更高,使硬件吞吐量翻倍并提高了算法样本效率。
  4. BroRL令牌效率更高,用更少的资源实现更多。
  5. 新的BroRL训练检查点为15亿参数的推理模型设定了最先进水平。

对于那些希望用RL最大化其模型潜力的人来说,BroRL提供了一条有原则的前进道路:当你遇到瓶颈时,不要只是向前推进——要拓宽探索。

要开始使用,请通过Hugging Face探索和评估BroRL模型。

致谢
感谢Yejin Choi、Fang Wu、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz和Jun Yang对本文的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 7:47:09

网络安全、Web安全、渗透测试之笔经面经总结(二)

这篇文章涉及的知识点有如下几方面: 1.SSL Strip(SSp)攻击到底是什么? 2.中间人攻击——ARP欺骗的原理、实战及防御 3.会话劫持原理 4.CC攻击 5.添加时间戳防止重放攻击 6.浅析HTTPS中间人攻击与证书校验 7.什么是HttpOnly? 8.如…

作者头像 李华
网站建设 2026/5/1 16:25:32

DSPE-PEG2K-R8,磷脂-聚乙二醇-R8肽,DSPE-PEG2000-R8

DSPE-PEG2K-R8,磷脂-聚乙二醇-R8肽,DSPE-PEG2000-R8 DSPE-PEG2K-R8 是一种典型的脂质-聚合物-多肽偶联分子,由 DSPE(1,2-二硬脂酰-sn-甘油-3-磷脂酰乙醇胺)、分子量约为 2000 的 PEG(聚乙二醇)…

作者头像 李华
网站建设 2026/5/12 1:37:54

Flink Hive 把 Hive 表变成“可流式消费”的数仓底座

1. Hive 在 Flink 里到底能干嘛 核心就两件事: 1)读 Hive:既能一次性读(bounded),也能像流一样追新增(unbounded / streaming read) 2)写 Hive:批写支持 appe…

作者头像 李华
网站建设 2026/5/11 11:17:21

621-9937并行输入输出模块

621-9937 并行输入输出模块简介:621-9937 是工业自动化系统中的并行 I/O 模块可同时处理多个输入和输出信号支持数字量信号的快速采集与输出用于连接现场开关、传感器及执行设备输出信号可直接驱动继电器、指示灯等模块响应速度快,适合实时控制应用支持电…

作者头像 李华
网站建设 2026/5/3 3:33:06

​Android 基础入门教程​Handler消息传递机制浅析

3.3 Handler消息传递机制浅析 分类 Android 基础入门教程 本节引言 前两节中我们对Android中的两种事件处理机制进行了学习,关于响应的事件响应就这两种;本节给大家讲解的 是Activity中UI组件中的信息传递Handler,相信很多朋友都知道&…

作者头像 李华