文章核心总结
主要内容
该研究聚焦大语言模型(LLMs)对齐的强化学习人类反馈(RLHF)框架,针对现有方法依赖单一参考模型导致的多样性不足、过拟合等问题,提出并推导了多参考模型下反向KL正则化(RKL)和正向KL正则化(FKL)RLHF的精确解,建立了完整的理论框架(含统计分析和样本复杂度保证),并通过实验验证了方法的有效性。
核心创新点
- 首次给出多参考模型反向KL正则化RLHF的精确闭式解,突破了此前仅能通过下界近似求解的局限。
- 扩展理论分析至正向KL正则化场景,填补了该方向多参考模型设置下的理论空白。
- 为两种正则化框架提供了样本复杂度保证:RKL的次优性差距样本复杂度为O(1/n),最优性差距为O(1/√n);FKL的两类差距样本复杂度均为O(1/√n)。
- 实验验证了多参考模型设置在在线(GRPO)和离线(DPO)RLHF场景中均优于单一参考模型和现有近似方法,且可扩展至大规模模型。
译文(Markdown格式)
Abstract
近年来,大语言模型(LLMs)与人类反馈对齐的方法主要依赖单一参考模型,这限制了模型多样性、易导致过拟合,且未能充分利用现有丰富的预训练模型资源。引入多参考模型有望通过拓宽视角、减少偏差并发挥多样化开源LLMs的优势,解决这些局限性。然