news 2026/4/27 20:38:45

CGPO:完美融合—用评审混合机制重塑RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。

在本工作中,我们提出了一种新的后训练范式,称为约束生成策略优化(Constrained Generative Policy Optimization,CGPO)。CGPO的核心是评审混合机制(Mixture of Judges,MoJ),结合了具成本效益的分层约束策略优化方法,能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证,无需大量超参数调优,并可直接接入常见的后训练流程中。通过这种方式,CGPO能够检测并缓解奖励操纵行为,同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明,CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法(如PPO和DPO)。具体而言,在AlpacaEval-2(通用聊天)上比PPO提高了7.4%,在Arena-Hard(STEM与推理)中提高了12.5%,在IFEval(指令跟随)中提高了2%,在MATH和GSM8K(数学与推理)中均提高了2%,在HumanEval(编程)中提高了5%,在ARC challenge(知识)中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为,而CGP

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 20:08:21

【MCP与Azure OpenAI集成实战】:掌握企业级AI应用落地的黄金法则

第一章:MCP与Azure OpenAI集成的核心价值将MCP(Microsoft Cloud Platform)与Azure OpenAI服务深度集成,为企业级人工智能应用提供了强大的技术支撑。这种融合不仅提升了模型调用的安全性与稳定性,还通过统一的身份认证…

作者头像 李华
网站建设 2026/4/27 12:26:04

提示工程架构师法宝秘籍:实现最佳提示工程效果

提示工程架构师法宝秘籍:实现最佳提示工程效果关键词:提示工程、提示架构设计、思维链(CoT)、Few-Shot学习、反馈循环、上下文管理、多模态提示 摘要:大语言模型(LLM)就像一台“超级厨师机”——…

作者头像 李华
网站建设 2026/4/26 19:39:50

基于STM32的调试入门:STLink驱动安装快速理解

手把手教你搞定STM32调试起点:STLink驱动安装不再踩坑 你有没有过这样的经历?兴冲冲地打开Keil或STM32CubeIDE,连上Nucleo板子,点击“Download”,结果弹出一个无情的提示:“No ST-Link Found”&#xff1f…

作者头像 李华
网站建设 2026/4/26 8:12:36

通过ms-swift调用C# LINQ查询训练日志数据库

通过 ms-swift 调用 C# LINQ 查询训练日志数据库 在大模型研发日益工程化的今天,一个常被忽视但极其关键的问题浮出水面:我们如何真正“看见”模型的训练过程? 每天成百上千次的迭代、数以万计的日志行输出,最终往往只是滚动消失在…

作者头像 李华
网站建设 2026/4/27 3:06:01

ollydbg下载及安装系统学习:配套工具推荐

从零构建逆向分析环境:OllyDbg 安装与工具链实战指南 你是不是也曾在搜索“ollydbg下载”的时候,被一堆广告、捆绑软件和来路不明的压缩包搞得头大?点进去不是弹窗就是自动安装垃圾程序,甚至还有人把木马伪装成调试器……这背后其…

作者头像 李华
网站建设 2026/4/27 11:25:21

在STM32H7系列上实现JLink高速下载的技术细节

在STM32H7上榨干J-Link下载性能:从理论到实战的全链路优化你有没有经历过这样的场景?改完一行代码,点击“Download”,然后眼睁睁看着进度条爬了半分钟——就为了烧一个1MB的固件。尤其是在做CI/CD自动化测试时,每次构建…

作者头像 李华