news 2026/5/23 18:10:49

每天一个大模型相关知识点系列--GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型相关知识点系列--GRPO

GRPO(Group Relative Policy Optimization)是一种用于大语言模型第三阶段训练的强化学习方法,最早由 DeepSeek-Math 提出。

在 GRPO 中,模型被视为一个策略 π,直接对其输出分布进行优化。在强化学习建模中,prompt 对应状态 s,模型生成的完整响应对应动作 a,奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。

基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。与此同时,为防止策略更新过大、导致模型偏离原始分布,GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束,从而在探索与稳定性之间取得平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 16:50:39

京东自动化脚本终极指南:5分钟实现智能签到

京东自动化脚本终极指南:5分钟实现智能签到 【免费下载链接】jd_scripts-lxk0301 长期活动,自用为主 | 低调使用,请勿到处宣传 | 备份lxk0301的源码仓库 项目地址: https://gitcode.com/gh_mirrors/jd/jd_scripts-lxk0301 还在为每天重…

作者头像 李华
网站建设 2026/5/22 23:59:13

MySQL 分库分表的真正触发点分析

MySQL 推荐在单表超过 500 万行 或 容量超过 2GB 时才考虑分库分表,主要是基于以下几个方面的考虑:一、避免过度设计 数据库设计应当遵循“按需优化”原则。如果在数据量很小的时候就进行分库分表,会带来不必要的复杂性: 开发复杂…

作者头像 李华
网站建设 2026/5/15 2:53:00

关于VM的使用

1. VM功能介绍(1)功能一:挂起操作(将操作暂时保存起来,方便下次接着使用)(2)功能二:快照操作(将操作保存起来,防止操作不当,可以回退到…

作者头像 李华
网站建设 2026/5/22 7:23:23

3分钟搞定!文泉驿微米黑字体全平台安装终极指南

3分钟搞定!文泉驿微米黑字体全平台安装终极指南 【免费下载链接】fonts-wqy-microhei Debian package for WenQuanYi Micro Hei (mirror of https://anonscm.debian.org/git/pkg-fonts/fonts-wqy-microhei.git) 项目地址: https://gitcode.com/gh_mirrors/fo/font…

作者头像 李华
网站建设 2026/5/22 20:08:23

Flutter 状态管理全家桶:Provider、Bloc、GetX 实战对比

Flutter 状态管理全家桶:Provider、Bloc、GetX 实战对比 在 Flutter 开发中,状态管理是贯穿项目全生命周期的核心议题。从简单的按钮点击状态切换,到复杂的跨页面数据共享与业务逻辑联动,选择合适的状态管理方案直接决定了项目的…

作者头像 李华