每天一个大模型相关知识点系列--GRPO-开发者社区

GRPO（Group Relative Policy Optimization）是一种用于大语言模型第三阶段训练的强化学习方法，最早由 DeepSeek-Math 提出。

在 GRPO 中，模型被视为一个策略 π，直接对其输出分布进行优化。在强化学习建模中，prompt 对应状态 s，模型生成的完整响应对应动作 a，奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中，对于每一个输入 prompt，模型从当前策略分布中采样多个候选响应，这些响应是同一策略下的不同行动样本。随后，reward model 对这些候选输出进行打分，并在 group 内计算相对优势（group-relative advantage），通常通过减去 group 内平均奖励作为 baseline，以降低策略梯度估计的方差。

基于该相对优势，GRPO 采用策略梯度方法对模型参数进行更新，使得获得较高相对奖励的响应在策略分布中的概率增加，而相对奖励较低的响应概率降低。与此同时，为防止策略更新过大、导致模型偏离原始分布，GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束，从而在探索与稳定性之间取得平衡。

京东自动化脚本终极指南：5分钟实现智能签到

京东自动化脚本终极指南：5分钟实现智能签到【免费下载链接】jd_scripts-lxk0301 长期活动，自用为主 | 低调使用，请勿到处宣传 | 备份lxk0301的源码仓库项目地址: https://gitcode.com/gh_mirrors/jd/jd_scripts-lxk0301 还在为每天重…

李华

2025最新！AI行业高薪职位揭秘：新手也能年入百万？这些岗位含金量不断攀升！

在数字化时代的浪潮中，人工智能技术正以惊人的速度迭代升级，不仅深刻重构着人们的日常生活方式——从智能推荐算法改变消费习惯，到智能家居优化居住体验，更在就业市场掀起一场深刻变革。在这场变革中，与AI技术紧密相关…

李华

MySQL 分库分表的真正触发点分析

MySQL 推荐在单表超过 500 万行或容量超过 2GB 时才考虑分库分表，主要是基于以下几个方面的考虑：一、避免过度设计数据库设计应当遵循“按需优化”原则。如果在数据量很小的时候就进行分库分表，会带来不必要的复杂性： 开发复杂…

李华

3分钟搞定！文泉驿微米黑字体全平台安装终极指南

3分钟搞定！文泉驿微米黑字体全平台安装终极指南【免费下载链接】fonts-wqy-microhei Debian package for WenQuanYi Micro Hei (mirror of https://anonscm.debian.org/git/pkg-fonts/fonts-wqy-microhei.git) 项目地址: https://gitcode.com/gh_mirrors/fo/font…

李华

Flutter 状态管理全家桶：Provider、Bloc、GetX 实战对比

Flutter 状态管理全家桶：Provider、Bloc、GetX 实战对比在 Flutter 开发中，状态管理是贯穿项目全生命周期的核心议题。从简单的按钮点击状态切换，到复杂的跨页面数据共享与业务逻辑联动，选择合适的状态管理方案直接决定了项目的…

李华

京东自动化脚本终极指南：5分钟实现智能签到

2025最新！AI行业高薪职位揭秘：新手也能年入百万？这些岗位含金量不断攀升！

MySQL 分库分表的真正触发点分析

关于VM的使用

3分钟搞定！文泉驿微米黑字体全平台安装终极指南

Flutter 状态管理全家桶：Provider、Bloc、GetX 实战对比