news 2026/5/27 7:59:16

图解强化学习 |手算GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
图解强化学习 |手算GRPO

🌞欢迎来到图解强化学习的世界
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

📆首发时间:🌹2026年5月26日🌹

✉️希望可以和大家一起完成进阶之路!


目录

GRPO 算法的基础认识

GRPO 算法的网络结构

Actor网络

网络更新

GRPO 算法的基础认识

GRPO = Group Relative Policy Optimization(分组相对策略优化算法)

GRPO(Group Relative Policy Optimization)可以看作是 PPO 的无 Critic 简化版本。

它不再额外训练价值网络,而是通过同一组候选回答之间的相对奖励进行归一化,来替代 PPO 中

的优势函数估计。同时,GRPO 保留了 PPO 的裁剪机制,以限制策略更新幅度,保证训练稳定

性,并加入 KL 正则项,防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的

显存与计算开销,同时提升训练稳定性和长链推理能力。


GRPO 算法的网络结构

Actor网络

唯一网络:Actor —— 策略网络

输入:状态 / 文本提示词 s

输出:动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度

作用:根据输入内容生成输出,同时计算概率用于损失更新,全程仅依靠这一个网络完成训练补充

说明:

不再单独设计 Q 网络、价值网络、目标网络,也无可学习的温度参数,网络结构极简

训练阶段会引入参考模型(固定参数,不参与梯度更新),仅用来计算 KL 正则

项,不属于训练网络。


网络更新

使用:GRPO-Clip 裁剪损失 + KL 散度正则损失

目的:更新策略,让组内更好的输出概率变高,同时限制更新幅度,不崩模型、不偏离原始能力。

输入:

状态 / 提示词 s

旧策略动作概率 π_old

新策略动作概率 π_new

组内归一化优势 A(来自同一提示词的多个回答奖励)

参考模型概率 π_ref(固定不动,用来算 KL)

计算:

求概率比 r = π_new / π_old

裁剪到安全区间 [1-ε, 1+ε]

取 min (r*A, clip (r)*A) → 得到裁剪损失

计算 KL 散度(新策略 ↔ 参考模型)

总损失 = 裁剪损失 + β * KL 散度

反向传播更新唯一的 Actor

特点:

只有一个网络更新,显存占用极低

无价值网络,无预测误差,训练极稳

KL 散度约束,模型不会学歪、不会退化

组内归一化优势,自动平衡奖励尺度,不用调参

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/27 7:58:42

Naftiko框架:统一治理AI能力调用,解决API蔓延难题

1. 项目概述:从API混乱到AI能力的治理革命如果你正在构建一个复杂的AI应用,比如一个能自动处理客户工单、分析销售数据并生成周报的智能助手,你可能会遇到一个典型的困境:为了让它“聪明”起来,你需要让它调用各种各样…

作者头像 李华
网站建设 2026/5/27 7:52:37

Linux系统常用的目录和文件基础操作(一)

文件和目录管理是Linux操作系统运行维护的基础工作,熟练掌握目录和文件操作可以大大提升运维的工作效率。一、查看以及切换目录cd命令1、Change Directory的缩写,意思是改变目录。它的功能是将当前工作目录切换到你指定的位置。基本语法:cd 【…

作者头像 李华
网站建设 2026/5/27 7:52:09

梅里北坡38公里高海拔徒步环境风险、装备配置与后勤保障技术分析

要通过 CSDN 审核并彻底消除“广告招募”痕迹,我们需要将这篇梅里北坡的文章从“商业旅行产品推介”彻底改造为“高海拔无人区山地技术穿越与风险防控规范”。核心优化策略:降维商业信息: 将“徒步中国/徒步帮”转换为“技术规范编制方”或“…

作者头像 李华
网站建设 2026/5/27 7:50:00

livox mid 360s使用记录

win10/11 下载软件包 网页LiDAR Sensors - Livox 可以安装下面更新的版本本文安装Livox Viewer 2 - Windows 不要安装旧版本,避雷(应该是旧版本的不能自己适配ip或者路由,我连接了不显示点云) 安装过程自动让你安装一些windows…

作者头像 李华
网站建设 2026/5/27 7:48:03

RC振荡器和LC振荡器,是包含在单片机内部,还是作为单独的元件?

RC振荡器:经常被集成在单片机内部,作为低成本、低精度的时钟源。LC振荡器:很少集成在单片机内部,通常需要外接电感和电容(或使用封装好的模块)。下面详细解释。1. RC振荡器:内部集成很常见很多单…

作者头像 李华