news 2026/7/1 19:57:24

关于GR-RL与PI-0.6的一些想法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
关于GR-RL与PI-0.6的一些想法

原始文章发布在知乎,欢迎移步:《关于GR-RL与PI-0.6的一些想法》

最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl(关于gr-rl:文档1和文档2)系列工作,再结合以前看的pi系列模型或算法,产生了一些想法,想法可能不成熟甚至有错误,仅在此记录总结一下,以便回顾。

1,gr-1/gr-2是基于视频生成的技术路线去设计,核心就是通过未来帧的预测,一方面可以利用海量的视频数据,另一方面可以学习到一些语义和操作的通用知识。而gr-3完全换了路线,切换到了pi0/pi0.5这种基于VLM+action expert(flow matching)的路线上,是否说明在技术路线上前者不如后者呢?

2,两个系列模型发展路线:

pi0->pi0.5->pi0.6(RL)
gr-1->gr-2->gr-3->gr-rl
pi0.5与gr-3,pi0.6与gr-rl这两两之间的思路已经相当接近了,有一种殊途同归的感觉,读相关的技术报告确实可以学习到很多。字节的开源精神再强一些,把相关的代码开源一下,可以让大家复现就更好了。

3,今天详细的阅读了gr-rl论文,它是based在gr-3的基础之上,有一些收获吧:

3.1,通过时序差分(TD)的思想去训练一个critic网络,并且先通过数据离线进行训练,这点和pi0.6中的思路是一样的。离线先训练critic应该可以减少RL整体的训练时间。有些细节不同之处是:pi0.6是训练了一个V函数,而gr-rl训练了一个Q函数,另外gr-rl训练的Q函数输出是一个分布,而不是传统强化学习中的一个值,论文中说分布更加鲁棒。

3.2,策略网络的训练,gr-rl与pi0.6差别比较大,最近也看了一些如何在flow matching基础之上让强化学习去训练它的一些方法,例如:《 ​π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)》。其实大家所做的目标只有一个,就是如何将RL与flow matching结合,一句话说核心点:

pi0.6是通过训练好的critic网络生成一个condition去sft监督训练策略网络;
gr-rl不会动已经sft训练好的策略网络,而是对flow matching初始时的那个原始噪声进行了优化,通过一个噪声网络
去预测这个初始噪声,同时也增加了一个Q网络
对噪声策略输出的噪声进行打分。在前向推理的时候,不再从高斯采样,而是让 π_θ′ 根据当前观测直接给出最优噪声 ε,再由冻结的流模型一步(或少量几步)解码成动作。整体上,此方案相当于在flow matching基础之上,找到了一个突破口(初始噪声),在这个突破口上添加了一个外挂,在强化学习中去训练这个外挂,外挂外的其它部分不参与训练。论文中相关的描述如下:

pi0.6/gr-rl/piRL三者的思路有没有优劣之分,目前还不太清楚,后续有时候看一下相关的参考文献或亲自尝试一下。如果各位有相关信息,希望能不吝赐教!
3.3,双buffer的设计类似于:《具身智能hil-serl强化学习算法在lerobot机械臂上复现》中的双buffer。

3.4,通过模仿学习,数据增强,强化学习协同的方式持续提升效果,短期有可能会是一个主流的范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 7:41:08

AI销售工具VertGrow AI销冠助力企业效能提升的获客软件全解

AI销售工具如何优化企业获客流程在当今竞争激烈的市场中,企业获客面临诸多挑战,传统的手段往往无法满足快速变化的需求。借助AI销售工具,如VertGrow AI销冠,企业能够实现更高效的获客流程。通过融合先进的智能获客系统与销售软件功…

作者头像 李华
网站建设 2026/6/29 18:18:54

[ACM]2026年大数据应用与信息化教育国际学术会议 (ICBDIE 2026)

重要信息 大会时间:2026年2月6日-2月8日 大会地点:中国-北京(可参会) 一轮报名/截稿:2025年12月30日 最终报名/截稿:2026-02-05 00:00:00 接受/拒稿通知:投稿后5-10个工作日 检索:EI Compendex / SCO…

作者头像 李华
网站建设 2026/6/26 18:19:17

9000 万身价登顶,皇马失宠之谜

在最新一次德转身价更新中,20岁的居莱尔身价暴涨3000万欧元,达到惊人的9000万欧元。这个数字让他一举成为土耳其足球历史上身价最高的球员,甚至超过了六支西甲球队的阵容总身价。但戏剧性的是,就在身价登顶的同时,这位…

作者头像 李华
网站建设 2026/6/26 1:07:08

6、Nagios监控系统的深入解析与使用指南

Nagios监控系统的深入解析与使用指南 1. 通知配置与过滤 在Nagios中,每个联系人定义除了包含联系人姓名和电子邮件地址等基本信息外,还可以设置主机通知选项和服务通知选项。这些选项能让你过滤单个联系人接收的通知类型。例如,程序员可能只希望收到其负责应用程序的问题通…

作者头像 李华
网站建设 2026/6/26 18:00:21

10、全面解析Nagios配置与启动指南

全面解析Nagios配置与启动指南 1. Nagios主机状态判定与通知机制 Nagios在运行检查命令(check_command)时,若命令执行失败,会先将主机置于软故障状态(soft down state),并按照 max_check_attempts 指定的次数重试该命令。若每次重试均失败,主机将进入硬故障状态(h…

作者头像 李华
网站建设 2026/6/30 12:15:15

Rust如何重塑PHP内存管理:5大实战技巧提升系统稳定性

第一章:Rust 扩展的 PHP 内存管理概述PHP 作为广泛使用的动态脚本语言,其内存管理依赖于 Zend 引擎实现的引用计数与垃圾回收机制。当通过 Rust 编写 PHP 扩展时,开发者必须理解如何在两种不同内存模型之间建立安全、高效的桥梁:R…

作者头像 李华