news 2026/3/10 17:13:49

一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/so8r31sbi1GU4uILKQHU0g

如果有人说:不用分阶段训练、不搞课程学习、不动态调参,只用最基础的 RL 配方也能达到不错的性能,会是怎样的结果?

清华团队用两个 1.5B 模型做了这个尝试。结果在 9 个数学推理基准上达到了 54.87% 和64.32% 的新基线,算力只用了一半,训练过程也很平稳,4000步没遇到什么大问题。

更有趣的是,当我们试着加入一些"应该有用"的优化时,性能反而下降了。也许在某些情况下,简单的方法充分训练后,效果可能比我们预期的要好。这个工作最大的 novelty,也许就在于没有 novelty。

2月3日(周二)晚8点,青稞社区和减论平台将联组织 #青稞Talk 第107期,清华大学博士生何秉翔,将直播分享《JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线》。

分享嘉宾

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICML、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1000次。

主题提纲

JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线

1、RL 训练的 Trick 方法
2、极致简洁的 JustRL 及实现
3、消融实验及性能对比
4、AMA (Ask Me Anything)环节

直播时间

2月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎预约观看!

Bilibili 直播间:
https://live.bilibili.com/32145701

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/8 16:13:38

如何破解智慧养老“三大难题” ,惠及更多老年群体?

要破解智慧养老“技术适配性差、服务供需错配、数字鸿沟显著”三大核心难题,需以老年人需求为中心。 通过技术适老化改造、服务精准化匹配、数字鸿沟弥合三大路径,结合政策引导、产业协同与社会参与,推动智慧养老从概念创新转向日常可用&…

作者头像 李华
网站建设 2026/3/10 14:33:44

计算机网络应用层面试题(RPC)

文章目录 RPC1. RPC的作用是什么?回答 2. [为什么有HTTP协议了?还要用RPC?](https://xiaolincoding.com/network/2_http/http_rpc.html#http-%E5%92%8C-rpc-%E6%9C%89%E4%BB%80%E4%B9%88%E5%8C%BA%E5%88%AB)回答 RPC 1. RPC的作用是什么&…

作者头像 李华
网站建设 2026/3/5 21:09:09

什么是Protobuf?一个例子比较Pb和JSON字节大小

文章目录 什么是Protobuf?如何使用Protobuf ?什么是 RPC应用程序之间的通信?Protobuf 和JSON 格式之间的区别是什么?Protobuf 的三个选项是什么?例子分别计算Pb和Json大小结语 什么是Protobuf? 你可能听说…

作者头像 李华
网站建设 2026/3/10 5:58:56

AlertDialog.show()中message的字体大小和颜色如何修改?

本问答帖原创发布在华为开发者联盟社区 ,欢迎开发者前往论坛提问交流。 AlertDialog.show()中不能修改message里内容的字体颜色和大小,请问如何解决? 解决方案: AlertDialog无法修改自定义字体颜色和大小。建议使用coustomDialog&#xff0c…

作者头像 李华