快速了解部分
基础信息(英文):
- 题目:ROBOREWARD: LANGUAGE REWARD MODELS FOR GENERAL-PURPOSE ROBOTICS VISION
- 时间年月:2026年1月
- 机构名:Stanford University、UC Berkeley
- 3个英文关键词:Robotics Reward Models、Vision-Language Models (VLMs)、Reinforcement Learning (RL)
1句话通俗总结本文干了什么事情
研究者构建了RoboReward数据集与基准,训练出4B/8B参数的视觉-语言机器人奖励模型,该模型在机器人强化学习中表现优于现有大模型,还缩小了与人类提供奖励的效果差距,并开源相关资源。
研究痛点:现有研究不足 / 要解决的具体问题
- 机器人强化学习(RL)依赖人工标注奖励(耗时)或手工设计奖励(脆弱易失效),难以规模化应用;
- 现有视觉-语言模型(VLMs)作为自动奖励模型的真实机器人任务效果不明,精度可靠性不足;
- 现有大规模机器人数据集(如OXE)以成功案例为主,缺少失败、部分进展案例,无法有效训练/评估奖励模型。
核心方法:关键技术、模型或研究设计(简要)
- 数据增强:反事实重标注(固定视频改任务生成失败/部分进展案例)+ 时间截断(剪视频生成部分进展案例),解决数据集不平衡;
- 模型训练:基于Qwen3-VL微调4B/8B参数的视觉-语言奖励模型(RoboReward 4B/8B),预测1-5分任务进度;
- 基准构建:创建人类验证的RoboRewardBench基准,评估22个VLMs的奖励效果;
- 真实实验:用RoboReward 8B指导机器人RL,验证效果。
深入了解部分
相比前人创新在哪里
- 首次大规模评估22个主流VLMs(开源/闭源)作为通用机器人奖励模型的效果,揭示其泛化差距;
- 提出反事实重标注+时间截断的数据增强方案,首次解决机器人奖励数据集“成功案例偏多”的核心问题;
- 发布首个带人类验证的通用机器人奖励基准(RoboRewardBench),及开源的训练数据、模型 checkpoint,填补领域空白;
- 训练的小参数模型(4B/8B)优于更大规模通用VLMs,且在真实机器人RL中缩小与人类奖励的差距。
解决方法/算法的通俗解释
- 数据层面:找现有机器人成功案例数据,通过“改任务描述”造“假失败”(如视频是“放辣椒进锅”,改任务为“放辣椒进架子”得部分分)、“剪短视频”造“没做完”的案例(如剪到一半的“拉抽屉”视频得低分),平衡数据;
- 模型层面:用现成的视觉-语言模型(Qwen3-VL)做基础,只训模型的“视觉-语言融合”和“语言理解”部分,让它能给机器人任务打1-5分(1=没成功,5=完美);
- 验证层面:建一个测试集(人类验证分数),测不同模型打分准不准(MAE指标);
- 应用层面:用打分准的模型(RoboReward 8B)指导机器人学任务,比其他VLMs效果好,接近人类打分的指导效果。
解决方法的具体做法
- 数据构建:
- 来源:OXE(1M+成功案例,抽样1200/数据集)+ RoboArena(自然成败案例,全用);
- 增强:反事实重标注(GPT-5 mini分析视频→生成失败模式→Qwen3写新任务→GPT-5 mini验证)、时间截断(剪视频到早/中/晚节点);
- 清洗:VLM验证(任务与视频匹配、分数符合1-5分标准),测试集人类验证(2831例,即RoboRewardBench);
- 划分:45,072训练、6,232验证、2,831测试(任务描述跨 split 无重叠,防污染)。
- 模型训练:
- 预训练基础:Qwen3-VL;
- 训练设置:冻结视觉 backbone,微调融合层+LLM层;4B参数学习率3e-6,8B为5e-6;3个epoch,余弦学习率衰减,批大小32(梯度累积);
- 选模标准:验证集MAE(预测分与真实分平均绝对误差)最小的checkpoint。
- 实验验证:
- 模拟实验:Robomimic基准,DSRL算法,对比二进制(0/1)、连续(0-1)、离散(1-5)进度奖励的RL效果;
- 真实实验:WidowX 6DoF机械臂,2个任务(移棕色猴子到黄色毛巾、拉抽屉),DSRL微调扩散策略,训练6000步,20次测试取成功率;
- 评估指标:MAE(模型打分精度)、任务成功率(RL效果)。
基于前人的哪些方法
- Hindsight Experience Replay (HER):反事实标注思路来源,HER将失败案例标为成功以增数据,本文反过来将成功案例标为失败/部分进展,解决数据不平衡;
- DSRL算法(Wagenmaker et al., 2025):用于真实机器人实验中,微调预训练扩散策略的RL算法;
- Qwen系列VLMs(Bai et al., 2025a/b):作为模型预训练基础,提供视觉-语言理解能力;
- Robomimic基准(Mandlekar et al., 2021):用于模拟实验,验证不同奖励类型对RL的影响。
实验设置、数据、评估方式
- 实验设置:
- 模拟实验:Robomimic基准(Lift/Can/Square任务),DSRL算法,3次重复,对比二进制/连续/离散进度奖励;
- 真实实验:WidowX 250 6-DoF机械臂,2个未见过的任务(移猴子到毛巾、拉抽屉),训练6000步(每集最多70步),对比“人类奖励”“RoboReward 8B”“Gemini Robotics-ER 1.5”的指导效果,20次测试取成功率。
- 数据:
- 总量:增强后54,135例(45k训练、6.2k验证、2.8k测试);
- 来源:OXE(22种机器人,成功案例)+ RoboArena(DROID机器人,自然成败);
- 增强:反事实重标注(54k例中含自动生成的负例)+ 时间截断,测试集人类验证。
- 评估方式:
- 模型精度:MAE(Mean Absolute Error,预测1-5分与真实分的平均绝对误差,越低越好);
- RL效果:模拟任务看成功率,真实任务看成功率提升(对比基础策略);
- 泛化性:测试集任务与训练集无重叠,评估模型对新任务的适应能力。
提到的同类工作
- Tan et al. (2025):Robo-Dopamine,聚焦高精度机器人操作的过程奖励,但未开源,且不覆盖通用机器人任务;
- OpenGVL (2025):评估VLMs作为时间价值估计器,但仅6个任务、仅成功案例,无失败/部分进展场景;
- RewardBench (Lambert et al., 2024)/Multimodal RewardBench (Yasunaga et al., 2025):语言/多模态奖励基准,但不针对机器人任务,无法评估物理世界任务的奖励精度;
- Ma et al. (2024):用VLM做上下文价值学习,但仅针对特定机器人设置,不通用;
- Zhang et al. (2025a):“倒带”重标注奖励,但忽略演示内容,未用现代VLMs或多样真实机器人验证。
和本文相关性最高的3个文献
- Open X-Embodiment Collaboration et al. (2023):提出OXE数据集,是本文训练数据的核心来源(提供大规模成功机器人案例),解决数据规模基础问题;
- Atreya et al. (2025):提出RoboArena数据集,为本文提供自然成败的机器人案例,补充数据集中“真实失败”样本,避免仅依赖合成负例;
- Wagenmaker et al. (2025):提出DSRL算法,本文模拟与真实机器人实验均采用该算法进行RL微调,是验证奖励模型效果的核心工具。