news 2026/6/18 11:41:50

【论文阅读】Vision Language Models are In-Context Value Learners

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • 1 论文信息
  • 2 背景
  • 3 方法:上下文学习/情境学习(In-Context Learning)
    • 3.1 冻结权重
    • 3.2 示例输入
    • 3.2 自回归预测(Autoregressive Prediction)
    • 注意:无需训练
  • 4 总结

1 论文信息

团队:Google Deepmind
时间:2025
论文链接:https://arxiv.org/pdf/2411.04549
项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:“你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。”

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了“0% 进度”的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据“第几张图”来猜进度,而必须去寻找画面中的语义关键点(例如:在“把杯子放到托盘”任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在“训练”一个模型,而是在“引导”一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的“上下文参考” 。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:47:11

贝舒地尔Belumosudil每日一次或两次给药方案选择及副作用管理

贝舒地尔(Belumosudil)作为治疗慢性移植物抗宿主病(cGVHD)的创新药物,其用药方案的合理选择以及副作用的有效管理,对于提高患者的治疗效果和生活质量至关重要。目前,贝舒地尔有每日一次和每日两…

作者头像 李华
网站建设 2026/6/15 15:00:40

风光储、风光储并网VSG直流微电网Simulink仿真模型:系统构成与控制策略

风光储、风光储并网VSG直流微电网simulink仿真模型。 系统有光伏发电系统、风力发电系统、储能系统、负载、逆变器?lc滤波器?大电网构成。 附参考文献。光伏系统采用扰动观察法实现mppt控制,经过boost电路并入母线; 风机采用最佳叶尖速比实现mppt控制&…

作者头像 李华
网站建设 2026/6/15 20:57:56

Python 将 PDF 表格数据提取至 TXT 或 Excel

在数据处理与办公自动化场景中,PDF 表格因格式稳定被广泛使用,但不可直接编辑的特性,给数据统计、分析和二次加工带来诸多不便。手动复制粘贴不仅效率低下,还容易出现数据错位、遗漏等问题。 本文将分享一种高效的解决方案—基于P…

作者头像 李华
网站建设 2026/5/31 0:41:09

PyTorch-CUDA-v2.7镜像对多用户并发访问的支持

PyTorch-CUDA-v2.7 镜像如何支撑多用户并发访问:从实验室到生产环境的实践路径 在高校实验室里,一个常见的场景是:十几名学生挤在同一台 GPU 服务器上做深度学习实验,有人跑训练、有人调模型,结果系统崩溃了——不是因…

作者头像 李华