news 2026/1/12 9:25:01

【论文自动阅读】EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

论文信息总结(arXiv:2512.14666v1)

快速了解部分

基础信息:

  1. 题目:EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
  2. 时间年月:2025.12
  3. 机构名:Show Lab, National University of Singapore
  4. 3个英文关键词:Vision-Language-Action (VLA) models、Test-Time Training (TTT)、Reinforcement Learning (RL)

1句话通俗总结本文干了什么事情

本文提出EVOLVE-VLA框架,让视觉-语言-动作(VLA)模型在部署测试时能通过与环境交互自主学习,无需依赖大量专家演示和测试时难以获取的“先知奖励”,还能通过平滑噪声反馈、逐步扩展学习范围等方式提升任务表现,甚至实现跨任务泛化。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 数据成本高:现有VLA模型依赖监督微调(SFT),每个新任务需收集数百个专家演示,任务增多时成本呈线性增长,难以扩展到通用机器人。
  2. 泛化能力弱:模型仅模仿演示轨迹,无法适应训练外的场景,执行中一旦出错(如一步操作偏差),常导致任务完全失败,缺乏纠错能力。
  3. 测试时无“先知奖励”:此前部分VLA-RL方法依赖测试时无法获取的“先知奖励”(如模拟器提供的任务成功/失败二进制信号),无法实际部署。
  4. 长任务与噪声反馈问题:长周期任务中,进度估计易受噪声干扰,直接使用噪声反馈会误导模型学习,且早期训练中政策不熟练,难完成长任务,学习信号弱。

核心方法:关键技术、模型或研究设计(简要)

  1. 测试时训练(TTT)框架:模型经少量(甚至零)演示SFT初始化后,部署时通过与环境交互生成轨迹,用在线强化学习(RL)持续优化政策。
  2. 学习型进度估计器:以VLAC模型为基础,将任务进度作为奖励信号,替代“先知奖励”,提供密集、连续的反馈,同时作为轨迹终止判断条件。
  3. 累积进度估计机制:通过间隔采样里程碑帧、增量计算进度、累积聚合进度值(带边际效益递减),平滑噪声反馈,保证信号稳定且计算高效。
  4. 渐进式范围扩展策略:分阶段训练,逐步增加最大轨迹长度,让模型先掌握短子任务,再串联技能应对长周期任务,提升学习稳定性。
  5. GRPO优化器:采用Group Relative Policy Optimization更新政策,无需单独价值网络,通过批次内轨迹奖励归一化实现稳定更新。

深入了解部分

相比前人创新在哪里

  1. 首次实现无需任务特定演示的测试时跨任务泛化:让仅在LIBERO-Long任务预训练的模型,通过自主交互在未训练的LIBERO-Object任务上实现20.8%成功率(传统SFT模型为0%),此前无VLA方法能仅通过测试时适应实现跨任务迁移。
  2. 解决噪声进度反馈的“驯服”问题:并非构建完美进度估计器,而是通过“累积进度估计+渐进式范围扩展”双机制,将噪声反馈转化为稳定学习信号——前者减少长周期漂移和局部波动,后者降低早期训练难度,两者互补适配长任务。
  3. 极低数据场景下的高效提升:在“单演示SFT初始化”的低数据场景中,平均成功率提升17.7%(LIBERO-Long任务提升22.0%),大幅降低对专家演示的依赖,解决传统SFT数据成本高的痛点。
  4. 进度估计器的双重高效应用:同时作为“奖励信号”和“轨迹终止条件”,通过间隔采样和增量计算,在保证实时性(每Δcheck步查询一次)的同时,避免冗余计算(仅需与最近里程碑帧对比,而非所有帧对)。

解决方法/算法的通俗解释,以及具体做法

1. 核心思路通俗解释

类比人类学习技能:像人通过“尝试-出错-从环境获反馈-改进”掌握技能一样,EVOLVE-VLA让机器人先看少量(甚至不看)演示“入门”,之后在实际操作中,通过“做任务-判断进度-调整动作”持续优化,且会“分阶段学”(先练简单步骤,再练复杂流程)、“过滤噪声”(不纠结单次操作误差,看整体进度趋势),最终适应新场景甚至新任务。

2. 具体做法
  • 测试时训练流程
    1. 初始化:用1个或零个专家演示对OpenVLA-OFT模型做SFT,完成基础政策初始化。
    2. 交互生成轨迹:模型在环境中执行任务,按温度系数T>1的概率采样动作(保证轨迹多样性),直到进度超阈值或达最大长度,生成多条轨迹。
    3. 反馈计算:用累积进度估计机制计算每条轨迹的进度奖励,同时判断是否终止轨迹(进度超阈值则终止)。
    4. 政策更新:用GRPO优化器,基于轨迹奖励更新模型参数,迭代此过程实现持续学习。
  • 累积进度估计具体步骤(对应Algorithm 1)
    1. 初始化:记录初始帧为首个里程碑帧,进度值初始为0,清空批评家历史。
    2. 增量进度计算:每Δcheck步,计算当前帧与最近里程碑帧的进度(用VLAC模型);每Δmilestone步,将当前帧加入里程碑列表,存储进度值。
    3. 累积进度聚合:按公式vi=vi−1+(100−vi−1)⋅ci/100v_i = v_{i-1} + (100 - v_{i-1}) \cdot c_i / 100vi=vi1+(100vi1)ci/100v0=0v_0=0v0=0)更新进度,保证进度值在0-100间,避免过度乐观/悲观导致的偏差。
    4. 输出奖励:轨迹结束时,将最终进度值归一化到[0,1]作为奖励,用于GRPO优化。
  • 渐进式范围扩展具体步骤
    1. 分阶段设置最大长度:初始阶段设短最大轨迹长度(如仅覆盖1-2个子任务),后续阶段逐步增加长度(如每次增加Δmilestone步)。
    2. 阶段内优化:每个阶段内,用当前最大长度生成轨迹,优化政策至性能稳定后,进入下一阶段。
    3. 长任务适配:最终阶段使用任务要求的最大长度,模型已掌握子任务技能,能有效应对长周期依赖。

基于前人的哪些方法

  1. VLA基础架构:沿用现代VLA模型的动作 token 化设计(如OpenVLA、π₀),将连续机器人动作离散为token,政策自回归生成动作序列。
  2. 强化学习优化器:采用GRPO(Group Relative Policy Optimization),基于PPO思想,通过批次内奖励归一化计算优势,无需单独价值网络,保证更新稳定,此前用于OctoNav等导航任务。
  3. 进度估计基础模型:以VLAC(Vision-Language-Action-Critic)为进度估计器基础,该模型能输入两帧图像和任务指令,输出相对进度值,此前用于机器人真实世界RL的奖励生成。
  4. RL在VLA的初步探索:借鉴SimpleVLA-RL、VLA-RL等前人将RL用于VLA微调的思路,但解决了这些方法依赖“先知奖励”的部署问题。
  5. 基准模型与评估协议:以OpenVLA-OFT为基础模型(采用其并行解码、动作分块设计,禁用连续动作回归头),在LIBERO基准上按前人协议(每个任务50次试验,报告成功率)评估。

实验设置、数据、评估方式

1. 实验基准与数据
  • 基准数据集:LIBERO机器人操作基准,含4个任务集(各10个任务):
    • LIBERO-Spatial:空间相关操作(如将物体放在指定位置)
    • LIBERO-Object:物体特定操作(如抓取特定类型物体)
    • LIBERO-Goal:目标导向操作(如完成指定目标状态)
    • LIBERO-Long:长周期任务(多步骤复杂操作,如组装物体)
    • 每个任务含50个专家演示,评估时每个任务运行50次试验。
  • 基础模型:OpenVLA-OFT(自回归VLA模型),禁用连续动作回归头,使用离散动作token,适配RL优化。
  • 进度估计模型:VLAC(预训练于大规模机器人操作数据集,能跨任务估计进度)。
2. 实验设置
  • 主要实验:对比EVOLVE-VLA与传统SFT模型(如Octo、OpenVLA、π₀)在LIBERO四任务集的成功率。
  • 低数据实验:仅用1个演示做SFT初始化,评估TTT对数据依赖的降低效果。
  • 跨任务泛化实验:模型仅在LIBERO-Long任务预训练(50演示/任务),直接部署到LIBERO-Object任务,无任务特定SFT,评估跨任务能力。
  • 消融实验
    • 累积进度估计消融:对比“2帧直接估计”“均匀采样累积”“间隔采样累积(本文方法)”的成功率、F-score(进度估计准确性)和计算量。
    • 渐进式范围扩展消融:对比“仅SFT”“SFT+二进制奖励”“SFT+密集奖励(无渐进扩展)”“SFT+密集奖励+渐进扩展(本文方法)”在LIBERO-Long的表现。
3. 评估指标
  • 主要指标:任务成功率(SR),即50次试验中任务完成的次数占比,按任务集平均计算。
  • 辅助指标
    • F-score:基于100个成功案例和100个失败案例,评估进度估计器的准确性(F-score越高,进度判断越准)。
    • 奖励调用次数:衡量计算效率,次数越少,实时性越强。

提到的同类工作

  1. VLA基础模型类
    • Octo:开源通用机器人政策,探索大模型与交互环境的结合。
    • OpenVLA/OpenVLA-OFT:开源VLA模型,OpenVLA-OFT通过并行解码、动作分块提升效率,是本文基础模型。
    • π₀:基于连续流架构的VLA模型,跨任务泛化能力强,本文主要对比基线之一。
    • TinyVLA:轻量级VLA模型,通过参数共享和蒸馏降低数据依赖,但仍依赖SFT。
    • Cot-VLA:引入视觉思维链推理的VLA模型,提升复杂任务推理能力,但无测试时学习机制。
  2. VLA-RL类(依赖先知奖励)
    • SimpleVLA-RL:首个将RL用于自回归VLA的方法,但依赖模拟器提供的二进制先知奖励,无法部署。
    • πRL:针对流基VLA的RL微调方法,同样需要测试时不可得的先知奖励。
    • VLA-RL:轨迹级RL优化VLA的方法,依赖地面真值(GT)反馈(如轨迹成功与否)。
    • iRe-VLA:通过在线RL提升预训练VLA,但需GT监督信号。
  3. 并发工作
    • π0.6:Physical Intelligence公司同期发布的VLA模型,通过Recap方法(基于优势条件政策的经验与纠错RL)从自主经验学习,与本文动机相似(解决SFT模型纠错与部署学习问题),但本文为更早提交的学术工作,且提出“累积进度估计+渐进范围扩展”双机制,π0.6未涉及此设计。

和本文相关性最高的3个文献

  1. [13] H. Li et al. “Simplevla-rl: Scaling vla training via reinforcement learning”. In: arXiv preprint arXiv:2509.09674 (2025)
    • 相关性理由:最早将RL用于自回归VLA模型的工作之一,是本文直接对比的基线(如文中对比“SimpleVLA-RL+噪声进度二进制奖励”与本文方法的性能差距);本文低数据实验中,1-shot SFT模型的 checkpoint 直接复用自该文献,是本文实验设计的重要基础;但该工作依赖测试时不可得的先知奖励,本文的核心创新之一就是解决该文献的部署痛点。
  2. [29] S. Zhai et al. “A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning”. In: arXiv preprint arXiv:2509.15937 (2025)
    • 相关性理由:提出VLAC模型,是本文进度估计器的核心基础——本文直接采用VLAC作为“两帧+指令→进度值”的批评家模型,其预训练的跨任务进度估计能力是本文替代先知奖励的关键;该文献虽提供进度估计工具,但未解决“噪声反馈驯服”和“测试时训练”问题,本文在此基础上构建了完整的TTT框架。
  3. [12] M. J. Kim et al. “Openvla: An open-source vision-language-action model”. In: arXiv preprint arXiv:2406.09246 (2024)
    • 相关性理由:提出OpenVLA模型,本文基础模型OpenVLA-OFT是其改进版(优化速度与成功率),本文的SFT初始化、动作token化设计均基于该文献的VLA架构;该文献是当前VLA领域的基准工作之一,本文通过TTT框架将其性能从89.2%提升至95.8%,证明了测试时学习对现有VLA模型的增益价值,是本文“突破传统SFT局限”论点的重要对比基线。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/23 9:16:45

【独家分析】Open-AutoGLM如何实现对TestComplete的功能全面超越

第一章:Open-AutoGLM与TestComplete的架构设计对比在自动化测试与智能代码生成领域,Open-AutoGLM 与 TestComplete 代表了两种截然不同的技术路径。前者基于大语言模型驱动,强调语义理解与自动生成能力;后者则是传统企业级自动化测…

作者头像 李华
网站建设 2025/12/21 16:13:07

别再用WinAutomation了?Open-AutoGLM在8项基准测试中全面领先

第一章:别再用WinAutomation了?Open-AutoGLM在8项基准测试中全面领先随着自动化工具的演进,传统基于规则的桌面自动化方案正面临新一代AI驱动框架的挑战。Open-AutoGLM作为开源社区最新推出的智能自动化引擎,凭借其融合大语言模型…

作者头像 李华
网站建设 2026/1/9 7:05:45

AI应用架构师的新媒体营销技术成熟度模型

AI应用架构师的新媒体营销技术成熟度模型:从混沌到卓越的进阶之路 一、引言 (Introduction) 钩子 (The Hook) “为什么78%的企业AI营销项目投入产出比不足1.2?”——这组来自Gartner 2024年《AI营销技术应用报告》的数据,或许道出了无数AI应用架构师的困惑。我们正处于一…

作者头像 李华
网站建设 2025/12/21 16:05:43

【AI驱动报价革命】:Open-AutoGLM实现秒级响应的5大核心技术

第一章:AI驱动报价革命的背景与意义在数字化转型加速的今天,企业对效率与精准度的要求日益提升。传统报价流程依赖人工经验与静态模板,难以应对复杂多变的市场需求。AI技术的成熟为这一领域带来根本性变革,通过数据驱动与智能算法…

作者头像 李华
网站建设 2025/12/21 16:04:16

【Open-AutoGLM vs Power Automate】:谁更适合企业自动化?5大场景对比揭晓

第一章:Open-AutoGLM 与 Power Automate 核心定位差异Open-AutoGLM 与 Power Automate 虽然均面向自动化任务处理,但在设计哲学、技术架构与适用场景上存在本质区别。前者聚焦于开放域下的自然语言驱动自动化,后者则构建在企业级低代码平台之…

作者头像 李华
网站建设 2026/1/7 13:15:12

错过将落后一年,Open-AutoGLM邮件自动化正在重塑企业沟通模式

第一章:Open-AutoGLM邮件自动回复的变革意义在企业通信效率日益关键的今天,Open-AutoGLM的出现标志着邮件自动回复系统进入智能化新阶段。它不仅实现了对自然语言的高度理解,还能根据上下文自动生成语义连贯、语气得体的回复内容,…

作者头像 李华