news 2026/6/6 9:09:20

Training-Time RTC——在训练时做动作分块:消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Training-Time RTC——在训练时做动作分块:消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

前言

实时分块(RTC)技术通过异步预测动作块,并借助推理时图像修复对已执行动作进行调节,使VLA能够生成流畅、响应迅速的机器人运动轨迹

然而这种修复方法会引入增加推理延迟的计算开销

  1. PI因此再次提出一种简洁替代方案:在训练时模拟推理延迟,直接对动作前缀进行调节,从而消除所有推理时开销
    该方法无需修改模型架构或机器人运行时系统,仅需增加数行代码即可实现
  2. 至于实际效果上
    一方面,模拟实验表明,在较高推理延迟场景下,训练时实时分块(training-time RTC)性能优于推理时实时计算(inference-time RTC)
    二方面,通过π0.6版VLA模型在箱体构建与浓缩咖啡制作任务中的实体实验证明:训练时实时分块在保持任务性能与执行速度的同时,计算成本显著低于推理时实时计算

第一部分

1.1 引言、相关工作、预备知识

1.1.1 引言

如原论文所述,与聊天机器人或搜索引擎不同,具身智能体必须在实时环境中运作。智能体行为与环境之间的反馈循环要求其具备即时响应能力——如同人类运动员,当外部环境变化时,智能体无法简单地'停滞思考'

然而,前沿模型规模持续扩大使得这一要求愈发难以满足。这在机器人学习领域体现得尤为明显:由数十亿参数组成的VLA正日益广泛地应用于高频机器人控制,以完成精密操作任务。当模型推理延迟达到数十至数百毫秒时,生成流畅且响应灵敏的运动轨迹是一项巨大挑战

实时分块处理技术(RTC;[5])通过融合动作分块[9, 27]、流匹配[13]和推理时动作修复[18, 21],为解决该问题提供了有效途径

  1. 在实时分块(RTC)技术中,动作区块以异步方式被预测——当前区块仍在执行时,下一个区块已开始生成
    为确保区块间的连续性,每个生成过程均以先前预测动作的冻结前缀作为调节条件,填补剩余部分
  2. 然而,RTC采用的推理时图像修复方法会引入额外计算开销——进而导致延迟——这在某种程度上违背了实时执行框架的设计初衷
    实证研究表明,推理时图像修复方法本质上难以应对高推理延迟场景

对此,来自PI公司的研究者 Kevin Black、Allen Z. Ren、Michael Equi、Sergey Levine通过一种训练时模拟推理延迟的图像修复方法增强RTC系统,彻底消除推理阶段的计算开销『we augment RTC withan inpainting methodthatsimulates inference delay at training timeand eliminates any inference-time computational overhead

  1. 该方法可作为推理时RTC的直接替代方案:无需修改模型架构或机器人运行时环境,仅需添加数行代码即可实现
    在模拟基准测试中,训练时实时分块(training-time RTC)在高延迟场景下表现优于推理时实时分块(inference-time RTC)
  2. 真实场景验证表明,通过对未经动作前缀调节预训练的基础模型进行微调,可成功实现训练时RTC的部署
    比如通过将训练时实时分块应用于π0.6 VLA模型[24],作者在两项高复杂度任务(箱体构建与浓缩咖啡制作)中展现出优于推理时实时计算的性能提升

1.1.2 相关工作

首先,对于动作分块与VLA模型

  1. 动作分块[9,26]已成为端到端模仿学习中视觉运动控制的实际标准方法。近期研究表明,通过增强视觉语言模型(VLM)生成动作分块的能力,在机器人操作领域取得显著成功,由此催生了VLA[4,6-8,10-12,14,17,28,29]
  2. 随后涌现出大量方法,旨在解决大型VLA模型与高频控制之间的协调难题
    例如Gemini Robotics[23]与GR00T[3]采用分层式VLA架构,将模型拆分为重量级系统2(高层规划)与轻量级系统1(底层动作生成)组件
    MiniVLA [2] 和 SmolVLA [20] 提出的视觉语言动作模型架构,相比大多数设计具有更快的运行速度和更高的效率,使得边缘设备上的推理部署更具可行性

这些贡献与本文介绍的Training-Time RTC正交,各自存在权衡取舍

其次,对于VLA的实时执行

  1. 最密切相关的先前研究是实时分块技术(RTC; [5]),其提出的异步执行框架为本研究奠定了基础
  2. 同样相关的是 SmolVLA [20],其提出的异步执行算法与 RTC 技术相似;然而 SmolVLA 未能解决分块间不连续性问题,导致分块衔接处出现分布外的'抖动'现象
  3. 与本研究同期,A2C2 [19] 和 VLASH [22] 分别通过添加轻量级校正头模块和基于单个未来动作的条件处理,解决了不连续性问题
    与VLASH不同,作者在完整未来动作前缀上进行条件约束

1.1.3 背景知识

作者采用与RTC[5]相同的问题建模

  1. 起始于动作分块策略
    其中
    表示未来动作块
    表示观测值,代表控制器时间步
    且称为预测时域,在推理阶段,每个动作块展开执行个时间步,其中称为执行范围
  2. 为考虑模型推理耗时,作者定义作为以控制器时间步为单位的推理延迟
    若推理始于第步,则生成的动作块需至第步方可使用,因此前个动作实际无法执行
    但若满足,这些前个时间步将对应先前动作块的可执行动作

    作者称当前块与先前块重叠的这个动作为动作前缀(参见图1)

    上图展示两个重叠动作分块的示意图位于时间点 t 与 t+d 之间的动作(取自前一分块)即为动作前缀(红色标注)
    由图可知,必须满足约束条件才能构成有效动作前缀需注意:
    推理时实时计算使用全部 H-s 个重叠动作(红黄区域)指导当前分块生成
    训练时实时分块仅使用前 d 个动作(红色区域)
  3. 作者考虑采用条件流匹配[13]训练的策略,该方法最小化以下损失函数:


    其中是神经网络,表示流匹配时间步长。在推理时,可将积分至 1,以生成数据集分布的样本

// 待更

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 17:40:49

6、搭建网站与服务器配置全攻略

搭建网站与服务器配置全攻略 1. 搭建示例网站 学习搭建网站的最佳方式是通过实践操作。你可以在自己的机器上构建一个示例网站,完成后,你将安装并配置好感兴趣的部分,还能将其作为自己系统的模型,在掌握原理后删除。这样,你可以在将服务器推向互联网之前,在家中私下练习…

作者头像 李华
网站建设 2026/6/6 8:55:06

12、网站元语言与通用网关接口入门

网站元语言与通用网关接口入门 网站元语言(WML)基础 WML 是创建静态网页的强大工具,它能将复杂页面的诸多元素封装到变量、模板和自定义标签中,实现复用,同时还融合了 Perl 的强大功能。以下通过具体示例来深入了解其应用。 项目模板创建 :以创建 www.opensourceweb…

作者头像 李华
网站建设 2026/6/6 10:57:06

14、CGI编程:表单小部件、安全考量与项目实践

CGI编程:表单小部件、安全考量与项目实践 1. 表单小部件示例与方法 在Web开发中,表单小部件是与用户交互的重要工具。以下是一个简单的表单示例: <body bgcolor="#ffffff"> <h1>An Example of Form Widgets</h1> <form action="/cg…

作者头像 李华
网站建设 2026/6/6 8:49:59

18、Embperl:强大的嵌入式 Perl 工具助力 Web 开发

Embperl:强大的嵌入式 Perl 工具助力 Web 开发 1. 快速入门 在开始使用 Embperl 之前,需要了解一些基本配置。在相关目录中,扩展名为 .txt 和 .jpg 的文件是普通文件,不需要 Embperl 处理,会直接提供。加载修改后的 Apache 配置文件,使用如下命令: # /etc/init.…

作者头像 李华
网站建设 2026/6/2 8:56:39

通义万相Wan2.1视频模型重磅开源:引领AIGC视频生成技术新高度,赋能中文场景创作革新

2025年2月28日&#xff0c;阿里云开发者社区传来重磅消息——通义万相Wan2.1视频生成模型正式对外开源。这一突破性进展不仅树立了AIGC领域视频生成技术的全新标杆&#xff0c;更凭借对中文语义的深度优化和高质量视频输出能力&#xff0c;为广大开发者、创作者及企业用户带来了…

作者头像 李华
网站建设 2026/5/29 19:53:32

【二叉树】DFS遍历的迭代理解

我们知道&#xff0c;二叉树前中后序遍历的常见写法是递归&#xff0c;而递归的底层逻辑是栈&#xff0c;所以理论上来说&#xff0c;所有递归都能用栈来实现&#xff0c;只是复杂的递归用栈实现起来会很复杂 而这种简单的递归&#xff0c;不仅用栈实现不是很复杂&#xff0c;还…

作者头像 李华