news 2026/7/5 13:58:12

VLA-Adapter论文解读(五):实验分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
VLA-Adapter论文解读(五):实验分析

论文链接:[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

项目主页:VLA-Adapter

前言:本文拆解了VLA-Adapter实验的研究方法论和架构设计,覆盖了模拟基准测试、消融实验、真实机器人部署三大维度,对比了20+个基线模型。

一、实验总览

论文的研究实验均在4块NVIDIA H100 GPU上运行。首先使用了长时域的LIBERO-Long,该任务通常成功率较低,用于探究VLA-Adapter的研究必要性。其次,采用了VLA领域广泛使用的LIBEROCALVIN以及真实世界机器人数据,全面比较性能。最后利用LIBERO-Long探索VLA-Adapter的关键组成部分。

VLA-Adapter的实验体系概括为“三层金字塔”:

  • 第一层:模拟基准测试——与20+baseline横向对比,验证性能
  • 第二层:消融实验——验证每个设计决策的必要性
  • 第三层:真实机器人部署——验证从仿真到现实的迁移能力

二、VLA-Adapter的必要性

为了验证VLA-Adapter桥接范式的必要性,论文比较了三种骨干网络:基于Qwen2.5-0.5B训练的Prismatic VLM(B1)、基于LLaMA2-7B训练的Prismatic VLM(B2)以及机器人数据上预训练的OpenVLA-7B(B3)。本文采用了OpenVLA-OFT桥接范式进行了比较,该方法是目前VLA测试的SOTA模型。结果显示,B1条件下OFT与Adapter模型的success Rate分别是85.8%,95.0%;B2条件下success Rate87.5%,95.2%;B3条件下94.5%,95.4%。

并且在主干网络被冻结的情况下,VLA-Adapter依然有效,只有AQ和Policy是从头训练;SmolVLA专门用于研究冻结视觉语言模型(VLM)的VLA,论文将其与OpenVLA-OFT和SmolVLA进行比较得到:OpenVLA-OFT——0.0%,SmolVLA——77.0%,VLA-Adapter——86.4%

因此,即使在没有机器人预训练的VLMs上,VLA-Adapter性能的改进效果也十分明显,即使是骨干网络冻结的情况下,VLA-Adapter仍然能保持强劲性能。其主要原因在于常规的VLA在机器人数据上预训练之后,最后一层的特征已经适应了动作域,从而能够通过简单的MLP实现高效微调。当没有经过预训练的VLM仅依赖最后一层的潜在特征时,不足以实现有效的动作映射。因此验证了VLA-Adapter可以在没有机器人预训练的情况下高效微调VLM,使用极小的骨干网络即可达到超越SOTA的性能。

三、基准测试

基准全称任务数量特点意义
LIBERO-Spatial空间布局变化10物体位置变化测试空间泛化能力
LIBERO-Object物体类型变化10不同物体实例测试物体泛化能力
LIBERO-Goal目标变化10不同目标位置测试目标泛化能力
LIBERO-Long长时程任务10多步骤组合测试长期规划能力
CALVIN ABC → D跨环境泛化1000条指令链训练在A/B/C,测试在D测试零样本泛化能力

论文选择了几种大模型、小模型以及微型模型进行baseline的实验对比,LIBERO实验中子任务重复50×次进行评估,成功率的数值范围越高越好。结果如下表所示:

实验结果验证,VLA-Adapter仅使用极小规模的主干网络,即可达到与规模大14×倍的OpenVLA-OFT相当的性能。并且在LIBERO-Long任务上,VLA-Adapter相比同规模主干网络的VLA-OS具有29.0%的显著优势。

其次使用CALVIN ABC → D用于评估零样本泛化任务的性能。CALVIN包含了四种环境,ABC → D表示环境在A、B和C上训练,在环境D上评估。VLA需要按顺序执行预设的1000个任务序列,每个任务行由五个子任务组成(例如一条指令链“拿起红色方块→放到托盘上→拿起蓝色方块→放到红色方块上→推动托盘”),模型只有在完成当前子任务后才能进入下一个子任务。baseline实验结果如下表所示:

指标解读:

“Task completed in a row”:

列名含义实例
1完成至少1个子任务的比例98.5%的测试中完成了第1步
2完成至少2个子任务的比例95.5%的测试中完成了第2步
3完成至少3个子任务的比例90.5%的测试中完成了第3步
4完成至少4个子任务的比例85.3%的测试中完成了第4步
5完成至少5个子任务的比例80.0%的测试中完成了第5步

Avg.len(平均长度)

(完成至少k步)

该公式主要衡量的是模型平均能连续完成多少个子任务。该指标比单步成功率更加严格,因为模型的每一步都不能出错。例如:Avg.len=4.5,平均能完成4.5个子任务(约90%的指令链能走完)。

CALVIN属于快换精品测试,证明了模型不是过拟合特定场景,并且5步的连续任务要求模型具备一定的哦长期规划能力,而非走一步看一步,最后0.5B参数模型性能高于7B的SOTA,验证了“桥接设计优于单纯扩大规模”的结论。

四、消融实验

论文总共做了三组消融实验,分别对应架构中的三个核心设计:

消融实验探索问题对应内容
1多少个Query token最优?ActionQuery数量
2Raw+AQ是否优于只用一种?条件类型
3不对称门控是否最优?门控策略

ActionQuery属于插入VLM输入序列末尾中的可学习token,数量是一个关键超参数。论文作者测试了1,4,8,16,64,128,256,512共8种配置,在LIBERO-Long基准上评估。实验结果如下所示,在8种配置当中,LIBERO-Long的成功率分别为:~68%,~74%,~78%,~84%,95.0%(最优),~93%,91%以及~88%。因此可以得出结论:当AQ token的数量<16时,因为Query太少,无法充分聚合多模态信息,表达能力不足(性能差);当AQ token数量=64时,信息容量与计算效率达到最佳平衡点(性能最优);当AQ token数量>128时,Query过多引入冗余信息,干扰注意力机制,同时增加计算开销。

论文对比了四种“VL→A桥接”范式,验证Raw特征+AQ特征联合使用的必要性。

方法使用的特征层级对应范式代表性工作
1仅Raw最后一层原始特征直传RoboVLM
2仅AQ最后一层Query接口OpenVLA-OFT
3仅Raw中间层原始特征直传GROOT N1
4仅Raw全层原始特征直传π0
5仅AQ全层Query接口N/A
6Raw+AQ全层联合使用VLA-Adapter

实验结果的成功率分别是:85.8%,90.2%,88.4%,90.6%,92.6%以及95.0%。由此可见,全层Raw>最后一层Raw,全层AQ>全层Raw,AQ略优但差距不大,因此联合使用>单独使用,验证两类特征互补。

Bridege Attention中,Raw特征通过可学习门控tanh(g)注入,AQ特征完全注入(无门控),因此作者测试了四种门控组合:

配置Raw特征注入AQ特征注入设计意图
1(Adapter)tanh(g)1(无门控)不对称,Raw可信度低→门控,AQ完全可信→无门控
21(无门控)1(无门控)完全信任
3tanh(g)tanh(g)同时限制Raw和AQ
41(无门控)tanh(g)不对称:信任Raw,限制AQ

实验结果表明,四种门控组合的LIBERO-Long成功率分别为:91.4%,91.0%,92.6%以及95.0%。根据结果可知,在都无门控的情况下,Raw特征来自预训练VLM,分布与动作空间差异大,初期注入会严重干扰动作生成,训练不稳定。

五、真机部署

论文使用了机器人系统执行了真实世界任务。采用了配备1自由度夹爪的6自由度SynriaAlicia-D机器人,并使用Logitech C920e和RealSense D405摄像头采集第三视角图像和夹爪图像。真实机器人系统如图所示。在四个实验类别中评估VLA-Adapter方法:

1). 简单的拾取与放置任务,涉及各种材质和几何结构的物体;

2). 以卡尔文为灵感来源的具有挑战性的任务 II:横向块体位置调整;

3). 以卡尔文为灵感来源的具有挑战性的操纵任务I:“积木堆叠”;

4). LIBERO启发式复杂任务与长期目标:(例如:“拿起勺子并将其放置于...”)

为了加强评估严谨性并评估泛化性能,本文在测试时随机化物体位置,以引发分布偏移并增加任务难度。

对比结果如下图所示,每个结果均为10次执行结果的平均值,实验结果表明,VLA-Adapter在各种场景下具有更好的泛化能力。因此,VLA-Adapter大大降低了在实际应用中采用VLA的门槛。

六、结论与总结

VLA-Adapter的三大消融实验系统性地验证了:64个ActionQuery最优、Raw+AQ联合使用优于单独使用、不对称门控(Raw带门控+AQ无门控)最优。并且每个设计决策都有实验数据支撑,而非凭空猜测。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 13:57:29

Python sort函数参数藏大招!用错它,你的代码直接废了

排序这个操作作为其中的一个基本操作, 该语言给出了两种主要的数据排序办法: sort&#xff08;&#xff09;以及&#xff08;&#xff09;, 虽说两者都是用以按特定顺序去排列数据, 然而它们展开工作的方式存在稍许不同, 且应用于不一样的场景, 弄明白sort&#xff08;&#xf…

作者头像 李华
网站建设 2026/7/5 13:57:19

Java程序设计(第3版)第四章——静态代码块

#静态代码块 1.static可以用于修饰初始化代码块 2.初始化代码块&#xff08;动态代码块&#xff09; 3.位置:定义在类以内&#xff0c;方法以外的{} 4.作用:创建对象时&#xff0c;按照和属性定义的先后顺序完成属性的初始化工作 5.静态代码块:被static修饰符的初始化代码块称为…

作者头像 李华
网站建设 2026/7/5 13:53:33

从PCF到Xenium:空间蛋白组与空间转录组如何互补解析GBM组织生态

复杂肿瘤组织往往需要多种空间组学方法共同解读。《Cell》这项胶质母细胞瘤&#xff08;GBM&#xff09;研究之所以具有方法学参考价值&#xff0c;是因为它将PCF&#xff08;CODEX&#xff09;空间单细胞蛋白组、Xenium空间转录组和TCR测序放在同一研究框架中&#xff1a;PCF观…

作者头像 李华
网站建设 2026/7/5 13:53:21

【关于接口幂等】

“接口幂等”是后端开发中非常核心的一个概念&#xff0c;也是面试中的高频考点。它直接关系到系统的数据一致性和稳定性。 以下是对“接口幂等”的全面解析&#xff0c;从概念、场景到具体的落地实现方案。一、 什么是接口幂等&#xff1f; 数学定义&#xff1a; 在数学中&…

作者头像 李华
网站建设 2026/7/5 13:53:01

操作系统核心本质与计算机体系结构精讲,CPU/内存/磁盘/总线协作机制、内核四大核心模块、程序运行底层原理

0. 前言&#xff1a;所有软件的终极运行底座我们掌握了服务端高性能编程、网络架构与线上调优能力&#xff0c;第127天我们正式开启操作系统、计算机网络、数据库、AI四大核心体系的全新进阶之路。从今天开始&#xff0c;我们正式深耕操作系统底层原理。很多开发者长期存在一个…

作者头像 李华
网站建设 2026/7/5 13:50:56

屏幕录制软件功能一览,客观罗列各项基础信息

办公教学、素材记录时经常需要捕捉电脑屏幕画面&#xff0c;下面整理五款电脑端录屏相关程序&#xff0c;分别记录每款工具具备功能、存在不足、适配场景&#xff0c;无宣传话术&#xff0c;不区分优劣&#xff0c;文末不给出选择建议。录屏大师有什么功能&#xff1a;提供全屏…

作者头像 李华