VLA-Adapter论文解读（五）：实验分析-开发者社区

论文链接：[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

项目主页：VLA-Adapter

前言：本文拆解了VLA-Adapter实验的研究方法论和架构设计，覆盖了模拟基准测试、消融实验、真实机器人部署三大维度，对比了20+个基线模型。

一、实验总览

论文的研究实验均在4块NVIDIA H100 GPU上运行。首先使用了长时域的LIBERO-Long，该任务通常成功率较低，用于探究VLA-Adapter的研究必要性。其次，采用了VLA领域广泛使用的LIBERO和CALVIN以及真实世界机器人数据，全面比较性能。最后利用LIBERO-Long探索VLA-Adapter的关键组成部分。

VLA-Adapter的实验体系概括为“三层金字塔”：

第一层：模拟基准测试——与20+baseline横向对比，验证性能；
第二层：消融实验——验证每个设计决策的必要性；
第三层：真实机器人部署——验证从仿真到现实的迁移能力。

二、VLA-Adapter的必要性

为了验证VLA-Adapter桥接范式的必要性，论文比较了三种骨干网络：基于Qwen2.5-0.5B训练的Prismatic VLM（B1）、基于LLaMA2-7B训练的Prismatic VLM（B2）以及机器人数据上预训练的OpenVLA-7B（B3）。本文采用了OpenVLA-OFT桥接范式进行了比较，该方法是目前VLA测试的SOTA模型。结果显示，B1条件下OFT与Adapter模型的success Rate分别是85.8%，95.0%；B2条件下success Rate87.5%，95.2%；B3条件下94.5%，95.4%。

并且在主干网络被冻结的情况下，VLA-Adapter依然有效，只有AQ和Policy是从头训练；SmolVLA专门用于研究冻结视觉语言模型（VLM）的VLA，论文将其与OpenVLA-OFT和SmolVLA进行比较得到：OpenVLA-OFT——0.0%，SmolVLA——77.0%，VLA-Adapter——86.4%。

因此，即使在没有机器人预训练的VLMs上，VLA-Adapter性能的改进效果也十分明显，即使是骨干网络冻结的情况下，VLA-Adapter仍然能保持强劲性能。其主要原因在于常规的VLA在机器人数据上预训练之后，最后一层的特征已经适应了动作域，从而能够通过简单的MLP实现高效微调。当没有经过预训练的VLM仅依赖最后一层的潜在特征时，不足以实现有效的动作映射。因此验证了VLA-Adapter可以在没有机器人预训练的情况下高效微调VLM，使用极小的骨干网络即可达到超越SOTA的性能。

三、基准测试

基准	全称	任务数量	特点	意义
LIBERO-Spatial	空间布局变化	10	物体位置变化	测试空间泛化能力
LIBERO-Object	物体类型变化	10	不同物体实例	测试物体泛化能力
LIBERO-Goal	目标变化	10	不同目标位置	测试目标泛化能力
LIBERO-Long	长时程任务	10	多步骤组合	测试长期规划能力
CALVIN ABC → D	跨环境泛化	1000条指令链	训练在A/B/C，测试在D	测试零样本泛化能力

论文选择了几种大模型、小模型以及微型模型进行baseline的实验对比，LIBERO实验中子任务重复50×次进行评估，成功率的数值范围越高越好。结果如下表所示：

实验结果验证，VLA-Adapter仅使用极小规模的主干网络，即可达到与规模大14×倍的OpenVLA-OFT相当的性能。并且在LIBERO-Long任务上，VLA-Adapter相比同规模主干网络的VLA-OS具有29.0%的显著优势。

其次使用CALVIN ABC → D用于评估零样本泛化任务的性能。CALVIN包含了四种环境，ABC → D表示环境在A、B和C上训练，在环境D上评估。VLA需要按顺序执行预设的1000个任务序列，每个任务行由五个子任务组成（例如一条指令链“拿起红色方块→放到托盘上→拿起蓝色方块→放到红色方块上→推动托盘”），模型只有在完成当前子任务后才能进入下一个子任务。baseline实验结果如下表所示：

指标解读：

“Task completed in a row”：

列名	含义	实例
1	完成至少1个子任务的比例	98.5%的测试中完成了第1步
2	完成至少2个子任务的比例	95.5%的测试中完成了第2步
3	完成至少3个子任务的比例	90.5%的测试中完成了第3步
4	完成至少4个子任务的比例	85.3%的测试中完成了第4步
5	完成至少5个子任务的比例	80.0%的测试中完成了第5步

Avg.len（平均长度）

（完成至少k步）

该公式主要衡量的是模型平均能连续完成多少个子任务。该指标比单步成功率更加严格，因为模型的每一步都不能出错。例如：Avg.len=4.5，平均能完成4.5个子任务（约90%的指令链能走完）。

CALVIN属于快换精品测试，证明了模型不是过拟合特定场景，并且5步的连续任务要求模型具备一定的哦长期规划能力，而非走一步看一步，最后0.5B参数模型性能高于7B的SOTA，验证了“桥接设计优于单纯扩大规模”的结论。

四、消融实验

论文总共做了三组消融实验，分别对应架构中的三个核心设计：

消融实验	探索问题	对应内容
1	多少个Query token最优？	ActionQuery数量
2	Raw+AQ是否优于只用一种？	条件类型
3	不对称门控是否最优？	门控策略

ActionQuery属于插入VLM输入序列末尾中的可学习token，数量是一个关键超参数。论文作者测试了1,4,8,16,64,128,256,512共8种配置，在LIBERO-Long基准上评估。实验结果如下所示，在8种配置当中，LIBERO-Long的成功率分别为：~68%，~74%，~78%，~84%，95.0%（最优），~93%，91%以及~88%。因此可以得出结论：当AQ token的数量<16时，因为Query太少，无法充分聚合多模态信息，表达能力不足（性能差）；当AQ token数量=64时，信息容量与计算效率达到最佳平衡点（性能最优）；当AQ token数量>128时，Query过多引入冗余信息，干扰注意力机制，同时增加计算开销。

论文对比了四种“VL→A桥接”范式，验证Raw特征+AQ特征联合使用的必要性。

方法	使用的特征	层级	对应范式	代表性工作
1	仅Raw	最后一层	原始特征直传	RoboVLM
2	仅AQ	最后一层	Query接口	OpenVLA-OFT
3	仅Raw	中间层	原始特征直传	GROOT N1
4	仅Raw	全层	原始特征直传	π0
5	仅AQ	全层	Query接口	N/A
6	Raw+AQ	全层	联合使用	VLA-Adapter

实验结果的成功率分别是：85.8%，90.2%，88.4%，90.6%，92.6%以及95.0%。由此可见，全层Raw>最后一层Raw，全层AQ>全层Raw，AQ略优但差距不大，因此联合使用>单独使用，验证两类特征互补。

Bridege Attention中，Raw特征通过可学习门控tanh(g)注入，AQ特征完全注入（无门控），因此作者测试了四种门控组合：

配置	Raw特征注入	AQ特征注入	设计意图
1（Adapter）	tanh(g)	1（无门控）	不对称，Raw可信度低→门控，AQ完全可信→无门控
2	1（无门控）	1（无门控）	完全信任
3	tanh(g)	tanh(g)	同时限制Raw和AQ
4	1（无门控）	tanh(g)	不对称：信任Raw，限制AQ