Mobile ALOHA：通过低成本全身远程操作 to 实现双手机器人移动操控学习【文献解读】-开发者社区

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

文献信息
标题: Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
作者: Zipeng Fu, Tony Z. Zhao, Chelsea Finn
机构: Stanford University
发表: Conference on Robot Learning (CoRL), 2024
项目主页: https://mobile-aloha.github.io
代码仓库: https://github.com/MarkFzp/act-plus-plus
arXiv: https://arxiv.org/abs/2401.02117
视频: https://mobile-aloha.github.io（项目主页内含演示视频）

1. 引言与背景

1.1 研究背景

模仿学习（Imitation Learning）作为机器人学习领域的重要范式，通过从人类演示中直接学习策略，已在多种机器人任务中展现出显著潜力。从早期的车道跟随、简单的拾取放置，到更为精细的操作如涂抹披萨酱、插入电池等，行为克隆（Behavioral Cloning, BC）及其变种已成为教授机器人任意技能的有效工具。然而，现有研究大多局限于桌面级操作（table-top manipulation），缺乏完成一般性有用任务所需的移动性与灵巧性。

在现实的家庭或办公环境中，许多日常任务要求机器人具备全身协调能力，即同时整合移动底盘（mobility）与双臂灵巧操作（dexterous manipulation）。例如，将一个重锅放入橱柜中：机器人首先需要导航至橱柜（移动性），然后双手握住门把手并同时后退以打开柜门（全身控制），最后双臂协作将锅抬起并放入柜内（双臂协调）。烹饪、清洁、整理房间乃至乘坐电梯等任务，均属于此类需要移动操作（mobile manipulation）且通常因双臂而更加灵活的范畴。

1.2 研究动机

将模仿学习扩展至需要全身控制的双臂移动操作任务，面临两大核心挑战：

缺乏低成本、即插即用的全身遥操作硬件：现有的双臂移动操作平台（如PR2、TIAGo）成本高昂（超过20万美元），且通常需要额外的硬件与校准才能实现遥操作。虽然存在基于VR、动捕系统或外骨骼的方案，但它们或成本高昂，或无法支持双臂与底盘的同步全身控制，或需要繁琐的校准流程。因此，学术界迫切需要一种低成本、易构建、支持长时间全身遥操作的硬件系统。
缺乏在复杂任务上展示高性能双臂移动操作的机器人学习研究：尽管扩散模型、Transformer等高表达性策略在精细的多模态桌面操作任务中表现优异，但将其应用于移动操作仍面临不确定性。移动底盘引入了额外的自由度，手臂与底盘动作之间的交互变得复杂；底盘姿态的微小偏差可能导致末端执行器产生较大的漂移。因此，从硬件与学习两个层面，此前的工作尚未为双臂移动操作提供一个实用且令人信服的解决方案。

2. 关键科学问题与技术挑战

本文旨在解决以下关键科学问题与技术挑战：

2.1 低成本全身遥操作系统的硬件设计

如何设计一个成本可控（低于3.2万美元）、稳定可靠、支持长时间全身遥操作（双臂+移动底盘）的数据采集平台？该系统需满足以下设计约束：

移动性：能够以接近人类步行速度（约1.42m/s）移动。
稳定性：在操作重物（如锅具、橱柜门）时保持稳定，避免倾覆。
全身遥操作：允许同时控制双臂与移动底盘的所有自由度。
无缆化（Untethered）：具备机载电源与计算能力，无需外接电缆。

2.2 小样本模仿学习在复杂移动操作任务中的数据效率与泛化性

在仅提供少量（20-50条）人类演示的情况下，如何使策略高效地学习复杂的、长时程的双臂移动操作任务？具体挑战包括：

累积误差：在长时程任务中，策略的微小错误会随时间累积，导致任务失败。
感知扰动：在数据量有限的情况下，策略往往对视觉干扰（如光照变化、背景杂物）和物体位姿变化不够鲁棒。
全身协调：如何有效地联合建模14维双臂关节动作与2维底盘速度动作，使策略能够生成协调的全身动作序列。

2.3 跨形态、跨任务的数据迁移与协同训练

如何利用已有的、 abundant 但形态不同的静态桌面操作数据集（如静态ALOHA数据集），来提升移动操作任务的策略性能与数据效率？这涉及到跨形态（桌面固定双臂 vs. 移动并行双臂）和跨任务的数据迁移问题。

3. 研究方法与技术路线

3.1 Mobile ALOHA硬件系统

Mobile ALOHA是对原始ALOHA系统的扩展，通过增加移动底盘和全身遥操作接口，将其能力从桌面操作拓展到移动操作。

3.1.1 硬件组成

移动底盘：选用AgileX Tracer AGV，一款低轮廓差速驱动移动底盘，最大速度1.6m/s，最大负载100kg，成本约7000美元。
机械臂：采用与原始ALOHA相同的ViperX 300（从动臂，follower）和WidowX 250（主动臂，leader）组合，共4条手臂，提供低成本的双手遥操作能力。
感知系统：3个Logitech C922x RGB摄像头（480×640@50Hz），其中两个安装在从动手腕，一个朝前安装在双臂之间。
计算与电源：一台搭载Nvidia 3070 Ti GPU（8GB显存）和Intel i7-12800H处理器的笔记本电脑；一块1.26kWh、重14kg的机载电池，同时作为配重降低重心。
遥操作接口：操作者腰部通过系带与底盘相连，双手握持主动臂。通过身体前后左右移动来反驱（backdrive）低摩擦的底盘轮子，实现底盘控制；同时双手操作主动臂，通过主从映射控制从动臂。

3.1.2 设计特点

全身同步控制：操作者可以同时进行双臂操作和底盘移动，实现自然的全身协调，例如在打开柜门时边拉边后退。
低成本与可修复性：整机成本约3.2万美元，与单臂工业协作机器人相当；所有软硬件开源，并提供详细的组装教程。
人机工程学：系带高度和主动臂位置可独立调节（最高30cm）；自主执行时可拆卸遥操作结构，减小机器人占地和重量。
工作空间：双臂可到达距地面65cm至200cm的高度，向前延伸100cm，单臂负载750g，双臂合计可应对1.5kg的物体。

3.2 动作表示与策略输入输出

Mobile ALOHA将模仿学习策略的输入输出定义如下：

观测（Observation）：包括3个RGB摄像头图像（2个手腕摄像头+1个顶部摄像头）以及14维双臂关节位置（含连续夹爪动作）。
动作（Action）：包括14维双臂目标关节位置（与观测中的关节位置维度相同）和2维移动底盘目标线速度与角速度，构成一个16维的动作向量。

这种将底盘速度与手臂关节位置简单拼接的动作表示，使得Mobile ALOHA可以直接受益于现有的深度模仿学习算法，几乎无需修改实现。

3.3 模仿学习算法

本文在Mobile ALOHA平台上验证了三种先进的模仿学习方法：ACT、Diffusion Policy和VINN。所有方法均采用**动作分块（Action Chunking）**技术，即策略在每个时间步预测未来k个时间步的动作序列，而非单步动作。

3.3.1 动作分块（Action Chunking）

动作分块是ACT算法提出的核心思想，在Mobile ALOHA中展现出独特优势：

减少累积误差：通过缩短策略的有效预测范围，降低单步错误随时间传播的影响。
提升动作连贯性：生成的轨迹更加平滑，减少策略推理的延迟。
处理异构延迟：Mobile ALOHA的底盘速度控制存在明显延迟，而手臂位置控制的延迟较小。通过动作分块，可以灵活处理这种异构延迟：在执行长度为k的动作块时，执行前k-d个手臂动作和后k-d个底盘动作（d为底盘延迟步数）。

3.3.2 ACT（Action Chunking with Transformers）

ACT是一种基于条件变分自编码器（Conditional Variational Autoencoder, CVAE）的模仿学习算法，使用Transformer架构同时处理图像序列和生成动作序列。

算法原理：

CVAE编码器-解码器结构：编码器将历史观测和动作序列编码为隐变量z，解码器（即策略）根据当前观测和z生成未来k步的动作块。
训练目标：最大化演示动作块的对数似然，损失函数包括动作重建损失（MSE）和KL散度正则化项。
推理过程：丢弃编码器，将z设为先验分布的均值（通常为零），策略根据当前观测直接预测动作块。
时间集成（Temporal Ensembling）：在每个时间步都查询策略，对不同动作块的重叠预测进行加权平均（指数加权），进一步提高动作平滑性并利用更多观测信息。

超参数：学习率2e-5，批次大小16，Transformer编码器4层、解码器7层，前馈维度3200，隐藏维度512，注意力头8，动作块大小45，KL权重10，使用预训练ResNet18作为图像编码器。

3.3.3 Diffusion Policy

Diffusion Policy通过训练神经网络逐步去噪来生成动作预测。本文使用DDIM调度器加速推理，并对图像观测应用数据增强（随机裁剪、颜色抖动、随机旋转）以防止过拟合。

超参数：学习率1e-4，批次大小32，动作块大小64，训练和测试扩散步数分别为50和10，EMA幂次0.75，使用预训练ResNet18和UNet作为噪声预测器。

3.3.4 VINN + Chunking

VINN（Visual Imitation via NeighborNet）训练一个BYOL自监督视觉表示模型，然后使用最近邻检索从演示数据集中检索动作。本文对其进行了改进：

增加本体感知特征（proprioception features）并调节其权重以平衡视觉与本体感知的重要性。
检索动作块（action chunk）而非单步动作，显著提升性能。

超参数：BYOL学习率3e-4，批次大小128，训练100轮；VINN最近邻k值通过验证损失选择，动作块大小5，摄像头特征权重1:1:1（前、左、右腕）。

3.4 协同训练（Co-training）

3.4.1 核心思想

本文提出了一种简单但有效的协同训练方法：在训练移动操作策略时，联合使用Mobile ALOHA采集的移动操作数据和已有的静态ALOHA数据集（共825条桌面操作演示，任务与Mobile ALOHA不重叠，且双臂朝向不同）。

3.4.2 训练目标

对于任务m的移动操作策略π_m，训练目标为：

E_{(o_i, a_i^arms, a_i^base) ~ D_mobile^m} [ L(a_i^arms, a_i^base, π_m(o_i)) ] + E_{(o_i, a_i^arms) ~ D_static} [ L(a_i^arms, [0, 0], π_m(o_i)) ]

其中：

第一项为Mobile ALOHA数据上的模仿损失，动作包含双臂和底盘。
第二项为静态ALOHA数据上的模仿损失，由于静态数据无底盘动作，将底盘动作标签零填充至相同维度。
两个数据集的采样概率相等（各50%），批次大小为16。
忽略静态ALOHA数据中的正面摄像头，使两个数据集均使用3个摄像头。
所有动作均基于Mobile ALOHA数据集D_mobile^m的统计信息进行归一化。

3.4.3 与预训练的对比

本文还对比了协同训练与预训练（pre-train）的效果。预训练方案先在静态ALOHA数据上训练ACT，然后在Mobile ALOHA数据上微调。实验结果表明，预训练在微调过程中会遗忘静态数据的经验，性能不如协同训练。协同训练通过同时暴露于两种数据，使网络能够持续利用静态数据中的运动先验。

4. 实验设计与任务定义

4.1 实验目标

实验旨在回答两个核心问题：

Mobile ALOHA能否通过协同训练和少量移动操作数据，习得复杂的移动操作技能？
Mobile ALOHA能否与不同类型的先进模仿学习方法（ACT、Diffusion Policy、VINN）兼容？

4.2 任务设计

本文设计了7个涵盖广泛能力、物体与交互类型的真实世界任务：

任务	描述	难度要点	演示数
Wipe Wine	导航至水龙头取毛巾，返回擦拭桌上洒落的葡萄酒	移动+双臂协调，长距离导航	50
Cook Shrimp	向热锅中倒油和虾，用锅铲翻面，倒入碗中	长时程（75秒），高精度翻面操作	20
Rinse Pan	拿起脏锅，在水龙头下冲洗，放到晾架上	感知挑战： shiny 小水龙头旋钮（4cm×0.7cm）	50
Use Cabinet	打开双门橱柜，放入重锅（1.4kg），关闭柜门	全身协调：边拉门边后退，重物超出单臂负载	50
Call Elevator	从15米外导航至电梯，精确按下2cm×2cm按钮，进入电梯	长距离导航，高精度按钮按压，狭窄空间转弯	50
Push Chairs	将5把椅子推回长桌下	力量要求：克服5kg椅子与地面的摩擦力；泛化：仅演示前3把椅子	50
High Five	绕厨房岛移动，检测前方人类并击掌	人机交互，泛化至未见人员与着装	20

4.3 评估方式

随机化：每个任务均包含机器人初始位姿、物体位姿、背景配置等随机化，确保开环重放演示会失败，策略必须具备闭环纠错能力。
子任务分解：将长时程任务分解为多个子任务，分别计算成功率。整体任务成功率为各子任务成功率的乘积。
评估次数：除Cook Shrimp为5次外，其余任务均进行20次真实世界评估。

4.4 消融实验

数据效率：在Wipe Wine任务上，使用25、35、50条移动操作数据分别训练，对比协同训练与无协同训练的性能。
数据混合比例：在Wipe Wine任务上，测试30%、50%、70%的静态数据采样比例，验证协同训练对混合比例的鲁棒性。
协同训练 vs. 预训练：在Wipe Wine任务上对比两种利用静态数据的方式。

5. 实验结果与分析

5.1 协同训练显著提升性能（ACT）

表1展示了ACT在7个任务上、有/无协同训练的成功率对比：

任务	协同训练	无协同训练	提升
Wipe Wine	95%	58%	+37%
Cook Shrimp	40%	15%	+25%
Rinse Pan	80%	0%	+80%
Use Cabinet	85%	0%	+85%
Call Elevator	95%	0%	+95%
Push Chairs	80%	0%	+80%
High Five	85%	80%	+5%

关键发现：

协同训练在5/7个任务中显著提升整体成功率，最高提升达95%（Call Elevator）。
协同训练对需要精确操作的子任务尤为关键，如Press Button（电梯）、Flip Shrimp（煎虾）、Turn On Faucet（洗锅）。
在Push Chairs任务中，协同训练不仅提升已见椅子的成功率，更显著改善对未见第4、5把椅子的泛化能力（分别提升15%和89%）。
作者假设协同训练有助于防止过拟合，在仅20-50条演示的低数据量场景下，为表达性强的Transformer策略提供正则化效果。

5.2 与多种模仿学习方法的兼容性

表2展示了Diffusion Policy和VINN在Wipe Wine和Push Chairs任务上的表现：

方法	任务	协同训练	无协同训练
VINN + Chunking	Wipe Wine	15%	20%
VINN + Chunking	Push Chairs	60%	40%
Diffusion Policy	Wipe Wine	65%	35%
Diffusion Policy	Push Chairs	100%	80%
ACT	Wipe Wine	95%	58%
ACT	Push Chairs	100%	100%

关键发现：

Diffusion Policy：在Push Chairs上与ACT表现相当（100%），但在Wipe Wine上精度不足（65%），可能因为50条演示不足以支撑其高表达性（此前工作通常使用250条以上）。协同训练为其带来30%和20%的提升。
VINN + Chunking：整体表现弱于ACT和Diffusion Policy，主要失败模式为抓取不精确和动作块切换时的抖动。协同训练对VINN效果不一（Wipe Wine下降5%，Push Chairs提升20%），因为VINN仅协同训练了表示层，其动作检索机制无法直接利用静态数据。

5.3 消融实验结果

数据效率（图4）：在Wipe Wine任务上，协同训练策略使用35条演示即可达到70%成功率，超过无协同训练策略使用50条演示的50%成功率。
数据混合比例（表3）：30%、50%、70%的静态数据比例分别取得95%、95%、90%的成功率，表明协同训练对不同混合比例具有鲁棒性。
协同训练 vs. 预训练（表4）：在Wipe Wine上，预训练（先静态后微调）与无协同训练表现相同（25%-35%），而协同训练达到95%。说明预训练在微调阶段遗忘了静态数据经验。

5.4 用户研究

8名参与者（含4名无遥操作经验者）进行Wipe Wine和Use Cabinet任务的用户研究。结果显示：

完成时间显著下降：Wipe Wine从46秒降至28秒（-39%），Use Cabinet从75秒降至36秒（-52%）。
平均而言，参与者在5次尝试后即可接近专家演示速度，证明Mobile ALOHA遥操作具有易学性和易用性。

6. 主要创新点与学术贡献

6.1 低成本全身遥操作硬件系统

本文提出了Mobile ALOHA，一个成本低于3.2万美元、支持全身（双臂+移动底盘）同步遥操作的移动操作平台。其核心创新在于：

腰部系带反驱设计：操作者通过腰部系带直接反驱低摩擦的差速底盘，无需额外的控制器或踏板，实现了直观、自然的全身协调控制。
机载一体化设计：集成电池、计算、感知与操作，无需外接电缆，支持长时间（数小时）连续遥操作。
开源与可修复性：所有软硬件开源，提供详细教程，大幅降低研究门槛。

6.2 协同训练（Co-training）方法

本文首次发现并与验证了利用静态桌面操作数据集协同训练移动操作策略的有效性。其学术贡献在于：

跨形态正迁移：尽管静态ALOHA数据在任务、背景、双臂朝向上与Mobile ALOHA显著不同，但协同训练仍能在几乎所有移动操作任务上带来正迁移，提升成功率与数据效率。
简单有效的实现：无需特殊的数据处理（如图像域适应、动作重定向），仅通过动作零填充和等概率采样即可实现。
对多种方法普适：协同训练不仅适用于ACT，也能提升Diffusion Policy的性能，证明了其作为通用数据增强/正则化手段的潜力。
揭示预训练局限：通过对比实验表明，在机器人模仿学习中，简单的协同训练优于两阶段预训练-微调范式，因为后者在微调时会发生灾难性遗忘。

6.3 复杂真实世界任务的系统性验证

本文在7个具有挑战性的真实世界任务上进行了系统性验证，任务涵盖：

长时程与多阶段：如Cook Shrimp（75秒，4个子任务）、Call Elevator（45秒，长距离导航）。
高精度操作：如按压2cm×2cm电梯按钮、翻转半熟虾、旋转 shiny 水龙头旋钮。
全身协调：如打开柜门时边拉边后退、双臂协作搬运超重物体。
力量与泛化：如推动5kg椅子、泛化至未见椅子与未见人员。

这些任务的复杂性和多样性，远超此前模仿学习研究中常见的桌面操作，为移动操作领域的研究设立了新的基准。

6.4 动作分块在移动操作中的扩展应用

本文将动作分块技术扩展至具有异构执行延迟的全身移动操作场景，提出通过调整动作块中不同自由度的执行窗口来处理底盘延迟，为动作分块在更复杂机器人系统中的应用提供了实践范例。

7. 局限性与未来方向

7.1 局限性

硬件占用面积：当前底盘尺寸为90cm×135cm，在某些狭窄通道中可能受限；双臂固定高度使得低柜、烤箱、洗碗机难以触及。
单任务模仿学习：策略学习限于单任务模仿，机器人尚不能自主改进或探索新知识。
专家演示依赖：演示数据由两名专家操作者采集，未涉及次优、异构数据集的模仿学习。

7.2 未来方向

硬件优化：减小占地面积，增加手臂升降自由度以扩展工作空间。
多任务与语言条件策略：将Mobile ALOHA与RT-1、RT-2等多任务语言条件策略结合，实现更通用的移动操作。
次优数据学习：探索从大量次优、异构的遥操作数据中学习，降低对专家演示的依赖。
自主探索与自改进：结合强化学习或自监督学习，使机器人能够在部署后持续改进策略。

8. 结论

Mobile ALOHA通过低成本全身遥操作硬件与协同训练模仿学习的结合，成功解决了双臂移动操作中的数据采集与策略学习难题。该系统以3.2万美元的成本，实现了对复杂家庭任务（如烹饪、清洁、整理）的自主执行，仅需每条任务20-50条人类演示即可达到80%以上的成功率。本文的核心发现——静态桌面操作数据能够显著提升移动操作策略的性能与数据效率——为机器人学习领域的数据利用与迁移学习提供了新的视角，对推动通用移动操作机器人的研究具有重要意义。

参考文献：

Fu, Z., Zhao, T. Z., & Finn, C. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation.Conference on Robot Learning (CoRL).
Zhao, T. Z., Kumar, V., Levine, S., & Finn, C. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware.RSS.
Chi, C., Feng, S., Du, Y., Xu, Z., Cousineau, E., Burchfiel, B., & Song, S. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.RSS.