RDT2发布，叠衣服成功率爆拉了pi0.5 40%！全球首个在未见过的本体上实现零样本部署-开发者社区

今天，RDT团队正式发布RDT2，作为RDT-1B的续作，是首个能在未见过的机器人本体上实现零样本部署的基础模型，可执行拾取、放置、按压、擦拭等简单开放词汇任务。这次更是多方面发力：

硬件重新设计：通过采用更高强度材料和更精准的跟踪方法，对UMI硬件进行了重新设计，确保其在大规模数据收集中保持可靠。

大规模多样化数据：采集了超过10,000小时的人类操作视频，涵盖100多种不同的室内场景，覆盖了夹爪可执行的大部分家庭任务。

视觉语言动作预训练：采用残差向量量化（Residual VQ）作为动作tokenizer，在UMI数据集上对Qwen2.5-VL-7B-Instruct进行预训练，使其具备了卓越的指令跟随能力。

扩散蒸馏技术：以流匹配损失训练RDT模型作为动作专家，随后将其蒸馏为单步生成器，实现了超高速推理。

目前，已开源RDT2-VQ和RDT2-FM的代码与权重。包括其他模型的数据、代码和权重在内的其余组件也将于近期发布。

论文名称：RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

论文链接：https://arxiv.org/pdf/2602.03310

项目链接：https://rdt-robotics.github.io/rdt2/

原文链接：RDT2发布，叠衣服成功率爆拉了pi0.5 40%！全球首个在未见过的本体上实现零样本部署

RDT2的愿景

通向具身超级智能的道路需要全新的范式。即使质量最高、能完全弥合本体差异的遥操作系统，仍存在显著缺陷：成本高昂且不具备可移植性。在获取多样化场景和任务数据方面存在困难，而这恰恰是训练通用模型所必需的。

RDT2的愿景是突破这些限制，设想未来将构建于可穿戴系统之上，在全球范围内无缝捕捉人类活动的丰富性。这种方法不仅能收集数据，更能精确映射我们与物理世界交互的本质结构，为具身超级智能奠定关键基础。

UMI Hardware

初代UMI采用3D打印制造，其结构强度不足以支撑长期高频数据采集。为解决这一局限，重新设计了机械结构。新款产品采用坚固的尼龙66与玻璃纤维复合材料，通过数控精密加工制成。我们摒弃了原先在无纹理室内环境中经常失效的SLAM跟踪方案，转而采用基于红外光的定位系统来追踪末端执行器的六自由度位姿。

由于硬件为机器人与人类提供了统一的末端执行器接口，本体差异被降至最低。因此，基于此类UMI数据训练的模型能够零样本部署到任何机械臂上。无需遥操作系统，无需重新采集人类数据，也无需微调模型，真正实现即插即用。只需：购买指定型号的摄像头与夹爪，使用配套的法兰与3D打印相机支架进行安装，并对齐工具中心点坐标系即可。

数据集

RDT团队生产了近100套UMI设备，并将其部署到100多个真实家庭与办公场景中进行数据采集。共收集了超过10，000小时的操作数据，涵盖了绝大多数常见的人类操作任务。得益于硬件的高度便携性与低成本特性，能够以约十分之一的成本和五倍于遥操作系统的速度完成同等规模的数据采集。

以下是数据集中部分片段的可视化展示：

训练阶段

训练分为3个阶段：

1）stage1

第一阶段，在纯UMI数据集（即1万小时UMI数据）上训练了Qwen2.5-VL-7B-Instruct–一个曾经过互联网规模文本与图像数据预训练的视觉语言模型。该模型以两张腕部视角鱼眼图像和一条语言指令作为输入，输出离散化的动作token。这些动作token是通过残差向量量化技术，从连续的机器人动作（双手的六自由度末端执行器位姿与夹爪开合度）中离散化得到的。

为稳定向量量化训练并提升码本利用率，采取了多项措施：包括因子化编码、余弦相似度计算、指数移动平均更新及codebook重启技术。同时，将旋转、平移和夹爪开合度的离散化过程解耦，实践证明这能有效避免多训练目标间的冲突。最终，将长达0.8秒（30赫兹）的动作片段高效压缩为固定长度的27个tokens。在同等精度下，该长度仅为FAST方法的1/3，离散分箱方法的1/8。因此，由于生成动作片段所需的前向传播次数更少，模型具有显著更低的延迟。

本阶段产出的模型被命名为RDT2-VQ。它需要通过自回归方式生成27个tokens（即进行27次前向传播）来获得一个动作片段。

2）stage2

在第二阶段，用4亿参数的RDT模型替代了残差向量量化模块作为动作专家，遵循π0和π0.5的最佳实践，在去噪过程中关注Qwen网络的键值对。该模型通过五次扩散去噪步骤即可生成连续的机器人动作，完全避免了离散化误差。将第一阶段产出的权重复制到Qwen网络中并冻结参数，随后采用流匹配损失对RDT模型进行训练。

本阶段产出的模型被命名为RDT2-FM。此后，将少量UR和Franka真实机器人数据与原始UMI数据进行混合后训练，得到后训练模型RDT2-FM-Post以作区分。这两个模型的速度远超第一阶段模型，仅需执行一次Qwen前向传播和五次4亿参数RDT模型的前向传播即可完成推理。

3）Stage 3

第三阶段，将RDT2-FM模型蒸馏为单步扩散策略且未出现性能损失，此过程中Qwen网络始终保持冻结状态。该模型能够通过单次扩散步骤直接将纯噪声映射为机器人动作，其机制类似于生成对抗网络。

得益于高效的残差向量量化和单步生成器设计，70亿参数模型的推理速度已达到并超越了30亿参数的基线模型。本阶段产出的模型被命名为RDT2-UltraFast。该模型是目前速度最快的版本，仅需执行一次Qwen前向传播和一次4亿参数RDT模型的前向传播即可完成推理。这种超低延迟对于乒乓球对打等需要实时响应的任务至关重要。

现将RDT2系列模型说明如下：

RDT2-VQ：第一阶段成果，卓越的指令跟随能力，推理速度较慢，支持强化学习，已发布🎉
RDT2-FM：第二阶段成果，性能更优，推理速度快，暂不支持强化学习，已发布🎉
RDT2-FM-Post：第二阶段衍生产品，RDT2-FM的孪生版本，针对UR和Franka平台进行性能优化，即将发布🔜
RDT2-UltraFast：第三阶段成果，性能更佳，超高速推理，暂不支持强化学习，即将发布🔜