news 2026/3/4 6:52:58

RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

今天,RDT团队正式发布RDT2,作为RDT-1B的续作,是首个能在未见过的机器人本体上实现零样本部署的基础模型,可执行拾取、放置、按压、擦拭等简单开放词汇任务。这次更是多方面发力:

硬件重新设计:通过采用更高强度材料和更精准的跟踪方法,对UMI硬件进行了重新设计,确保其在大规模数据收集中保持可靠。

大规模多样化数据:采集了超过10,000小时的人类操作视频,涵盖100多种不同的室内场景,覆盖了夹爪可执行的大部分家庭任务。

视觉语言动作预训练:采用残差向量量化(Residual VQ)作为动作tokenizer,在UMI数据集上对Qwen2.5-VL-7B-Instruct进行预训练,使其具备了卓越的指令跟随能力。

扩散蒸馏技术:以流匹配损失训练RDT模型作为动作专家,随后将其蒸馏为单步生成器,实现了超高速推理。

目前,已开源RDT2-VQ和RDT2-FM的代码与权重。包括其他模型的数据、代码和权重在内的其余组件也将于近期发布。

论文名称:RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

论文链接:https://arxiv.org/pdf/2602.03310

项目链接:https://rdt-robotics.github.io/rdt2/

原文链接:RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

RDT2的愿景

通向具身超级智能的道路需要全新的范式。即使质量最高、能完全弥合本体差异的遥操作系统,仍存在显著缺陷:成本高昂且不具备可移植性。在获取多样化场景和任务数据方面存在困难,而这恰恰是训练通用模型所必需的。

RDT2的愿景是突破这些限制,设想未来将构建于可穿戴系统之上,在全球范围内无缝捕捉人类活动的丰富性。这种方法不仅能收集数据,更能精确映射我们与物理世界交互的本质结构,为具身超级智能奠定关键基础。

UMI Hardware

初代UMI采用3D打印制造,其结构强度不足以支撑长期高频数据采集。为解决这一局限,重新设计了机械结构。新款产品采用坚固的尼龙66与玻璃纤维复合材料,通过数控精密加工制成。我们摒弃了原先在无纹理室内环境中经常失效的SLAM跟踪方案,转而采用基于红外光的定位系统来追踪末端执行器的六自由度位姿。

由于硬件为机器人与人类提供了统一的末端执行器接口,本体差异被降至最低。因此,基于此类UMI数据训练的模型能够零样本部署到任何机械臂上。无需遥操作系统,无需重新采集人类数据,也无需微调模型,真正实现即插即用。只需:购买指定型号的摄像头与夹爪,使用配套的法兰与3D打印相机支架进行安装,并对齐工具中心点坐标系即可。

数据集

RDT团队生产了近100套UMI设备,并将其部署到100多个真实家庭与办公场景中进行数据采集。共收集了超过10,000小时的操作数据,涵盖了绝大多数常见的人类操作任务。得益于硬件的高度便携性与低成本特性,能够以约十分之一的成本和五倍于遥操作系统的速度完成同等规模的数据采集。

以下是数据集中部分片段的可视化展示:

训练阶段

训练分为3个阶段:

1)stage1

第一阶段,在纯UMI数据集(即1万小时UMI数据)上训练了Qwen2.5-VL-7B-Instruct–一个曾经过互联网规模文本与图像数据预训练的视觉语言模型。该模型以两张腕部视角鱼眼图像和一条语言指令作为输入,输出离散化的动作token。这些动作token是通过残差向量量化技术,从连续的机器人动作(双手的六自由度末端执行器位姿与夹爪开合度)中离散化得到的。

为稳定向量量化训练并提升码本利用率,采取了多项措施:包括因子化编码、余弦相似度计算、指数移动平均更新及codebook重启技术。同时,将旋转、平移和夹爪开合度的离散化过程解耦,实践证明这能有效避免多训练目标间的冲突。最终,将长达0.8秒(30赫兹)的动作片段高效压缩为固定长度的27个tokens。在同等精度下,该长度仅为FAST方法的1/3,离散分箱方法的1/8。因此,由于生成动作片段所需的前向传播次数更少,模型具有显著更低的延迟。

本阶段产出的模型被命名为RDT2-VQ。它需要通过自回归方式生成27个tokens(即进行27次前向传播)来获得一个动作片段。

2)stage2

在第二阶段,用4亿参数的RDT模型替代了残差向量量化模块作为动作专家,遵循π0和π0.5的最佳实践,在去噪过程中关注Qwen网络的键值对。该模型通过五次扩散去噪步骤即可生成连续的机器人动作,完全避免了离散化误差。将第一阶段产出的权重复制到Qwen网络中并冻结参数,随后采用流匹配损失对RDT模型进行训练。

本阶段产出的模型被命名为RDT2-FM。此后,将少量UR和Franka真实机器人数据与原始UMI数据进行混合后训练,得到后训练模型RDT2-FM-Post以作区分。这两个模型的速度远超第一阶段模型,仅需执行一次Qwen前向传播和五次4亿参数RDT模型的前向传播即可完成推理。

3)Stage 3

第三阶段,将RDT2-FM模型蒸馏为单步扩散策略且未出现性能损失,此过程中Qwen网络始终保持冻结状态。该模型能够通过单次扩散步骤直接将纯噪声映射为机器人动作,其机制类似于生成对抗网络。

得益于高效的残差向量量化和单步生成器设计,70亿参数模型的推理速度已达到并超越了30亿参数的基线模型。本阶段产出的模型被命名为RDT2-UltraFast。该模型是目前速度最快的版本,仅需执行一次Qwen前向传播和一次4亿参数RDT模型的前向传播即可完成推理。这种超低延迟对于乒乓球对打等需要实时响应的任务至关重要。

现将RDT2系列模型说明如下:

RDT2-VQ:第一阶段成果,卓越的指令跟随能力,推理速度较慢,支持强化学习,已发布🎉
RDT2-FM:第二阶段成果,性能更优,推理速度快,暂不支持强化学习,已发布🎉
RDT2-FM-Post:第二阶段衍生产品,RDT2-FM的孪生版本,针对UR和Franka平台进行性能优化,即将发布🔜
RDT2-UltraFast:第三阶段成果,性能更佳,超高速推理,暂不支持强化学习,即将发布🔜

结果对比分析

全新训练完成的RDT2模型在完整的"4U"条件下——未见过的本体场景物体语言指令——展现出强大的零样本泛化能力。我们将此定义为相变临界点:系统行为已从狭隘的专用模式跃迁至真正的通用模式。

该系统能够接收日常开放式指令,并将抽象语言锚定在物理行为中。虽然尚未达到完美,但这个里程碑具有决定性意义:规模化发展方向已被验证正确,模型已首次展现出清晰的具身超级智能特征。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 0:56:33

VMWARE虚拟机上不了网络

VMWARE虚拟机上不了网络 尝试了csdn上的各种方案,但是接出来的结果都是错误的,下面是唯一可行的,前提是使用的NAT模式 检查网络联通状态 mzmz-virtual-machine:~$ ping 8.8.8.8 -c 4 connect: 网络不可达测试证实不可用 检查网卡路由信息 mz…

作者头像 李华
网站建设 2026/3/4 4:21:51

Java零基础入门救星!

对于Java零基础学习者而言,“抄代码”是最直接的入门方式——通过借鉴网上案例,快速熟悉语法、感知代码逻辑,积累基础编程经验。但多数小白都会陷入“抄代码也崩”的尴尬循环:网上复制的代码粘贴到自己项目中,要么满屏…

作者头像 李华
网站建设 2026/3/4 0:54:40

生成式引擎优化GEO崛起:企业营销新焦点与四大核心策略

当下,人工智能内容生成正渐渐变成信息获取的主流渠道,此时,一种新的优化技术引发了数字营销以及内容策略领域的关注,它就是生成式引擎优化,一般简称为GEO。这一概念可不是把传统SEO策略直接搬到AI环境那么简单&#xf…

作者头像 李华
网站建设 2026/3/3 22:14:22

如何在iPhone上恢复已删除的笔记的综合指南

你是不是不小心删除了 iPhone 上的笔记?丢失重要的笔记总是让人心烦意乱,尤其是当它们包含着宝贵的信息或珍贵的回忆时。好在,如果你有 iPhone,有几种方法可以恢复已删除的笔记。在本文中,我们将逐步探讨如何恢复 iPho…

作者头像 李华
网站建设 2026/3/3 15:11:06

Linux curl 命令用法

curl 是一个强大的命令行工具,用于传输数据,支持多种协议(HTTP、HTTPS、FTP 等)。以下是详细用法: 一、基本语法 curl [options] [URL]二、常用选项分类 1. 请求方法 # GET(默认) curl http…

作者头像 李华