详解RoboCOIN：面向集成化操作的开放式双臂机器人数据集-开发者社区

论文：RoboCOIN: An Open-Sourced Bimanual RoboticData COllection for INtegrated Manipulation

链接：https://flagopen.github.io/RoboCOIN/

1. 背景介绍

在具身智能迈向真实世界应用的关键阶段，大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈：

双臂操作作为最贴近人类行为的“刚需”形态，正成为行业主流趋势，但受限于高昂的采集成本与复杂的标注难度，相关数据极度稀缺；
现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题，且大多仅适配特定或有限种类的机器人本体与构型，缺乏跨平台、跨本体的通用性。

北京智源人工智能研究院牵头，联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋，以及清华大学、北京大学、斯坦福、伯克利、剑桥等海内外顶尖学术力量，共同打造并发布了RoboCOIN（Bimanual Robotic Data COllection for INtegrated Manipulation）——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集。

论文的核心贡献如下：

介绍了RoboCOIN，这是一个大规模、多实施例的双手数据集，包含来自15个不同机器人平台的421个任务的180000多个演示。
分层能力金字塔。我们提出了一种具有轨迹级、分段级和帧级描述的分层能力金字塔，实现了从高级全局概念到低级控制的多分辨率学习。
集成数据处理框架。我们开发了一个名为CoRobot的统一数据处理框架，包括基于RTML的评估、自动注释工具链以及统一的多实施例数据集管理和机器人部署平台。

2. 数据集

RoboCOIN数据集为双手操作提供了一个多实施例基准，集成了15个机器人平台、180K+演示、421个任务和16个场景。

同时，RoboCOIN引入了多层级注释的分层能力金字塔，实现了从高层次概念到低层次控制的结构化学习

2.1 数据采集和存储

RoboCOIN框架整合了15种不同类型的机器人平台，实现全方位数据采集，涵盖双臂协作机器人、半人形机器人和全人形机器人三种配置。下图展示了三种典型平台：双臂协作机器人（如Agilex Cobot Magic）、半人形机器人（如Realman RMC- AIDA -L）和全人形机器人（如Unitree G1edu-u3）。该框架采用远程操控技术确保数据采集质量。机器人平台的完整列表详见表1。

该平台配备了一套全面的传感器系统。这些传感器可从多个摄像头视角（如头部、腕部、第三人称视角、胸部和背部）捕获多模态数据流（RGB和深度），同时记录机器人的运动学状态（包括关节角度、末端执行器姿态及夹爪关节运动）。关键环境参数（如平台高度和工作空间）也会记录。

2.2 数据集统计和分析

多本体、末端执行器：涵盖 15款异构机器人平台
真实场景、丰富任务：覆盖16类现实环境（家庭、办公室、工厂、餐厅、超市等），分为住宅、商业和工作环境，包含432种物体（刚性、铰接、可变形）和36种双臂操作技能（低协调度任务，双臂主要按顺序操作；高协调度任务，表现为部分或完全并行的臂部运动），构建了从简单到复杂的渐进式任务体系。
数据规模大、质量高：通过人类遥操作采集超过18万条真实轨迹，每条均配备多视角图像、关节状态、末端位姿，并严格对齐时间戳，统一坐标系和量纲，确保数据物理一致性与语义完整性。

首创“能力金字塔”：三层结构化标注，赋能多粒度学习
RoboCOIN 首次提出“层级能力金字塔”（Hierarchical Capability Pyramid），从而实现从高层次概念理解到低层次控制的多分辨率学习
轨迹级（Trajectory-level）：定义全局概念与任务目标，包含场景描述（环境设置、物体摆放）及详细属性（如颜色、形状、材质、纹理和尺寸），支持全局规划；
片段级（Segment-level）：将任务分解为可执行子任务（如“右手抓篮子”“左手放桃子”），每个分段对应特定视频帧，并包含分步操作说明。标注还明确标注异常情况（如抓取失败），以支持鲁棒的错误处理机制
帧级（Frame-level）：逐帧标注运动状态（方向、速度、加速度、夹爪或灵巧手的开合状态），支撑精准闭环控制。

所有注释均经过时间同步，形成一个连贯的数据结构。这种多分辨率标注体系，不仅显著提升了数据的信息密度和教学价值，还使模型能够同时学习“做什么”“怎么做”和“如何做准”，从而增强泛化能力、训练效率与可解释性。

3. 数据处理框架

为高效构建RoboCOIN数据集，我们开发了CoRobot集成数据处理框架。

链接：https://github.com/FlagOpen/CoRobot

RTML（Robot Trajectory Markup Language）：首创机器人轨迹标记语言，通过 YAML 定义运动约束（速度、加速度、工作空间等），自动评估并过滤低质量轨迹，显著提升数据可靠性。
其约束轨迹主要从两个维度实现：(a) 全局约束——适用于整个轨迹，定义运动特征包括工作空间边界、速度限制、加速度限制和持续时间限制；(b) 局部约束——将轨迹划分为连续阶段（如接近、抓取、放置），为每个阶段定义覆盖参数和方向容差
自动化标注工具链：用于生成丰富且分层的任务描述。工具链集成大型语言模型、规则工具和人工标注。
轨迹级标注：首先通过物体检测工具获取场景中的物体位置，再利用大型语言模型将其转换为自然语言。
片段级标注：基于规则工具自动识别标记重要行为变化的关键帧，之后再进行人工优化。
帧级标注：采用基于规则的工具，通过滑动窗口分析状态序列来量化帧间运动，再利用预设阈值（例如将微小运动归类为“静止”）将其转换为文本标签
统一本体管理平台：基于 LeRobot 扩展，支持统一机器人控制、细粒度类型扩展（支持段级和帧级文本注释）、原子化存储。调用数据集使用工具链只需敲入一行代码"pip install robocoin"，真正做到“开箱即用”。

4. 实验

模型架构：

VLA基线。
分层注释集成（HAI）：通过向标准VLA模型添加层次化信息来提升机器人策略学习能力。
训练：使用完整注释集，包括轨迹级、片段级和帧级。如下图所示，提供分层注释作为VLA输入，提供了额外的信息。
推理：HAI通过人工指令整合层次化注释，并利用阶段变化检测与状态历史摘要自动生成实时上下文

评估的VLA模型

π0 ：基于专有 π0 数据集训练的流匹配VLA模型，结合视觉语言模型进行感知与推理，并采用动作专家网络处理连续运动指令。
GN00TN1.5。一个基于扩散训练的VLA模型，采用 Galaxea Open-World 数据集训练，其分层架构将高层规划与低层技能执行分离。

在 Realman 与 Unitree 真机平台上，对 π0、GR00T-N1.5 等先进视觉语言动作（VLA）模型的实验表明：

引入 RoboCOIN 的层级标注后，简单任务（“将毛巾放入篮子”）成功率从80%提升至90%，复杂任务（如“将桃子放入抽屉并关闭”）成功率从20% 提升至 70%；

使用 RTML 过滤后的高质量数据训练，GR00T-Mine模型平均成功率提升23%，验证了“质量优于数量”的数据范式
GR00T-Raw：在原始数据集上训练且未进行 RTML 过滤的模型。
GR00T-Coarse：仅通过全局 RTML 约束过滤数据训练的模型。
GR00T-Fine：同时采用全局和约束过滤数据训练的模型。
GR00T-Mine：在 RTML 过滤数据基础上，结合其他任务中挖掘的高质量轨迹片段训练的模型。

RTML 有效排除了极端情况，确保了操作的可靠性，从而增强了模型的鲁棒性

5. 总结

局限：

标注工具包旨在降低成本，但仍可能引入错误并需要人工验证
RTML 框架依赖经验设定的阈值，这些阈值可能无法适用于所有场景。

结论：

推出RoboCOIN：一个整合15个机器人平台、超过18万次演示、421项任务及多种场景的大型多体数据集。该数据集采用分层能力金字塔架构，包含轨迹级、段级和帧级注释。
开发了CoRobot集成数据处理框架，包含机器人轨迹标记语言（RTML）实现自动化轨迹质量评估、半自动注释工具链，以及支持统一多体控制与数据管理的即用型机器人平台