news 2026/6/1 19:58:19

详解RoboCOIN:面向集成化操作的开放式双臂机器人数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
详解RoboCOIN:面向集成化操作的开放式双臂机器人数据集

论文:RoboCOIN: An Open-Sourced Bimanual RoboticData COllection for INtegrated Manipulation

链接:https://flagopen.github.io/RoboCOIN/


1. 背景介绍

在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:

  • 双臂操作作为最贴近人类行为的“刚需”形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;

    现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。

北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation)——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集

论文的核心贡献如下:

  • 介绍了RoboCOIN,这是一个大规模、多实施例的双手数据集,包含来自15个不同机器人平台的421个任务的180000多个演示。

  • 分层能力金字塔。我们提出了一种具有轨迹级、分段级和帧级描述的分层能力金字塔,实现了从高级全局概念到低级控制的多分辨率学习。

  • 集成数据处理框架。我们开发了一个名为CoRobot的统一数据处理框架,包括基于RTML的评估、自动注释工具链以及统一的多实施例数据集管理和机器人部署平台。

2. 数据集

RoboCOIN数据集为双手操作提供了一个多实施例基准,集成了15个机器人平台、180K+演示、421个任务和16个场景。

同时,RoboCOIN引入了多层级注释的分层能力金字塔,实现了从高层次概念到低层次控制的结构化学习

2.1 数据采集和存储

RoboCOIN框架整合了15种不同类型的机器人平台,实现全方位数据采集,涵盖双臂协作机器人、半人形机器人和全人形机器人三种配置。下图展示了三种典型平台:双臂协作机器人(如Agilex Cobot Magic)、半人形机器人(如Realman RMC- AIDA -L)和全人形机器人(如Unitree G1edu-u3)。该框架采用远程操控技术确保数据采集质量。机器人平台的完整列表详见表1。

该平台配备了一套全面的传感器系统。这些传感器可从多个摄像头视角(如头部、腕部、第三人称视角、胸部和背部)捕获多模态数据流(RGB和深度),同时记录机器人的运动学状态(包括关节角度、末端执行器姿态及夹爪关节运动)。关键环境参数(如平台高度和工作空间)也会记录。


2.2 数据集统计和分析

  • 多本体、末端执行器:涵盖 15款异构机器人平台
  • 真实场景、丰富任务:覆盖16类现实环境(家庭、办公室、工厂、餐厅、超市等),分为住宅、商业和工作环境,包含432种物体(刚性、铰接、可变形)和36种双臂操作技能(低协调度任务,双臂主要按顺序操作;高协调度任务,表现为部分或完全并行的臂部运动),构建了从简单到复杂的渐进式任务体系。
  • 数据规模大、质量高:通过人类遥操作采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。

  • 首创“能力金字塔”:三层结构化标注,赋能多粒度学习
    RoboCOIN 首次提出“层级能力金字塔”(Hierarchical Capability Pyramid),从而实现从高层次概念理解到低层次控制的多分辨率学习
    轨迹级(Trajectory-level):定义全局概念与任务目标,包含场景描述(环境设置、物体摆放)及详细属性(如颜色、形状、材质、纹理和尺寸),支持全局规划;
    片段级(Segment-level):将任务分解为可执行子任务(如“右手抓篮子”“左手放桃子”),每个分段对应特定视频帧,并包含分步操作说明。标注还明确标注异常情况(如抓取失败),以支持鲁棒的错误处理机制
    帧级(Frame-level):逐帧标注运动状态(方向、速度、加速度、夹爪或灵巧手的开合状态),支撑精准闭环控制。


所有注释均经过时间同步,形成一个连贯的数据结构。这种多分辨率标注体系,不仅显著提升了数据的信息密度和教学价值,还使模型能够同时学习“做什么”“怎么做”和“如何做准”,从而增强泛化能力、训练效率与可解释性。

3. 数据处理框架

为高效构建RoboCOIN数据集,我们开发了CoRobot集成数据处理框架。

链接:https://github.com/FlagOpen/CoRobot

  1. RTML(Robot Trajectory Markup Language):首创机器人轨迹标记语言,通过 YAML 定义运动约束(速度、加速度、工作空间等),自动评估并过滤低质量轨迹,显著提升数据可靠性。

    其约束轨迹主要从两个维度实现:(a) 全局约束——适用于整个轨迹,定义运动特征包括工作空间边界、速度限制、加速度限制和持续时间限制;(b) 局部约束——将轨迹划分为连续阶段(如接近、抓取、放置),为每个阶段定义覆盖参数和方向容差

  2. 自动化标注工具链:用于生成丰富且分层的任务描述。工具链集成大型语言模型、规则工具和人工标注。

    轨迹级标注:首先通过物体检测工具获取场景中的物体位置,再利用大型语言模型将其转换为自然语言。

    片段级标注:基于规则工具自动识别标记重要行为变化的关键帧,之后再进行人工优化。

    帧级标注:采用基于规则的工具,通过滑动窗口分析状态序列来量化帧间运动,再利用预设阈值(例如将微小运动归类为“静止”)将其转换为文本标签

  3. 统一本体管理平台:基于 LeRobot 扩展,支持统一机器人控制、细粒度类型扩展(支持段级和帧级文本注释)、原子化存储。调用数据集使用工具链只需敲入一行代码"pip install robocoin",真正做到“开箱即用”。

4. 实验

模型架构

  • VLA基线。

  • 分层注释集成(HAI):通过向标准VLA模型添加层次化信息来提升机器人策略学习能力。

    训练:使用完整注释集,包括轨迹级、片段级和帧级。如下图所示,提供分层注释作为VLA输入,提供了额外的信息。

    推理:HAI通过人工指令整合层次化注释,并利用阶段变化检测与状态历史摘要自动生成实时上下文

评估的VLA模型

  • π0 :基于专有 π0 数据集训练的流匹配VLA模型,结合视觉语言模型进行感知与推理,并采用动作专家网络处理连续运动指令。

  • GN00TN1.5。一个基于扩散训练的VLA模型,采用 Galaxea Open-World 数据集训练,其分层架构将高层规划与低层技能执行分离。

在 Realman 与 Unitree 真机平台上,对 π0、GR00T-N1.5 等先进视觉语言动作(VLA)模型的实验表明:

  • 引入 RoboCOIN 的层级标注后,简单任务(“将毛巾放入篮子”)成功率从80%提升至90%,复杂任务(如“将桃子放入抽屉并关闭”)成功率从20% 提升至 70%

  • 使用 RTML 过滤后的高质量数据训练,GR00T-Mine模型平均成功率提升23%,验证了“质量优于数量”的数据范式
    ​ GR00T-Raw:在原始数据集上训练且未进行 RTML 过滤的模型。
    ​ GR00T-Coarse:仅通过全局 RTML 约束过滤数据训练的模型。
    ​ GR00T-Fine:同时采用全局和约束过滤数据训练的模型。
    ​ GR00T-Mine:在 RTML 过滤数据基础上,结合其他任务中挖掘的高质量轨迹片段训练的模型。

RTML 有效排除了极端情况,确保了操作的可靠性,从而增强了模型的鲁棒性

5. 总结

局限:

  • 标注工具包旨在降低成本,但仍可能引入错误并需要人工验证
  • RTML 框架依赖经验设定的阈值,这些阈值可能无法适用于所有场景。

结论:

  • 推出RoboCOIN:一个整合15个机器人平台、超过18万次演示、421项任务及多种场景的大型多体数据集。该数据集采用分层能力金字塔架构,包含轨迹级、段级和帧级注释。

  • 开发了CoRobot集成数据处理框架,包含机器人轨迹标记语言(RTML)实现自动化轨迹质量评估、半自动注释工具链,以及支持统一多体控制与数据管理的即用型机器人平台

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 17:33:30

verl网络优化:减少GPU间通信开销的实践路径

verl网络优化:减少GPU间通信开销的实践路径 1. 技术背景与问题提出 随着大型语言模型(LLMs)在自然语言处理任务中的广泛应用,其后训练阶段的效率和可扩展性成为工程落地的关键瓶颈。强化学习(Reinforcement Learning…

作者头像 李华
网站建设 2026/5/28 12:35:30

fft npainting lama教育应用场景:教学素材清理实战案例

fft npainting lama教育应用场景:教学素材清理实战案例 1. 引言 在教育信息化快速发展的背景下,高质量的教学素材成为提升课堂效果的关键因素。然而,在实际教学资源准备过程中,教师常常面临图片中存在水印、无关物体、文字标注或…

作者头像 李华
网站建设 2026/5/31 5:41:18

5分钟部署SenseVoiceSmall,多语言语音情感识别一键上手

5分钟部署SenseVoiceSmall,多语言语音情感识别一键上手 1. 引言:为什么需要富文本语音理解? 传统的语音识别(ASR)系统主要聚焦于“将声音转为文字”,但在真实的人机交互场景中,仅靠文字远远不…

作者头像 李华
网站建设 2026/5/28 16:56:49

ACE-Step教程合集:10种音乐风格生成的提示词模板分享

ACE-Step教程合集:10种音乐风格生成的提示词模板分享 1. 简介:什么是ACE-Step? ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。它拥有3.5B参数量,具备快速高质量生成、…

作者头像 李华
网站建设 2026/5/30 23:49:09

SenseVoice Small镜像实战|快速部署WebUI实现多语言语音转文字+情感分析

SenseVoice Small镜像实战|快速部署WebUI实现多语言语音转文字情感分析 1. 引言 在语音交互日益普及的今天,语音识别技术已从单纯的“语音转文字”迈向更深层次的理解——包括语义、情感和上下文事件。SenseVoice Small 是基于 FunAudioLLM/SenseVoice…

作者头像 李华
网站建设 2026/5/28 21:05:19

Wan2.2-I2V技术揭秘+体验:云端GPU免预约,随用随走

Wan2.2-I2V技术揭秘体验:云端GPU免预约,随用随走 你是不是也遇到过这种情况:刚看到一个热门AI模型发布,比如快手开源的Wan2.2系列图生视频(I2V)模型,心里一激动想立刻上手实测写篇评测文章。结…

作者头像 李华