MANUS：用于视觉、语言、行动模型创建的高保真第一人称数据采集设备-开发者社区

“RoboBrain-Dex：多源自我中心训练用于集成灵巧视觉-语言-行动模型”。

灵巧手遥操作目前为止仍然是机器人技术中最具挑战性的前沿领域之一。尽管视觉-语言-动作模型在通用机器人能力方面表现出很大潜力，但其面临一个关键瓶颈：灵巧手技能的大规模学习、动作注释数据稀缺。传统遥操作方法成本高且耗时，而现有的人类运动数据集则存在视角依赖、遮挡和捕获环境受限等问题，这限制了它们在机器人训练中的应用。

北京大学和北京人工智能学院的研究人员开发了RoboBrain-Dex，这是一个通过利用MANUS数据手套来克服这些数据收集挑战的灵巧手操作的突破性视觉-语言-动作模型。其工作展示了高保真手部追踪如何实现大规模、多源的自我中心数据集的创建，这些数据集将人类和机器人操作紧密联系在一起。

便携式、高保真大规模数据收集

RoboBrain-Dex 研究团队构建了Ego Atlas，一个综合的多源自我中心数据集，将人类和机器人操作数据统一在一个动作空间下。其数据收集基础设施的核心：MANUS Quantum Metagloves 可捕捉每只手的所有25个手关键点的精确3D位置。

与受限于捕捉体积和遮挡问题的基于相机或VR追踪系统不同，MANUS手套追踪系统实现了便携、随时随地的动作捕捉。结合VIVE追踪器进行6自由度手腕姿态追踪，该系统提供了手部定位，同时保持指尖级的精度。这种方法消除了视角依赖性，并能够在各种真实环境下收集数据，这对于构建用于稳定的VLA模型训练所需的规模和多样化的数据集至关重要。

从人类演示到机器人控制

由MANUS手套捕获的高保真运动数据在RoboBrain-Dex管道中起到了双重作用。对于人类演示，手套记录了自然的操纵行为，为学习机器人动作提供了丰富的先验知识。对于机器人远程操作，相同的手套追踪系统实现了精确控制：通过逆运动学将手腕姿势转换为机器人手臂配置，而指尖轨迹通过基于IK的重新目标映射到灵巧手关节空间。

这种无缝的人机翻译对于收集补充RoboBrain-Dex人类数据集的机器人演示数据至关重要。研究人员成功地将这种远程控制方法应用于配备Inspire 6-DoF灵巧手的Unitree G1人形机器人上，收集了高质量的多种操作任务演示数据。

推动该领域发展的成果

基于由MANUS手套支持的多源第一人称数据，RoboBrain-Dex在六个真实世界的灵巧操作任务中实现了超高的平均成功率。该模型在分布外场景中表现出色。

RoboBrain-Dex模型代表了一个重要的转变，通过数据采集设备MANUS的毫米级手部追踪精度和便携、可扩展的部署训练机器人灵巧手更加贴合真实人类操作。随着具身人工智能继续向人类水平的操纵能力发展，高保真第一人称数据采集设备仍然是弥合人类灵巧度与机器人智能之间差距的基础。

AI智能文档扫描仪镜像测评：开箱即用的办公自动化工具推荐

AI智能文档扫描仪镜像测评：开箱即用的办公自动化工具推荐 1. 背景与需求分析在现代办公场景中，纸质文档的数字化处理已成为高频刚需。无论是合同归档、发票报销，还是会议白板记录，用户都需要将拍摄的照片转化为清晰、规整的“扫…

李华

金融播报场景适配：IndexTTS2专业语调调节技巧

金融播报场景适配：IndexTTS2专业语调调节技巧 1. 引言：金融播报对语音合成的特殊要求在金融信息传播场景中，语音播报不仅是信息传递的工具，更是专业性与可信度的体现。传统的通用文本转语音（TTS）系统往往…

李华

Qwen All-in-One文档生成：技术说明自动产出实践

Qwen All-in-One文档生成：技术说明自动产出实践 1. 项目背景与核心价值在边缘计算和资源受限场景中，如何高效部署人工智能能力成为工程落地的关键挑战。传统方案通常采用“多模型并行”架构，例如使用 BERT 系列模型处理分类任务&#xff0…

李华

端到端人像卡通转换方案｜利用DCT-Net GPU镜像轻松部署

端到端人像卡通转换方案｜利用DCT-Net GPU镜像轻松部署随着AI生成内容（AIGC）技术的快速发展，个性化虚拟形象生成已成为社交、娱乐、数字人等场景的重要需求。其中，人像卡通化作为图像风格迁移的一个典型应用&#xff…

李华

verl vs PPO对比评测：大模型RL训练GPU利用率谁更强

verl vs PPO对比评测：大模型RL训练GPU利用率谁更强 1. 技术背景与选型挑战随着大型语言模型（LLMs）在自然语言理解、代码生成和对话系统等领域的广泛应用，基于强化学习（Reinforcement Learning, RL）的后训…

李华

避坑指南：Fun-ASR-MLT-Nano-2512部署常见问题全解

避坑指南：Fun-ASR-MLT-Nano-2512部署常见问题全解在本地化语音识别需求日益增长的背景下，Fun-ASR-MLT-Nano-2512 作为阿里通义实验室推出的多语言大模型，凭借其高精度、低门槛和强隐私保护特性，成为企业级语音转写场景的重要选择…

李华