news 2026/5/7 10:19:11

【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

快速了解部分

基础信息(英文):

1.题目: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
2.时间: 2026.01
3.机构: BeingBeyond Team
4.3个英文关键词: Vision-Language-Action (VLA), Human-Centric Learning, Cross-Embodiment Generalization

1句话通俗总结本文干了什么事情

本文提出了一种名为 Being-H0.5 的机器人模型,通过将人类动作作为通用模板,让不同形态的机器人(如机械臂、人形机器人)能共享学习成果,从而实现跨形态的技能泛化和实际部署。

研究痛点:现有研究不足 / 要解决的具体问题

现有视觉-语言-动作(VLA)模型通常是针对特定机器人硬件训练的“单语种”专家,难以在不同形态(如从机械臂换到人形手)的机器人之间迁移;同时,机器人数据稀缺且碎片化,缺乏一种通用的“物理语言”来统一不同机器人的动作空间。

核心方法:关键技术、模型或研究设计(简要)

提出了UniHand-2.0数据集和Being-H0.5模型。核心是将人类和机器人的动作映射到一个统一的动作空间(Unified Action Space),采用混合流(Mixture of Flow)架构,并引入流形保持门控(MPG)和通用异步分块(UAC)技术以适应不同硬件的延迟和控制差异。

深入了解部分

作者想要表达什么

作者认为人类的交互痕迹可以作为物理交互的通用“母语”。通过以人为中心的学习范式,利用大规模的人类视频数据作为物理先验,可以解决机器人数据稀缺问题,并打破不同机器人形态之间的壁垒,实现通用的具身智能。

相比前人创新在哪里

  1. 统一动作空间:不同于以往为每种机器人单独设置动作头,本文将人类手部动作(MANO模型)与机器人控制映射到同一个语义对齐的向量空间。
  2. 大规模异构数据:构建了包含3.5万小时数据(含1.6万小时人类视频)的 UniHand-2.0 数据集,覆盖30种机器人形态。
  3. 部署稳定性:提出了 MPG 和 UAC 技术,解决了在真实世界中不同机器人硬件延迟和感知漂移导致的控制不稳定问题。

解决方法/算法的通俗解释

想象一个能教所有类型机器人(无论是两只手的、一只手的,还是人形的)的“通用老师”。

  1. 通用语言:它把所有机器人的动作和人类的动作都翻译成一种“通用语言”(统一动作空间)。
  2. 混合专家:模型内部像一个专家组,有的专家专门负责通用的物理常识(如抓取、移动),有的专家专门负责特定机器人的特殊动作(混合流架构)。
  3. 抗干扰:当传感器信号不好或网络有延迟时,它能自动调整,保证机器人动作不卡顿、不乱动(流形保持门控和异步分块)。

解决方法的具体做法

  1. 数据构建:收集大规模的人类第一视角视频(Ego4D等),利用算法提取手部姿态;结合30种机器人的操作数据。
  2. 模型架构:采用 Mixture-of-Transformers (MoT) 设计,分为视觉语言理解专家和动作生成专家,共享注意力机制。
  3. 训练策略
    • 统一序列建模:将视觉、文本、状态、动作统一成一个序列进行训练。
    • 混合预测:同时预测连续的动作流和离散的动作 token。
  4. 后训练与部署:使用 MPG 在感知不确定时回退到可靠先验;使用 UAC 根据硬件延迟动态调整动作生成。

基于前人的哪些方法

  1. Being-H0:本文的前代模型,确立了以人为中心的学习范式。
  2. Flow Matching (流匹配):用于生成连续动作的扩散模型技术(如 π0 模型)。
  3. Mixture-of-Experts (MoE):混合专家架构,用于扩展模型容量。
  4. MANO 模型:用于表征人类手部姿态的参数化模型。

实验设置、数据、评估方式、结论

  • 数据:UniHand-2.0,包含 35,000+ 小时数据(16k人类,14k机器人,5k图文),覆盖30种机器人。
  • 实验平台:5种真实机器人(PND Adam-U, Franka+Inspire, Unitree G1, BeingBeyond D1, LeRobot SO-101)和模拟环境(LIBERO, RoboCasa)。
  • 评估方式:任务成功率(Success Rate)。
  • 结论
    • 在 LIBERO 模拟 benchmark 上达到98.9%的成功率(SoTA)。
    • 在 RoboCasa(24个复杂家务任务)上达到53.9%的成功率。
    • 实现了跨形态的零样本迁移(Zero-Shot Transfer),即在没有特定机器人数据的情况下,模型也能在新形态机器人上执行任务。

提到的同类工作

  • Open X-Embodiment (OXE):大规模机器人数据集集合。
  • RT-1 / RT-2:Google 的 Robotics Transformer 模型。
  • π0 (pi0):一种基于扩散模型的 VLA 方法。
  • GR00T-N1:Nvidia 提出的具身基础模型。
  • AgiBot World:另一个大规模机器人操作数据集。

和本文相关性最高的3个文献

  1. Being-h0: vision-language-action pretraining from large-scale human videos(Being-H0 的前作,本文的直接基础)
  2. πo: A vision-language-action model with open-world generalization(主流 VLA 方法,本文对比的重要基准)
  3. Open x-embodiment: Robotic learning datasets and rt-x models(最大的开源机器人数据集,本文数据的重要组成部分和对比对象)

我的

  1. 利用人类数据训练了一个VLA。
  2. 如何解决数据Gap的:MANO识别手,统一到一个空间里,然后用路由机制,一个foundation学习通用规律,多个小专家对接不同实体。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 15:19:31

HTTP状态码大全:从200到504,每个码代表什么?

在日常开发、接口调试或网页访问中,HTTP状态码是前端与后端、客户端与服务器之间的“沟通暗号”。它由3位数字组成,直观反映请求处理的结果,既是开发者排查问题的核心依据,也是理解HTTP协议的基础。本文将全面梳理从200到504的常用…

作者头像 李华
网站建设 2026/5/3 4:37:37

<span class=“js_title_inner“>文心大模型助力人工智能数据质量评估,“以评促建”为人工智能产业发展注入新动力</span>

2026年1月22日,百度“文心Moment”大会在上海举办,中国信息通信研究院人工智能研究所所长魏凯出席活动并介绍中国信通院高质量数据集评测实践,发布“动静结合”人工智能数据质量评估能力。文心大模型深度支撑基于模型性能的动态数据质量指标体…

作者头像 李华
网站建设 2026/5/1 15:37:47

因为熬过了前端,浅浅说一下它的强度!!

作为经历过前端完整面试周期的人,我可以用几个关键词概括它的强度:深度、广度和系统思维。这绝不是仅靠背诵API或复刻项目就能通过的战场。 一、技术深度的“单点爆破” 面试官常会在你熟悉的领域突然向下挖掘: 当你说“我用Vue3响应式”&am…

作者头像 李华
网站建设 2026/5/3 17:45:47

车床上料机械手设计

第二章机械手整体设计方案论证 2.1上料的机械手设计 2.1.1 整体车床上料机械手的结构和类型 例如以下的几种结构 1.“直角坐标”机器手臂的结构 三个相互垂直的线性运动来实现笛卡尔机器人的空间运动。 然而,该空间为相对来说是很小的。。 2.1.2机械人手臂的坐标的…

作者头像 李华
网站建设 2026/5/3 8:33:27

短视频创作变现从 0 到 1:新手也能接住的实用指南

在人人皆可做内容的当下,短视频变现成了许多普通人想抓住的风口,但 “新人不知从何下手、账号做了半年没起色、流量来了却变不了现” 的困境,拦住了大多数人。这套《短视频创作变现从 0 到 1 训练营》教程,正是为解决这些痛点而来…

作者头像 李华