news 2026/5/4 10:59:01

Helix 02 :移动+操作融合,解锁人形机器人全身控制的VLA模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Helix 02 :移动+操作融合,解锁人形机器人全身控制的VLA模型

移动操作一直是人形机器人领域的关键挑战。真正的难点不在于实现其中任何一种单一能力,而在于将二者无缝融合为单一、连贯的行为。

移动与操作相互影响、动态耦合:托举物体会改变身体平衡,移动步伐会影响肢体的可操作范围,机器人的四肢动作始终处于相互制约的动态状态。尽管当今的人形机器人已能完成跳跃、舞蹈等高动态动作,却仍普遍面临一个根本局限:缺乏真正的自主可控性。

多数系统仅能复现经离线规划的动作,且仅能接收有限的反馈信息。一旦环境出现预期之外的偏移或接触变化,整个任务便容易失效。为此,传统方案往往采取折中策略:将移动与操作拆分为独立模块,再用状态机进行拼接。机器人只能按固定流程分步执行——例如先行走、再停止、调整平衡、伸手抓取、然后继续行走。这种方式切换迟缓、鲁棒性低,动作也显得僵化而不自然。

实现真正的自主,需要一套全新的技术路径:一个能对机器人全身进行一体化实时推理的统一学习系统。它必须能够在移动中操作、在操作中调整平衡,并能从失误中即时恢复,完成感知-决策-执行的持续闭环。

基于此,Figure 公司于2026年1月发布了 Helix 的升级版 ——Helix 02,将控制能力从机器人上半身拓展至全身,实现了行走、操作与平衡三大功能的一体化协同控制。

一、Helix 02模型架构

在模型架构层面,Helix 02 在初代 Helix 的“System1、System2” 双系统架构基础上,新增了基础层 System 0,各系统均按自身固有时间尺度独立运行,各司其职、协同配合:

  • System2(以下简称“S2”:针对任务目标进行低速推理,专注于场景解析、语言理解与行为序列规划;

  • System1(以下简称“S1”):具备高速决策能力,以 200 Hz 的频率将感知信息转化为全身关节运动目标;

  • System0(以下简称“S0”:执行频率高达 1 KHz,负责全身平衡维持、接触感知与动作协同。

三者紧密配合,共同构成一套从视觉像素到关节力矩输出的高度集成化层级架构。其中,S2 支撑起复杂长时程任务所需的语义推理能力,S1 实现全传感器与全执行器之间的高速联通,S0 则提供经由学习训练的全身控制能力。

依托于三层架构的高效协同,Helix 02 构建出能够支持人形机器人在室内环境中无缝融合行走与操作的连续自主控制能力。

1)System 2:场景理解与语言交互

初代Helix 中,系统S2是一个 70亿(7B)参数的预训练VLM模型,用于处理机器人单目视觉图像和机器人状态信息(包括手腕姿态和手指位置),并将它们投影到视觉语言嵌入空间中。S2 将所有语义任务相关信息提炼为一个连续的潜在向量,以7-9 Hz的频率传递给 S1 ,为机器人的行为决策提供高层次的指导。

在Helix 02 系统中,S2 依旧作为语义推理层,承担场景解析、语言理解的任务,并为S1生成隐式任务目标。但是,Helix 02大幅拓展了S2 可指定的动作行为范围:此前其仅能下达简单指令,如 “拿起番茄酱”,如今可下达复杂的连续动作指令,例如:“走到洗碗机旁并打开柜门”、“将碗具端至操作台”、“返回上层碗架取拿杯子”。

S2无需规划底层的步序动作,也无需明确规定四肢的协同方式,只需生成一系列语义隐状态,由S1将其解析为运动控制指令,最终交由 S0 执行即可。

2)System 1:“全传感器输入、全关节输出” 的视觉运动策略网络

初代Helix 中,S1 仅实现对机器人上半身的控制,输入数据为关节状态与视觉图像信息,然后以 200Hz 频率输出包括手腕姿态、手指弯曲和外展控制,以及躯干和头部方向在内的上半身控制指令。

而在Helix 02中,S1仍是一个 8000万(80M)参数的Transformer模型,但接入了机器人的头部相机、掌心相机、指尖触觉传感器、全身本体感知所有传感器,实现机器人全身的全关节级控制,涵盖腿部、躯干、头部、手臂、腕部及单根手指。

S1依旧是基于S2隐状态的Transformer模型,如今可输出全身关节运动目标,由 S0以1KHz的频率实时跟踪执行。

3)System 0 :基于人类数据的类人化全身控制

S0是类人化全身控制的基础模型,通过学习人类维持平衡与稳定的运动模式,形成运动习得先验,为Helix 02的物理具身提供核心支撑 —— 在上层网络进行任务规划与推理时,S0可保障所有动作流畅、安全、稳定执行。

无需为行走、转身、下蹲、伸展等动作单独设计奖励函数,S0可直接从海量多样化运动数据集中学习并复刻人类运动模式,同步掌握力的协同调控与身体姿态动态调整能力,在通用移动操作全流程中持续维持身体平衡。

  • 训练数据:超过1000小时的关节级重定向人类运动数据;

  • 模型架构:一个含1000万(10M)参数的神经网络,以全身关节状态与基座运动信息为输入,以1000Hz的频率输出关节级执行器控制指令;

  • 仿真训练:全程在仿真环境中进行,覆盖20 万个并行仿真实例,并采用大规模域随机化技术,确保模型能直接迁移至实体机器人,并在不同机器人平台上具备优秀的泛化能力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 15:22:46

色选机:提升产品质量与效率的智能分选关键技术

在粮食加工行业里,色选机已然成为提升产品质量以及生产效率的关键设备之举态。于食品生产范畴内,色选机同样是令产品质量得以提高与增进生产效率的起到关键作用的设备之表象。在矿产分选领域之上,色选机也是化作提升产品质量连带生产效率的关…

作者头像 李华
网站建设 2026/5/1 12:27:50

【计算机毕业设计案例】基于SpringBoot + Vue的校园活动管理系统设计与实现基于springboot+bs架构的校园活动管理系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/3 16:53:02

大模型架构选型指南:RAG与智能体的区别与应用,一篇收藏足够!

本文详细解析了RAG与智能体的技术原理、架构差异和应用场景。RAG作为知识增强器通过外部检索提高大模型回答准确性;智能体则让AI从"思考者"变为"行动者",具备规划、工具调用和反思能力。文章提供了清晰的选型指南:需要精…

作者头像 李华
网站建设 2026/5/3 7:20:54

揭秘硬件安全攻防:Off-By-One 2024徽章中的嵌入式CTF挑战

#BadgeLife Off-By-One Conference 2024 | STAR Labs 引言 如约而至,我们在活动结束大约一个月后,发布了Off-By-One徽章的固件和本文,以便感兴趣的参与者有机会探索它。如果您想了解更多关于徽章设计过程的信息,请告诉我们。我…

作者头像 李华
网站建设 2026/5/3 7:39:17

算力自由时代:逛超算商城如逛淘宝!助你实现AI梦想清单!

超算互联网(scnet.cn) 作为国家级超算资源整合平台,超算互联网汇聚了全国多个顶级超算中心的强大算力,包括国家超级计算天津中心、广州中心、无锡中心等,致力于让每一位开发者、研究者都能触手可及地使用顶级计算资源。…

作者头像 李华