基于语言的动作表征弥合机器人控制中的尺度差异相关信息
快速了解部分
基础信息(英文):
- 题目:Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
- 时间年月:December 2025
- 机构名:
- Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, Harbin, China
- State Key Laboratory of Cognitive Intelligence, iFLYTEK Research, China
- Suzhou Research Institute, Harbin Institute of Technology, Suzhou, China
- 3个英文关键词:Robotic Control, Language-Based Action Representations, Distribution Shifts
- 1句话通俗总结本文内容:This paper proposes a semantically grounded linguistic representation to normalize robotic actions, addressing distribution shifts caused by numerical variations across robotic platforms and tasks, and improves the generalization and transferability of robotic manipulation through a two-stage training strategy.
研究痛点:现有研究不足 / 要解决的具体问题
- 分布偏移问题:不同机器人平台、任务的动作指令存在显著数值差异,导致机器人动作数据间出现严重分布偏移,阻碍预训练知识的有效迁移,现有模型需大量微调才能在新领域良好运行。
- 模态不平衡问题:现有语言条件模仿学习方法中,动态视觉输入随时间步变化,但语言指令保持静态,这种不平衡限制了语言模态对动作生成的指导作用,未能充分发挥语言潜力。
- 动作生成精度问题:粗粒度预测虽易实现,但执行效果远差于细粒度预测,且传统固定阈值和窗口大小的运动信号生成方法,难以处理多数据集下的复杂运动模式,易将执行中的微小抖动误判为多个不同动作。
核心方法:关键技术、模型或研究设计(简要)
- 基于规则的语言表征:将机器人末端执行器动作通过规则映射转化为粗粒度语言描述(即运动表征),该表征忽略数值尺度影响、强调方向性,减少分布偏移并缩小动作令牌与标准词汇令牌的特征距离。
- 自适应多尺度运动检测:采用空间归一化和动态阈值调整,用自适应阈值替代固定阈值以应对机器人抖动,用包含快、中、慢三种时间分辨率的分层检测窗口替代单一固定窗口,适配不同类型机器人运动。
- 两阶段训练策略:
- 预训练阶段:基于Open X-Embodiment数据集子集,让模型以自回归方式根据观测和指令生成运动令牌,捕捉通用方向知识。
- 微调阶段:在LIBERO、Bridge V2等下游数据集上,让模型结合预测的运动令牌推断具体动作令牌,实现从粗粒度到细粒度动作的精准预测。
深入了解部分
相比前人创新在哪里
- 创新的动作归一化方式:不同于传统离散化动作表征对数值尺度敏感的特点,提出基于语义的语言化动作表征(运动表征),从根本上减少数值差异导致的分布偏移,且无需外部模块或人工干预,能自主从多样数据集中生成语言对齐目标。
- 自适应运动检测机制:摒弃前人固定阈值和窗口大小的运动生成方法,设计自适应阈值(结合速度校正补偿高速运动抖动)和分层时间窗口(适配不同运动类型),有效抑制多数据集下的运动抖动和错误分割,提升复杂动作识别精度,标注准确率达86.37%,远超ECoT方法的57.62%。
- 优化的两阶段训练逻辑:预训练阶段专注学习通用运动表征,遵循课程学习理念从易到难,降低学习和迁移难度;微调阶段结合运动令牌生成细粒度动作令牌,兼顾通用知识迁移与具体动作执行精度,且在训练中明确对齐对数值偏移最敏感的运动组件,加速收敛。
解决方法/算法的通俗解释,以及具体做法
1. 动作令牌化(Action Tokenizer)
- 通俗解释:把机器人连续的动作信号拆分成一个个离散的“动作令牌”,就像把一段连续的文字分成一个个单词,方便模型学习和预测。
- 具体做法:
- 参考RT2和OpenVLA的方法,模型需预测7个动作令牌,对应机器人7维动作(∆X、∆Y、∆Z、∆roll、∆pitch、∆yaw、GripperState)。
- 训练时对各维度变量归一化,排除1%和99%分位数以外的异常值,避免归一化范围过大导致预测粒度粗、精度低;推理时对输出反归一化。
- 将每个归一化变量离散为256个区间,每个区间用唯一令牌(<extra_0>–<extra_255>)表示,把动作预测转化为令牌序列预测任务。
2. 运动生成(Motion Generation)
- 通俗解释:根据机器人的运动情况,生成用自然语言描述的运动指令,同时通过灵活调整判断标准,准确识别真实运动、排除干扰(如抖动)。
- 具体做法:
- 运动表征构建:生成固定集合的自然语言描述,如“move forward left up”“tilt down”等,涵盖位置位移(move)、角度旋转(tilt/rotate)和夹爪动作(open/close gripper),无运动时标注为“stop”。
- 自适应阈值计算:设基础阈值TbaseiT_{base }^{i}Tbasei、灵敏度系数β和阈值调整窗口τ,通过公式Ti(t)=Tbasei+β⋅1τ∑t−τt∣Δ^i(s)∣T_{i}(t)=T_{base }^{i}+\beta \cdot \frac{1}{\tau} \sum_{t-\tau}^{t}\left|\hat{\Delta}_{i}(s)\right|Ti(t)=Tbasei+β⋅τ1∑t−τtΔ^i(s)计算动态阈值,根据运动速度调整,补偿高速运动抖动。
- 分层检测窗口设计:定义快(f)、中(m)、慢(s)三种时间分辨率的窗口,分别通过公式Mf:=∥Δtfp∥>2TM_{f}:=\left\| \Delta_{t_{f}} p\right\| >2 TMf:=Δtfp>2T、Mm:=∥Δtmp∥>TΛminτ∈[t−Δtm,t]∥Δτp∥>0M_{m}:=\| \Delta _{t_{m}}p\| >T \Lambda \operatorname* {min}_{\tau \in [t-\Delta t_{m},t]}\| \Delta _{\tau }p\| >0Mm:=∥Δtmp∥>TΛminτ∈[t−Δtm,t]∥Δτp∥>0、Ms:=∥Δtsp∥>TΛminτ∈[t−Δts,t]∥Δτp∥>T2ΔtsM_{s}:=\left\| \Delta_{ts} p\right\| >T \Lambda min _{\tau \in\left[t-\Delta t_{s}, t\right]}\left\| \Delta_{\tau} p\right\| >\frac{T}{2 \Delta t_{s}}Ms:=∥Δtsp∥>TΛminτ∈[t−Δts,t]∥Δτp∥>2ΔtsT判断各窗口运动,最终综合Motion(t):=Mf(t)∨Mm(t)∨Ms(t)Motion(t):=M_{f}(t)\vee M_{m}(t)\vee M_{s}(t)Motion(t):=Mf(t)∨Mm(t)∨Ms(t)确定是否为有效运动。
3. 两阶段训练(Two-Stage Training)
- 通俗解释:先让模型学习用语言描述机器人该做的大致运动,再让模型根据这个语言描述学习具体的动作细节,分步骤提升模型能力。
- 具体做法:
- 数据构建:每个操作轨迹关联任务指令(如“What action should the robot take to {instruction}?”),轨迹包含离散动作序列AiA_{i}Ai和对应视频帧观测序列OiO_{i}Oi,引入运动模态MiM_{i}Mi形成数据元组(Oij,pi,Mij,Aij)(O_{i}^{j}, p_{i}, M_{i}^{j}, A_{i}^{j})(Oij,pi,Mij,Aij)(j为轨迹内步骤,pip_{i}pi为任务指令)。
- 预训练阶段:基于Open X-Embodiment的7个子数据集(约12000条轨迹),让模型按表1数据格式,以自回归方式学习ϕh(m∣o,p)\phi_{h}(m | o, p)ϕh(m∣o,p)(根据观测o和指令p生成运动令牌m),捕捉通用运动语言关系。
- 微调阶段:在LIBERO和Bridge V2数据集上,按表2数据格式,让模型学习ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)\phi(a, m | o, p)=\phi_{h}(m | o, p) \phi_{l}(a | o, p, m)ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)(结合运动令牌m生成具体动作令牌a),实现细粒度动作预测。
基于前人的哪些方法
- 动作解码与模型架构基础:动作解码参考RT2(Brohan et al. 2023)和OpenVLA(Kim et al. 2024)的离散化动作空间设计,模型架构以OpenVLA为基础,采用SigLIP(Zhai et al. 2023)和DINO v2(Oquab et al. 2024)进行图像编码,LLM骨干网络使用Qwen2.5(Qwen et al. 2025)。
- 多模态数据处理思路:借鉴Open X-Embodiment(O’Neill et al. 2024)统一视觉、本体感觉、语言输入与动作轨迹的标准化格式,以及LLaVA 1.5的VLM监督微调数据构建方式,设计两阶段训练的数据输入格式。
- 运动判断逻辑改进:参考ECoT(Zawalski et al. 2024)的运动判断逻辑,修改规则确保机械臂处于运动过程中,同时针对其固定阈值和窗口的不足,提出自适应阈值和分层窗口改进方案。
- 课程学习理念应用:遵循Qi et al. 2024的课程学习原则,在预训练阶段先让模型学习较易的通用运动知识,降低后续学习和迁移难度。
实验设置、数据、评估方式
1. 实验设置
- 模型架构:基于OpenXLA,图像分辨率标准化为224×224px,用SigLIP和DINO v2编码后通道级联;LLM骨干为Qwen2.5,含0.5B、1.5B、3B三种参数规模,动作令牌器新增256个特殊令牌对应256个区间。
- 超参数:预训练批次大小为2048,微调批次大小为512,学习率为2e-5;实验在A100-80G GPU上进行。
- 研究问题:
- RQ1:各改进部分对性能的单独贡献。
- RQ2:改进后的模型是否优于现有基准和最先进方法。
- RQ3:添加语言输出目标是否缩小动作令牌与语言令牌的差距。
2. 实验数据
- 预训练数据:从Open X-Embodiment中选取7个子数据集(含furniture-bench、jaco等),共约12000条轨迹,排除LIBERO和Bridge V2以评估泛化能力,按文中方法生成运动数据。
- 微调数据:
- LIBERO:含130+语言条件操作任务,用于终身决策学习中的知识迁移研究,测试Spatial、Goal、Object、Long四个套件。
- Bridge V2:含7200条演示数据,覆盖10个环境、71个家庭场景任务;在SimplerEnv(基于Bridge V2模拟的测试环境)中评估4个任务:将勺子放在毛巾上、将胡萝卜放在盘子上、将绿色方块堆叠在黄色方块上、将茄子放入黄色篮子。
3. 评估方式
- 性能指标:以成功率(Success Rates)作为核心评估指标,计算不同任务、不同模型参数规模下的平均成功率及标准差。
- 对比实验:
- 对比有无运动预训练、有无优化运动生成的模型性能,评估各改进的贡献。
- 与Diffusion Policy、ScaleDP、Octo、OpenVLA、RT-1-x、ECoT等基准方法对比,验证模型优越性。
- 表征分析:用PCA和置信椭圆可视化LIBERO基准空间任务中模型嵌入,对比有无预训练、有无运动表征下,动作令牌与语言令牌的特征分布差距。
提到的同类工作
- 端到端动作生成相关:
- RT1(Brohan et al. 2022)、RT2(Brohan et al. 2023):用FiLM和CLIP编码图像,Transformer为骨干,采用离散动作空间。
- Octo(Team et al. 2024)、OpenVLA(Kim et al. 2024)、Pi0Pi_{0}Pi0(Black et al. 2024):基于Transformer骨干,在Open X-Embodiment等大规模数据集上预训练,探索机器人操作模型架构。
- RDT(Liu et al. 2024):引入物理可解释的统一动作空间,解决多机器人臂数据预训练中的实体不一致问题。
- HPT(Wang et al. 2024):利用特定于实体的令牌器,将不同机械臂的本体感觉和视觉传感信息映射到共享潜在空间。
- 文本指导动作生成相关:
- RT-H(Belkhale et al. 2024):引入人工干预机制纠正语言描述中的错误。
- ECoT(Zawalski et al. 2024):扩展语言推理链指导正确动作描述,探索ChatGPT纠正动作的有效性。
- Emma(Sun et al. 2024):改进思维链生成,引入轨迹中的显式状态信息提升模型任务理解和执行能力。
- CoA(Li et al. 2024a):提出Chain-of-Affordance,以图像中可用性位置作为思维链指导生成稳健动作。
- Qi et al. 2025:构建物体-文本-方向对数据集,关注物体方向对细粒度操作任务的影响。
和本文相关性最高的3个文献
- Kim, M. J.; Pertsch, K.; Karamcheti, S.; Xiao, T.; Balakrishna, A.; Nair, S.; Rafailov, R.; Foster, E.; Lam, G.; Sanketi, P.; et al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.
- 相关性原因:本文模型架构基于OpenVLA,且在实验中多次与OpenVLA对比性能;OpenVLA作为开源视觉-语言-动作模型,与本文核心的语言-动作表征融合思路高度契合,是本文重要的技术基础和性能基准之一。
- Zawalski, M.; Chen, W.; Pertsch, K.; Mees, O.; Finn, C.; and Levine, S. 2024. Robotic control via embodied chain-of-thought reasoning. arXiv preprint arXiv:2407.08693.
- 相关性原因:本文的运动判断逻辑参考了ECoT(该文献方法),且针对ECoT固定阈值和窗口的缺陷提出改进方案;ECoT作为文本指导机器人控制的代表性工作,与本文均关注语言对动作生成的指导,是本文重要的对比基准和改进对象。
- O’Neill, A.; Rehman, A.; Maddukuri, A.; Gupta, A.; Padalkar, A.; Lee, A.; Pooley, A.; Gupta, A.; Mandlekar, A.; Jain, A.; et al. 2024. Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 6892–6903.
- 相关性原因:本文预训练数据来源于Open X-Embodiment,该数据集统一了多机器人、多任务的多模态数据格式,为本文解决跨平台分布偏移问题提供了数据基础;同时,Open X-Embodiment相关的RT-X模型系列也是本文在机器人预训练领域的重要参考背景。
我的
主要就是把细粒度动作信息转化为语言表征,用语言这种粗粒度的信息来作为中间量,然后来弥补不同机器人的差距,相当于从一个更高阶的角度来处理动作。然后用的时候再从语言指导生成细粒度动作