【论文自动阅读】Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations-开发者社区

基于语言的动作表征弥合机器人控制中的尺度差异相关信息

快速了解部分

基础信息（英文）：

题目：Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
时间年月：December 2025
机构名：
- Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, Harbin, China
- State Key Laboratory of Cognitive Intelligence, iFLYTEK Research, China
- Suzhou Research Institute, Harbin Institute of Technology, Suzhou, China
3个英文关键词：Robotic Control, Language-Based Action Representations, Distribution Shifts
1句话通俗总结本文内容：This paper proposes a semantically grounded linguistic representation to normalize robotic actions, addressing distribution shifts caused by numerical variations across robotic platforms and tasks, and improves the generalization and transferability of robotic manipulation through a two-stage training strategy.

研究痛点：现有研究不足 / 要解决的具体问题

分布偏移问题：不同机器人平台、任务的动作指令存在显著数值差异，导致机器人动作数据间出现严重分布偏移，阻碍预训练知识的有效迁移，现有模型需大量微调才能在新领域良好运行。
模态不平衡问题：现有语言条件模仿学习方法中，动态视觉输入随时间步变化，但语言指令保持静态，这种不平衡限制了语言模态对动作生成的指导作用，未能充分发挥语言潜力。
动作生成精度问题：粗粒度预测虽易实现，但执行效果远差于细粒度预测，且传统固定阈值和窗口大小的运动信号生成方法，难以处理多数据集下的复杂运动模式，易将执行中的微小抖动误判为多个不同动作。

核心方法：关键技术、模型或研究设计（简要）

基于规则的语言表征：将机器人末端执行器动作通过规则映射转化为粗粒度语言描述（即运动表征），该表征忽略数值尺度影响、强调方向性，减少分布偏移并缩小动作令牌与标准词汇令牌的特征距离。
自适应多尺度运动检测：采用空间归一化和动态阈值调整，用自适应阈值替代固定阈值以应对机器人抖动，用包含快、中、慢三种时间分辨率的分层检测窗口替代单一固定窗口，适配不同类型机器人运动。
两阶段训练策略：
- 预训练阶段：基于Open X-Embodiment数据集子集，让模型以自回归方式根据观测和指令生成运动令牌，捕捉通用方向知识。
- 微调阶段：在LIBERO、Bridge V2等下游数据集上，让模型结合预测的运动令牌推断具体动作令牌，实现从粗粒度到细粒度动作的精准预测。

深入了解部分

相比前人创新在哪里

创新的动作归一化方式：不同于传统离散化动作表征对数值尺度敏感的特点，提出基于语义的语言化动作表征（运动表征），从根本上减少数值差异导致的分布偏移，且无需外部模块或人工干预，能自主从多样数据集中生成语言对齐目标。
自适应运动检测机制：摒弃前人固定阈值和窗口大小的运动生成方法，设计自适应阈值（结合速度校正补偿高速运动抖动）和分层时间窗口（适配不同运动类型），有效抑制多数据集下的运动抖动和错误分割，提升复杂动作识别精度，标注准确率达86.37%，远超ECoT方法的57.62%。
优化的两阶段训练逻辑：预训练阶段专注学习通用运动表征，遵循课程学习理念从易到难，降低学习和迁移难度；微调阶段结合运动令牌生成细粒度动作令牌，兼顾通用知识迁移与具体动作执行精度，且在训练中明确对齐对数值偏移最敏感的运动组件，加速收敛。

解决方法/算法的通俗解释，以及具体做法

1. 动作令牌化（Action Tokenizer）

通俗解释：把机器人连续的动作信号拆分成一个个离散的“动作令牌”，就像把一段连续的文字分成一个个单词，方便模型学习和预测。
具体做法：
- 参考RT2和OpenVLA的方法，模型需预测7个动作令牌，对应机器人7维动作（∆X、∆Y、∆Z、∆roll、∆pitch、∆yaw、GripperState）。
- 训练时对各维度变量归一化，排除1%和99%分位数以外的异常值，避免归一化范围过大导致预测粒度粗、精度低；推理时对输出反归一化。
- 将每个归一化变量离散为256个区间，每个区间用唯一令牌（<extra_0>–<extra_255>）表示，把动作预测转化为令牌序列预测任务。

2. 运动生成（Motion Generation）

通俗解释：根据机器人的运动情况，生成用自然语言描述的运动指令，同时通过灵活调整判断标准，准确识别真实运动、排除干扰（如抖动）。
具体做法：
- 运动表征构建：生成固定集合的自然语言描述，如“move forward left up”“tilt down”等，涵盖位置位移（move）、角度旋转（tilt/rotate）和夹爪动作（open/close gripper），无运动时标注为“stop”。
- 自适应阈值计算：设基础阈值TbaseiT_{base }^{i}Tbasei、灵敏度系数β和阈值调整窗口τ，通过公式Ti(t)=Tbasei+β⋅1τ∑t−τt∣Δ^i(s)∣T_{i}(t)=T_{base }^{i}+\beta \cdot \frac{1}{\tau} \sum_{t-\tau}^{t}\left|\hat{\Delta}_{i}(s)\right|Ti(t)=Tbasei+β⋅τ1∑t−τtΔ^i(s)计算动态阈值，根据运动速度调整，补偿高速运动抖动。
- 分层检测窗口设计：定义快（f）、中（m）、慢（s）三种时间分辨率的窗口，分别通过公式Mf:=∥Δtfp∥>2TM_{f}:=\left\| \Delta_{t_{f}} p\right\| >2 TMf:=Δtfp>2T、Mm:=∥Δtmp∥>TΛmin⁡τ∈[t−Δtm,t]∥Δτp∥>0M_{m}:=\| \Delta _{t_{m}}p\| >T \Lambda \operatorname* {min}_{\tau \in [t-\Delta t_{m},t]}\| \Delta _{\tau }p\| >0Mm:=∥Δtmp∥>TΛminτ∈[t−Δtm,t]∥Δτp∥>0、Ms:=∥Δtsp∥>TΛminτ∈[t−Δts,t]∥Δτp∥>T2ΔtsM_{s}:=\left\| \Delta_{ts} p\right\| >T \Lambda min _{\tau \in\left[t-\Delta t_{s}, t\right]}\left\| \Delta_{\tau} p\right\| >\frac{T}{2 \Delta t_{s}}Ms:=∥Δtsp∥>TΛminτ∈[t−Δts,t]∥Δτp∥>2ΔtsT判断各窗口运动，最终综合Motion(t):=Mf(t)∨Mm(t)∨Ms(t)Motion(t):=M_{f}(t)\vee M_{m}(t)\vee M_{s}(t)Motion(t):=Mf(t)∨Mm(t)∨Ms(t)确定是否为有效运动。

3. 两阶段训练（Two-Stage Training）

通俗解释：先让模型学习用语言描述机器人该做的大致运动，再让模型根据这个语言描述学习具体的动作细节，分步骤提升模型能力。
具体做法：
- 数据构建：每个操作轨迹关联任务指令（如“What action should the robot take to {instruction}?”），轨迹包含离散动作序列AiA_{i}Ai和对应视频帧观测序列OiO_{i}Oi，引入运动模态MiM_{i}Mi形成数据元组(Oij,pi,Mij,Aij)(O_{i}^{j}, p_{i}, M_{i}^{j}, A_{i}^{j})(Oij,pi,Mij,Aij)（j为轨迹内步骤，pip_{i}pi为任务指令）。
- 预训练阶段：基于Open X-Embodiment的7个子数据集（约12000条轨迹），让模型按表1数据格式，以自回归方式学习ϕh(m∣o,p)\phi_{h}(m | o, p)ϕh(m∣o,p)（根据观测o和指令p生成运动令牌m），捕捉通用运动语言关系。
- 微调阶段：在LIBERO和Bridge V2数据集上，按表2数据格式，让模型学习ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)\phi(a, m | o, p)=\phi_{h}(m | o, p) \phi_{l}(a | o, p, m)ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)（结合运动令牌m生成具体动作令牌a），实现细粒度动作预测。

基于前人的哪些方法

动作解码与模型架构基础：动作解码参考RT2（Brohan et al. 2023）和OpenVLA（Kim et al. 2024）的离散化动作空间设计，模型架构以OpenVLA为基础，采用SigLIP（Zhai et al. 2023）和DINO v2（Oquab et al. 2024）进行图像编码，LLM骨干网络使用Qwen2.5（Qwen et al. 2025）。
多模态数据处理思路：借鉴Open X-Embodiment（O’Neill et al. 2024）统一视觉、本体感觉、语言输入与动作轨迹的标准化格式，以及LLaVA 1.5的VLM监督微调数据构建方式，设计两阶段训练的数据输入格式。
运动判断逻辑改进：参考ECoT（Zawalski et al. 2024）的运动判断逻辑，修改规则确保机械臂处于运动过程中，同时针对其固定阈值和窗口的不足，提出自适应阈值和分层窗口改进方案。
课程学习理念应用：遵循Qi et al. 2024的课程学习原则，在预训练阶段先让模型学习较易的通用运动知识，降低后续学习和迁移难度。

实验设置、数据、评估方式

1. 实验设置

模型架构：基于OpenXLA，图像分辨率标准化为224×224px，用SigLIP和DINO v2编码后通道级联；LLM骨干为Qwen2.5，含0.5B、1.5B、3B三种参数规模，动作令牌器新增256个特殊令牌对应256个区间。
超参数：预训练批次大小为2048，微调批次大小为512，学习率为2e-5；实验在A100-80G GPU上进行。
研究问题：
- RQ1：各改进部分对性能的单独贡献。
- RQ2：改进后的模型是否优于现有基准和最先进方法。
- RQ3：添加语言输出目标是否缩小动作令牌与语言令牌的差距。

2. 实验数据

预训练数据：从Open X-Embodiment中选取7个子数据集（含furniture-bench、jaco等），共约12000条轨迹，排除LIBERO和Bridge V2以评估泛化能力，按文中方法生成运动数据。
微调数据：
- LIBERO：含130+语言条件操作任务，用于终身决策学习中的知识迁移研究，测试Spatial、Goal、Object、Long四个套件。
- Bridge V2：含7200条演示数据，覆盖10个环境、71个家庭场景任务；在SimplerEnv（基于Bridge V2模拟的测试环境）中评估4个任务：将勺子放在毛巾上、将胡萝卜放在盘子上、将绿色方块堆叠在黄色方块上、将茄子放入黄色篮子。

3. 评估方式

性能指标：以成功率（Success Rates）作为核心评估指标，计算不同任务、不同模型参数规模下的平均成功率及标准差。
对比实验：
- 对比有无运动预训练、有无优化运动生成的模型性能，评估各改进的贡献。
- 与Diffusion Policy、ScaleDP、Octo、OpenVLA、RT-1-x、ECoT等基准方法对比，验证模型优越性。
表征分析：用PCA和置信椭圆可视化LIBERO基准空间任务中模型嵌入，对比有无预训练、有无运动表征下，动作令牌与语言令牌的特征分布差距。

提到的同类工作

端到端动作生成相关：
- RT1（Brohan et al. 2022）、RT2（Brohan et al. 2023）：用FiLM和CLIP编码图像，Transformer为骨干，采用离散动作空间。
- Octo（Team et al. 2024）、OpenVLA（Kim et al. 2024）、Pi0Pi_{0}Pi0（Black et al. 2024）：基于Transformer骨干，在Open X-Embodiment等大规模数据集上预训练，探索机器人操作模型架构。
- RDT（Liu et al. 2024）：引入物理可解释的统一动作空间，解决多机器人臂数据预训练中的实体不一致问题。
- HPT（Wang et al. 2024）：利用特定于实体的令牌器，将不同机械臂的本体感觉和视觉传感信息映射到共享潜在空间。
文本指导动作生成相关：
- RT-H（Belkhale et al. 2024）：引入人工干预机制纠正语言描述中的错误。
- ECoT（Zawalski et al. 2024）：扩展语言推理链指导正确动作描述，探索ChatGPT纠正动作的有效性。
- Emma（Sun et al. 2024）：改进思维链生成，引入轨迹中的显式状态信息提升模型任务理解和执行能力。
- CoA（Li et al. 2024a）：提出Chain-of-Affordance，以图像中可用性位置作为思维链指导生成稳健动作。
- Qi et al. 2025：构建物体-文本-方向对数据集，关注物体方向对细粒度操作任务的影响。

和本文相关性最高的3个文献

Kim, M. J.; Pertsch, K.; Karamcheti, S.; Xiao, T.; Balakrishna, A.; Nair, S.; Rafailov, R.; Foster, E.; Lam, G.; Sanketi, P.; et al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.
- 相关性原因：本文模型架构基于OpenVLA，且在实验中多次与OpenVLA对比性能；OpenVLA作为开源视觉-语言-动作模型，与本文核心的语言-动作表征融合思路高度契合，是本文重要的技术基础和性能基准之一。
Zawalski, M.; Chen, W.; Pertsch, K.; Mees, O.; Finn, C.; and Levine, S. 2024. Robotic control via embodied chain-of-thought reasoning. arXiv preprint arXiv:2407.08693.
- 相关性原因：本文的运动判断逻辑参考了ECoT（该文献方法），且针对ECoT固定阈值和窗口的缺陷提出改进方案；ECoT作为文本指导机器人控制的代表性工作，与本文均关注语言对动作生成的指导，是本文重要的对比基准和改进对象。
O’Neill, A.; Rehman, A.; Maddukuri, A.; Gupta, A.; Padalkar, A.; Lee, A.; Pooley, A.; Gupta, A.; Mandlekar, A.; Jain, A.; et al. 2024. Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 6892–6903.
- 相关性原因：本文预训练数据来源于Open X-Embodiment，该数据集统一了多机器人、多任务的多模态数据格式，为本文解决跨平台分布偏移问题提供了数据基础；同时，Open X-Embodiment相关的RT-X模型系列也是本文在机器人预训练领域的重要参考背景。