news 2026/1/22 10:35:47

【论文自动阅读】Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations

基于语言的动作表征弥合机器人控制中的尺度差异相关信息

快速了解部分

基础信息(英文):

  1. 题目:Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
  2. 时间年月:December 2025
  3. 机构名
    • Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, Harbin, China
    • State Key Laboratory of Cognitive Intelligence, iFLYTEK Research, China
    • Suzhou Research Institute, Harbin Institute of Technology, Suzhou, China
  4. 3个英文关键词:Robotic Control, Language-Based Action Representations, Distribution Shifts
  5. 1句话通俗总结本文内容:This paper proposes a semantically grounded linguistic representation to normalize robotic actions, addressing distribution shifts caused by numerical variations across robotic platforms and tasks, and improves the generalization and transferability of robotic manipulation through a two-stage training strategy.

研究痛点:现有研究不足 / 要解决的具体问题

  1. 分布偏移问题:不同机器人平台、任务的动作指令存在显著数值差异,导致机器人动作数据间出现严重分布偏移,阻碍预训练知识的有效迁移,现有模型需大量微调才能在新领域良好运行。
  2. 模态不平衡问题:现有语言条件模仿学习方法中,动态视觉输入随时间步变化,但语言指令保持静态,这种不平衡限制了语言模态对动作生成的指导作用,未能充分发挥语言潜力。
  3. 动作生成精度问题:粗粒度预测虽易实现,但执行效果远差于细粒度预测,且传统固定阈值和窗口大小的运动信号生成方法,难以处理多数据集下的复杂运动模式,易将执行中的微小抖动误判为多个不同动作。

核心方法:关键技术、模型或研究设计(简要)

  1. 基于规则的语言表征:将机器人末端执行器动作通过规则映射转化为粗粒度语言描述(即运动表征),该表征忽略数值尺度影响、强调方向性,减少分布偏移并缩小动作令牌与标准词汇令牌的特征距离。
  2. 自适应多尺度运动检测:采用空间归一化和动态阈值调整,用自适应阈值替代固定阈值以应对机器人抖动,用包含快、中、慢三种时间分辨率的分层检测窗口替代单一固定窗口,适配不同类型机器人运动。
  3. 两阶段训练策略
    • 预训练阶段:基于Open X-Embodiment数据集子集,让模型以自回归方式根据观测和指令生成运动令牌,捕捉通用方向知识。
    • 微调阶段:在LIBERO、Bridge V2等下游数据集上,让模型结合预测的运动令牌推断具体动作令牌,实现从粗粒度到细粒度动作的精准预测。

深入了解部分

相比前人创新在哪里

  1. 创新的动作归一化方式:不同于传统离散化动作表征对数值尺度敏感的特点,提出基于语义的语言化动作表征(运动表征),从根本上减少数值差异导致的分布偏移,且无需外部模块或人工干预,能自主从多样数据集中生成语言对齐目标。
  2. 自适应运动检测机制:摒弃前人固定阈值和窗口大小的运动生成方法,设计自适应阈值(结合速度校正补偿高速运动抖动)和分层时间窗口(适配不同运动类型),有效抑制多数据集下的运动抖动和错误分割,提升复杂动作识别精度,标注准确率达86.37%,远超ECoT方法的57.62%。
  3. 优化的两阶段训练逻辑:预训练阶段专注学习通用运动表征,遵循课程学习理念从易到难,降低学习和迁移难度;微调阶段结合运动令牌生成细粒度动作令牌,兼顾通用知识迁移与具体动作执行精度,且在训练中明确对齐对数值偏移最敏感的运动组件,加速收敛。

解决方法/算法的通俗解释,以及具体做法

1. 动作令牌化(Action Tokenizer)
  • 通俗解释:把机器人连续的动作信号拆分成一个个离散的“动作令牌”,就像把一段连续的文字分成一个个单词,方便模型学习和预测。
  • 具体做法
    • 参考RT2和OpenVLA的方法,模型需预测7个动作令牌,对应机器人7维动作(∆X、∆Y、∆Z、∆roll、∆pitch、∆yaw、GripperState)。
    • 训练时对各维度变量归一化,排除1%和99%分位数以外的异常值,避免归一化范围过大导致预测粒度粗、精度低;推理时对输出反归一化。
    • 将每个归一化变量离散为256个区间,每个区间用唯一令牌(<extra_0>–<extra_255>)表示,把动作预测转化为令牌序列预测任务。
2. 运动生成(Motion Generation)
  • 通俗解释:根据机器人的运动情况,生成用自然语言描述的运动指令,同时通过灵活调整判断标准,准确识别真实运动、排除干扰(如抖动)。
  • 具体做法
    • 运动表征构建:生成固定集合的自然语言描述,如“move forward left up”“tilt down”等,涵盖位置位移(move)、角度旋转(tilt/rotate)和夹爪动作(open/close gripper),无运动时标注为“stop”。
    • 自适应阈值计算:设基础阈值TbaseiT_{base }^{i}Tbasei、灵敏度系数β和阈值调整窗口τ,通过公式Ti(t)=Tbasei+β⋅1τ∑t−τt∣Δ^i(s)∣T_{i}(t)=T_{base }^{i}+\beta \cdot \frac{1}{\tau} \sum_{t-\tau}^{t}\left|\hat{\Delta}_{i}(s)\right|Ti(t)=Tbasei+βτ1tτtΔ^i(s)计算动态阈值,根据运动速度调整,补偿高速运动抖动。
    • 分层检测窗口设计:定义快(f)、中(m)、慢(s)三种时间分辨率的窗口,分别通过公式Mf:=∥Δtfp∥>2TM_{f}:=\left\| \Delta_{t_{f}} p\right\| >2 TMf:=Δtfp>2TMm:=∥Δtmp∥>TΛmin⁡τ∈[t−Δtm,t]∥Δτp∥>0M_{m}:=\| \Delta _{t_{m}}p\| >T \Lambda \operatorname* {min}_{\tau \in [t-\Delta t_{m},t]}\| \Delta _{\tau }p\| >0Mm:=Δtmp>TΛminτ[tΔtm,t]Δτp>0Ms:=∥Δtsp∥>TΛminτ∈[t−Δts,t]∥Δτp∥>T2ΔtsM_{s}:=\left\| \Delta_{ts} p\right\| >T \Lambda min _{\tau \in\left[t-\Delta t_{s}, t\right]}\left\| \Delta_{\tau} p\right\| >\frac{T}{2 \Delta t_{s}}Ms:=Δtsp>TΛminτ[tΔts,t]Δτp>tsT判断各窗口运动,最终综合Motion(t):=Mf(t)∨Mm(t)∨Ms(t)Motion(t):=M_{f}(t)\vee M_{m}(t)\vee M_{s}(t)Motion(t):=Mf(t)Mm(t)Ms(t)确定是否为有效运动。
3. 两阶段训练(Two-Stage Training)
  • 通俗解释:先让模型学习用语言描述机器人该做的大致运动,再让模型根据这个语言描述学习具体的动作细节,分步骤提升模型能力。
  • 具体做法
    • 数据构建:每个操作轨迹关联任务指令(如“What action should the robot take to {instruction}?”),轨迹包含离散动作序列AiA_{i}Ai和对应视频帧观测序列OiO_{i}Oi,引入运动模态MiM_{i}Mi形成数据元组(Oij,pi,Mij,Aij)(O_{i}^{j}, p_{i}, M_{i}^{j}, A_{i}^{j})(Oij,pi,Mij,Aij)(j为轨迹内步骤,pip_{i}pi为任务指令)。
    • 预训练阶段:基于Open X-Embodiment的7个子数据集(约12000条轨迹),让模型按表1数据格式,以自回归方式学习ϕh(m∣o,p)\phi_{h}(m | o, p)ϕh(mo,p)(根据观测o和指令p生成运动令牌m),捕捉通用运动语言关系。
    • 微调阶段:在LIBERO和Bridge V2数据集上,按表2数据格式,让模型学习ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)\phi(a, m | o, p)=\phi_{h}(m | o, p) \phi_{l}(a | o, p, m)ϕ(a,mo,p)=ϕh(mo,p)ϕl(ao,p,m)(结合运动令牌m生成具体动作令牌a),实现细粒度动作预测。

基于前人的哪些方法

  1. 动作解码与模型架构基础:动作解码参考RT2(Brohan et al. 2023)和OpenVLA(Kim et al. 2024)的离散化动作空间设计,模型架构以OpenVLA为基础,采用SigLIP(Zhai et al. 2023)和DINO v2(Oquab et al. 2024)进行图像编码,LLM骨干网络使用Qwen2.5(Qwen et al. 2025)。
  2. 多模态数据处理思路:借鉴Open X-Embodiment(O’Neill et al. 2024)统一视觉、本体感觉、语言输入与动作轨迹的标准化格式,以及LLaVA 1.5的VLM监督微调数据构建方式,设计两阶段训练的数据输入格式。
  3. 运动判断逻辑改进:参考ECoT(Zawalski et al. 2024)的运动判断逻辑,修改规则确保机械臂处于运动过程中,同时针对其固定阈值和窗口的不足,提出自适应阈值和分层窗口改进方案。
  4. 课程学习理念应用:遵循Qi et al. 2024的课程学习原则,在预训练阶段先让模型学习较易的通用运动知识,降低后续学习和迁移难度。

实验设置、数据、评估方式

1. 实验设置
  • 模型架构:基于OpenXLA,图像分辨率标准化为224×224px,用SigLIP和DINO v2编码后通道级联;LLM骨干为Qwen2.5,含0.5B、1.5B、3B三种参数规模,动作令牌器新增256个特殊令牌对应256个区间。
  • 超参数:预训练批次大小为2048,微调批次大小为512,学习率为2e-5;实验在A100-80G GPU上进行。
  • 研究问题
    • RQ1:各改进部分对性能的单独贡献。
    • RQ2:改进后的模型是否优于现有基准和最先进方法。
    • RQ3:添加语言输出目标是否缩小动作令牌与语言令牌的差距。
2. 实验数据
  • 预训练数据:从Open X-Embodiment中选取7个子数据集(含furniture-bench、jaco等),共约12000条轨迹,排除LIBERO和Bridge V2以评估泛化能力,按文中方法生成运动数据。
  • 微调数据
    • LIBERO:含130+语言条件操作任务,用于终身决策学习中的知识迁移研究,测试Spatial、Goal、Object、Long四个套件。
    • Bridge V2:含7200条演示数据,覆盖10个环境、71个家庭场景任务;在SimplerEnv(基于Bridge V2模拟的测试环境)中评估4个任务:将勺子放在毛巾上、将胡萝卜放在盘子上、将绿色方块堆叠在黄色方块上、将茄子放入黄色篮子。
3. 评估方式
  • 性能指标:以成功率(Success Rates)作为核心评估指标,计算不同任务、不同模型参数规模下的平均成功率及标准差。
  • 对比实验
    • 对比有无运动预训练、有无优化运动生成的模型性能,评估各改进的贡献。
    • 与Diffusion Policy、ScaleDP、Octo、OpenVLA、RT-1-x、ECoT等基准方法对比,验证模型优越性。
  • 表征分析:用PCA和置信椭圆可视化LIBERO基准空间任务中模型嵌入,对比有无预训练、有无运动表征下,动作令牌与语言令牌的特征分布差距。

提到的同类工作

  1. 端到端动作生成相关
    • RT1(Brohan et al. 2022)、RT2(Brohan et al. 2023):用FiLM和CLIP编码图像,Transformer为骨干,采用离散动作空间。
    • Octo(Team et al. 2024)、OpenVLA(Kim et al. 2024)、Pi0Pi_{0}Pi0(Black et al. 2024):基于Transformer骨干,在Open X-Embodiment等大规模数据集上预训练,探索机器人操作模型架构。
    • RDT(Liu et al. 2024):引入物理可解释的统一动作空间,解决多机器人臂数据预训练中的实体不一致问题。
    • HPT(Wang et al. 2024):利用特定于实体的令牌器,将不同机械臂的本体感觉和视觉传感信息映射到共享潜在空间。
  2. 文本指导动作生成相关
    • RT-H(Belkhale et al. 2024):引入人工干预机制纠正语言描述中的错误。
    • ECoT(Zawalski et al. 2024):扩展语言推理链指导正确动作描述,探索ChatGPT纠正动作的有效性。
    • Emma(Sun et al. 2024):改进思维链生成,引入轨迹中的显式状态信息提升模型任务理解和执行能力。
    • CoA(Li et al. 2024a):提出Chain-of-Affordance,以图像中可用性位置作为思维链指导生成稳健动作。
    • Qi et al. 2025:构建物体-文本-方向对数据集,关注物体方向对细粒度操作任务的影响。

和本文相关性最高的3个文献

  1. Kim, M. J.; Pertsch, K.; Karamcheti, S.; Xiao, T.; Balakrishna, A.; Nair, S.; Rafailov, R.; Foster, E.; Lam, G.; Sanketi, P.; et al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.
    • 相关性原因:本文模型架构基于OpenVLA,且在实验中多次与OpenVLA对比性能;OpenVLA作为开源视觉-语言-动作模型,与本文核心的语言-动作表征融合思路高度契合,是本文重要的技术基础和性能基准之一。
  2. Zawalski, M.; Chen, W.; Pertsch, K.; Mees, O.; Finn, C.; and Levine, S. 2024. Robotic control via embodied chain-of-thought reasoning. arXiv preprint arXiv:2407.08693.
    • 相关性原因:本文的运动判断逻辑参考了ECoT(该文献方法),且针对ECoT固定阈值和窗口的缺陷提出改进方案;ECoT作为文本指导机器人控制的代表性工作,与本文均关注语言对动作生成的指导,是本文重要的对比基准和改进对象。
  3. O’Neill, A.; Rehman, A.; Maddukuri, A.; Gupta, A.; Padalkar, A.; Lee, A.; Pooley, A.; Gupta, A.; Mandlekar, A.; Jain, A.; et al. 2024. Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 6892–6903.
    • 相关性原因:本文预训练数据来源于Open X-Embodiment,该数据集统一了多机器人、多任务的多模态数据格式,为本文解决跨平台分布偏移问题提供了数据基础;同时,Open X-Embodiment相关的RT-X模型系列也是本文在机器人预训练领域的重要参考背景。

我的

主要就是把细粒度动作信息转化为语言表征,用语言这种粗粒度的信息来作为中间量,然后来弥补不同机器人的差距,相当于从一个更高阶的角度来处理动作。然后用的时候再从语言指导生成细粒度动作

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/15 13:39:27

37、函数式输入输出与Actor模型:实现安全高效编程

函数式输入输出与Actor模型:实现安全高效编程 函数式输入输出的栈安全处理 在函数式编程里,使用IO类型处理输入输出是常见操作。不过,有些IO方法在使用栈时和递归方法类似,像 repeat 方法,若重复次数过多,就会导致栈溢出。具体溢出的“过多”数值,取决于栈大小以及方…

作者头像 李华
网站建设 2026/1/21 0:39:23

PhantomCaptcha鱼叉攻击的技术机理与防御策略研究

一、引言2025年10月8日&#xff0c;网络安全公司SentinelOne披露了一起针对乌克兰人道主义援助组织及地方政府机构的高精度鱼叉式网络钓鱼行动&#xff0c;代号“PhantomCaptcha”。该行动在单日内完成部署、投递与初步感染&#xff0c;目标涵盖国际红十字会、挪威难民理事会、…

作者头像 李华
网站建设 2025/12/15 13:35:23

跨境语音钓鱼犯罪的组织形态与综合治理路径研究

摘要近年来&#xff0c;以东南亚国家为据点、针对韩国等高收入经济体实施大规模电信诈骗的“企业化”语音钓鱼团伙日益猖獗。2025年10月&#xff0c;韩国首尔东部地方法院对一个以柬埔寨为基地的语音钓鱼组织成员作出一审判决&#xff0c;主犯获刑6年&#xff0c;其余成员判处3…

作者头像 李华
网站建设 2026/1/14 20:55:34

18、探索Azure事件网格与存储服务的使用

探索Azure事件网格与存储服务的使用 1. 本地测试Azure事件网格与Azure函数 在本地测试Azure事件网格和Azure函数,目前有两种方法: - 捕获并重新发送事件到应用程序。 - 使用ngrok(可从https://ngrok.com/ 获取)将请求转发到本地计算机。 选择哪种方法取决于个人能力,…

作者头像 李华
网站建设 2026/1/11 14:19:32

26、Azure SQL与Azure Data Lake:功能、安全与性能优化全解析

Azure SQL与Azure Data Lake:功能、安全与性能优化全解析 1. Azure SQL 入门 在完成 Azure SQL 数据库的配置并感到满意后,点击“创建”按钮,即可启动资源预配过程。完成后,可以通过“概述”页面访问基本信息。接下来,让我们深入了解 Azure SQL 的各项功能,以便更好地使…

作者头像 李华
网站建设 2025/12/15 13:34:05

23、深入了解Azure Service Bus:功能、开发与安全保障

深入了解Azure Service Bus:功能、开发与安全保障 1. Azure Service Bus实体类型 Azure Service Bus支持三种不同类型的实体,它们在处理通信时提供了不同的选择: - 队列(Queues) :是服务中最简单的实体。涉及的概念有: - 生产者(Producer) :向队列推送消息的…

作者头像 李华