news 2026/4/28 23:00:59

【论文自动阅读】Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manip

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manip

快速了解部分

基础信息(英文):

  1. 题目: Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manipulation
  2. 时间: 2026.01
  3. 机构: Peking University, Beijing Academy of Artificial Intelligence, University of Sydney, Institute of Automation, Chinese Academy of Sciences
  4. 3个英文关键词: Visual Sketch, Long-Horizon Planning, Human-in-the-Loop

1句话通俗总结本文干了什么事情

本文提出了一种名为Action-Sketcher的机器人框架,通过在“看”和“动”之间增加“思考”和“画草图”的步骤,让机器人能更可靠地完成复杂的长程任务。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 空间模糊性:现有的视觉语言动作(VLA)模型通常依赖文本线索,缺乏显式的视觉中间表示,导致在杂乱场景中难以准确指代物体(例如“把茶倒进杯子”在有多个杯子时会困惑)。
  2. 时间脆弱性:缺乏持久的全局意图建模,难以进行有效的长程任务分解,且无法在动态交互中进行实时修正。
  3. 缺乏可解释性:计划意图通常嵌入在潜在空间中,人类无法直观理解或干预机器人的决策过程。

核心方法:关键技术、模型或研究设计(简要)

提出了一种“看-思-画-动(See-Think-Sketch-Act)”的循环框架。模型首先进行时空推理,然后生成包含点、框、箭头的显式视觉草图(Visual Sketch),最后基于草图生成动作。

深入了解部分

相比前人创新在哪里

  1. 显式视觉中间表示:引入了Visual Sketch作为高阶推理与低阶控制之间的可验证接口,将语言与场景几何结构结合。
  2. 人机协同的可编辑性:视觉草图不仅是机器的中间步骤,也是人类可以直观干预和修正的界面(Human-in-the-Loop)。
  3. 自适应令牌门控机制:模型能自主决定何时进行推理(生成草图)和何时直接执行动作,平衡了实时性与复杂任务的处理能力。

解决方法/算法的通俗解释

想象你教一个新手整理房间。

  • 以前的方法:你只告诉他“去整理桌子”,他得自己猜怎么动,容易搞错。
  • 本文的方法:他先看一眼房间(See),然后停下来想一下(Think),接着在桌子上用手指画出路线图(Sketch)——比如圈出要拿的笔,画个箭头指向垃圾桶。最后他根据这个“路线图”动手(Act)。如果画错了,你也能一眼看出来并帮他改,改完他再动。

解决方法的具体做法

  1. 视觉草图定义:定义了三种几何原语——(定位目标物体)、(关键接触点)、箭头(运动轨迹或旋转方向)。
  2. 双模式推理
    • 推理模式:生成< BOR >令牌,输出子任务文本和对应的视觉草图。
    • 动作模式:生成< BOA >令牌,利用流匹配(Flow Matching)模型根据草图生成动作序列。
  3. 三阶段课程学习
    • 阶段1:基础时空学习(预训练)。
    • 阶段2:推理到草图增强(学习生成正确的草图)。
    • 阶段3:草图到动作及模式适应(学习根据草图执行动作并切换模式)。

基于前人的哪些方法

  1. π0 (pi0):作为本文的VLA模型骨干(Backbone),用于处理视觉和语言输入以及动作生成。
  2. Flow Matching:用于在动作模式下生成连续的动作块。
  3. GPT-4o:用于辅助生成训练数据中的推理链和草图标注。

实验设置、数据、评估方式、结论

  1. 实验设置:在RoboTwin 2.0(仿真)和真实机械臂(Aloha AgileX, Galaxea R1)上进行测试。
  2. 数据:结合了合成数据(LIBERO, RoboTwin 2.0)和真实世界数据(整理桌面、倒茶、抓取放置),包含多视角图像、文本指令、视觉草图监督和动作序列。
  3. 评估方式:任务成功率(Success Rate)、子任务完成率、与SOTA模型(如OpenVLA, π0等)的对比。
  4. 结论
    • 在长程和复杂空间任务(如倒茶、叠方块)上显著优于现有SOTA模型。
    • 人类通过修正草图能大幅提高任务成功率(例如在整理桌面任务中从27.6%提升至75.0%)。
    • 消融实验证明了视觉草图和分阶段训练的重要性。

提到的同类工作

  1. RT-SKETCH:利用手绘草图在模糊和干扰物下进行目标条件模仿学习。
  2. TRACEVLA:注入视觉轨迹提示以增强空间时间意识。
  3. π0 (pi0):具有开放世界泛化能力的分层VLA模型(本文基于此改进)。
  4. OpenVLA:开源的视觉语言动作模型(作为基准对比)。
  5. RT-2:视觉语言动作模型,将网络知识迁移到机器人控制。

和本文相关性最高的3个文献

  1. π0:本文直接采用了π0作为基础模型架构和骨干网络,是本文方法实现的基础。
  2. RT-SKETCH:本文在“利用视觉草图引导机器人动作”这一思路上与RT-SKETCH有直接的继承和对比关系,但本文强调的是模型自动生成的可编辑草图。
  3. GPT-4o:本文利用GPT-4o生成了训练所需的推理链数据和部分标注,是其数据构建流程中的关键技术。

我的

感觉弄的有点复杂,要是能在隐空间进行应该好一些。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 9:25:25

程序员必看:细粒度多模态大模型——从入门到精通的收藏级指南

本文系统综述了细粒度多模态大模型(FG-MLLMs)的研究进展。针对多模态大模型在精细感知场景中的局限性&#xff0c;文章建立了类别、空间和时间三维分类体系&#xff0c;分析了模型架构局限、数据稀缺和精度效率矛盾三大挑战。未来研究将聚焦于精度-泛化-效率权衡、知识增强、理…

作者头像 李华
网站建设 2026/4/24 1:24:43

LangGraph 1.0核心概念详解:从零开始构建智能体工作流

文章介绍了LangGraph 1.0作为构建智能体工作流的核心框架&#xff0c;详细讲解了状态(State)、节点(Node)和边(Edge)三大核心概念。通过代码示例展示了如何定义状态、创建节点函数、构建图结构&#xff0c;以及处理并行执行和条件分支。文章还介绍了Reducer机制用于解决并行执行…

作者头像 李华
网站建设 2026/4/23 17:15:14

实验室多台密炼机集中监控管理系统方案

某实验室聚焦于密炼工艺&#xff0c;部署有多台密炼机设备。这些设备来源于不同品牌&#xff0c;内部的控制器主要包括西门子、三菱、台达等&#xff0c;协议多样&#xff0c;缺少集成。随着规模越来越大&#xff0c;设备越来越多&#xff0c;设备故障乃至闲置等现象频繁出现却…

作者头像 李华
网站建设 2026/4/23 14:25:26

色彩经济崛起,高光功能色母粒成关键材料

随着消费升级与工业设计精细化趋势的加速&#xff0c;塑料制品的视觉表现力成为产品竞争力的重要维度。高光功能色母粒作为一种能够实现鲜艳、均匀且持久着色的专用添加剂&#xff0c;正从幕后走向台前&#xff0c;成为汽车、包装、消费电子等行业的“色彩引擎”。根据QYResear…

作者头像 李华
网站建设 2026/4/25 23:06:39

【开题答辩全过程】以 基于SSM的高校实验室设备管理系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人&#xff0c;语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华