news 2026/1/2 10:52:41

EmbRACE-3K:复杂环境中的体现推理和行动

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
EmbRACE-3K:复杂环境中的体现推理和行动

论文:EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

1. 引言

研究背景
近年来,视觉语言模型(Vision-Language Models, VLMs)在离线被动的理解任务中表现出色,包括图像标注、视频摘要、视觉问答。然而,当这些模型被应用于需要在线交互和主动场景理解的具身场景时,其有效性却大打折扣。具身场景要求智能体以第一人称视角感知环境,并通过每一次动作动态地影响后续的观察结果。这种动态、闭环的感知-动作循环对模型的推理和规划能力提出了更高要求。

尽管GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL等先进模型在静态视觉和语言信息对齐方面表现出色,但在开放环境交互中,它们在空间推理和长期规划方面却存在明显局限

研究目的
本研究旨在填补现有VLMs在具身推理方面的研究空白,通过构建一个大规模、高质量的具身推理与行为数据集——EmbRACE-3K,推动该领域的研究发展。具体目标包括:

  • 提供丰富多样的训练数据:EmbRACE-3K数据集将包含3000多个由语言引导的任务,这些任务位于利用虚幻引擎和UnrealCV-Zoo框架构建的多样化、逼真的环境中。任务涵盖导航、物体操作和多阶段目标执行等广泛具身挑战,为模型提供丰富的多模态交互数据。
  • 支持多模态学习任务:数据集将提供详细的文本标注、动作标注、环境状态标注等多模态信息,支持具身推理、行为生成、多模态对话建模等多种学习任务。
  • 建立评估基准:利用EmbRACE-3K数据集,建立一个基准,用于从探索、动态空间语义推理和多阶段目标执行三个关键维度评估VLMs的具身推理能力。
  • 推动模型改进:通过两阶段微调(监督微调SFT和强化学习RL)方法,展示EmbRACE-3K数据集在提升VLMs具身推理能力方面的有效性,为未来研究提供参考和借鉴。

相关工作

EmbRACE-3K通过在照片级虚幻引擎环境中构建一个完全逐步、时空grounded和闭环的评估框架。每个决策步骤不仅与以自我为中心的观察和有根据的行动配对,还与捕捉代理意图和中间思维过程的显式推理注释配对。

Fidelity Level含义典型环境
Game-based基于游戏引擎的简化图形(如Minecraft、Habitat)Octopus, MCU
Real-world来自真实世界的图像/视频HabitatNav, MindCube
Photo-Realistic由高质量渲染引擎生成环境,视觉效果接近真实照片ALFRED, EmbRACE-3K

2. 三大难题

下面揭示了VLM在具身环境中的基本局限性

  • “短视探索”现象
    AI在主动探索任务中,模型倾向于关注眼前的视觉线索,缺乏制定长期目标的能力,即常表现出“短视”行为。比如,面对“找到红色汽车并走近它”的任务,AI可能只向左看一眼,没看到目标就立即转向,缺乏系统性的搜索策略。这种行为源于AI训练时从未学会如何主动寻找信息。

  • “动态空间语义漂移”
    由于缺乏以自我为中心的姿势意识,随着主体的移动,对空间关系的解释变得不稳定。在“走近第二个垃圾桶”任务中,智能体最初会对空间线索做出正确反应,但随着视野的变化而无法适应。顺序和方向术语,如“第二”和“前面”,与主体的当前方向分离,导致连续的语义错位。

  • “目标遗忘”现象
    AI在执行多阶段任务时,容易遗忘目标。例如,“先走到垃圾桶旁边,再走向红色汽车”,AI可能完成第一个目标后,完全忘记了第二个目标。这反映了AI在长期记忆和目标维护方面的根本缺陷。

3. 数据集构建

EmbRACE-3K中的所有数据都是在UnrealCV-Zoo框架中收集的,该框架扩展了具有第一人称控制和低级别API访问的Unreal引擎。

该数据集旨在捕捉交互式具体任务所需的完整感知推理动作循环,记录了人类在各种环境中如何观察、思考和行动。整个过程分为四个阶段:

  • 环境采样和姿态选择

    在100个逼真的虚拟环境中选择24个多样化的地图,利用自动化脚本和手动检查相结合的方式采样智能体的多样化姿态,并记录每个姿态的6-DoF坐标和第一人称视角的RGB图像

  • 任务指令生成

    为每个选定的智能体姿态,检索半径1000米内的对象级元数据,并将其与第一人称视角的RGB图像一起提供给Gemini 2.5 Pro模型,以生成自然语言任务指令。指令类型包括基本型、探索型、动态空间语义型、多阶段型和交互型五种。生成的指令需要经过人工审核。

    1. 基本:目标清晰可见,可立即到达,需要最少的推理。

    2. 探索:目标最初不在视野中,提示代理执行主动搜索。

    3. 动态空间语义:使用相对或顺序空间引用来描述目标。

    4. 多阶段:任务要求按特定顺序完成一系列子目标。

    5. 交互:任务需要直接操作(例如,打开门、拾取或放下物体)。

  • 人工演示和轨迹捕捉

    由人类玩家执行每个生成的任务指令,并记录所有第一人称视角的帧、执行的动作和精确的姿态轨迹

  • 逐步推理注释

    Gemini接收任务指令、完整的自我中心视图和整个动作轨迹,推理所选动作的原因和意图,提供决策层面的监督。

为了确保高质量和可解释的数据,应用了一系列后处理和分析步骤来细化原始数据集:

  • 过滤掉超过32个步骤的轨迹,确保任务之间的序列长度一致。
  • 所有指令分为五种高级任务类型:基本、探索、动态空间语义、多阶段和交互,交互类细分为打开门、拾取并放下对象

4. 模型微调实验

4.1 微调

选取Qwen2.5-VL-7B作为基础模型,通过监督微调(SFT)和强化学习(RL)相结合的方式进行微调,以评估EmbRACE-3K数据集在提升模型具身推理能力方面的有效性

逐步解释该图(b)中GRPO强化学习的工作机制:

1. 输入阶段:Prompt 构造

  • System prompt:定义系统角色或总体指令
  • Task prompt:是具体场景任务,例如「走到红色门前并打开它」。

2. 生成阶段:候选动作组(Group Samples)

  • Policy Model(当前策略模型 πθold接收 prompt 后,针对同一问题 q 生成一组候选响应 {o₁,o₂,…,oG}
    • 每个响应可以是一个 “thinking → action” 序列,即智能体的推理过程与执行动作。
    • 多个候选的生成对应 GRPO 中的 “Group” 概念:同一 prompt 下生成多个输出样本。

3. 奖励计算阶段:

每个候选响应都会被赋予奖励 rᵢ,由论文中提到的基于规则的奖励函数计算,例如:

  • Accuracy Reward(准确性奖励):判断行动是否完成目标任务(如成功导航到目标)。
  • Format Reward(格式奖励):评估输出是否符合规定的输出结构(例如 JSON 格式或 “thinking→action” 规范)。

这些奖励形成集合 {r₁,r₂,…,rG} ,对应生成样本组 {o₁,o₂,…,oG}。

4. 相对优势估计(Group Relative Advantage)

​ 求取每个样本的优势

Ai=ri−mean({r1,r2,…,rG})std({r1,r2,…,rG})A_{i}=\frac{r_{i}-\text{mean}(\{r_{1},r_{2},\dots,r_{G}\})}{\text{std}(\{r_{1},r_{2},\dots,r_{G}\})}Ai=std({r1,r2,,rG})rimean({r1,r2,,rG})
这一步是GRPO 的核心:利用组内平均奖励作为基线(baseline)代替传统 PPO 中的价值网络,从而只需策略模型与参考模型两部分。

5. 策略更新阶段

​ 通过最大化以下目标函数来训练更新的模型Policy Model(πθ

  • 优化目标:

    其中,G=6,ϵ and β 是超参数,q是给定条件,策略模型和参考模型都基于这个条件生成响应,Reference Model用来约束策略更新,确保新策略不会过度偏离参考模型的分布

  • 经过优化后,得到新的 Policy Model,即经过 GRPO 微调后的策略。

6. 输出与更新

新的 Policy Model 性能更优,能够生成更合理的“thinking + action” 序列,从而提升智能体在复杂环境下的推理与执行能力。


整体流程理解

  1. 输入 prompt;
  2. 生成多组思考-行动候选;
  3. 计算奖励(准确性 + 格式等);
  4. 基于 GRPO 相对优势更新策略;
  5. 得到改进后的 Policy Model。

4.2 实验设置及结果

实验设置:

基准测试中定义六种任务类型:基本、探索、动态空间语义、多阶段、交互-开门、交互-拾取和删除

测试prompt由任务指令、当前场景的简要描述和之前执行的操作历史组成。对于视觉输入,提供当前时间步的第一人称自我中心视图,以及最近的五个帧和初始帧。

Qwen2.5-VL-sft-rl:我们完全微调的变体,从EmbRACE-3K上的sft开始,并使用强化学习和轨迹级奖励整形进行进一步训练。

-Qwen2.5VL-sft-only:一个仅在我们的数据集上使用sft训练的模型,没有额外的RL优化。

Qwen2.5-VL-no thinking:一种通过SFT训练的消融变体,其中所有思维链()推理注释都从输入中删除。该模型分离了显式推理监督对决策绩效的贡献

评价指标

成功率(SR):此指标衡量代理成功完成的任务比例

目标距离误差(GDE):agent的最终位置和指定目标之间的欧几里德距离,对于多阶段任务,GDE被计算为到每个子目标的距离之和。

按路径长度加权的基于步骤的成功(SSPL):评估已经成功episode的效率

步骤(steps):该指标报告了agent每个episode采取的离散操作(例如向前移动、向左转弯)的平均数量,无论成功还是失败,反映了行为成本.

超时率(TR):超时率衡量代理在未完成任务的情况下超过最大步数阈值(例如32步)的事件比例。高TR表示经常效率低下或无法适当终止


5、总结

这项工作介绍了EmbRACE-3K,这是一种新的数据集和基准测试,旨在解决当前VLM在嵌入式交互场景中的局限性。EmbRACE-3K以多样化的环境和多动作为特色,在开放环境中促进动态、目标导向的研究。高质量的CoT注释通过将推理纳入空间规划来增强代理行为。这种方法弥合了教学任务和视觉输入之间的差距,使决策更加稳健和合乎逻辑。基准测试实验揭示了空间推理、长期规划和因果理解方面的重大挑战,强调了数据集在推进具身推理方面的价值。值得注意的是,与GPT-4o和Gemini 2.5 Pro相比,使用EmbRACE-3K对Qwen2.5-VL-7B等VLMs进行微调可以获得更优的性能。通过实现时间泛化并将感知与语言引导行为相结合,EmbRACE-3K为开发智能代理奠定了基础

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/15 23:16:45

无需高端显卡!Qwen3-8B在Linux下的低资源运行方案

无需高端显卡!Qwen3-8B在Linux下的低资源运行方案 在AI应用日益普及的今天,大模型似乎成了“显卡杀手”——动辄需要A100、H100这类专业级GPU才能跑得动,让中小企业和独立开发者望而却步。但现实是,大多数应用场景并不需要千亿参数…

作者头像 李华
网站建设 2025/12/20 3:57:52

Seed-Coder-8B-Base vs ChatGPT:谁更适合专业代码生成?

Seed-Coder-8B-Base vs ChatGPT:谁更适合专业代码生成? 在现代软件开发中,AI 代码生成已不再是“锦上添花”的实验性功能,而是逐渐成为开发者日常编码的“标配助手”。无论是快速搭建原型、补全函数逻辑,还是调试报错信…

作者头像 李华
网站建设 2025/12/18 7:04:14

Sunshine游戏串流终极指南:从零配置到4K HDR完美体验

还在为游戏串流的高延迟、画质损失而烦恼吗?当你渴望在客厅沙发上畅玩书房电脑里的3A大作,却总是遇到卡顿和色彩失真,这种体验确实令人沮丧。Sunshine作为开源的游戏串流服务器,配合Moonlight客户端,能够为你提供媲美本…

作者头像 李华
网站建设 2025/12/30 10:45:37

基于单片机的智能消防员小车设计与实现

一、设计背景与目标 在火灾救援中,高温、浓烟等环境对消防员生命安全构成严重威胁,亟需无人设备替代人工进入危险区域执行探测与初期灭火任务。基于单片机的智能消防员小车,旨在通过嵌入式技术与环境感知结合,实现火灾现场的自主巡…

作者头像 李华
网站建设 2025/12/26 15:43:23

Windows下Redis下载安装配置繁琐?先用Miniconda打好基础

Windows下Redis下载安装配置繁琐?先用Miniconda打好基础 在人工智能项目开发中,一个常见的尴尬场景是:你兴致勃勃地打开电脑,准备复现一篇论文或搭建一个缓存服务,结果卡在第一步——环境配置。尤其是在 Windows 系统上…

作者头像 李华
网站建设 2025/12/15 23:14:58

论文降重神器终极测评!3款论文降AIGC工具实测,AI率从90%降到10%

在论文、报告、内容创作越来越严格的时代,查AI率、检测AI率、降AI率 已经成为学生、写作者、博主的日常需求。很多同学因为 AI率过高被导师指出“AI痕迹太重”,甚至退回重写。本文今天一次性告诉你: 检测AI率应该注意什么 免费查AI率的网站有…

作者头像 李华