论文:EmbRACE-3K: Embodied Reasoning and Action in Complex Environments
1. 引言
研究背景
近年来,视觉语言模型(Vision-Language Models, VLMs)在离线被动的理解任务中表现出色,包括图像标注、视频摘要、视觉问答。然而,当这些模型被应用于需要在线交互和主动场景理解的具身场景时,其有效性却大打折扣。具身场景要求智能体以第一人称视角感知环境,并通过每一次动作动态地影响后续的观察结果。这种动态、闭环的感知-动作循环对模型的推理和规划能力提出了更高要求。
尽管GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL等先进模型在静态视觉和语言信息对齐方面表现出色,但在开放环境交互中,它们在空间推理和长期规划方面却存在明显局限。
研究目的
本研究旨在填补现有VLMs在具身推理方面的研究空白,通过构建一个大规模、高质量的具身推理与行为数据集——EmbRACE-3K,推动该领域的研究发展。具体目标包括:
- 提供丰富多样的训练数据:EmbRACE-3K数据集将包含3000多个由语言引导的任务,这些任务位于利用虚幻引擎和UnrealCV-Zoo框架构建的多样化、逼真的环境中。任务涵盖导航、物体操作和多阶段目标执行等广泛具身挑战,为模型提供丰富的多模态交互数据。
- 支持多模态学习任务:数据集将提供详细的文本标注、动作标注、环境状态标注等多模态信息,支持具身推理、行为生成、多模态对话建模等多种学习任务。
- 建立评估基准:利用EmbRACE-3K数据集,建立一个基准,用于从探索、动态空间语义推理和多阶段目标执行三个关键维度评估VLMs的具身推理能力。
- 推动模型改进:通过两阶段微调(监督微调SFT和强化学习RL)方法,展示EmbRACE-3K数据集在提升VLMs具身推理能力方面的有效性,为未来研究提供参考和借鉴。
相关工作
EmbRACE-3K通过在照片级虚幻引擎环境中构建一个完全逐步、时空grounded和闭环的评估框架。每个决策步骤不仅与以自我为中心的观察和有根据的行动配对,还与捕捉代理意图和中间思维过程的显式推理注释配对。
| Fidelity Level | 含义 | 典型环境 |
|---|---|---|
| Game-based | 基于游戏引擎的简化图形(如Minecraft、Habitat) | Octopus, MCU |
| Real-world | 来自真实世界的图像/视频 | HabitatNav, MindCube |
| Photo-Realistic | 由高质量渲染引擎生成环境,视觉效果接近真实照片 | ALFRED, EmbRACE-3K |
2. 三大难题
下面揭示了VLM在具身环境中的基本局限性
“短视探索”现象
AI在主动探索任务中,模型倾向于关注眼前的视觉线索,缺乏制定长期目标的能力,即常表现出“短视”行为。比如,面对“找到红色汽车并走近它”的任务,AI可能只向左看一眼,没看到目标就立即转向,缺乏系统性的搜索策略。这种行为源于AI训练时从未学会如何主动寻找信息。“动态空间语义漂移”
由于缺乏以自我为中心的姿势意识,随着主体的移动,对空间关系的解释变得不稳定。在“走近第二个垃圾桶”任务中,智能体最初会对空间线索做出正确反应,但随着视野的变化而无法适应。顺序和方向术语,如“第二”和“前面”,与主体的当前方向分离,导致连续的语义错位。“目标遗忘”现象
AI在执行多阶段任务时,容易遗忘目标。例如,“先走到垃圾桶旁边,再走向红色汽车”,AI可能完成第一个目标后,完全忘记了第二个目标。这反映了AI在长期记忆和目标维护方面的根本缺陷。
3. 数据集构建
EmbRACE-3K中的所有数据都是在UnrealCV-Zoo框架中收集的,该框架扩展了具有第一人称控制和低级别API访问的Unreal引擎。
该数据集旨在捕捉交互式具体任务所需的完整感知推理动作循环,记录了人类在各种环境中如何观察、思考和行动。整个过程分为四个阶段:
环境采样和姿态选择
在100个逼真的虚拟环境中选择24个多样化的地图,利用自动化脚本和手动检查相结合的方式采样智能体的多样化姿态,并记录每个姿态的6-DoF坐标和第一人称视角的RGB图像。
任务指令生成
为每个选定的智能体姿态,检索半径1000米内的对象级元数据,并将其与第一人称视角的RGB图像一起提供给Gemini 2.5 Pro模型,以生成自然语言任务指令。指令类型包括基本型、探索型、动态空间语义型、多阶段型和交互型五种。生成的指令需要经过人工审核。
基本:目标清晰可见,可立即到达,需要最少的推理。
探索:目标最初不在视野中,提示代理执行主动搜索。
动态空间语义:使用相对或顺序空间引用来描述目标。
多阶段:任务要求按特定顺序完成一系列子目标。
交互:任务需要直接操作(例如,打开门、拾取或放下物体)。
人工演示和轨迹捕捉
由人类玩家执行每个生成的任务指令,并记录所有第一人称视角的帧、执行的动作和精确的姿态轨迹
逐步推理注释
Gemini接收任务指令、完整的自我中心视图和整个动作轨迹,推理所选动作的原因和意图,提供决策层面的监督。
为了确保高质量和可解释的数据,应用了一系列后处理和分析步骤来细化原始数据集:
- 过滤掉超过32个步骤的轨迹,确保任务之间的序列长度一致。
- 所有指令分为五种高级任务类型:基本、探索、动态空间语义、多阶段和交互,交互类细分为打开门、拾取并放下对象
4. 模型微调实验
4.1 微调![]()
选取Qwen2.5-VL-7B作为基础模型,通过监督微调(SFT)和强化学习(RL)相结合的方式进行微调,以评估EmbRACE-3K数据集在提升模型具身推理能力方面的有效性
逐步解释该图(b)中GRPO强化学习的工作机制:
1. 输入阶段:Prompt 构造
- System prompt:定义系统角色或总体指令
- Task prompt:是具体场景任务,例如「走到红色门前并打开它」。
2. 生成阶段:候选动作组(Group Samples)
- Policy Model(当前策略模型 πθold)接收 prompt 后,针对同一问题 q 生成一组候选响应 {o₁,o₂,…,oG}。
- 每个响应可以是一个 “thinking → action” 序列,即智能体的推理过程与执行动作。
- 多个候选的生成对应 GRPO 中的 “Group” 概念:同一 prompt 下生成多个输出样本。
3. 奖励计算阶段:
每个候选响应都会被赋予奖励 rᵢ,由论文中提到的基于规则的奖励函数计算,例如:
- Accuracy Reward(准确性奖励):判断行动是否完成目标任务(如成功导航到目标)。
- Format Reward(格式奖励):评估输出是否符合规定的输出结构(例如 JSON 格式或 “thinking→action” 规范)。
这些奖励形成集合 {r₁,r₂,…,rG} ,对应生成样本组 {o₁,o₂,…,oG}。
4. 相对优势估计(Group Relative Advantage)
求取每个样本的优势
Ai=ri−mean({r1,r2,…,rG})std({r1,r2,…,rG})A_{i}=\frac{r_{i}-\text{mean}(\{r_{1},r_{2},\dots,r_{G}\})}{\text{std}(\{r_{1},r_{2},\dots,r_{G}\})}Ai=std({r1,r2,…,rG})ri−mean({r1,r2,…,rG})
这一步是GRPO 的核心:利用组内平均奖励作为基线(baseline)代替传统 PPO 中的价值网络,从而只需策略模型与参考模型两部分。
5. 策略更新阶段
通过最大化以下目标函数来训练更新的模型Policy Model(πθ)
优化目标:
其中,G=6,ϵ and β 是超参数,q是给定条件,策略模型和参考模型都基于这个条件生成响应,Reference Model用来约束策略更新,确保新策略不会过度偏离参考模型的分布
经过优化后,得到新的 Policy Model,即经过 GRPO 微调后的策略。
6. 输出与更新
新的 Policy Model 性能更优,能够生成更合理的“thinking + action” 序列,从而提升智能体在复杂环境下的推理与执行能力。
整体流程理解
- 输入 prompt;
- 生成多组思考-行动候选;
- 计算奖励(准确性 + 格式等);
- 基于 GRPO 相对优势更新策略;
- 得到改进后的 Policy Model。
4.2 实验设置及结果
实验设置:
基准测试中定义六种任务类型:基本、探索、动态空间语义、多阶段、交互-开门、交互-拾取和删除
测试prompt由任务指令、当前场景的简要描述和之前执行的操作历史组成。对于视觉输入,提供当前时间步的第一人称自我中心视图,以及最近的五个帧和初始帧。
Qwen2.5-VL-sft-rl:我们完全微调的变体,从EmbRACE-3K上的sft开始,并使用强化学习和轨迹级奖励整形进行进一步训练。
-Qwen2.5VL-sft-only:一个仅在我们的数据集上使用sft训练的模型,没有额外的RL优化。
Qwen2.5-VL-no thinking:一种通过SFT训练的消融变体,其中所有思维链()推理注释都从输入中删除。该模型分离了显式推理监督对决策绩效的贡献
评价指标:
成功率(SR):此指标衡量代理成功完成的任务比例
目标距离误差(GDE):agent的最终位置和指定目标之间的欧几里德距离,对于多阶段任务,GDE被计算为到每个子目标的距离之和。
按路径长度加权的基于步骤的成功(SSPL):评估已经成功episode的效率
步骤(steps):该指标报告了agent每个episode采取的离散操作(例如向前移动、向左转弯)的平均数量,无论成功还是失败,反映了行为成本.
超时率(TR):超时率衡量代理在未完成任务的情况下超过最大步数阈值(例如32步)的事件比例。高TR表示经常效率低下或无法适当终止
5、总结
这项工作介绍了EmbRACE-3K,这是一种新的数据集和基准测试,旨在解决当前VLM在嵌入式交互场景中的局限性。EmbRACE-3K以多样化的环境和多动作为特色,在开放环境中促进动态、目标导向的研究。高质量的CoT注释通过将推理纳入空间规划来增强代理行为。这种方法弥合了教学任务和视觉输入之间的差距,使决策更加稳健和合乎逻辑。基准测试实验揭示了空间推理、长期规划和因果理解方面的重大挑战,强调了数据集在推进具身推理方面的价值。值得注意的是,与GPT-4o和Gemini 2.5 Pro相比,使用EmbRACE-3K对Qwen2.5-VL-7B等VLMs进行微调可以获得更优的性能。通过实现时间泛化并将感知与语言引导行为相结合,EmbRACE-3K为开发智能代理奠定了基础