【导语:视觉 - 语言 - 动作(VLA)模型部署时易因环境变化性能下降,复旦大学邱锡鹏教授团队提出“上下文世界建模”(ICWM)方法,显著提升了 VLA 模型在新环境中的适应能力。】
视觉 - 语言 - 动作(VLA)模型部署时,相机视角等稍有变化性能就可能下降。以往的“上下文学习”靠人工演示任务,环境改变时需重新收集数据、调模型,费时费力。而 ICWM 让机器人在任务执行前进行随机探测,将交互过程作为上下文输入模型来判断系统运作。
ICWM 设计分训练和推理阶段。训练阶段,在每个任务样本前拼接与任务无关的交互片段作为上下文输入,模型根据画面变化判断系统配置,且直接用 VLA 主干处理交互历史,简化结构并利于动作预测。
推理阶段,机器人先进行主动探测,记录动作前后观测变化形成交互上下文,再结合当前上下文、画面和任务指令判断后续动作。
在跨视角、真实机器人和多种分布外扰动实验中,ICWM 表现出色。在 LIBERO 仿真基准跨视角实验中,已见视角下比仅依赖多视角训练的方法平均高出8.1%,新视角下高出13.0%,长时序任务累积误差控制更好。
在 UR5e 真实机器人平台上,标准 VLA 从训练视角切换到测试视角后平均成功率从68%降至17%,ICWM 稳定性更强。消融实验表明其性能提升来自交互上下文,且不依赖特定探测方式,不同探测策略成功率提升约15%至27%,对机器人形态变化和语义扰动场景也有适应性。
尽管 ICWM 提升了 VLA 模型新环境适应能力,但仍有不足。部分极端视角下性能提升有限,因存在严重遮挡和目标移出视野问题,未来需结合多视角感知等能力。语义扰动实验中提升也有限,扩充训练数据场景语义和组合配置有望提升其在该场景表现。
编辑观点:ICWM 为 VLA 模型发展带来新突破,提升了适应能力,但仍有改进空间。未来若能解决不足,将推动机器人在复杂环境下的应用。