这篇论文主要的工作也是要研究如何用人类演示视频来训练机器人。先通过 MUNIT 模型(无监督图像翻译)把人类演示视频逐帧转化为机器人视角的视频 —— 翻译后的视频可能有视觉伪影,缺少结构化关键信息,无法直接用于训练;接着用 Transporter 模型从翻译后的机器人视频中提取关键点轨迹(比如机器人末端、物体中心的运动轨迹);最后用这些轨迹作为强化学习的训练目标,让机械臂的关键点轨迹与目标轨迹尽可能一致,从而学会操作技能。
那么Transpoprter模型是怎么弄出来的呢?为什么我们可以以一个无监督的方式训练出来一个Transporter模型?具体流程是这样:
- 取机器人视频的相邻两帧 x1(前一帧)和 x2(当前帧),先用视觉特征提取器 Φ 提取两帧的特征图 Φ(x1)、Φ(x2);再用关键点检测器 Ψ 生成两帧的关键点坐标,并基于坐标生成高斯热图 HΨ(x1)、HΨ(x2)—— 这两个热图用来标记两帧中 “模型认为的关键区域”(一开始 Ψ 不够精准,需要通过训练优化)。
- 基于热图做特征迁移:以 x1 的特征图 Φ(x1) 为基础,保留其非关键区域的特征,同时把关键区域的特征替换成 x2 的关键区域特征,得到迁移后的特征图Φ^(x1,x2);再用重建网络 R 把这个特征图还原成图像x2^,并和真实的 x2 对比。
- 若 Ψ 提取的关键点是准确的,还原后的x2^会和真实 x2 高度相似,二者的差异(重建损失Ltransporter)就小;若关键点提取错误,差异会变大 —— 模型通过这个损失反向优化 Ψ,直到能精准提取机器人视频中的关键区域。
经过上述训练,我们就得到了能准确提取关键信息的 Transporter 模型,其核心组件 Ψ 就是我们用来提取关键点轨迹的工具。