【论文自动阅读】Diffusion Reward: Learning Rewards via Conditional Video Diffusion-开发者社区

快速了解部分

基础信息（英文）：

题目: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
时间: ECCV2024
机构: Shanghai Qi Zhi Institute, The Chinese University of Hong Kong, Sichuan University, Tsinghua University, Shanghai AI Lab
3个英文关键词: Diffusion Models, Reward Learning, Visual Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为“Diffusion Reward”的新框架，利用视频扩散模型从专家演示视频中学习奖励函数，从而指导强化学习智能体解决复杂的视觉操作任务。

研究痛点：现有研究不足 / 要解决的具体问题

在强化学习（RL）中，手动设计密集奖励函数非常困难，尤其是在只有稀疏奖励（成功/失败）的视觉任务中。虽然现有方法尝试从无标签的专家视频中学习奖励，但基于生成对抗网络（GAN）的方法忽略了时间信息且训练不稳定，而基于视频预测模型（如VideoGPT）的方法难以对具有复杂动态的专家视频分布进行建模，导致在分布外数据上表现不佳。

核心方法：关键技术、模型或研究设计（简要）

该方法利用预训练的条件视频扩散模型（Conditional Video Diffusion Model）来建模专家视频分布。其核心洞察是：在专家轨迹条件下，生成的多样性较低；而在非专家轨迹下，生成的多样性较高。因此，该方法将**条件熵（Conditional Entropy）**的负值作为奖励信号，鼓励智能体探索类似专家的行为。

深入了解部分

相比前人创新在哪里

奖励机制创新：不同于以往使用生成对抗网络（GAN）或视频预测模型的对数似然（Log-likelihood）作为奖励，本文首次提出使用条件视频扩散模型的条件熵作为奖励信号。
更强的泛化能力：利用扩散模型强大的生成能力，该方法不仅能处理复杂的视频动态，还能在未见过的任务上实现零样本（Zero-shot）泛化，而以往方法（如VIPER）在未见任务上往往失效。
结合探索奖励：巧妙地将基于专家数据的熵奖励与RND（随机网络蒸馏）的新颖性探索奖励结合，既利用了专家指导，又保持了探索的动力。

解决方法/算法的通俗解释

想象一下，你有一个能模仿专家动作的“预言家”（扩散模型）。

当智能体做出的动作像专家时，“预言家”对未来画面的预测非常确定（只有一种可能），这时候的“混乱程度”（熵）很低。
当智能体乱动时，“预言家”不知道接下来会发生什么（有很多种可能），这时候的“混乱程度”（熵）很高。
本文的方法就是奖励“低混乱程度”。智能体为了获得高奖励，就必须让“预言家”的预测变得确定，也就是必须模仿专家的动作。

解决方法的具体做法

预训练模型：使用专家视频训练一个基于VQ-Diffusion的条件视频扩散模型，该模型能根据历史画面预测未来画面。
计算奖励：在强化学习过程中，给定智能体的历史画面，利用扩散模型生成多个未来画面样本。
估计熵：计算这些生成样本的多样性（即条件熵）。生成的画面越一致（多样性低），说明当前轨迹越像专家，奖励越高（取负熵）。
混合奖励：将这个基于熵的奖励标准化后，与RND探索奖励和环境稀疏奖励加权求和，形成最终的密集奖励信号。

基于前人的哪些方法

VQ-GAN 和 VQ-Diffusion：用于将高维图像压缩为离散码本，并在潜空间进行高效的视频扩散建模。
Random Network Distillation (RND)：用于提供内在探索奖励，解决单纯模仿专家可能忽略的探索问题。
DrQv2：作为底层的视觉强化学习算法，用于处理图像输入并学习策略。

实验设置、数据、评估方式、结论

实验环境：MetaWorld（7个机械臂操作任务）和 Adroit（3个灵巧手操作任务），仅使用RGB图像输入和稀疏奖励。
数据：使用脚本策略或高性能RL算法生成的少量专家视频（MetaWorld每任务20个，Adroit每任务50个）。
评估方式：成功率曲线（Success Rate）随训练步数的变化，对比基线方法的表现。
结论：
- 在10个视觉操作任务上，性能显著优于基线（比最佳基线提升38%和35%）。
- 证明了该方法具有零样本泛化能力，能直接在未见过的任务上产生合理的奖励并指导RL训练。
- 实物机器人实验验证了其在真实世界任务（如抓取碗）中的有效性。