news 2026/2/26 8:49:35

【论文自动阅读】视频生成模型的Inference-time物理对齐 with Latent World Model

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】视频生成模型的Inference-time物理对齐 with Latent World Model

快速了解部分

基础信息(英文):

1.题目: Inference-time Physics Alignment of Video Generative Models with Latent World Models
2.时间: 2026.01
3.机构: FAIR, Meta Superintelligence Labs, University of Oxford, Mila-Québec AI Institute, Columbia University, McGill University, Canada CIFAR AI Chair
4.3个英文关键词: Video Generation, Physics Plausibility, Latent World Models

1句话通俗总结本文干了什么事情

本文提出了一种在推理阶段利用潜在世界模型(Latent World Models)作为奖励信号来校准视频生成模型的方法,从而在不重新训练模型的情况下显著提升生成视频的物理合理性。

研究痛点:现有研究不足 / 要解决的具体问题

当前最先进的视频生成模型虽然视觉效果尚可,但往往违背基本物理原理(如物体运动、流体动力学等),导致生成的视频物理上不真实。现有研究通常认为这是预训练阶段缺乏物理理解导致的,而本文发现推理策略的次优也是导致物理不合理的重要原因。

核心方法:关键技术、模型或研究设计(简要)

本文提出了WMReward,利用 VJEPA-2(一种潜在世界模型)的“惊喜分数”(Surprise Score)作为物理合理性的奖励信号。通过 Best-of-N (BoN) 搜索和引导采样(Guidance)策略,在推理时搜索和引导去噪轨迹,从而从倾斜的物理合理分布中采样。

深入了解部分

相比前人创新在哪里

  1. 视角转变:不同于以往通过改进预训练或后训练注入物理知识的方法,本文将提升物理合理性的任务视为一个推理时对齐(Inference-time alignment)问题
  2. 奖励信号源:证明了潜在世界模型(Latent World Models)比现有的视觉语言模型(VLMs)或像素级重建模型更能有效作为物理合理性的代理指标。
  3. 扩展性:展示了通过增加推理时的计算量(搜索空间),模型性能有显著的提升效果。

解决方法/算法的通俗解释

想象你在生成视频时,有一个“物理监考老师”(VJEPA-2模型)在旁边看着。这个老师不关心画面的细节像素,只关心物理规律对不对。

  1. 打分:老师根据生成的画面与它预测的物理状态之间的差异给出一个“惊喜分”(差异越大,分数越高/越负面)。
  2. 修正:利用这个分数,系统在生成时会进行“多次尝试”(Best-of-N)或者“边画边改”(Guidance),专门挑选那些符合物理规律的视频帧,从而让最终生成的视频不仅好看,而且动得合理。

解决方法的具体做法

  1. 构建奖励函数:利用 VJEPA-2 的预测误差(生成未来的表征与模型预测表征之间的余弦距离)定义为WMReward
  2. 采样策略
    • Best-of-N (BoN):从基础模型中生成 N 个候选视频,选择 WMReward 分数最高的一个。
    • Guidance (V):利用奖励函数的梯度直接干预扩散模型的去噪过程,引导生成轨迹向高奖励(物理合理)区域移动。
    • 组合策略 (V+BoN):结合上述两种方法,既利用梯度引导,又进行最终筛选。

基于前人的哪些方法

  1. VJEPA-2:作为奖励模型的基础,利用其在压缩潜在空间中学习到的强大物理先验。
  2. 扩散/流匹配模型:作为基础的视频生成模型(如 MAGI-1 和 vLDM)。
  3. 推理时对齐(Inference-time alignment):借鉴了图像生成领域中利用奖励模型进行搜索或引导的思路(如 Best-of-N, Classifier Guidance)。

实验设置、数据、评估方式、结论

  • 模型:MAGI-1 (24B autoregressive model) 和 vLDM (5B holistic diffusion model)。
  • 数据集:PhysicsIQ (I2V, V2V), VideoPhy (T2V)。
  • 评估方式
    • 自动指标:PhysicsIQ 分数(结合 IoU, MSE 等);VideoPhy 的物理一致性 (PC) 和语义一致性 (SA)。
    • 人工评估:针对物理合理性、视觉质量和提示词对齐进行成对偏好打分。
  • 结论
    • 在 PhysicsIQ 挑战赛中以62.64%的得分获得第一名,超越之前的 SOTA 7.42%。
    • 在 VideoPhy 上,物理一致性(PC)显著提升。
    • 人工评估显示,相比基线,物理合理性胜率达到 54.9% - 59.3%。
    • 验证了 WMReward 在增加搜索粒子数(N)时具有良好的扩展性。

提到的同类工作

  1. VLM-based methods:如 Xue et al. (2025) 使用 VLM 重写提示词,Yang et al. (2025b) 使用 VLM 规划运动。
  2. Pre-training methods:如 Yuan et al. (2025b), Chefer et al. (2025) 等试图在预训练阶段注入物理信息。
  3. Other Inference methods:如 SMC (Singhal et al., 2025) 和 SVDD (Li et al., 2024a) 等推理时搜索算法。

和本文相关性最高的3个文献

  1. Assran et al., 2025 (VJEPA-2):本文直接复用其作为奖励模型的基础,是 WMReward 的核心来源。
  2. Motamed et al., 2025 (PhysicsIQ):提出了物理合理性的基准测试,是本文主要的实验验证平台。
  3. Garrido et al., 2025 (Intuitive physics in VJEPA):证明了 VJEPA 模型中自然涌现出直观物理理解(如物体恒常性),为本文利用 VJEPA 作为物理奖励提供了理论依据。

我的

利用VJEPA-2作为奖励信号来训练视频生成模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/16 14:54:23

[特殊字符] Local Moondream2创意设计支持:为插画师提供风格拆解建议

🌙 Local Moondream2创意设计支持:为插画师提供风格拆解建议 1. 为什么插画师需要“看得懂图”的本地工具? 你有没有过这样的经历: 花一小时精心绘制一张角色设定稿,想用AI快速生成同风格的多角度参考图,…

作者头像 李华
网站建设 2026/2/22 0:40:15

RMBG-2.0实操手册:右键保存PNG文件后如何用GIMP验证Alpha通道

RMBG-2.0实操手册:右键保存PNG文件后如何用GIMP验证Alpha通道 1. 背景介绍 RMBG-2.0是BRIA AI开源的新一代背景移除模型,基于BiRefNet架构,通过双边参考机制同时建模前景与背景特征,能够实现发丝级精细分割。这个模型支持人像、…

作者头像 李华
网站建设 2026/2/18 1:27:37

破解数学难题:AI应用架构师的5大AI驱动方法论与案例

破解AI落地“数学难题”:AI应用架构师的5大驱动方法论与实战案例 引言:为什么85%的AI项目没做成? 2023年,Gartner发布的《AI技术成熟度曲线》里有个扎心的数据:85%的企业AI项目无法交付真正的业务价值。 我曾见过这…

作者头像 李华
网站建设 2026/2/25 0:07:54

固定资产损耗腰斩秘籍:RFID 系统实战拆解,降本增效竟这么简单!

一、引言:别让固定资产损耗,悄悄啃光你的利润很多企业在做年度经营分析时都会发现一个现象: 业务在增长,收入没问题,但利润却总是“差一口气”。问题往往不在前端,而在后台—— 固定资产,正在以…

作者头像 李华