news 2026/5/15 20:36:06

从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

大型生成模型在图像编辑和上下文图像生成上进步显著,但在确保物理一致性上有关键差距。论文提出 ChronoEdit 框架,把图像编辑重新定义为视频生成问题,利用大型预训练视频生成模型捕捉对象运动和交互的隐式物理特性,还引入时间推理阶段,通过目标帧与推理标记联合去噪构建合理编辑轨迹,限制解空间在物理可行变换范围,推理标记经几步后丢弃以降低成本。此外,引入新基准测试 PBenchEdit,验证了 ChronoEdit 在视觉保真度和物理合理性上超越先进基线方法。

时间推理可视化

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

在参考图像和编辑图像的潜在变量之间引入了时间推理标记,作为中间指导,帮助模型“思考”可能的编辑轨迹。在推理阶段,为了提高效率,这些标记无需完全去噪;

物理人工智能相关任务

ChronoEdit 生成的编辑能够忠实地遵循物理一致性,这对于物理 AI 相关场景(例如自动驾驶车辆或人形机器人)尤其重要。

相关链接

  • 论文标题: ChronoEdit:面向图像编辑和世界模拟的时间推理
  • 论文: https://arxiv.org/pdf/2510.04290
  • 主页: https://research.nvidia.com/labs/toronto-ai/chronoedit
  • 体验:https://huggingface.co/spaces/nvidia/ChronoEdit
介绍

大型生成模型的最新进展极大地增强了图像编辑和上下文图像生成能力,但在确保物理一致性方面仍然存在关键差距,即编辑后的对象必须保持连贯性。这种能力对于世界模拟相关任务尤为重要。

论文提出了 ChronoEdit 框架将图像编辑重新定义为视频生成问题。 首先,ChronoEdit 将输入图像和编辑后的图像视为视频的首帧和末帧,从而能够利用大型预训练视频生成模型,这些模型不仅能够捕捉对象的外观,还能通过学习到的时间一致性来捕捉运动和交互的隐式物理特性。其次,ChronoEdit 引入了一个时间推理阶段,该阶段在推理阶段显式地执行编辑操作。在此设置下,目标帧与推理标记联合去噪,以构建一个合理的编辑轨迹,将解空间限制在物理上可行的变换范围内。

推理标记在经过几个步骤后被丢弃,以避免渲染完整视频带来的高昂计算成本。为了验证 ChronoEdit 的性能,引入了 PBenchEdit,这是一个针对需要物理一致性的上下文的图像-提示对的新基准测试,并证明 ChronoEdit 在视觉保真度和物理合理性方面均超越了最先进的基线方法。

方法概述

ChronoEdit流程概述。从右至左,去噪过程始于时间推理阶段,在此阶段,模型会想象并去噪一系列中间帧的短轨迹。这些中间帧充当推理标记,指导编辑以物理上一致的方式展开。为了提高效率,推理标记会在后续的编辑帧生成阶段被丢弃,在该阶段,目标帧会被进一步细化为最终的编辑图像。

实验结果

与基线方法的比较。前两行展示了 ImageEditBasic-Edit Suite(Ye 等人,2025)基准测试的示例,最后一行来自 PBench-Edit,其中 ChronoEdit-Think使用 10 个时间推理步骤进行评估。在两个基准测试中,ChronoEdit 都实现了更忠实地遵循给定指令的编辑,同时保留了场景结构和细节。

关于物理人工智能世界模拟相关任务的定性结果。所有结果均由 ChronoEdit-14B-Think 生成。每组结果均包含一张参考图像(左)和相应的输出图像(右)。ChronoEdit 生成的编辑结果能够精确地遵循给定的指令,同时保留物理人工智能相关场景的场景结构和精细细节。

结论

ChronoEdit 是一个用于图像编辑的基础模型,旨在确保物理一致性。通过重新利用预训练的视频扩散模型并引入时间推理阶段,该方法在保持输入和编辑输出之间一致性的同时,生成合理的变换。大量实验表明,ChronoEdit 在开源模型中达到了最先进的性能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 16:49:07

不只是大模型:全球工业智能体排名与格局

当“工业大模型”仍在被反复讨论时,真正开始进入生产系统、参与决策并产生结果的,已经是另一类角色——工业智能体(Industrial AI Agent)。它们不再停留在预测、分析或建议层,而是以目标为导向,持续感知工业…

作者头像 李华
网站建设 2026/5/1 7:50:03

吐血推荐! AI论文工具 千笔 VS 万方智搜AI,本科生写作神器!

随着人工智能技术的迅猛发展,AI辅助写作工具已经逐渐成为高校学生完成毕业论文的重要助手。越来越多的本科生开始借助这些工具来提升写作效率、优化内容结构,甚至解决选题困难等问题。然而,面对市场上种类繁多的AI写作软件,许多学…

作者头像 李华
网站建设 2026/5/13 5:48:21

网页设计交互音效去哪找?10个免费网站排名(2026)

根据艾瑞咨询发布的《2025年中国数字创意素材行业发展白皮书》显示,2024年国内网页设计师对免费交互反馈音效的需求同比增长35%,其中72%的设计师更倾向于选择无版权纠纷的素材平台。这一趋势反映出设计师群体在控制项目成本的同时,对素材质量…

作者头像 李华
网站建设 2026/5/8 19:47:42

【课程设计/毕业设计】基于SSM的一线式酒店管理系统预订、登记、退房全流程线上化,房态实时同步【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/2 22:25:13

Ant Design 项目集成阿里 Iconfont 图标库

文章目录1. 为什么要封装?2. 实现步骤第一步:资源准备1. 下载已经加入购物车的矢量图(选中Symbol)2. 把iconfont.js这个js文件放到项目中第二步:组件实现 (IconFont/index.jsx)第三步:样式定义 (IconFont.m…

作者头像 李华