news 2026/4/15 21:05:37

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

这篇论文介绍了 R3D2,一个轻量级、一步式 (one-step) 的 diffusion model,旨在解决自动驾驶 (autonomous driving, AD) 仿真中逼真插入完整 3D 资产的挑战。传统的仿真平台虽然可控,但扩展资源消耗大,且存在与真实世界的领域差距 (domain gap)。神经重建方法如 3D Gaussian Splatting (3DGS) 为创建逼真的数字孪生提供了可扩展方案,但由于其基于逐场景优化的方法,往往导致动态对象模型不完整,并集成了光照效果,限制了动态操作和重用性。
R3D2 的核心方法是训练一个模型来为插入的 3D 资产生成 plausible 的渲染效果,例如阴影和一致的光照,从而实现逼真的实时插入。这通过在一个新的数据集 R3D3 上进行训练来实现。R3D3 数据集的构建流程包括三个主要阶段:资产生成 (asset generation)、场景重建与资产重新插入 (scene reconstruction and asset re-insertion) 和数据整理 (data curation)。

资产生成: 使用 image-conditioned 3D generative model Amodal3R [44] 从 in-the-wild AD 数据中生成完整的 3DGS 对象资产。Amodal3R 输入包括对象中心的图像裁剪、2D segmentation mask 和 foreground occlusion mask。foreground occlusion mask 通过使用 pix2gestalt [23] 估计 amodal segmentation mask 并与原始 segmentation mask 相减(以及腐蚀操作)获得。生成的资产表示为一组 3D Gaussian primitives。
场景重建与资产重新插入: 使用 state-of-the-art 的神经重建方法 SplatAD [9] 重建约 300 个 Waymo Open Dataset (WOD) [37] 序列的虚拟环境。SplatAD 将场景分解为 static background 和 dynamic actors,各由 Gaussian primitives 表示。论文对 SplatAD 进行了微小修改,禁用了 feature splatting 和 CNN 解码器,直接渲染 RGB 颜色,以便于跨场景传输对象。为了构建训练对 ($I_{input}, I_{target}$),首先移除原始场景中的动态 actor 及其对应的 Gaussian primitives(这也移除了它们投射的阴影)。然后,在移除的位置和姿态 (pose) 插入生成的 3DGS 资产。渲染修改后的场景(static background + 新的 3DGS 资产)得到输入图像 $I_{input}$。原始图像作为目标图像 $I_{target}$。$I_{input}$ 包含几何正确的资产,但缺乏逼真的环境集成效果(如阴影)。
数据整理: 由于 Amodal3R 生成的资产可能存在不完美,对生成的资产进行两阶段过滤:首先自动过滤 3D 形状与原始 3D bounding box 尺寸显著偏离的资产;然后进行手动检查,移除不逼真或有渲染瑕疵的资产,最终得到 5071 个高质量资产。这些资产及其重新插入场景构成 R3D3 数据集。

R3D2 模型被形式化为一个图像编辑任务。它是一个 one-step diffusion model,基于蒸馏 (distilled) 的 SD-Turbo [33] 构建,去除文本条件,以 image-to-image 方式工作。与 SDEdit [20] 不同,它从 degraded 的 $I_{input}$ 直接执行一个 backward diffusion step,不额外添加噪声,以更好地保留输入信息。模型架构包含 UNet 和 VAE。为了实时推理速度,使用了蒸馏版本的 VAE [2],并通过从 VAE encoder 到 decoder 添加 skip connections (zero-initialized zero convolutions) 来保留输入图像细节,遵循 [24, 17, 43]。训练采用 end-to-end 方式,固定 VAE encoder,UNet 和 VAE Decoder 使用 LoRA [12] 进行 fine-tuning,skip connections 从零开始训练。训练分辨率为 1080x1920。损失函数结合了 perceptual LPIPS [51] loss 和 Gram matrix [28] loss:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

其中,

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​​
实验评估表明 R3D2 显著提升了插入资产的逼真度。在 same-scene re-insertion 任务中(资产生成自同一场景并插入回原位),与 Naive Insertion 相比,R3D2 大幅缩小了与 Original Reconstruction (逐场景过拟合) 的 realism 差距,表现在 PSNR, SSIM, LPIPS, CLIP IS, DINO IS 等指标上。定性结果展示了 R3D2 能隐式推断全局光照并生成逼真的阴影和反射。在资产操作 (asset manipulation) 实验中(旋转资产),Original Reconstruction 质量随旋转迅速下降,而 Naive Insertion (+ R3D2) 保持更稳定的质量,R3D2 显著提高了 Naive Insertion 的 realism。R3D2 也成功泛化到 foreign asset insertion 任务,包括 cross-scene (WOD 其他序列)、cross-dataset (PandaSet [46] 重建对象) 和 text-to-3D (TRELLIS [45] 生成对象) 资产。在这些任务中,R3D2 插入效果的 FID 和 FID-A 分数与 same-scene 任务相似,远优于 Naive Insertion。模型效率高,使用蒸馏 VAE 的 R3D2 在 RTX 5090 上可达 13.36 FPS (1080x1920),支持实时应用,比使用原始 VAE 的 R3D2-BIG 快 3.3 倍,而感知和特征层面的相似性指标仅略有下降。
R3D2 实现了逼真的实时渲染效果,无需依赖计算昂贵的 PBR 或 ray tracing。该方法为 AD 验证提供了创建更具多样性、可控性和高保真度仿真环境的实用步骤。
论文的贡献总结为:1) 提出了轻量级的 diffusion model R3D2,能够实时生成渲染效果,大幅提升插入资产的逼真度。2) 展示了强大的资产操作能力,并泛化到 text-to-3D 生成和跨数据集资产无缝插入等新应用。3) 构建并发布了用于训练 R3D2 的新数据集 R3D3,包含 3D 资产和替换了原 actor 的图像对。
局限性包括数据集创建过程可能引入的资产对齐误差(导致输出偶尔修改几何或位置)以及方法不处理时间一致性,应用于视频帧或多摄像头设置时可能导致闪烁或不一致。未来的工作可以基于视频模型来解决时间和多视角一致性问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/25 11:11:30

人像转卡通全攻略:DCT-Net镜像使用技巧

人像转卡通全攻略:DCT-Net镜像使用技巧 1. 这不是滤镜,是“二次元分身生成器” 你有没有试过——拍一张自拍,几秒后,一个线条干净、色彩明快、眼神灵动的二次元版自己就站在屏幕里?不是加个美颜贴纸,也不…

作者头像 李华
网站建设 2026/3/16 1:20:24

STM32F103中printf重定向实战:串口调试基石

1. printf 函数在嵌入式调试中的工程价值与定位 在嵌入式系统开发中, printf 并非一个可有可无的“玩具函数”,而是一个被严重低估却极其关键的调试基础设施。它在 STM32F103 这类资源受限的微控制器上所扮演的角色,远超其在 PC 端 C 语言教学中“向控制台输出字符串”的…

作者头像 李华
网站建设 2026/4/15 7:20:36

5个高效技巧掌握XUnity.AutoTranslator:Unity游戏翻译全攻略

5个高效技巧掌握XUnity.AutoTranslator:Unity游戏翻译全攻略 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因外语游戏界面而错失精彩剧情?是否在面对英文任务说明时感到…

作者头像 李华
网站建设 2026/4/9 21:16:52

ViGEmBus驱动模拟技术全面解析:从安装到优化的实战指南

ViGEmBus驱动模拟技术全面解析:从安装到优化的实战指南 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus ViGEmBus作为Windows平台的内核级驱动程序,为游戏控制器模拟提供了专业解决方案,支持Xbox、…

作者头像 李华
网站建设 2026/4/15 14:30:14

AI绘画新体验:Nunchaku FLUX.1 CustomV3快速上手全攻略

AI绘画新体验:Nunchaku FLUX.1 CustomV3快速上手全攻略 导语:你是否试过输入一句描述,几秒后就得到一张堪比专业插画师手绘的高清图?Nunchaku FLUX.1 CustomV3不是又一个“参数调参党”的玩具,而是一套开箱即用、无需…

作者头像 李华
网站建设 2026/4/8 7:07:31

如何借助智能工具提升iOS自动抢红包效率?实测与优化指南

如何借助智能工具提升iOS自动抢红包效率?实测与优化指南 【免费下载链接】WeChatRedEnvelopesHelper iOS版微信抢红包插件,支持后台抢红包 项目地址: https://gitcode.com/gh_mirrors/we/WeChatRedEnvelopesHelper iOS自动抢红包工具已成为移动社交场景中的实…

作者头像 李华