news 2026/6/9 12:00:27

LAMIC:一种无需学习、布局可控的多参考图像生成方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LAMIC:一种无需学习、布局可控的多参考图像生成方法

概述

本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。

传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。
此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。

LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。
特别是,它引入了使用群体隔离注意力(GIA)的实体分离和使用区域调制注意力(RMA)的布局控制,以忠实再现空间布局,同时防止语义混淆。

在评估实验中,它在身份保持、背景一致性和布局准确性等指标上都优于现有方法,并在多参考和复杂组合中表现出卓越的性能。
由于采用了无需额外学习的高效框架,这项研究在电影制作和叙事生成等实际应用中显示出巨大的潜力。

建议的方法

LAMIC 的核心思想是构建一种标记表示法,将参考图像、文本描述和布局信息整合在一起,然后将其输入 MMDiT,从而实现多参考图像的一致合成。

首先,每个参照物都被定义为一个 VTS 三元组,由视觉(V)、文本(T)和空间(S)三个元素组成,并添加了实体之间的关系(跨实体交互,CEI)和非控制区域(U)。

然后,这些信息被转换成一个综合的标记序列,并在 MMDiT 中作为一致的表征进行处理。
在此过程中,将引入组隔离注意(GIA),以拦截每个 VTS 组之间不必要的相互干扰,防止不同实体的特征混杂在一起。

此外,还在生成的早期阶段应用区域调制注意力(RMA),以保持每个空间区域的独立性,并在后期阶段将它们整合在一起。

这样就能准确再现角色定位和背景一致性,并能处理复杂的布局。

重要的是,该方法不需要额外的训练或微调,可以直接扩展现有的单一参考模型,因此在实际操作中既高效又通用。

实验

为了评估所提出的 LAMIC 方法,作者在现有的 XVerseBench 数据集上扩展了各种参考图像(人物、动物、物体、衣服和场景)和相应的布局信息。

在实验设置中,使用了两张、三张和四张参考图像作为输入,并在多个指标上进行了性能比较,包括 ID 保留率 (ID-S)、背景相似度 (BG-S)、外观一致性 (IP-S) 和美学评价 (AES)。

此外,还使用了新提出的包含率(IN-R)和填充率(FI-R)来定量评估产品对布局指示的遵从程度。

结果表明,LAMIC 在所有情况下的平均得分(AVG)都优于现有方法,尤其是在 ID 保留和背景一致性方面。

即使在难度极高的三页和四页参考任务中,LAMIC 也比传统方法平均提高了 4 到 8 分。

此外,消融实验也证实了这两种机制的有效性,去除 GIA 和 RMA 后,性能显著下降。

此外,通过调整 RMA 的应用比例,观察到了布局精度和整体视觉平滑度之间的权衡,得出的结论是 0.05 的比例是最佳的。

总之,LAMIC 无需额外学习就能达到最先进的性能,并有可能成为多参考图像合成的新标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 5:56:10

从虚拟机权限到网络配置:WinApps实战问题全解析

从虚拟机权限到网络配置:WinApps实战问题全解析 【免费下载链接】winapps The winapps main project, forked from https://github.com/Fmstrat/winapps/ 项目地址: https://gitcode.com/GitHub_Trending/wina/winapps 当你满怀期待地准备在Linux系统上无缝运…

作者头像 李华
网站建设 2026/6/7 12:13:08

微软商店封神工具!Photo Retouch,AI 抠图删物一键搞定

谁还在为修图头疼?想删图片里的路人、杂物,用复杂软件抠半天还留痕迹;抠图后白边难消、背景单调,新手看教程都看晕 —— 直到我挖到这款微软应用商店的宝藏工具,小白也能秒变修图大神! 下载地址&#xff1…

作者头像 李华
网站建设 2026/6/8 5:45:15

人工神经网络(2025年秋):第五次作业

◎ 说明: 作业可以使用你所熟悉的编程语言和平台,比如 C,C、MATLAB、Python等。作业链接。 01 深度网络一、作业内容 1、作业要求 练习搭建深度学习网络基本网络(CNN)实现数据分类与参数回归;掌握深度学习…

作者头像 李华
网站建设 2026/6/9 8:31:14

完整USB嗅探器使用指南:5步快速上手低成本USB流量分析

完整USB嗅探器使用指南:5步快速上手低成本USB流量分析 【免费下载链接】usb-sniffer Low-cost LS/FS/HS USB sniffer with Wireshark interface 项目地址: https://gitcode.com/gh_mirrors/us/usb-sniffer 想要深入了解USB设备的通信过程吗?USB S…

作者头像 李华
网站建设 2026/6/9 5:07:05

Qwen3-30B-A3B模型在Ascend平台的深度技术解析

Qwen3-30B-A3B模型在Ascend平台的深度技术解析 【免费下载链接】Qwen3-30B-A3B-Instruct-2507-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 技术架构亮点速览 Qwen3-30B-A3B作为新一代智能推理引擎,采用创新的…

作者头像 李华
网站建设 2026/6/9 3:02:07

【干货收藏】手把手教你申请软件著作权,一篇搞定全流程!

还在为申请软著头疼?别急!这份超详细攻略带你轻松走完所有流程,从注册到拿证,一步都不少!第一步:注册与实名 先登录「中国版权保护中心」官网,注册账号并完成实名认证,这是申请的第一…

作者头像 李华