布局和身份一把抓！浙大开源 ContextGen：双重注意力机制，实现布局与身份的协同控制-开发者社区

论文提出了一种新颖的 ContextGen 框架，该框架通过双重注意力机制实现分层解耦，从而解决了多实例生成中布局控制与身份保持的技术难题。

浙江大学 ReLER 团队提出的 ContextGen 是一种新颖的基于 Diffusion Transformer (DiT) 的多实例图像生成方法，通过上下文双重注意力机制，可同时实现对多个实体的精确布局控制和高保真的身份注入。

团队还在项目文件中提供了一个简单的前端界面，用户可以方便地上传参考图像并设计布局，从而定制化生成多实例图像。

论文介绍

方法概述

ContextGen 构建于 DiT 基础模型之上，旨在实现多实例图像生成（MIG）中布局控制和身份保持的双重控制。该框架将布局图像和多张参考图像连接成统一的上下文序列，并通过双重上下文注意力机制在 DiT 的不同层级进行分层控制，以实现对宏观布局和微观身份的解耦管理。

1.双重上下文注意力机制

ContextGen 的核心在于将宏观结构控制和微观身份注入进行解耦：

上下文布局锚定 (Contextual Layout Anchoring, CLA)：部署在 DiT 的前置和后置层，专注于全局结构信息。CLA 负责利用上下文中的布局图像来学习布局信息，鲁棒地锚定对象到期望的空间位置，确保精确的布局控制。
身份一致性注意力 (Identity Consistency Attention, ICA)：部署在 DiT 的中间层，专注于高频的细粒度身份信息。ICA 通过隔离式注意力掩码，让待去噪图像中的实例区域 Token 只参考其对应的参考图像 Token，保障多主体身份高保真、不混淆地注入生成过程中。

2. DPO 强化学习优化

为避免监督微调导致的布局僵硬复制，团队在训练中引入了基于偏好优化 (DPO)的强化学习阶段，以解决模型僵硬复制布局图像的问题，提升了生成图像的多样性和自然度。

大规模 IMIG-100K 数据集

利用现有 LLM 与一些开源工具，团队构建了IMIG-100K，这首个专门面向图像引导多实例生成任务设计的、包含详细的布局和身份标注的大规模合成数据集，为开放集 MIG 研究提供了重要的数据基础。

实验结果

定量比较：在COCO-MIG和LayoutSAM-Eval基准上，ContextGen 在布局准确性、实例属性保持等指标上显著优于现有方法。其中，COCO-MIG 的空间准确性 (mIoU) 提升 **+5.9%**。在LAMICBench++身份保持测试中，ContextGen 全面超越开源 SOTA 模型。

LAMICBench++ 结果

COCO-MIG 和 LayoutSAM-Eval 结果

定性结果：ContextGen 在复杂的多主体任务中，实现了对多个实例细节（如颜色材质、面部特征）的高保真还原，其身份保持能力可媲美 GPT-4o 和 Nano Banana等强大闭源模型。

LAMICBench++ 定性结果1

LAMICBench++ 定性结果2

COCO-MIG 定性结果

LayoutSAM-Eval 定性结果

结论

论文提出了一种新颖的 ContextGen 框架，该框架通过双重注意力机制实现分层解耦，从而解决了多实例生成中布局控制与身份保持的技术难题。通过集成双注意力模块和 DPO 优化，ContextGen 能够同时实现高保真的身份注入和稳健的布局控制，同时又不失多样性和自然度。大量实验验证了 ContextGen 达到了领先性能，尤其在生成具有多个定制化实体方面表现出色。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量