news 2026/5/23 12:50:29

布局和身份一把抓!浙大开源 ContextGen:双重注意力机制,实现布局与身份的协同控制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
布局和身份一把抓!浙大开源 ContextGen:双重注意力机制,实现布局与身份的协同控制

论文提出了一种新颖的 ContextGen 框架,该框架通过双重注意力机制实现分层解耦,从而解决了多实例生成中布局控制与身份保持的技术难题。

浙江大学 ReLER 团队提出的 ContextGen 是一种新颖的基于 Diffusion Transformer (DiT) 的多实例图像生成方法,通过上下文双重注意力机制,可同时实现对多个实体的精确布局控制和高保真的身份注入。

团队还在项目文件中提供了一个简单的前端界面,用户可以方便地上传参考图像并设计布局,从而定制化生成多实例图像。

相关链接
  • 论文:https://arxiv.org/abs/2510.11000
  • 项目:https://nenhang.github.io/ContextGen
  • 代码:https://github.com/nenhang/ContextGen
  • 权重:https://huggingface.co/ruihangxu/ContextGen
论文介绍

方法概述

ContextGen 构建于 DiT 基础模型之上,旨在实现多实例图像生成(MIG)中布局控制和身份保持的双重控制。该框架将布局图像和多张参考图像连接成统一的上下文序列,并通过双重上下文注意力机制在 DiT 的不同层级进行分层控制,以实现对宏观布局和微观身份的解耦管理。

1.双重上下文注意力机制

ContextGen 的核心在于将宏观结构控制和微观身份注入进行解耦:

  • 上下文布局锚定 (Contextual Layout Anchoring, CLA):部署在 DiT 的前置和后置层,专注于全局结构信息。CLA 负责利用上下文中的布局图像来学习布局信息,鲁棒地锚定对象到期望的空间位置,确保精确的布局控制。
  • 身份一致性注意力 (Identity Consistency Attention, ICA):部署在 DiT 的中间层,专注于高频的细粒度身份信息。ICA 通过隔离式注意力掩码,让待去噪图像中的实例区域 Token 只参考其对应的参考图像 Token,保障多主体身份高保真、不混淆地注入生成过程中。

2. DPO 强化学习优化

为避免监督微调导致的布局僵硬复制,团队在训练中引入了基于偏好优化 (DPO)的强化学习阶段,以解决模型僵硬复制布局图像的问题,提升了生成图像的多样性和自然度。

大规模 IMIG-100K 数据集

利用现有 LLM 与一些开源工具,团队构建了IMIG-100K,这首个专门面向图像引导多实例生成任务设计的、包含详细的布局和身份标注的大规模合成数据集,为开放集 MIG 研究提供了重要的数据基础。

实验结果

定量比较:在COCO-MIGLayoutSAM-Eval基准上,ContextGen 在布局准确性、实例属性保持等指标上显著优于现有方法。其中,COCO-MIG 的空间准确性 (mIoU) 提升 **+5.9%**。在LAMICBench++身份保持测试中,ContextGen 全面超越开源 SOTA 模型。

LAMICBench++ 结果

COCO-MIG 和 LayoutSAM-Eval 结果

定性结果:ContextGen 在复杂的多主体任务中,实现了对多个实例细节(如颜色材质、面部特征)的高保真还原,其身份保持能力可媲美 GPT-4o 和 Nano Banana等强大闭源模型。

LAMICBench++ 定性结果1

LAMICBench++ 定性结果2

COCO-MIG 定性结果

LayoutSAM-Eval 定性结果

结论

论文提出了一种新颖的 ContextGen 框架,该框架通过双重注意力机制实现分层解耦,从而解决了多实例生成中布局控制与身份保持的技术难题。通过集成双注意力模块和 DPO 优化,ContextGen 能够同时实现高保真的身份注入和稳健的布局控制,同时又不失多样性和自然度。大量实验验证了 ContextGen 达到了领先性能,尤其在生成具有多个定制化实体方面表现出色。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 18:50:41

VSCode中调试大型语言模型实战指南(99%开发者忽略的关键细节)

第一章:VSCode中调试大型语言模型的核心挑战在VSCode中调试大型语言模型(LLM)面临诸多技术难题,主要源于模型本身的复杂性、资源消耗大以及开发环境的局限性。传统的调试工具难以直接应用于深度学习框架中的动态计算图与分布式训练…

作者头像 李华
网站建设 2026/5/1 2:06:51

动漫交流与推荐平台系统

动漫交流与推荐平台 目录 基于springboot vue动漫交流与推荐平台系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue动漫交流与推荐平台系统 一、…

作者头像 李华
网站建设 2026/5/21 20:52:59

Keil5安装包下载后如何配置ARM Cortex-M编译环境

从零开始搭建ARM Cortex-M开发环境:Keil5安装后必做的配置实战你是不是也经历过这样的场景?好不容易完成了keil5安装包下载,兴冲冲地装好软件,打开uVision5,准备大干一场——结果新建项目时却卡在“选哪个芯片”、“编…

作者头像 李华
网站建设 2026/5/22 20:51:59

公司注销登记指导:Qwen3Guard-Gen-8B提供法定程序清单

公司注销登记指导:Qwen3Guard-Gen-8B提供法定程序清单 在政务服务日益智能化的今天,越来越多企业通过线上平台咨询公司注销流程。然而,一个看似简单的“如何注销公司”问题,背后却涉及《公司法》《税收征管法》以及各地市场监管政…

作者头像 李华
网站建设 2026/5/10 22:52:26

Qwen3Guard-Gen-8B支持跨文化语境下的内容安全判断

Qwen3Guard-Gen-8B:跨文化语境下的内容安全新范式 在生成式AI席卷全球的今天,大模型正以前所未有的速度渗透进智能客服、社交平台、教育工具乃至政府服务系统。然而,每一次“智能涌现”的背后,都潜藏着内容失控的风险——从隐性歧…

作者头像 李华
网站建设 2026/5/13 23:00:45

STM32CubeMX安装与JRE依赖关系解析

STM32CubeMX安装踩坑实录:为什么你的配置工具打不开? 你有没有遇到过这种情况——兴致勃勃下载了STM32CubeMX,双击安装包后进度条走了一半突然卡住?或者明明装好了,一启动就弹出“ No Java Virtual Machine was foun…

作者头像 李华