news 2026/2/12 12:28:05

NeurIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NeurIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

InstanceAssemble 框架通过 级联结构 将文本语义与布局信息分阶段建模,并引入全新的 Assemble-Attention,让模型在面对高密度、多实例布局时依然能保持清晰的空间理解与精准对齐。同时,InstanceAssemble 采用 极轻量的 LoRA 适配方式,即可在保持底模能力的前提下,实现灵活的文本与参考图多模态控制。

小红书 AIGC 团队推出全新布局可控生成框架 InstanceAssemble,专为应对复杂场景下的 Layout-to-Image 任务。InstanceAssemble 框架通过 级联结构 将文本语义与布局信息分阶段建模,并引入全新的 Assemble-Attention,让模型在面对高密度、多实例布局时依然能保持清晰的空间理解与精准对齐。同时,InstanceAssemble 采用 极轻量的 LoRA 适配方式(仅占 SD3-Medium 3.46%、Flux.1 0.84% 参数),即可在保持底模能力的前提下,实现灵活的文本与参考图多模态控制。我们还构建了全新的 DenseLayout 基准与可解释评价指标 LGS,让布局对齐的评估更加精确可靠。整体来看,InstanceAssemble 在复杂布局场景下表现稳健,生成质量与可控性均达到业内领先水平。

论文标题:

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

论文链接:https://arxiv.org/abs/2509.16691

项目主页:https://github.com/FireRedTeam/InstanceAssemble

01、背景

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。现有方案各有不足:无训练方法虽然无需改动基础模型,但在复杂布局下效果显著下降,且对超参数敏感、推理速度慢;有训练方法通过额外模块注入布局信息,但往往引入海量参数,训练代价高昂。评估方面,传统指标也存在偏差,难以准确衡量布局对齐程度。这些挑战和不足表明,实现稳健且高效的布局可控图像生成亟需新的算法创新。为此,小红书智能创作AIGC团队提出了InstanceAssemble框架,从架构和评测上全面应对上述难题,实现了在复杂布局条件下的精确图像生成。

02、方法

InstanceAssemble方法在架构上引入了级联结构,将全局文本提示与实例级布局条件分阶段处理。具体而言,模型先利用原有DiT获取全局图像背景和整体语境,再通过新设计的实例组装注意力模块(Assemble-Attn)逐个整合各布局实例信息,实现局部精细控制。这样的级联架构确保了全局质量与局部对齐两方面的兼顾,避免了同时处理所有实例可能产生的冲突。在实例组装注意力中,每个目标实例的注意力计算仅在其对应图像区域内进行,避免不同实例间互相干扰。这种独立注意力机制使模型能够有效处理重叠或小物体等复杂布局情形,同时通过权重融合各实例特征,保持画面整体协调。

此外,InstanceAssemble 使用LoRA模块进行轻量级模型适配。通过在基础扩散模型中注入少量LoRA参数(仅增加基础模型的3%的参数量左右),实现了对现有 DiT-based 文本生成图像模型的灵活扩展。LoRA 的加入使模型在保留原有生成能力的同时,能够高效地学习布局控制,不需要大规模重训整个模型,并具备良好的兼容性(例如可方便地加载不同风格的 LoRA 权重)。最后,该方法还支持多模态的布局输入:每个实例既可由文本描述指定,也能利用额外的图像信息(如参考图片、深度图、边缘图等)来丰富内容表示。

03、效果与对比

为了全面评估模型在复杂布局下的表现,作者构建了全新的基准数据集DenseLayout,包含5,000张图像和约90,000个实例(平均每图18个目标),专门用于测试在高密度布局场景下的生成效果。同时提出了LGS (Layout Grounding Score)作为评测新指标,将空间精度和语义一致性相结合,更准确地衡量生成图像对布局指令的满足程度。其中空间精度通过检测目标位置与给定边界框的IoU计算得到,语义一致性则利用视觉问答模型判断颜色、材质、形状等属性匹配度。

在上述严苛评测下,InstanceAssemble 展现了卓越的性能。实验结果表明,该方法在 DenseLayout 基准上的布局对齐指标(mIoU)显著优于现有方法,综合的 LGS 分数处于当前最优水平,同时全局图像质量保持良好。特别是在稠密布局场景下(远超训练时≤10个实例的密度),InstanceAssemble 依然能够精确地将每个目标生成在指定位置,并正确呈现其语义属性,验证了模型的强泛化能力。而对比方法在相同条件下往往出现漏生成、位置紊乱或风格不一致的问题,定性结果同样佐证了这一点。此外,得益于 LoRA 轻量架构,InstanceAssemble 相较其他有训练方法在参数开销和推理耗时上更具优势,在效率与效果之间取得了良好平衡。

04、应用

InstanceAssemble 的设计在兼顾性能的同时,非常注重兼容扩展性。由于采用LoRA 作为插件式适配,研究者和从业者可以方便地为模型引入不同风格迁移能力。例如,将经过特定画风微调的 LoRA 模块(如油画风格、3d风格等)加载到InstanceAssemble中,模型即可在保持布局精准对齐的前提下,生成带有对应风格的图像。这种对多种风格 LoRA 的高兼容性使得模型能够跨越不同域,进行跨风格、跨领域的布局图像创作。

综上所述,InstanceAssemble 通过其独特的架构和模块设计,实现了精细布局控制与高质量生成的有机结合,不仅在学术基准上取得领先表现,也展现出广阔的应用潜力。未来,随着更多样的LoRA模块和多模态信息融入,InstanceAssemble 可进一步拓展至智能排版、虚拟内容创作、数据增强等诸多领域,推动布局图像生成的发展和落地应用。

作者简介

Core Contributors

项强

现硕士就读于复旦大学,小红书智能创作AIGC组实习生,主要研究方向包括可控图像生成,图像编辑等

谢风(孙爽)

小红书智能创作AIGC组算法工程师,支持小红书短文发布业务,图像编辑能力建设等

秦明(宋德嘉)

小红书商业化智能创意负责人,主要研究方向包括视频剪辑,图像编辑,文本可控生成等

令狐(赵海博)

小红书智能创作多模态算法负责人,主要研究方向包括AIGC图像生成与编辑大模型、多模态内容理解与生成

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 17:38:20

【毕业设计】SpringBoot+Vue+MySQL MVC自习室管理和预约系统平台源码+数据库+论文+部署文档

摘要 随着高校扩招和教育信息化的快速发展,自习室资源紧张和管理效率低下的问题日益突出。传统自习室管理依赖人工登记和纸质记录,不仅效率低下,还容易出现座位冲突、资源浪费等问题。为了解决这一问题,开发一套高效、智能的自习室…

作者头像 李华
网站建设 2026/2/12 0:03:08

SpringBoot+Vue 影院购票系统管理平台源码【适合毕设/课设/学习】Java+MySQL

摘要 随着互联网技术的快速发展和数字化服务的普及,传统影院购票方式已无法满足现代消费者的需求。线下购票存在排队时间长、座位选择受限、信息不对称等问题,而线上购票系统能够提供更高效、便捷的服务体验。影院购票系统管理平台的开发旨在解决这些问题…

作者头像 李华
网站建设 2026/2/3 13:56:10

智能体在车联网中的应用:第8天 核心工具链与仿真世界:Git与代码版本管理——车联网开发的协作基石

引言:一行代码引发的“灾难”与版本控制的救赎 想象一下这个在车联网开发中可能发生的场景:经过一周的奋战,你终于将激光雷达点云聚类算法的准确率从87%提升到了92%。为了追求极致,你决定尝试一个更激进的特征提取方法。几番修改后…

作者头像 李华
网站建设 2026/2/6 22:50:47

荣获年度十大成果,电科金仓亮相光合组织首届人工智能创新大会

12月18日,首届光合组织人工智能创新大会(HAIC2025)在昆山国际会展中心举办。大会以“智算无界,光合共生”为主题,汇聚全产业链超2500家企业代表、专家学者及行业领袖,全景呈现中国AI计算开放架构的创新实践…

作者头像 李华
网站建设 2026/2/11 5:52:26

Langchain-Chatchat能否支持文档预览功能?

Langchain-Chatchat能否支持文档预览功能? 在企业级知识管理系统中,用户常常不满足于“AI给出一个答案”——他们更关心:“这个答案从哪来的?”“能不能让我看看原文?”这种对可解释性与溯源能力的诉求,正…

作者头像 李华
网站建设 2026/2/5 18:35:01

Langchain-Chatchat能否支持文档权限继承?

Langchain-Chatchat能否支持文档权限继承? 在企业知识管理系统逐渐从“能查”迈向“安全可控”的今天,一个看似简单却至关重要的问题浮出水面:Langchain-Chatchat 能否支持文档权限继承? 这个问题背后,其实是对本地化大…

作者头像 李华