news 2026/3/18 0:58:52

让AI像人类画家一样边画边想,港中文美团让模型「走一步看一步」

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
让AI像人类画家一样边画边想,港中文美团让模型「走一步看一步」

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约2000字,建议阅读5分钟本文介绍首个在单一生成轨迹中、以局部区域为粒度,将文本推理与视觉生成深度交织(Interleave)的框架。

在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

但当你要求模型处理复杂的空间关系、多物体交互或精准的数量控制时,它们往往会“露怯”:不是把猫画到了窗户外面,就是把三个苹果画成了四个。

为了解决这个问题,学术界此前主要有两条路:

一条是“谋定而后动”(Think-before-Generation),即在画第一笔之前,先写好详细的布局计划。但这就像让画家在动笔前必须把每一笔都想得清清楚楚,一旦开画就无法更改,缺乏灵活性。

另一条是“亡羊补牢”(Think-after-Generation),即先把图画完,再通过多轮对话来挑错、修改。这虽然有效,但往往意味着巨大的推理开销和漫长的等待时间。

那么,有没有一种方法,能让模型像人类画家一样,在作画的过程中停下来看一眼,既能审视刚才画得对不对,又能为下一笔做好规划?

近日,来自香港中文大学、美团等机构的研究团队提出了一种全新的范式——Thinking-while-Generating(TwiG)。这是首个在单一生成轨迹中、以局部区域为粒度,将文本推理与视觉生成深度交织(Interleave)的框架。

什么是Thinking-while-Generating?


如果说之前的视觉生成是“一口气跑到底”,TwiG则更像是一种“间歇性思考”

研究团队受到大语言模型(LLM)中思维链(Chain-of-Thought)的启发,但他们反其道而行之:不再是用图片辅助推理,而是用推理来引导作画。

在TwiG的框架下,视觉生成不再是一个黑盒的连续过程,而是被拆解为“生成-思考-再生成”的循环。模型会在绘制过程中多次“暂停”,插入一段文本推理(Thought),用于总结当前的视觉状态,并指导接下来的生成。

为了实现这一目标,研究团队将TwiG框架拆解为三个核心维度:


1. When to Think(何时思考)
模型首先会根据用户的Prompt(提示词),规划出一个“思维时间表”。研究发现,将画面生成过程拆解为3个阶段效果最佳,这恰好符合图像通常包含“上部背景、主体内容、下部背景”的语义结构。

2. What to Say(思考什么)
在每个暂停点,模型会生成一段“思维链”。这段文本不仅承接了上文的逻辑,更像是一个微型的路书,专门指导接下来的局部区域该怎么画。这种细粒度的引导,比那种“一句Prompt走天下”的方式要精准得多。

3. How to Refine(如何修正)
在画完一个局部后,模型会立刻进行自我批判(Self-Reflection)。如果发现画歪了或者颜色不对,它会立刻触发“重画”机制,只修正当前的局部,而不需要推倒重来。

实证研究:从Zero-Shot到SFT到RL


为了验证这一范式的潜力,研究团队在统一多模态模型(如Janus-Pro)上进行了层层递进的实验。

Zero-Shot潜力惊人

仅仅通过精心设计的Prompt,而不需要任何参数更新,模型就已经展现出了强大的“边画边想”能力。

在T2I-CompBench基准测试中,Zero-Shot版的TwiG(TwiG-ZS)在属性绑定、空间关系等多个维度上显著超越了基准模型。

结果表明,在合适的interleave约束与提示下,现有多模态模型已具备一定的在生成过程中进行推理的潜力。

SFT提升稳定性

团队进一步构建了包含50K数据的高质量数据集TwiG-50K,对模型进行监督微调(SFT)。结果显示,SFT有效减少了模型“胡思乱想”产生的幻觉,让生成的思维链更加简练、可控。

RL突破上限

团队采用了针对TwiG优化的GRPO策略(Group Relative Policy Optimization),让模型在“何时思考、思考什么、如何修正”的策略上进行自我博弈和进化。

实验数据显示,经过RL训练的TwiG-RL,在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型具有竞争力、甚至在部分维度上更优的表现。

TwiG的提出,不仅是一种技术上的优化,更是一种观念上的转变。它试图打破视觉生成模型的“黑盒”属性,通过引入可读的文本推理,让生成过程变得透明、可控且具有逻辑性。

研究团队的结论可以总结为以下几点:

1. 生成需要逻辑:单纯的像素概率预测难以处理复杂的逻辑约束,引入显式的文本推理是必经之路。

2. 修正优于重绘:相比于画完再改的“大动干戈”,在生成过程中进行局部的即时修正是更高效的策略。

3. RL是关键:强化学习不仅能优化最终的图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键钥匙。

目前的TwiG中的具体实现与实验验证主要基于自回归ULM(如Janus-Pro),但框架在设计上对扩散模型同样兼容。这种“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂的领域,为通往真正的通用视觉智能提供新的拼图。

论文题目:Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
论文链接:https://arxiv.org/abs/2511.16671
项目主页:https://think-while-gen.github.io

编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 14:09:41

还在为AutoGLM环境搭建发愁?10分钟搞定智谱Open-AutoGLM下载

第一章:还在为AutoGLM环境搭建发愁?10分钟搞定智谱Open-AutoGLM下载对于希望快速上手机器学习自动化任务的开发者而言,Open-AutoGLM 提供了开箱即用的智能建模能力。得益于智谱AI的开源策略,用户可在本地快速部署并运行 AutoGLM&a…

作者头像 李华
网站建设 2026/3/15 14:00:39

Buefy开发工具生态构建指南

Buefy开发工具生态构建指南 【免费下载链接】buefy Lightweight UI components for Vue.js based on Bulma 项目地址: https://gitcode.com/gh_mirrors/bu/buefy Buefy作为基于Vue.js和Bulma的轻量级UI组件库,在现代前端开发中扮演着重要角色。本文将深入探讨…

作者头像 李华
网站建设 2026/3/15 18:07:35

Vue TypeScript Admin 5步搭建企业级后台管理系统

Vue TypeScript Admin 5步搭建企业级后台管理系统 【免费下载链接】vue-typescript-admin-template 🖖 A vue-cli 3.0 typescript minimal admin template 项目地址: https://gitcode.com/gh_mirrors/vu/vue-typescript-admin-template 在当今快速发展的企业…

作者头像 李华
网站建设 2026/3/15 14:00:42

AI图像修复技术深度解析:让每一张照片都重获新生

AI图像修复技术深度解析:让每一张照片都重获新生 【免费下载链接】IOPaint 项目地址: https://gitcode.com/GitHub_Trending/io/IOPaint 在数字时代,照片承载着我们的珍贵记忆,但时间的流逝往往给这些记忆蒙上阴影。无论是老照片上的…

作者头像 李华
网站建设 2026/3/15 18:07:34

终极指南:GLPI开源IT资产管理系统的完整入门

终极指南:GLPI开源IT资产管理系统的完整入门 【免费下载链接】glpi glpi-project/glpi: 是一个用于管理 IT 资产和服务的 PHP 应用程序。适合用于 IT 资产管理和服务管理。特点是提供了简单的 API,支持多种 IT 资产和服务管理功能,并且可以自…

作者头像 李华
网站建设 2026/3/15 17:55:14

Kronos金融时序预测:重新定义市场波动率建模的AI解决方案

Kronos金融时序预测:重新定义市场波动率建模的AI解决方案 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos 在当今复杂多变的金融市场环境中&…

作者头像 李华