news 2026/6/25 19:59:08

NextStep-1颠覆图像生成:连续令牌技术开启自回归模型新纪元

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NextStep-1颠覆图像生成:连续令牌技术开启自回归模型新纪元

导语

【免费下载链接】NextStep-1-Large-Edit项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit

2025年8月,阶跃星辰(StepFun AI)推出的NextStep-1模型以"连续令牌+自回归"的创新架构,在文本到图像生成领域实现突破,以87.6%的真人偏好率刷新行业纪录,同时将图像生成错误率降低62%,标志着自回归模型正式迈入SOTA行列。

行业现状:图像生成的范式之争

2025年上半年,AI图像生成领域呈现"双轨并行"格局。以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),但其"黑箱式"生成过程难以满足高精度编辑需求。与此同时,自回归模型虽具备天然的序列生成逻辑,却因依赖向量量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终未能突破性能瓶颈。

2025年全球AI生成内容市场规模预计突破400亿美元,图像生成领域呈现"双轨并行"格局:以Midjourney为代表的闭源商业服务和Stable Diffusion引领的开源生态系统。行业调研显示,专业创作者对"可控性优先"工具的需求正以年均45%速度增长,尤其在游戏开发、广告创意和工业设计领域,对物体层级关系、空间逻辑一致性的要求远超现有扩散模型能力范围。

IDC最新发布的《中国模型即服务(MaaS)及AI大模型解决方案市场追踪,2025H1》报告显示,2025上半年中国 MaaS市场呈现爆发式增长,规模达12.9亿元,同比增长421.2%。AI 大模型解决方案市场同样保持高位增长态势,2025 上半年市场规模达30.7亿元,同比增长122.1%。多模态模型的快速迭代将AI应用从单一文本生成扩展至图像、视频、语音等复合场景,提升了模型的可用性与商业化潜力。

核心亮点:连续令牌与流匹配的技术革命

统一多模态框架设计

NextStep-1采用140亿参数的Transformer骨干网络,辅以1.57亿参数的轻量级流匹配头(Flow Matching Head),创新性地将离散文本令牌与连续图像令牌统一为单一序列,以"下一个令牌预测"为目标进行训练。

如上图所示,该图展示了NextStep-1自回归图像生成模型的架构,包含文本分词器、图像分词器、因果Transformer及流匹配头,用于文本到图像的生成过程。这一架构极其简洁纯粹,既解放了对离散化的依赖,又摆脱了对外部大型扩散模型的"辅助",实现了真正意义上的端到端训练。

连续令牌生成机制

传统自回归模型依赖离散令牌预测,如同用有限颜色的积木拼绘复杂图像;而NextStep-1的连续令牌技术则允许模型在连续空间中生成图像特征,配合流匹配头实现精细调控。这种设计使模型在512×512分辨率下,细节保真度较离散令牌方案提升40%,同时保持28步采样的高效生成能力。

高维隐空间稳定技术

为解决连续令牌训练的稳定性问题,团队提出两项关键技术:通道归一化(Channel-Wise Normalization)和噪声正则化。通道归一化作为稳定性的"压舱石",有效稳定了令牌的统计特性,即使在高CFG指导强度下也能确保生成清晰、无伪影的图像;而训练Tokenizer时加入更多噪声正则化,反而显著提升了最终生成图像的质量。

反直觉的是,团队在令牌器训练中主动引入更多噪声,虽使重构误差增加15%,却让最终生成图像的FID(Fréchet Inception Distance)分数提升9.3%。这种"以退为进"的策略构建了更鲁棒的潜在空间,使自回归模型学习更高效。

该图为NextStep-1的技术架构示意图,展示以因果Transformer为主干,结合文本与图像分词器,通过流匹配头实现连续令牌生成及Patch-Wise流匹配的技术流程。这一架构充分体现了NextStep-1在技术设计上的创新性和先进性,为读者理解模型的工作原理提供了直观的视觉参考。

创新训练策略

NextStep-1创新性地结合离散文本令牌与连续图像令牌的双重预测目标,在1.4亿图文对上训练时,实现文本语义与视觉特征的深度对齐。测试显示,对于"夕阳下波光粼粼的湖面"这类包含复杂光影描述的提示词,NextStep-1的语义还原准确率达到87%,远超传统模型65%的平均水平。

性能解析:权威基准测试中的SOTA表现

在国际权威评测中,NextStep-1展现出全面优势:

  • 文本对齐能力:GenEval基准测试获0.63分(启用自洽链技术提升至0.73),超过Emu3(0.311)和Janus-Pro(0.267)等同类模型;GenAI-Bench高级提示测试达到0.67分;DPG-Bench长文本多对象场景测试取得85.28分。

  • 世界知识整合:WISE基准测试获得0.54分(使用思维链技术后提升到0.67分),在自回归模型中表现最佳,甚至超过了大多数扩散模型。当使用提示重写协议时,得分进一步提升到0.79分(思维链技术下为0.83分)。

  • 图像编辑能力:NextStep-1-Edit在GEdit-Bench英文测试中获得6.58分,在ImgEdit-Bench测试中获得3.71分,证明了其在实际编辑应用中的强大能力。

特别值得注意的是其逻辑一致性优势:在"桌上左侧放苹果右侧放香蕉,上方悬挂吊灯"的指令测试中,NextStep-1的物体位置准确率达91%,远超扩散模型的67%。

图片以彩色方块形式展示NextStep-1连续令牌技术的四大核心优势:与LLM/Transformer兼容、多模态整合、存储和计算效率提升、语义压缩与丰富性。这些优势解决了传统离散令牌的固有局限,为NextStep-1在保持生成效率的同时提升图像质量奠定了基础。

应用价值:从技术突破到产业落地

NextStep-1的技术特性使其在多个场景展现独特价值:

专业创作领域

在静态插画创作中,模型表现出优异的风格一致性。对比测试显示,使用相同艺术家风格提示词连续生成10张图像时,NextStep-1的风格特征保持度达91%,而主流扩散模型平均仅为76%。这一特性已被游戏美术工作室用于角色设计迭代,将概念草图生成效率提升3倍。

企业级部署优势

157M轻量化流匹配头设计大幅降低部署门槛。在单张NVIDIA A100显卡上,模型可实现每秒2.3张512×512图像的生成速度,而同等配置下Stable Diffusion XL需要4.7秒/张。某电商平台接入后,商品详情图自动生成成本降低62%。

精准编辑能力

NextStep-1展现出超越传统图像生成模型的泛化能力。在文本引导的图像编辑任务中,该模型能够精准识别并修改图像中的特定区域,同时保持非编辑区域的视觉一致性。研究团队公布的案例显示,该模型可完成从简单物体替换到复杂场景重构的全范围编辑任务,编辑精度达到专业图像软件水准。

行业影响与挑战

NextStep-1的出现标志着图像生成技术进入"效率与质量"双优时代。其技术路线验证了连续令牌在高维数据生成中的可行性,为视频生成、3D建模等更复杂任务提供了新思路。行业分析指出,2025年下半年将有超过20%的主流图像生成工具集成连续令牌技术,推动整个领域向低能耗、高质量方向发展。

尽管表现出色,NextStep-1仍面临自回归模型的固有挑战:

  • 生成过程中不稳定问题:当模型的潜在空间从低维(如4通道)扩展到更高维(如16通道)时,尽管后者能表达更丰富的细节,但也偶发性地出现了一些生成"翻车"情况,如局部噪声、块状伪影、全局噪声和网格状伪影等问题。

  • 顺序解码带来的推理延迟:自回归模型的顺序解码特性是其推理速度的主要瓶颈。研究团队对单个Token在H100 GPU上的延迟进行的理论分析表明,主要瓶颈在于大模型骨干网络的顺序解码,流匹配头的多步采样过程也构成了不可忽视的开销。

  • 高分辨率生成的挑战:在扩展到高分辨率图像生成方面,自回归模型的严格顺序生成特性需要更多的训练步数才能收敛。相比之下,扩散模型在每次迭代中并行地优化整张图像,能更直接地利用二维空间归纳偏置。

这些挑战也指明了明确的改进方向:优化流匹配头以实现少步生成、借鉴大语言模型领域的最新进展加速自回归主干、以及开发适用于高分辨率生成的新技术等。

结论:自回归范式的新起点

NextStep-1的意义不仅是技术突破,更标志着AI图像生成从"效率优先"向"可控性优先"的范式转变。其通过"连续令牌+自回归"的创新架构,既保留了自回归模型的可控性优势,又突破了传统离散令牌带来的精度限制,为图像生成技术开辟了新路径。

对于开发者与企业而言,现在正是布局这一技术的关键窗口期——无论是集成到现有创作平台,还是开发垂直领域解决方案,NextStep-1开源生态都将提供丰富可能性。StepFun AI已开放模型推理代码与训练框架,通过提供"文本编码器-连续令牌生成器-图像解码器"的全栈工具链,降低了连续令牌技术的应用门槛。社区反馈显示,已有100+研究团队基于该框架开发多模态扩展模型,加速了技术落地进程。

正如阶跃星辰团队在论文中所述:"连续令牌自回归不是终点,而是多模态生成的NextStep。"

项目地址:https://gitcode.com/StepFun/NextStep-1-Large-Edit

【免费下载链接】NextStep-1-Large-Edit项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 2:19:47

Typst排版入门指南:快速掌握专业文档制作技巧

Typst排版入门指南:快速掌握专业文档制作技巧 【免费下载链接】typst A new markup-based typesetting system that is powerful and easy to learn. 项目地址: https://gitcode.com/GitHub_Trending/ty/typst Typst作为新一代基于标记语言的排版系统&#x…

作者头像 李华
网站建设 2026/6/25 19:41:46

MPC-HC主题定制终极指南:从零基础到个性化播放器完全手册

MPC-HC主题定制终极指南:从零基础到个性化播放器完全手册 【免费下载链接】mpc-hc Media Player Classic 项目地址: https://gitcode.com/gh_mirrors/mp/mpc-hc 厌倦了千篇一律的播放器界面?想要打造属于自己的专属视频播放体验?别担心…

作者头像 李华
网站建设 2026/6/26 7:08:03

MeshCentral:企业远程设备管理的终极解决方案

MeshCentral:企业远程设备管理的终极解决方案 【免费下载链接】MeshCentral A complete web-based remote monitoring and management web site. Once setup you can install agents and perform remote desktop session to devices on the local network or over t…

作者头像 李华
网站建设 2026/6/26 1:51:57

3步构建智能推荐系统:MXNet图神经网络实战指南

3步构建智能推荐系统:MXNet图神经网络实战指南 【免费下载链接】mxnet 项目地址: https://gitcode.com/gh_mirrors/mx/mxnet 还在为海量用户行为数据头疼吗?传统推荐算法在处理复杂关系时往往力不从心,而MXNet框架结合图神经网络&…

作者头像 李华
网站建设 2026/6/23 22:27:13

37、高级gawk编程:数组、模式与函数的综合运用

高级gawk编程:数组、模式与函数的综合运用 在编程领域,gawk是一个强大的工具,它提供了丰富的功能来处理和分析数据。本文将深入探讨gawk中的数组操作、匹配模式、结构化命令、格式化打印以及内置函数等重要特性。 1. 数组操作 许多编程语言都提供数组来在一个变量中存储多…

作者头像 李华
网站建设 2026/6/26 14:25:45

Typst裁剪功能终极指南:从基础到高级的完整解决方案

Typst裁剪功能终极指南:从基础到高级的完整解决方案 【免费下载链接】typst A new markup-based typesetting system that is powerful and easy to learn. 项目地址: https://gitcode.com/GitHub_Trending/ty/typst 在文档排版过程中,你是否经常…

作者头像 李华