ChatGPT Images 2.0全量上线：菜单上的字终于写对了-开发者社区

本期摘要

OpenAI于4月22日凌晨正式发布ChatGPT Images 2.0，这是图像生成领域的一次架构级革新。模型将图像生成深度整合进GPT-4o的自回归架构，首次引入“思考模式”——生成前先联网搜索、分析文档、推理构图。文字渲染精度达到可商用级别，中文不再乱码；单次提示可生成最多8张保持角色一致的连贯图像；API同步开放，支持最高2K分辨率输出。免费用户可用基础版，Plus用户解锁思考模式。DALL-E系列将于5月12日退役。

一、先来看一组实测对比

两年前，你让DALL-E 3生成一张墨西哥餐厅菜单，排版漂亮、配色诱人，但菜名全是瞎编的——enchuita、churrios、burrto，一个对的都没有。

现在你把同样的需求丢给Images 2.0，出来的菜单直接可以用。菜品名称拼写正确，排版清晰，连价格都标在上面。

这不是参数调优，是底层架构彻底换了。

二、底层架构变了：从“猜”到“理解”

以前的DALL-E走的是“翻译-生成”路线：你的中文提示词被语言模型翻译一下，然后丢给扩散模型去画。两个模型是独立的，中间有语义损耗。

Images 2.0不一样了。它把图像生成直接塞进了GPT-4o的自回归架构里。图像被切成小块变成“图像Token”，和文字Token在同一个空间里预测。

说人话：以前的模型把文字当“花纹”画上去，它不知道字母的形状是什么意思。新模型因为共享了语言模型的表征，它真的“认识”这些字，知道每个字母长什么样。

OpenAI的图像技术负责人把新模型描述为“通才模型”或“图像的生成式预训练变换器”。这套架构的直观表现就是：文字渲染和指令遵循，突然上了好几个台阶。

三、思考模式：画之前先想一想

这是这次升级最狠的一刀。

以往的图像模型是黑箱：丢提示词进去，直接吐图。Images 2.0的“思考模式”不一样——付费用户可以看到模型在输出前有一长串推理过程。

它会做四件事：研究你的提示词、规划画面布局、推理元素的空间关系、联网搜索补充信息。

官方演示了一个案例：让模型做一张旧金山次日天气预报及推荐活动信息图。它会主动去获取当地实时天气数据，准确呈现雨天细节，同时画出渡轮大厦、卡斯特罗剧院、彩绘仕女屋和泛美金字塔的轮廓。你不需要事无巨细描述每个地标长什么样，它自己知道。

这个模式最大的价值是：它把图像生成从“画图”变成了“完成项目”。一次思考生成可能耗时十来分钟，但换来的是一组可以直接用于专业场景的物料，而不是一张需要你手动修改半天的半成品。

四、文字渲染：中文字终于不鬼画符了

这是AI图像领域最痛的点。以前生成含中文的海报，笔画结构经常撑不住，一眼就能看出是机器瞎编的。

Images 2.0重点改进了中文、日文、韩文、印地语和孟加拉语的文本生成能力。实测生成的中文海报，汉字清晰可见，极少出现笔画粘连，海报布局也合理。

当然如果拿放大镜逐字检查，偶尔还是会有个别字符不够规范。但对于日常的海报、社交媒体素材、信息图来说，已经妥妥跨过了“能用”的门槛。

五、多轮编辑：用对话改图，不用重写提示

以前修改图像你得重写一整段提示词，改一次写一次。

现在Images 2.0支持直接在对话里说：生成一张城市夜景图 → 把左边的楼改成红色 → 再加一轮满月。每次都只修改指定部分，其他保持不变。

另外，新版的图片查看界面还支持“圈选修改”——你直接圈定要改的区域，告诉它改什么，不用描述坐标。

六、多图生成：一次8张，主角长得一样

思考模式下，一个提示词可以生成最多8张保持角色、物品和风格连贯的图像。

想象一下做儿童绘本：以前你得一张一张生成，每次都重新描述主角长什么样、穿什么衣服，还得祈祷模型记住设定。现在一次出8张能连成故事板的画面，主角从第一页到最后一页都长一个样。

一位资深用户的反馈相当犀利：“等了11分钟，Images 2.0成功输出一组8张图。不仅在8张图里做到了画风和细节统一，甚至连剧情都能连贯。这种超长连续推理能力，之前的模型根本做不到。”

七、发布策略和定价

用户层级

用户类型	可用功能
免费用户	基础版（每天约5张），更强的指令遵循和文字渲染
Plus/Pro/Business	思考模式（联网搜索、多图生成、自我审查），企业版即将推出

免费版的策略很清晰：让你体验“现在能做到什么程度”，但要真正把模型当生产力工具用，得开会员。

API定价

模型名称：gpt-image-2

定价：

图像输出：$30/百万token
单张高清图（约1024×1024，high quality）：约$0.167，2K分辨率接近$0.40

DALL-E 2和DALL-E 3将在2026年5月12日正式退役。

八、还没解决的问题

1. 非英语渲染仍有波动

“显著进步”和“彻底解决”之间还有距离。《连线》记者让模型生成一张中文粉丝拼贴海报，画面里有20多处中文，视觉效果繁复热闹。但让ChatGPT翻译这些文字时，它老实承认：有些不是准确的中文句子，部分混入了日语字符。中文用户拿来做严肃的商业素材，还得留个心眼。

2. 反复编辑时的顽固倾向

沃顿商学院教授莫利克指出：前两次调整效果不错，之后就开始“磨洋工”。这时候把图像放进新对话重新开始会更有效。

3. 自我检查的可靠性陷阱

开发者西蒙·威利森做了一个令人警觉的测试：他让模型生成了两张复杂的“沃利在哪里”式寻物图，里面藏着一只拿业余无线电的浣熊——但旧版那张图里根本没画那只浣熊。然后他让新版模型用红圈“标出浣熊”，模型竟然在本来没有浣熊的画面里凭空画出了一只，再圈了出来。

这说明涉及对自身输出做自检的时候，模型的“聪明”有时会聪明过头。

九、总结

维度	核心要点
架构革新	自回归代替扩散，文本与图像统一表征
能力跃升	文字渲染、多轮编辑、跨轮一致性是三大突破
杀手级功能	思考模式——生成前联网、规划、推理
工程价值	OpenAI API一行代码调用，集成门槛最低
商业化设计	免费版可体验，付费版解锁生产力，定价处于行业上游

这次更新最有意思的地方不是“画得更像了”，而是它开始真正理解你要什么、然后自己去把缺的信息补上、把结构规划好。图像生成正在从一个单纯的渲染工具，进化成一个能为视觉工作流提供完整支持的“视觉系统”。