本期摘要
OpenAI于4月22日凌晨正式发布ChatGPT Images 2.0,这是图像生成领域的一次架构级革新。模型将图像生成深度整合进GPT-4o的自回归架构,首次引入“思考模式”——生成前先联网搜索、分析文档、推理构图。文字渲染精度达到可商用级别,中文不再乱码;单次提示可生成最多8张保持角色一致的连贯图像;API同步开放,支持最高2K分辨率输出。免费用户可用基础版,Plus用户解锁思考模式。DALL-E系列将于5月12日退役。
一、先来看一组实测对比
两年前,你让DALL-E 3生成一张墨西哥餐厅菜单,排版漂亮、配色诱人,但菜名全是瞎编的——enchuita、churrios、burrto,一个对的都没有。
现在你把同样的需求丢给Images 2.0,出来的菜单直接可以用。菜品名称拼写正确,排版清晰,连价格都标在上面。
这不是参数调优,是底层架构彻底换了。
二、底层架构变了:从“猜”到“理解”
以前的DALL-E走的是“翻译-生成”路线:你的中文提示词被语言模型翻译一下,然后丢给扩散模型去画。两个模型是独立的,中间有语义损耗。
Images 2.0不一样了。它把图像生成直接塞进了GPT-4o的自回归架构里。图像被切成小块变成“图像Token”,和文字Token在同一个空间里预测。
说人话:以前的模型把文字当“花纹”画上去,它不知道字母的形状是什么意思。新模型因为共享了语言模型的表征,它真的“认识”这些字,知道每个字母长什么样。
OpenAI的图像技术负责人把新模型描述为“通才模型”或“图像的生成式预训练变换器”。这套架构的直观表现就是:文字渲染和指令遵循,突然上了好几个台阶。
三、思考模式:画之前先想一想
这是这次升级最狠的一刀。
以往的图像模型是黑箱:丢提示词进去,直接吐图。Images 2.0的“思考模式”不一样——付费用户可以看到模型在输出前有一长串推理过程。
它会做四件事:研究你的提示词、规划画面布局、推理元素的空间关系、联网搜索补充信息。
官方演示了一个案例:让模型做一张旧金山次日天气预报及推荐活动信息图。它会主动去获取当地实时天气数据,准确呈现雨天细节,同时画出渡轮大厦、卡斯特罗剧院、彩绘仕女屋和泛美金字塔的轮廓。你不需要事无巨细描述每个地标长什么样,它自己知道。
这个模式最大的价值是:它把图像生成从“画图”变成了“完成项目”。一次思考生成可能耗时十来分钟,但换来的是一组可以直接用于专业场景的物料,而不是一张需要你手动修改半天的半成品。
四、文字渲染:中文字终于不鬼画符了
这是AI图像领域最痛的点。以前生成含中文的海报,笔画结构经常撑不住,一眼就能看出是机器瞎编的。
Images 2.0重点改进了中文、日文、韩文、印地语和孟加拉语的文本生成能力。实测生成的中文海报,汉字清晰可见,极少出现笔画粘连,海报布局也合理。
当然如果拿放大镜逐字检查,偶尔还是会有个别字符不够规范。但对于日常的海报、社交媒体素材、信息图来说,已经妥妥跨过了“能用”的门槛。
五、多轮编辑:用对话改图,不用重写提示
以前修改图像你得重写一整段提示词,改一次写一次。
现在Images 2.0支持直接在对话里说:生成一张城市夜景图 → 把左边的楼改成红色 → 再加一轮满月。每次都只修改指定部分,其他保持不变。
另外,新版的图片查看界面还支持“圈选修改”——你直接圈定要改的区域,告诉它改什么,不用描述坐标。
六、多图生成:一次8张,主角长得一样
思考模式下,一个提示词可以生成最多8张保持角色、物品和风格连贯的图像。
想象一下做儿童绘本:以前你得一张一张生成,每次都重新描述主角长什么样、穿什么衣服,还得祈祷模型记住设定。现在一次出8张能连成故事板的画面,主角从第一页到最后一页都长一个样。
一位资深用户的反馈相当犀利:“等了11分钟,Images 2.0成功输出一组8张图。不仅在8张图里做到了画风和细节统一,甚至连剧情都能连贯。这种超长连续推理能力,之前的模型根本做不到。”
七、发布策略和定价
用户层级
| 用户类型 | 可用功能 |
|---|---|
| 免费用户 | 基础版(每天约5张),更强的指令遵循和文字渲染 |
| Plus/Pro/Business | 思考模式(联网搜索、多图生成、自我审查),企业版即将推出 |
免费版的策略很清晰:让你体验“现在能做到什么程度”,但要真正把模型当生产力工具用,得开会员。
API定价
模型名称:gpt-image-2
定价:
图像输出:$30/百万token
单张高清图(约1024×1024,high quality):约$0.167,2K分辨率接近$0.40
DALL-E 2和DALL-E 3将在2026年5月12日正式退役。
八、还没解决的问题
1. 非英语渲染仍有波动
“显著进步”和“彻底解决”之间还有距离。《连线》记者让模型生成一张中文粉丝拼贴海报,画面里有20多处中文,视觉效果繁复热闹。但让ChatGPT翻译这些文字时,它老实承认:有些不是准确的中文句子,部分混入了日语字符。中文用户拿来做严肃的商业素材,还得留个心眼。
2. 反复编辑时的顽固倾向
沃顿商学院教授莫利克指出:前两次调整效果不错,之后就开始“磨洋工”。这时候把图像放进新对话重新开始会更有效。
3. 自我检查的可靠性陷阱
开发者西蒙·威利森做了一个令人警觉的测试:他让模型生成了两张复杂的“沃利在哪里”式寻物图,里面藏着一只拿业余无线电的浣熊——但旧版那张图里根本没画那只浣熊。然后他让新版模型用红圈“标出浣熊”,模型竟然在本来没有浣熊的画面里凭空画出了一只,再圈了出来。
这说明涉及对自身输出做自检的时候,模型的“聪明”有时会聪明过头。
九、总结
| 维度 | 核心要点 |
|---|---|
| 架构革新 | 自回归代替扩散,文本与图像统一表征 |
| 能力跃升 | 文字渲染、多轮编辑、跨轮一致性是三大突破 |
| 杀手级功能 | 思考模式——生成前联网、规划、推理 |
| 工程价值 | OpenAI API一行代码调用,集成门槛最低 |
| 商业化设计 | 免费版可体验,付费版解锁生产力,定价处于行业上游 |
这次更新最有意思的地方不是“画得更像了”,而是它开始真正理解你要什么、然后自己去把缺的信息补上、把结构规划好。图像生成正在从一个单纯的渲染工具,进化成一个能为视觉工作流提供完整支持的“视觉系统”。