news 2026/4/24 18:59:54

ChatGPT Images 2.0全量上线:菜单上的字终于写对了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ChatGPT Images 2.0全量上线:菜单上的字终于写对了

本期摘要

OpenAI于4月22日凌晨正式发布ChatGPT Images 2.0,这是图像生成领域的一次架构级革新。模型将图像生成深度整合进GPT-4o的自回归架构,首次引入“思考模式”——生成前先联网搜索、分析文档、推理构图。文字渲染精度达到可商用级别,中文不再乱码;单次提示可生成最多8张保持角色一致的连贯图像;API同步开放,支持最高2K分辨率输出。免费用户可用基础版,Plus用户解锁思考模式。DALL-E系列将于5月12日退役。

一、先来看一组实测对比

两年前,你让DALL-E 3生成一张墨西哥餐厅菜单,排版漂亮、配色诱人,但菜名全是瞎编的——enchuita、churrios、burrto,一个对的都没有。

现在你把同样的需求丢给Images 2.0,出来的菜单直接可以用。菜品名称拼写正确,排版清晰,连价格都标在上面。

这不是参数调优,是底层架构彻底换了。

二、底层架构变了:从“猜”到“理解”

以前的DALL-E走的是“翻译-生成”路线:你的中文提示词被语言模型翻译一下,然后丢给扩散模型去画。两个模型是独立的,中间有语义损耗。

Images 2.0不一样了。它把图像生成直接塞进了GPT-4o的自回归架构里。图像被切成小块变成“图像Token”,和文字Token在同一个空间里预测。

说人话:以前的模型把文字当“花纹”画上去,它不知道字母的形状是什么意思。新模型因为共享了语言模型的表征,它真的“认识”这些字,知道每个字母长什么样。

OpenAI的图像技术负责人把新模型描述为“通才模型”或“图像的生成式预训练变换器”。这套架构的直观表现就是:文字渲染和指令遵循,突然上了好几个台阶。

三、思考模式:画之前先想一想

这是这次升级最狠的一刀。

以往的图像模型是黑箱:丢提示词进去,直接吐图。Images 2.0的“思考模式”不一样——付费用户可以看到模型在输出前有一长串推理过程。

它会做四件事:研究你的提示词、规划画面布局、推理元素的空间关系、联网搜索补充信息。

官方演示了一个案例:让模型做一张旧金山次日天气预报及推荐活动信息图。它会主动去获取当地实时天气数据,准确呈现雨天细节,同时画出渡轮大厦、卡斯特罗剧院、彩绘仕女屋和泛美金字塔的轮廓。你不需要事无巨细描述每个地标长什么样,它自己知道。

这个模式最大的价值是:它把图像生成从“画图”变成了“完成项目”。一次思考生成可能耗时十来分钟,但换来的是一组可以直接用于专业场景的物料,而不是一张需要你手动修改半天的半成品。

四、文字渲染:中文字终于不鬼画符了

这是AI图像领域最痛的点。以前生成含中文的海报,笔画结构经常撑不住,一眼就能看出是机器瞎编的。

Images 2.0重点改进了中文、日文、韩文、印地语和孟加拉语的文本生成能力。实测生成的中文海报,汉字清晰可见,极少出现笔画粘连,海报布局也合理。

当然如果拿放大镜逐字检查,偶尔还是会有个别字符不够规范。但对于日常的海报、社交媒体素材、信息图来说,已经妥妥跨过了“能用”的门槛。

五、多轮编辑:用对话改图,不用重写提示

以前修改图像你得重写一整段提示词,改一次写一次。

现在Images 2.0支持直接在对话里说:生成一张城市夜景图 → 把左边的楼改成红色 → 再加一轮满月。每次都只修改指定部分,其他保持不变。

另外,新版的图片查看界面还支持“圈选修改”——你直接圈定要改的区域,告诉它改什么,不用描述坐标。

六、多图生成:一次8张,主角长得一样

思考模式下,一个提示词可以生成最多8张保持角色、物品和风格连贯的图像。

想象一下做儿童绘本:以前你得一张一张生成,每次都重新描述主角长什么样、穿什么衣服,还得祈祷模型记住设定。现在一次出8张能连成故事板的画面,主角从第一页到最后一页都长一个样。

一位资深用户的反馈相当犀利:“等了11分钟,Images 2.0成功输出一组8张图。不仅在8张图里做到了画风和细节统一,甚至连剧情都能连贯。这种超长连续推理能力,之前的模型根本做不到。”

七、发布策略和定价

用户层级

用户类型可用功能
免费用户基础版(每天约5张),更强的指令遵循和文字渲染
Plus/Pro/Business思考模式(联网搜索、多图生成、自我审查),企业版即将推出

免费版的策略很清晰:让你体验“现在能做到什么程度”,但要真正把模型当生产力工具用,得开会员。

API定价

模型名称:gpt-image-2

定价:

  • 图像输出:$30/百万token

  • 单张高清图(约1024×1024,high quality):约$0.167,2K分辨率接近$0.40

DALL-E 2和DALL-E 3将在2026年5月12日正式退役。

八、还没解决的问题

1. 非英语渲染仍有波动

“显著进步”和“彻底解决”之间还有距离。《连线》记者让模型生成一张中文粉丝拼贴海报,画面里有20多处中文,视觉效果繁复热闹。但让ChatGPT翻译这些文字时,它老实承认:有些不是准确的中文句子,部分混入了日语字符。中文用户拿来做严肃的商业素材,还得留个心眼。

2. 反复编辑时的顽固倾向

沃顿商学院教授莫利克指出:前两次调整效果不错,之后就开始“磨洋工”。这时候把图像放进新对话重新开始会更有效。

3. 自我检查的可靠性陷阱

开发者西蒙·威利森做了一个令人警觉的测试:他让模型生成了两张复杂的“沃利在哪里”式寻物图,里面藏着一只拿业余无线电的浣熊——但旧版那张图里根本没画那只浣熊。然后他让新版模型用红圈“标出浣熊”,模型竟然在本来没有浣熊的画面里凭空画出了一只,再圈了出来。

这说明涉及对自身输出做自检的时候,模型的“聪明”有时会聪明过头。

九、总结

维度核心要点
架构革新自回归代替扩散,文本与图像统一表征
能力跃升文字渲染、多轮编辑、跨轮一致性是三大突破
杀手级功能思考模式——生成前联网、规划、推理
工程价值OpenAI API一行代码调用,集成门槛最低
商业化设计免费版可体验,付费版解锁生产力,定价处于行业上游

这次更新最有意思的地方不是“画得更像了”,而是它开始真正理解你要什么、然后自己去把缺的信息补上、把结构规划好。图像生成正在从一个单纯的渲染工具,进化成一个能为视觉工作流提供完整支持的“视觉系统”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 18:59:26

EasyExcel单元格染色避坑指南:你的自定义RGB颜色为啥导出来不一样?

EasyExcel颜色渲染一致性实战:从原理到跨平台解决方案 当你精心设计的Excel报表在同事电脑上打开时,那些醒目的红色警告单元格突然变成了诡异的粉色调,或者文件体积莫名膨胀了三倍——这不是灵异事件,而是Excel颜色渲染机制在作祟…

作者头像 李华
网站建设 2026/4/24 18:58:10

抖音批量下载工具完整指南:从零到精通的高效内容采集方案

抖音批量下载工具完整指南:从零到精通的高效内容采集方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback su…

作者头像 李华
网站建设 2026/4/24 18:54:30

单类分类算法:处理不平衡数据集的利器

1. 不平衡数据集中的单类分类算法概述在机器学习实践中,我们经常会遇到类别分布极度不平衡的数据集。想象一下信用卡欺诈检测的场景:每10,000笔交易中可能只有1-2笔是欺诈交易。传统分类算法在这种"多数类"与"少数类"比例悬殊的情况…

作者头像 李华
网站建设 2026/4/24 18:54:29

# 软考软件设计师 · 每日一练 | 2026-04-19

软考软件设计师 每日一练 | 2026-04-19距离2026上半年软考(5月23-26日)还有 34天! 今日专题:页面置换算法 / 面向对象设计原则 / 数据流图深化 / 风险管理与知识产权一、选择题精练(10题) 【1】页面置换算…

作者头像 李华