我应该使用哪个图像编辑模型?
在过去几周,几乎每一家主要的AI实验室都发布了图像编辑模型。五月,来自某森林实验室的FLUX.1 Kontext率先发布,以其风格转换和简单的图像编辑功能脱颖而出。自此之后,涌现了一波模型,每个模型都在其擅长的领域表现出色。
面对如此多的选择,要找出最适合你需求的那一款可能会很困难。这篇文章将它们进行了一对一的较量,并在一系列图像编辑任务中对每个模型进行了评估。阅读完毕,你应该能清楚地知道哪一款适合你的工作流程。
首先,这里是被评估的每个模型的成本和平均推理时间概览。
| 模型 | 实验室 | 每张图片价格 | 推理时间 |
|---|---|---|---|
| FLUX.1 Kontext [dev] | 某森林实验室 | 0.025美元 | 1.7秒 |
| FLUX.1 Kontext [pro] | 某森林实验室 | 0.04美元 | 4.4秒 |
| FLUX.1 Kontext [max] | 某森林实验室 | 0.08美元 | 4.9秒 |
| Qwen Image Edit | 某机构 | 0.03美元 | 2.9秒 |
| Qwen Image Edit Plus | 某机构 | 0.03美元 | 16秒 |
| Nano Banana | 某中心 | 0.039美元 | 10秒 |
| SeedEdit 3.0 | 某机构 | 0.031美元 | 3秒 |
| Seedream 4 | 某机构 | 0.031美元 | 4秒 |
| GPT Image 1 | 某机构 | 0.01-0.25美元 | 40秒 |
最便宜的是来自某机构的GPT-image-1,起价为每张图片0.01美元,但它的生成时间最长(约40秒)。FLUX.1 Kontext [dev](由Pruna AI优化)是最快的,每次生成仅需1.9秒,同时也是较便宜的选择之一。当然,对于经过超优化的模型,图像编辑质量会有所折衷。
在测试中,评估的是每个AI实验室的基础模型。具体来说,对于FLUX.1 Kontext和Qwen,仅展示FLUX.1 Kontext [pro]和Qwen Image Edit的结果。
接下来让这些模型接受测试。
对象移除
考察的第一个任务是对象移除。这是应该在Photoshop中完成的基本任务。具体来说,如果移除图像中位于其他元素前方的对象,模型能够多好地推测出被移除对象后面的内容?
使用一张金门大桥的图片对此进行了测试。
原图
以下是不同图像编辑模型在接到“移除桥梁”任务时的表现:
移除桥梁
(此处应有图片对比,图中展示了GPT-image-1、FLUX.1 Kontext [pro]、Nano Banana、Qwen Image Edit、SeedEdit 3.0、Seedream 4的处理结果)
- 优胜者:SeedEdit 3.0 和 Qwen Image Edit
- 表现不佳者:FLUX.1 Kontext [pro]
表现最挣扎的模型是FLUX.1 Kontext [pro],它保留了两个塔楼。Nano Banana移除了整个桥梁,但未能保持背景山丘的一致性。GPT-image-1平滑处理了左下角的建筑,但成功移除了桥梁。其他模型都很好地处理了这个任务。
视角转换
另一个常见的图像编辑任务是改变图像中对象的观察角度。
原图
来看看哪些图像模型能够展示这个角色和她的猫的正脸视图,同时保持角色的一致性。
展示女人和猫的正视图
(此处应有图片对比,图中展示了GPT-image-1、FLUX.1 Kontext [pro]、Nano Banana、Qwen Image Edit、SeedEdit 3.0、Seedream 4的处理结果)
- 优胜者:Qwen Image Edit
- 表现不佳者:SeedEdit 3.0
只有GPT-image-1和Qwen Image Edit给出了我们所寻找的正脸视图,尽管GPT-image-1似乎没有保持角色一致性。FLUX.1 Kontext [pro]和Nano Banana在展示角色正脸方面表现相当好;两者甚至都设法保留了角色手臂上的纹身。某机构的模型(SeedEdit和Seedream)表现最挣扎——SeedEdit完全没有转动角色,而Seedream没有保持角色的一致性。
背景编辑
背景编辑要求模型理解对象边界并生成连贯的环境。以下是不同图像编辑模型在接到编辑或替换背景任务时的表现:
原图
将背景变为丛林
(此处应有图片对比,图中展示了GPT-image-1、FLUX.1 Kontext [pro]、Nano Banana、Qwen Image Edit、SeedEdit 3.0、Seedream 4的处理结果)
- 优胜者:SeedEdit 3.0 和 Seedream 4
- 表现不佳者:Nano Banana
Nano Banana在此处表现最差,切出了一小部分角色并将其放在一个通用的丛林背景上。某机构的Seed模型表现最佳,角色一致性强,光照自然,位置可信。FLUX.1 Kontext [pro]表现接近但未能完全成功,而GPT-image-1和Qwen生成的角色看起来明显不同。Qwen还平滑了纹理,使结果感觉细节不足。
文字编辑
图像中的文字编辑代表了现代图像编辑模型最具挑战性和令人印象深刻的能力之一。在保持正确排版、透视和光照的同时,理解、修改和生成文本是一项显著的技术成就,即使在一年前也几乎不可能。
在此评估中,关注哪些图像模型能保留文本的原始字体,并保持标牌物理元素的真实性(例如标牌的纹理/颜色、周围文字的位置等)。
看看如果我们将下图中的单词“seven”改为“eight”:
原图
将‘seven’改为‘eight’
(此处应有图片对比,图中展示了GPT-image-1、FLUX.1 Kontext [pro]、Nano Banana、Qwen Image Edit、SeedEdit 3.0、Seedream 4的处理结果)
- 优胜者:FLUX.1 Kontext [pro] 和 Nano Banana
- 表现不佳者:GPT-image-1 和 Seedream 4
这里的佼佼者是FLUX.1 Kontext [pro]和Nano Banana,它们能够自然地引入单词“eight”,并且排版和位置一致。甚至连纸条的纸质纹理在这些编辑中都被保留了下来。对于Seededit和Qwen,单词“eight”显得突出,明显看起来是编辑过的。GPT-image-1视觉上吸引人,但没有保留原始纸条。Seedream的排版看起来不错,但在纸条的“to:”部分产生了伪影。
风格迁移
风格迁移展示了每个模型理解艺术风格并应用它们,同时保留原始图像内容和构图的能力。有些模型擅长捕捉精细的艺术细节,而另一些则专注于保持结构完整性。
以下是这些模型处理风格迁移任务(特别是将图像转换为油画风格)的表现:
原图
将此转换为油画
(此处应有图片对比,图中展示了GPT-image-1、FLUX.1 Kontext [pro]、Nano Banana、Qwen、SeedEdit、Seedream的处理结果)
- 优胜者:Nano Banana
- 表现不佳者:FLUX.1 Kontext [pro]
这个任务在所有模型中产生了有趣的结果,因为每个模型对油画应该是什么样子有不同的理解。Nano Banana和Seedream看起来最接近原始图像,提供了一种喷枪式的、融合良好的外观。GPT-image也有短笔触,但也有其标志性的黄色调。Qwen和FLUX.1 Kontext [pro]非常相似,更有一种绘画感的、未融合的外观(但两者也都有黄色调)。
要点总结
在评估了这六个图像编辑模型在五项不同任务——对象移除、视角转换、背景编辑、文字操作和风格迁移——之后,出现了一些明确的优胜者,可以根据特定需求和优先级来指导你的选择。
- 对象移除:大多数模型都成功了,但FLUX.1 Kontext [pro]表现挣扎。
- 视角变化:GPT Image 1和Qwen Image Edit最好地实现了要求的正脸视图并保持了角色一致性。
- 背景编辑:某机构的模型(SeedEdit和Seedream)明显占主导地位,将角色与丛林景观自然地融合在一起。
- 文字编辑:FLUX.1 Kontext和Nano Banana最有效地保留了排版和纹理。
- 风格迁移:Nano Banana和Seedream在实现良好艺术效果的同时,保持了与原始图像最接近的相似度。
请记住,这些都是表面级别的实验,上述建议可能不足以证明你对模型的选择是正确的。
需要更多实验吗?可以查看Replicate的playground来并行测试和比较图像编辑模型(或任何模型):
(此处应有指向Playground的链接)
这正是用于创建此帖子的工具!
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)