Qwen-Image-Layered更新了!支持更多层数灵活拆分
1. 简介
最近,Qwen-Image-Layered 模型迎来一次重要升级——现在支持更灵活的图层数量设置,能够根据图像复杂度和编辑需求动态调整分解层数。这项更新让图像的“可编辑性”迈上新台阶。
你有没有遇到过这样的问题:想修改一张图片里的某个元素,比如换个背景、调个颜色,结果一动就糊了?传统图像编辑工具往往只能做全局调整,或者依赖手动抠图,费时又容易失真。而 Qwen-Image-Layered 的核心思路很不一样:它把一张图像自动拆解成多个独立的RGBA 图层,每个图层包含一个语义完整的视觉元素(比如人物、文字、背景等),彼此互不干扰。
这意味着什么?意味着你可以像操作设计软件中的图层一样,单独对某一层进行重新着色、缩放、移动、替换甚至删除,而其他内容完全不受影响。这种“物理隔离”的编辑方式,从根本上避免了修改带来的画面崩坏问题。
更重要的是,这次更新后,模型不再局限于固定的图层数量。无论是简单的3层结构,还是复杂的8层甚至更多,系统都能智能适配,真正实现了“按需拆分”。
如果你正在寻找一种高保真、低损耗的图像编辑方案,那 Qwen-Image-Layered 绝对值得一看。
2. 快速上手:从零运行 Qwen-Image-Layered
2.1 环境准备
要运行 Qwen-Image-Layered,首先确保你的环境满足以下条件:
- Python ≥ 3.9
- PyTorch ≥ 2.0
- transformers ≥ 4.51.3(必须支持 Qwen2.5-VL)
- diffusers 最新版(需从 GitHub 安装)
安装命令如下:
pip install git+https://github.com/huggingface/diffusers pip install python-pptx提示:建议在有 GPU 支持的环境中运行,推理速度会显著提升。使用
--device cuda可启用 GPU 加速。
2.2 启动 ComfyUI 接口
该镜像默认集成了 ComfyUI 可视化工作流界面,启动非常简单:
cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080执行后,打开浏览器访问http://<服务器IP>:8080即可进入图形化操作界面。对于不熟悉代码的用户来说,这是一个非常友好的选择。
2.3 使用 Python 脚本调用模型
如果你更喜欢直接写代码,也可以通过diffusers库快速调用模型。以下是完整示例:
from diffusers import QwenImageLayeredPipeline import torch from PIL import Image # 加载模型 pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered") pipeline = pipeline.to("cuda", torch.bfloat16) pipeline.set_progress_bar_config(disable=None) # 读取输入图像 image = Image.open("asserts/test_images/1.png").convert("RGBA") # 设置参数 inputs = { "image": image, "generator": torch.Generator(device='cuda').manual_seed(777), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, "num_images_per_prompt": 1, "layers": 6, # 新增功能:可自定义图层数量(如3、4、6、8等) "resolution": 640, # 推荐使用640分辨率桶(bucket)以获得最佳效果 "cfg_normalize": True, # 是否开启CFG归一化 "use_en_prompt": True, # 若未提供描述文本,自动生英文提示词 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) output_images = output.images[0] # 获取所有图层 # 保存每一层 for i, layer_image in enumerate(output_images): layer_image.save(f"layer_{i}.png")运行完成后,你会得到一组 PNG 文件,每个文件对应一个透明通道完整的 RGBA 图层。这些图层可以直接导入 Photoshop、Figma 或其他设计工具进行后续编辑。
3. 实际能力展示:看看它能做什么
3.1 分层解构:让图像“活”起来
给定一张普通图像,Qwen-Image-Layered 能自动将其分解为多个语义清晰的图层。例如下图中的人物、文字、装饰图案都被成功分离:
每个图层都是独立的 PNG 文件,带有完整的 Alpha 通道信息。这意味着你可以随时关闭某个图层查看影响范围,也可以单独导出某一元素用于新设计。
3.2 独立编辑:只改你想改的部分
由于各图层物理隔离,编辑操作不会波及其他内容。这是传统方法难以实现的。
示例1:重新着色第一层
我们仅对最上层的红色装饰条进行颜色替换,将其改为蓝色。整个过程中,人物、文字和其他背景元素完全保持不变:
示例2:替换人物性别
将第二层中的女孩替换为男孩。这里可以结合 Qwen-Image-Edit 模型完成局部重绘任务,只需指定目标图层即可精准修改:
示例3:修改文字内容
将“Qwen-VL”改为“Qwen-Image”。系统识别出文字位于单独图层后,即可无损替换,字体样式和投影效果全部保留:
3.3 基础操作:天然支持高保真变换
分层结构天生适合各种基础图像操作,无需担心边缘模糊或结构扭曲。
删除对象
直接移除不需要的图层即可彻底清除某个元素。比如删掉右下角的水印图标,画面干净自然:
自由缩放
对某一图层单独放大或缩小,不会拉伸整体图像。即使大幅调整尺寸,细节依然清晰锐利:
移动位置
拖动图层可在画布内任意重新定位元素。比如把人物往左移两格,构图更平衡:
4. 高级特性:灵活且可迭代的分层机制
4.1 支持可变图层数量
过去很多图层分解模型只能输出固定数量的图层(如4层),限制了适用场景。而本次更新后,Qwen-Image-Layered 支持动态设置 layers 参数,可根据图像复杂度灵活配置。
| 图像类型 | 推荐图层数 |
|---|---|
| 简单海报 | 3~4 层 |
| 复杂电商图 | 6~8 层 |
| 多元素合成图 | 8+ 层 |
例如,设置layers=8后,原本合并在一起的多个小元素也能被进一步拆分,提升编辑粒度:
4.2 支持递归分解:无限细化可能
更强大的是,Qwen-Image-Layered 支持递归式分解。也就是说,任何一个已被提取出的图层,本身还可以再次作为输入,继续拆分成更细的子图层。
举个例子:一张包含多人合影的照片,第一次分解可能将每个人作为一个整体图层;然后你可以选中其中一个人的图层,再次运行模型,将其面部、衣服、配饰等进一步分离。
这种“层层深入”的能力,使得即使是高度复杂的图像,也能逐步拆解到理想的编辑精度:
这为专业设计师、广告制作团队、AIGC 内容创作者提供了前所未有的非破坏性编辑体验。
5. 许可与引用
5.1 开源许可协议
Qwen-Image-Layered 已在 Apache 2.0 开源许可证下发布,允许个人和企业免费使用、修改和分发,包括商业用途。这对于希望将其集成到产品中的开发者来说是一个重大利好。
5.2 如何引用该项目
如果你在研究或项目中使用了 Qwen-Image-Layered,欢迎引用以下 BibTeX 条目:
@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。