news 2026/2/7 22:54:02

Qwen-Image-Layered更新了!支持更多层数灵活拆分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen-Image-Layered更新了!支持更多层数灵活拆分

Qwen-Image-Layered更新了!支持更多层数灵活拆分

1. 简介

最近,Qwen-Image-Layered 模型迎来一次重要升级——现在支持更灵活的图层数量设置,能够根据图像复杂度和编辑需求动态调整分解层数。这项更新让图像的“可编辑性”迈上新台阶。

你有没有遇到过这样的问题:想修改一张图片里的某个元素,比如换个背景、调个颜色,结果一动就糊了?传统图像编辑工具往往只能做全局调整,或者依赖手动抠图,费时又容易失真。而 Qwen-Image-Layered 的核心思路很不一样:它把一张图像自动拆解成多个独立的RGBA 图层,每个图层包含一个语义完整的视觉元素(比如人物、文字、背景等),彼此互不干扰。

这意味着什么?意味着你可以像操作设计软件中的图层一样,单独对某一层进行重新着色、缩放、移动、替换甚至删除,而其他内容完全不受影响。这种“物理隔离”的编辑方式,从根本上避免了修改带来的画面崩坏问题。

更重要的是,这次更新后,模型不再局限于固定的图层数量。无论是简单的3层结构,还是复杂的8层甚至更多,系统都能智能适配,真正实现了“按需拆分”。

如果你正在寻找一种高保真、低损耗的图像编辑方案,那 Qwen-Image-Layered 绝对值得一看。

2. 快速上手:从零运行 Qwen-Image-Layered

2.1 环境准备

要运行 Qwen-Image-Layered,首先确保你的环境满足以下条件:

  • Python ≥ 3.9
  • PyTorch ≥ 2.0
  • transformers ≥ 4.51.3(必须支持 Qwen2.5-VL)
  • diffusers 最新版(需从 GitHub 安装)

安装命令如下:

pip install git+https://github.com/huggingface/diffusers pip install python-pptx

提示:建议在有 GPU 支持的环境中运行,推理速度会显著提升。使用--device cuda可启用 GPU 加速。

2.2 启动 ComfyUI 接口

该镜像默认集成了 ComfyUI 可视化工作流界面,启动非常简单:

cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080

执行后,打开浏览器访问http://<服务器IP>:8080即可进入图形化操作界面。对于不熟悉代码的用户来说,这是一个非常友好的选择。

2.3 使用 Python 脚本调用模型

如果你更喜欢直接写代码,也可以通过diffusers库快速调用模型。以下是完整示例:

from diffusers import QwenImageLayeredPipeline import torch from PIL import Image # 加载模型 pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered") pipeline = pipeline.to("cuda", torch.bfloat16) pipeline.set_progress_bar_config(disable=None) # 读取输入图像 image = Image.open("asserts/test_images/1.png").convert("RGBA") # 设置参数 inputs = { "image": image, "generator": torch.Generator(device='cuda').manual_seed(777), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, "num_images_per_prompt": 1, "layers": 6, # 新增功能:可自定义图层数量(如3、4、6、8等) "resolution": 640, # 推荐使用640分辨率桶(bucket)以获得最佳效果 "cfg_normalize": True, # 是否开启CFG归一化 "use_en_prompt": True, # 若未提供描述文本,自动生英文提示词 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) output_images = output.images[0] # 获取所有图层 # 保存每一层 for i, layer_image in enumerate(output_images): layer_image.save(f"layer_{i}.png")

运行完成后,你会得到一组 PNG 文件,每个文件对应一个透明通道完整的 RGBA 图层。这些图层可以直接导入 Photoshop、Figma 或其他设计工具进行后续编辑。

3. 实际能力展示:看看它能做什么

3.1 分层解构:让图像“活”起来

给定一张普通图像,Qwen-Image-Layered 能自动将其分解为多个语义清晰的图层。例如下图中的人物、文字、装饰图案都被成功分离:

每个图层都是独立的 PNG 文件,带有完整的 Alpha 通道信息。这意味着你可以随时关闭某个图层查看影响范围,也可以单独导出某一元素用于新设计。

3.2 独立编辑:只改你想改的部分

由于各图层物理隔离,编辑操作不会波及其他内容。这是传统方法难以实现的。

示例1:重新着色第一层

我们仅对最上层的红色装饰条进行颜色替换,将其改为蓝色。整个过程中,人物、文字和其他背景元素完全保持不变:

示例2:替换人物性别

将第二层中的女孩替换为男孩。这里可以结合 Qwen-Image-Edit 模型完成局部重绘任务,只需指定目标图层即可精准修改:

示例3:修改文字内容

将“Qwen-VL”改为“Qwen-Image”。系统识别出文字位于单独图层后,即可无损替换,字体样式和投影效果全部保留:

3.3 基础操作:天然支持高保真变换

分层结构天生适合各种基础图像操作,无需担心边缘模糊或结构扭曲。

删除对象

直接移除不需要的图层即可彻底清除某个元素。比如删掉右下角的水印图标,画面干净自然:

自由缩放

对某一图层单独放大或缩小,不会拉伸整体图像。即使大幅调整尺寸,细节依然清晰锐利:

移动位置

拖动图层可在画布内任意重新定位元素。比如把人物往左移两格,构图更平衡:

4. 高级特性:灵活且可迭代的分层机制

4.1 支持可变图层数量

过去很多图层分解模型只能输出固定数量的图层(如4层),限制了适用场景。而本次更新后,Qwen-Image-Layered 支持动态设置 layers 参数,可根据图像复杂度灵活配置。

图像类型推荐图层数
简单海报3~4 层
复杂电商图6~8 层
多元素合成图8+ 层

例如,设置layers=8后,原本合并在一起的多个小元素也能被进一步拆分,提升编辑粒度:

4.2 支持递归分解:无限细化可能

更强大的是,Qwen-Image-Layered 支持递归式分解。也就是说,任何一个已被提取出的图层,本身还可以再次作为输入,继续拆分成更细的子图层。

举个例子:一张包含多人合影的照片,第一次分解可能将每个人作为一个整体图层;然后你可以选中其中一个人的图层,再次运行模型,将其面部、衣服、配饰等进一步分离。

这种“层层深入”的能力,使得即使是高度复杂的图像,也能逐步拆解到理想的编辑精度:

这为专业设计师、广告制作团队、AIGC 内容创作者提供了前所未有的非破坏性编辑体验。

5. 许可与引用

5.1 开源许可协议

Qwen-Image-Layered 已在 Apache 2.0 开源许可证下发布,允许个人和企业免费使用、修改和分发,包括商业用途。这对于希望将其集成到产品中的开发者来说是一个重大利好。

5.2 如何引用该项目

如果你在研究或项目中使用了 Qwen-Image-Layered,欢迎引用以下 BibTeX 条目:

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 4:18:59

Qwen3-4B-Instruct企业级部署:高可用集群架构设计实战

Qwen3-4B-Instruct企业级部署&#xff1a;高可用集群架构设计实战 1. 为什么需要企业级集群部署——从单卡推理到生产就绪的跨越 你可能已经试过在一块4090D上跑通Qwen3-4B-Instruct&#xff1a;镜像拉起来&#xff0c;网页打开&#xff0c;输入“写一封客户感谢信”&#xf…

作者头像 李华
网站建设 2026/1/31 4:34:11

Sambert如何接入Web应用?Gradio集成实战教程

Sambert如何接入Web应用&#xff1f;Gradio集成实战教程 1. 为什么选Sambert语音合成——开箱即用的多情感中文体验 你有没有遇到过这样的场景&#xff1a;想快速给产品加一段中文语音播报&#xff0c;但试了几个TTS工具&#xff0c;不是发音生硬像机器人&#xff0c;就是配置…

作者头像 李华
网站建设 2026/2/5 11:03:00

新手必看!YOLOv10镜像安装与预测全解析

新手必看&#xff01;YOLOv10镜像安装与预测全解析 你是不是也遇到过这些情况&#xff1a;下载完YOLOv10代码&#xff0c;配环境配到怀疑人生&#xff1b;好不容易跑通了&#xff0c;一换图片就报错&#xff1b;想试试TensorRT加速&#xff0c;结果卡在ONNX导出那一步……别急…

作者头像 李华
网站建设 2026/2/3 19:52:32

Z-Image-Turbo本地运行卡?资源监控与性能调优教程

Z-Image-Turbo本地运行卡&#xff1f;资源监控与性能调优教程 Z-Image-Turbo是阿里巴巴通义实验室开源的高效AI图像生成模型&#xff0c;作为Z-Image的蒸馏版本&#xff0c;它以极快的生成速度&#xff08;仅需8步&#xff09;、照片级的真实感画质、出色的中英双语文字渲染能…

作者头像 李华
网站建设 2026/2/7 16:12:17

Qwen3-4B部署教程:基于Docker一键启动网页推理接口

Qwen3-4B部署教程&#xff1a;基于Docker一键启动网页推理接口 1. 什么是Qwen3-4B-Instruct-2507&#xff1f; 你可能已经听说过阿里最近开源的这款大模型——Qwen3-4B-Instruct-2507。它是通义千问系列中的一颗新星&#xff0c;专为高效推理和实际应用而优化。相比前代模型&…

作者头像 李华
网站建设 2026/2/7 3:05:23

Qwen All-in-One快速入门:Web界面接入详细步骤

Qwen All-in-One快速入门&#xff1a;Web界面接入详细步骤 1. 什么是Qwen All-in-One&#xff1f;——一个模型&#xff0c;两种能力 你有没有试过这样的场景&#xff1a;想快速判断一段文字的情绪倾向&#xff0c;又顺手想和AI聊两句&#xff1f;以前可能得打开两个工具、加…

作者头像 李华