news 2026/6/13 14:31:01

Stable Diffusion:文本到图像的开源标杆

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Stable Diffusion:文本到图像的开源标杆

文章目录

  • Stable Diffusion:文本到图像的开源标杆
    • 1、 这项目是干嘛的
    • 2、 为什么影响力这么大
    • 3、 怎么用
    • 4、 适合谁

Stable Diffusion:文本到图像的开源标杆

CompVis/stable-diffusion 在 GitHub 上已经拿到 73K Star 了。

这是一个潜在扩散模型(Latent Diffusion Model),能把文字描述直接生成图像。你输入一段文本描述,它就给你一张匹配的图片。模型由 CompVis 团队主导开发,Stability AI 提供算力支持,背后还有 LAION 的数据支撑。

1、 这项目是干嘛的

就一件事:把文本转成图像。

模型架构是潜在扩散模型,核心由一个 860M 参数的 UNet 和一个 123M 参数的 CLIP 文本编码器组成。整体体积控制在 1B 以内,一张 10GB 以上显存的 GPU 就能跑推理。

训练数据来自 LAION-5B 的子集,先在 256x256 分辨率上预训练,再到 512x512 上微调。前后发布了四个版本(v1.1 到 v1.4),逐步优化了生成质量。v1.1 在 256x256 上训练 237K 步,再到 512x512 训练 194K 步;v1.2 到 v1.4 基于前序版本继续迭代,加入了美学评分过滤和条件丢弃策略,提升了 classifier-free guidance 的效果。

2、 为什么影响力这么大

Stable Diffusion 不是第一个文本生成图像的项目,但它是第一个做到开源且可用的。

Google 的 Imagen 效果也不错,但不开放权重。OpenAI 的 DALL-E 是闭源的。Stable Diffusion 把模型权重、训练代码、推理代码全部开放,还采用 CreativeML OpenRAIL-M 许可证,允许商业使用。开发者可以基于它做二次开发、微调模型、搭建产品。

社区围绕它迅速长出了大量生态。WebUI 让用户通过浏览器操作模型,ComfyUI 提供了节点式工作流,LoRA 实现了低成本微调,ControlNet 增强了可控性。这些工具全部构建在 Stable Diffusion 的基础上。AI 绘画从实验室走向大众,这条路径是 Stable Diffusion 打开的。

3、 怎么用

基础用法很简单。下载权重后,一行命令就能跑:

python scripts/txt2img.py--prompt"a photograph of an astronaut riding a horse"--plms

也有 img2img 模式,拿一张草稿图让模型重绘:

python scripts/img2img.py--prompt"A fantasy landscape, trending on artstation"--init-img sketch.jpg--strength0.8

不想折腾命令行的用户,可以用 Hugging Face 的 diffusers 库,几行 Python 代码就能调通:

fromdiffusersimportStableDiffusionPipeline pipe=StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4").to("cuda")image=pipe("a photo of an astronaut riding a horse on mars")["sample"][0]

推理脚本集成了安全过滤器和水印,降低生成不当内容的概率,也方便识别机器生成的图片。参数方面支持调整 guidance scale、采样步数、种子值,控制生成结果的多样性和质量。

4、 适合谁

  • 想做文本生成图像产品的开发者
  • 研究扩散模型的算法工程师
  • 需要用图像生成做创意辅助的设计师
  • 对 AI 绘画感兴趣、想本地跑模型的技术爱好者

散模型的算法工程师

  • 需要用图像生成做创意辅助的设计师
  • 对 AI 绘画感兴趣、想本地跑模型的技术爱好者
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 14:30:53

OpenCore Legacy Patcher完整指南:三步让旧Mac焕然一新的终极方案

OpenCore Legacy Patcher完整指南:三步让旧Mac焕然一新的终极方案 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 还在为苹果官方不再支持的旧Mac…

作者头像 李华
网站建设 2026/6/13 14:30:41

MC68030 MMU内存管理:地址转换、表搜索与保护机制详解

1. 从逻辑到物理:MC68030 MMU的地址转换基石在任何一个支持多任务和虚拟内存的现代计算系统中,内存管理单元(MMU)都是那个默默无闻却又至关重要的幕后英雄。它负责将程序员眼中连续、独立的“逻辑地址空间”翻译成物理内存中可能分…

作者头像 李华
网站建设 2026/6/13 14:30:25

深入解析NXP MC56F81xxx Flash控制器:缓存、预取与性能优化实战

1. 项目概述在嵌入式系统开发,尤其是基于NXP MC56F81xxx这类高性能数字信号控制器的项目中,我们常常会面临一个核心矛盾:CPU核心的运算速度越来越快,但作为程序存储和常量数据载体的Flash存储器,其固有的读取延迟却难以…

作者头像 李华
网站建设 2026/6/13 14:30:18

林业制图效率翻倍:我是如何用ArcGIS ModelBuilder自动化生成林地现状图的

林业制图效率革命:ArcGIS ModelBuilder全流程自动化实战清晨的阳光透过办公室窗户洒进来,桌面上堆叠着五个不同项目的林地现状图制作需求。作为林业勘察设计院的技术骨干,这样的场景早已司空见惯——每个项目都需要重复执行数据转换、坐标匹配…

作者头像 李华
网站建设 2026/6/13 14:30:09

深入解析Kinetis DSPI从机驱动:中断与DMA模式实战指南

1. 项目概述在嵌入式开发中,SPI通信几乎是每个工程师都会打交道的“老朋友”。无论是读取传感器数据,还是与外部Flash通信,SPI以其简单、高速、全双工的特性,成为了芯片间通信的基石。然而,当你从简单的轮询测试转向构…

作者头像 李华