news 2026/5/23 18:07:00

AI生成图片视频(扩散模型)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI生成图片视频(扩散模型)

AI 生成原理:从噪点到杰作

核心概念速览:

想象你面前有一块充满杂乱雪花点的屏幕(就像老式电视没信号那样),AI 的工作就是从这堆混乱中,像雕刻家凿去多余石头一样,一点点“凿”出你想要的画面。


1. 原理基础:扩散模型 (Diffusion Model)

要理解AI怎么生成图片,首先要理解两个过程:“破坏”与“重建”

Phase 1: 前向扩散 (Forward Diffusion) —— 有序变无序

想象一副清晰的《蒙娜丽莎》画像。

  1. 我们往上面撒一小把沙子(加入噪点/Noise),画变得稍微模糊了一点。
  2. 我们继续撒沙子,一遍又一遍。
  3. 最终结果:整幅画完全被沙子覆盖,变成了一片灰色的混沌(高斯噪声),完全看不出原来的样子。

这个过程就像是大自然的熵增,把有序的信息变成了无序的噪音。

Phase 2: 反向扩散 (Reverse Diffusion) —— AI 的魔法

AI 的训练目标,就是学会逆转上面的过程。

  • 任务:给AI看那堆完全混乱的沙子(纯噪声),让它猜:“在撒这把沙子之前,画面长什么样?”
  • 难度:如果是人类,面对一片雪花点根本无法还原。但AI通过学习数十亿张图片,记住了像素之间的概率关系。

💡 生动比喻:修复师与充满雾气的玻璃

想象你在浴室洗澡,镜子上全是雾气(噪声)。

AI 就像一个拥有透视眼的修复师。它看着雾气,心里想:“这里大概是轮廓,那里大概是眼睛。”

它伸手擦掉了一层薄薄的雾(去噪)。

画面清晰了一点点,它更有信心了:“哦,原来这是一只猫!”

于是它继续擦,直到整只猫清晰地显露出来。


2. 核心机制:逐步去噪 (Iterative Denoising)

AI 并不是“砰”的一下就把图变出来的,而是一步步来的。这叫马尔可夫链 (Markov Chain)

它是如何工作的?

  1. 输入:你给AI一个提示词(Prompt),比如“一只戴墨镜的赛博朋克猫”。
  2. 起步:AI 生成一张完全由随机噪点构成的图片(Tensor)。
  3. 预测噪声:AI 的大脑(通常是一个叫U-Net的神经网络)观察这张噪点图和你的提示词,计算出图里哪些部分是噪点
  4. 减去噪声:它从图里减去它预测出的那部分噪点。
  5. 循环:现在的图比刚才清晰了一点点(比如从纯灰变成了模糊的色块)。AI 再次观察,再次预测剩余的噪点,再次减去。
  6. 完成:重复这个过程几十次(Steps),直到得到清晰的图像。

🔍 关键点:AI 实际上是在预测“噪声”,而不是直接预测“图像”。

公式简化理解:当前图像 - 预测的噪声 = 更清晰的图像


3. 听懂人话:CLIP 与引导

AI 怎么知道要从噪点里画出“猫”而不是“狗”?这里需要一个翻译官。

  • 文本编码器 (Text Encoder / CLIP):

    当你输入“Cyberpunk Cat”时,CLIP 把这些文字转换成计算机能懂的数学向量 (Embeddings)。

  • 注意力机制 (Cross-Attention):

    在去噪的过程中,U-Net 会不断地“回头看”这些数学向量。

    • AI 内心独白:“这块噪点看起来像耳朵,但提示词里有‘Cyberpunk’,所以我应该把它去噪成金属质感的耳朵,而不是毛茸茸的耳朵。”

4. 进阶:潜在空间 (Latent Space) —— 为什么它这么快?

如果直接对一张 1024x1024 的高清图(百万像素)进行逐个像素的去噪,计算量大到显卡会爆炸。

解决方案:潜在扩散模型 (Latent Diffusion Model, LDM)

  • 压缩 (VAE Encoder):先把高清图压缩成一张很小的“缩略图”(比如 64x64),这个小图虽然人类看不懂,但保留了所有核心特征。这叫潜在空间 (Latent Space)
  • 在小图上作画:AI 所有的去噪工作都在这个极小的“潜在空间”里进行,速度飞快。
  • 解压 (VAE Decoder):画完后,再用解码器把这个小图“放大”回高清像素空间。

💡 比喻:

就像你想画一幅巨型壁画。你不会直接在墙上画。你会先在草稿纸(潜在空间)上快速修改、涂抹。等草稿定稿了,再用投影仪把它放大(Decode)到墙上描边上色。


5. 视频生成:给图片加上“时间轴”

视频本质上是连续的图片。但如果你只是让 AI 连续生成 24 张“猫”的图片,你会发现每张图里的猫长得都不一样,背景也在乱跳(闪烁问题)。

AI 视频生成(如 Sora)主要解决了一致性 (Consistency)问题。

核心技术点:

  1. 3D 卷积 / 3D U-Net
    • 图片生成处理的是长 x 宽(2D)。
    • 视频生成处理的是长 x 宽 x 时间(3D)。
    • AI 不再是一张张画,而是把一段视频看作一个长方体冰块,它在这个冰块里同时雕刻出所有帧。
  2. 时间注意力机制 (Temporal Attention)
    • 当 AI 生成第 5 帧的时候,它会“看”一眼第 4 帧和第 6 帧。
    • 它要确保第 5 帧里的猫的动作,能和前后连贯起来。
    • 这就像做翻页动画,画下一页时必须透写上一页的线条,才能保证动作流畅。

📝 总结

步骤核心动作形象理解
Step 1文本编码把你的话翻译成 AI 听得懂的数学指令。
Step 2随机噪声准备一块充满了电视雪花点的画布。
Step 3反向扩散(最关键)AI 根据指令,一轮轮预测并减去噪点。
Step 4潜在解码把处理好的“压缩草稿”放大成高清美图。
Step 5时序一致(视频专用) 确保每一帧之间动作连贯,不闪烁。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 10:08:45

LITESTAR 4D案例:建筑街道照明设计

设计意义建筑街道照明设计的核心意义在于保障夜间出行安全、优化交通通行效率,同时通过适配场景的照明塑造城市夜间形象、彰显空间特色,既激活商业与公共空间的夜间价值、提升生活幸福感,又能通过科学设计践行绿色节能,避免光污染…

作者头像 李华
网站建设 2026/5/2 19:56:29

风光火储网综合能源系统优化调度Matlab实现

Matlab代码,风光火储网综合能源系统优化调度。 包括热电厂热电机组(11台,电出力上下限受热出力的影响)、热电厂纯凝机组(4台),储能,储热,电转热设备(考虑与风电、热电厂出力配合的启停策略)风电光伏等机组。…

作者头像 李华
网站建设 2026/5/21 5:09:45

许可证选择建议:根据项目性质推荐合适的开源协议

VibeThinker-1.5B-APP:小模型如何在数学与编程推理中实现“以小博大” 在AI模型参数规模不断突破百亿、千亿的今天,一个仅有15亿参数的轻量级语言模型——VibeThinker-1.5B-APP,却在数学证明和算法编程任务中表现出了惊人的竞争力。它没有追…

作者头像 李华
网站建设 2026/5/10 2:26:46

高效CI/CD流水线背后的秘密,Docker缓存优化全攻略

第一章:高效CI/CD中Docker缓存的核心价值在持续集成与持续交付(CI/CD)流程中,构建速度直接影响发布效率。Docker镜像构建往往成为流水线中的性能瓶颈,尤其当项目依赖繁多或基础层频繁重建时。合理利用Docker缓存机制&a…

作者头像 李华
网站建设 2026/5/22 14:24:13

为什么建议用英语提问?解析VibeThinker的语言理解机制差异

为什么建议用英语提问?解析VibeThinker的语言理解机制差异 在AI推理模型越来越普及的今天,一个反直觉的现象正在引起开发者注意:即使母语是中文,使用英文提问反而能获得更准确、更连贯的答案。这并非偶然,而是在特定小…

作者头像 李华
网站建设 2026/5/9 13:40:20

天眼查 item_get - 获取企业详情接口对接全攻略:从入门到精通

天眼查item_get接口(官方规范名称为企业基本信息接口 baseinfoV2)是通过企业名称、统一社会信用代码、注册号或企业 ID 获取企业工商基础信息、联系方式、经营状态、变更记录等结构化数据的核心接口,适配企业征信、供应商筛选、风控合规等场景…

作者头像 李华