大模型SFT显存占用五大核心模块解析及优化技巧！-开发者社区

简介

文章解析大模型SFT显存占用的五大核心部分：模型参数、梯度与优化器状态、激活值、其他开销。介绍了全参数微调与LoRA等部分参数微调的显存差异，以及混合精度训练、梯度检查点等优化技术。理解这些机制可帮助开发者在有限资源下降低显存依赖，成功运行大模型训练。

提纲

1 简介

2 模型参数

3 梯度跟优化器

4 激活值

5 其它

6 讨论

7 FAQ

1 简介

首先问大家一个问题，如果作为一个面试官，你会通过什么问题来确认面试者有真实的大模型一线实践经验呢？而不是挪用的其它项目成员的工作或者伪造的经历？有的面试官会问大模型最终的性能，由此出发去反推你们整个项目经历。而有的面试官则会聚焦于具体实践过程中最容易遇到的问题，来确认对项目的深入程度。

在做大模型SFT时，最让人头疼的莫过于“显存不足”报错。明明模型参数只有几B，却需要几十GB以上显存才能跑起来，这其中的缘由只有真正深入实践的玩家才能有所了解。其实SFT的显存占用不是单一模块导致的，而是由模型参数、梯度、优化器状态、激活值、其他开销五大核心部分共同构成。今天就逐一拆解每个模块的占用逻辑，以及关键优化方式的影响。

写这篇文章的目的其实是希望大家能在有限的训练资源下，把自己的模型跑起来，只有了解其中的机制，才能通过不同的优化方式降低训练对显存的依赖，过一遍大模型训练的瘾。回到文章的题目，同样一个模型，为什么不同的人所需要的GPU资源却不同，则是由于训练策略，模型框架，训练数据等差异所带来的。

2 模型参数

模型参数是显存占用的核心基础，其占用大小主要由模型参数量和训练精度决定。

存储逻辑：参数存储精度直接决定单参数占用空间，常见精度对应关系为：FP32（4字节/参数）、FP16（2字节/参数）、BF16（2字节/参数）。
模型占用显存等于每个参数占用的字节数*模型参数量。比如，7B的模型，如果训练时精度是FP32的话，需要的显存大概为4*7*10**9/（1024**3）=26.07GB，快速计算时直接用每个参数占用的字节数*模型参数量（B为单位），就可以估算出需要多少GB的内存，比如4*7=28GB显存。
关键特点：参数占用是固定开销，只要模型和精度确定，这部分占用就固定，不受批量大小、序列长度影响。

3 梯度跟优化器状态

这部分占用直接受微调方式影响，全参数微调和部分参数微调（如LoRA）的显存差距非常巨大。

1. 全参数微调（Full-Parameter SFT）

梯度占用：梯度与模型参数维度完全一致，同样精度下，需要的显存占用跟模型参数是一样的。
优化器状态占用：主流优化器（如AdamW）的状态存储是参数的2-4倍，同样精度条件下需要的显存占用是梯度的2-4倍：

AdamW：需存储“参数权重、梯度、一阶矩、二阶矩”4个部分，占用为参数的4倍；
SGD：仅需存储参数和梯度，占用为参数的2倍。

2. 部分参数微调（Parameter-Efficient SFT，如LoRA）

核心逻辑：仅对部分参数（如低秩矩阵）更新，梯度和优化器状态仅针对这部分参数，而非整个模型。
与全参数微调的差别：

梯度占用：仅为低秩矩阵的维度，
优化器状态占用：同样仅针对低秩矩阵，

关键优势：部分参数微调的梯度+优化器状态占用可能仅为全参数微调的1%以下，所占用的显存资源可忽略，是大模型SFT显存优化的核心手段。

4 激活值

激活值是前向传播过程中产生的中间特征图，其占用随批量大小（batch size）、序列长度（seq_len）呈正相关，梯度检查点（Gradient Checkpointing）能大幅降低这部分占用。

1. 一般情况

存储逻辑：为了反向传播计算梯度，需要保存前向传播中每层的中间输出（激活值），包括注意力层的QKV、Feed-Forward层的中间结果等。
占用特点：

与模型结构相关：Transformer层越多、隐藏层维度越大，激活值占用越高；
与输入规模强相关：批量越大、序列越长，激活值占用呈线性增长；

2. Gradient Checkpointing

核心逻辑：通过分段保存激活值减少占用，仅保存关键层的激活值，中间层的激活值在反向传播时重新计算，用计算量换取显存，以时间换空间。
与一般情况的差别：

显存占用：可将激活值占用降低50%-70%，
代价：增加了大量参数重复计算量（反向传播时需重新计算中间层），训练时间略有延长，但显存压力大幅缓解。

适用场景：大批量、长序列SFT，是平衡显存和速度的关键优化。

5 其它

除了上述三大核心模块，还有三类隐形开销会累积，尤其在输入规模大时不可忽视：

1. 输入/输出缓存

包括token嵌入（embedding层输出）、注意力掩码（attention mask）、位置编码（positional encoding）等，占用大小与批量和序列长度相关。

2. 临时计算变量

矩阵乘法（如Q×K^T）、激活函数计算等过程中产生的临时张量，PyTorch等框架会自动管理，但高峰期可能占用数GB显存。
特点：临时变量会在计算完成后释放，但如果多个层的临时变量叠加（如长序列注意力计算），也可能导致显存峰值飙升。

3. 框架与系统开销

包括PyTorch/CentOS的运行时占用、分布式训练的通信缓存（）等，是固定基础开销。

6 讨论

在明白了大模型SFT时显存占用详情后，当遇到显存不足时，我们可以采取以下优化方案

优先用部分参数微调（LoRA）：梯度+优化器状态占用基本归零；
启用混合精度训练（FP16/BF16）：减少梯度，优化器状态跟激活值一半的显存占用；
开启梯度检查点：降低激活值占用50%以上；
控制批量和序列长度：批量从16降至8，显存可降低20%-30%；
选用轻量优化器（如SGD替代AdamW）：减少优化器状态占用。

7 FAQ

1 混合精度训练能节省显存吗？

不一定可以，混合精度训练只是将原本FP32的模型参数复制了一份FP16的去参与整个过程的计算，最终再更新到FP32的模型参数中，从而导致整个过程中参与计算的梯度，优化器状态，激活值都变成了FP16，节省下了这3部分的显存占用，但是由于它自身需要保留一份FP32的模型参数和一份FP16的模型参数复制，所以整体显存占用不一定能节省。它最明显的好处在于加速训练，整个训练过程采用的FP16训练速度远超FP32，所以训练时间大大缩短。

2 这几个部分的显存占用比例有大小关系吗？

具体情况具体分析，没有固定的答案

对于长序列或者长batch数据而言，激活值占大头。
对于全参数微调，梯度跟优化器参数的显存占用是模型参数的数倍。
大家最常见的情况下，混合精度训练+Lora下，激活值>模型占用>其它+梯度+优化器状态

3 训练时一切正常，一到模型保存时就报显存不足的错误？

核心原因在于保存模型时的显存开销远大于训练阶段

最常见原因是LoRA/QLoRA 权重合并的显存爆炸。训练时用 LoRA/QLoRA 微调仅更新少量适配器权重（占比＜1%），主干模型权重是低精度冻结的，显存占用极低；模型保存时，需要先将量化的主干模型恢复为 FP16/FP32等高精度，再与 LoRA 适配器权重相加生成完整的模型权重。这个过程会同时在显存中存储量化主干、恢复后的完整主干、LoRA 适配器三份数据。
训练显存缓存未释放，叠加保存开销。PyTorch 的显存缓存机制会导致训练中的临时张量未被彻底释放：训练时PyTorch 会缓存未使用的显存（如梯度、激活值的临时张量），用于后续训练步骤的复用，框架不会主动释放；模型保存时这些缓存显存未被清理，叠加模型权重合并 / 序列化的显存需求，原本看似空闲的显存实际被占用，最终导致显存不足。
保存时的精度转换生成权重副本。训练时常用4bit/8bit 量化，或FP16 混合精度
，但保存模型时默认生成FP16/FP32 的完整权重文件，转换过程中会在显存中同时存在训练低精度权重和保存高精度权重两个副本。
分布式训练的主卡显存过载。若用多卡 DDP 训练，默认在主卡执行模型保存：主卡不仅要承担自身的训练显存，还要接收其他卡的权重（分布式训练的权重共享虽减少单卡压力，但保存时主卡需单独加载完整权重进行序列化）；若主卡本身显存余量少，叠加权重合并 / 转换的开销，极易触发 OOM。
模型序列化的临时显存开销。保存模型为 Hugging Face 格式（safetensors/pth）时，框架会做序列化预处理：需将模型的state_dict完整加载到显存中进行校验、编码，这个过程会产生临时的显存占用；若同时保存训练器状态、优化器状态，会进一步叠加显存消耗。

4 如何选择训练策略？

根据自己模型规模跟GPU显存预估大概就可以知道了，基本原则就是尽可能把GPU显存用满但又不能超过，否则只能不断采取降级策略，包括选择低精度训练，或者梯度check point等手段。

8 如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

大模型SFT显存占用五大核心模块解析及优化技巧！

1 简介

2 模型参数

3 梯度跟优化器状态

1. 全参数微调（Full-Parameter SFT）

2. 部分参数微调（Parameter-Efficient SFT，如LoRA）

4 激活值

1. 一般情况

2. Gradient Checkpointing

5 其它

1. 输入/输出缓存

2. 临时计算变量

3. 框架与系统开销

6 讨论

在明白了大模型SFT时显存占用详情后，当遇到显存不足时，我们可以采取以下优化方案

7 FAQ

8 如何学习AI大模型？

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

AZ-500云Agent性能瓶颈如何破？3步实现90%响应速度提升

Nuxt 4 生产环境部署指南 (Node.js + Nginx)

【气象物联网前沿技术】：深度解析Agent多源传感器协同采集机制

手势控制软件新纪元：用指尖舞动Windows操作革命

（SC-400高危漏洞预警）：最新风险评估发现的3大安全隐患

STL体素转换终极实战指南