checkpoint保存策略，避免硬盘爆满-开发者社区

checkpoint保存策略，避免硬盘爆满

在进行大语言模型微调时，尤其是使用LoRA等参数高效微调方法时，虽然显存占用得到了有效控制，但一个容易被忽视的问题是：磁盘空间的快速消耗。以Qwen2.5-7B这类70亿参数级别的模型为例，在训练过程中频繁保存checkpoint（检查点）可能导致短时间内生成数十GB甚至上百GB的数据，最终导致“硬盘爆满”，影响训练进程甚至系统稳定性。

本文将结合单卡十分钟完成 Qwen2.5-7B 首次微调这一镜像环境的实际场景，深入剖析checkpoint机制的工作原理，并提供一套实用、可落地的保存策略，帮助你在保证训练安全的前提下，最大限度节省磁盘空间。

1. 为什么checkpoint会迅速占满硬盘？

当你运行如下命令启动微调任务时：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --num_train_epochs 10 \ --save_steps 50 \ --output_dir output

你可能并未意识到，每经过50个step就会自动保存一次模型状态。而每次保存的内容包括：

LoRA适配器权重文件（.bin或.safetensors）
训练状态信息（trainer_state.json）
优化器和调度器状态（optimizer.pt,scheduler.pt）
模型配置文件（config.json,tokenizer_config.json等）
其他元数据（training_args.bin,special_tokens_map.json等）

尽管LoRA本身只引入少量新增参数，但这些配套文件加起来单次保存仍可达数百MB。如果训练周期较长、步数较多，累积下来很容易达到几十GB。

更关键的是，默认情况下Hugging Face的Trainer类并不会限制保存的总数量——除非你明确设置。

2. 核心问题：默认保存行为缺乏空间管理意识

我们来看原始命令中的关键参数：

--save_steps 50 \ --save_total_limit 2

其中：

--save_steps 50表示每50步保存一次checkpoint
--save_total_limit 2是重点：它表示最多保留最近的2个checkpoint

这意味着：旧的checkpoint会被自动删除，确保不会无限增长。

但在实际使用中，很多用户要么忘记设置该参数，要么误以为“只保存最终结果”。一旦遗漏，后果就是：

📁/root/output/目录下不断堆积checkpoint-50,checkpoint-100,checkpoint-150……直到磁盘写满。

这不仅浪费存储资源，还可能引发容器崩溃、训练中断等问题。

3. 实战建议：科学配置checkpoint保存策略

3.1 合理设置`save_total_limit`

这是防止磁盘爆炸的第一道防线。强烈建议在所有训练任务中显式添加此参数。

--save_total_limit 2

表示仅保留最新的两个checkpoint。当第三个生成时，最老的那个将被自动清除。

✅ 推荐值：对于大多数微调任务，设为2~3即可。既保留了回退选项，又不会过度占用空间。

如果你确定只需要最终结果，也可以设为1，仅保留最后一个checkpoint。

3.2 调整`save_steps`频率，避免过于密集

默认每50步保存一次，在小数据集上可能意味着每几分钟就保存一次。可以适当拉长间隔。

例如改为每100步或200步保存一次：

--save_steps 100

这样既能捕捉训练过程的关键节点，又能显著减少保存次数。

⚠️ 注意：不要盲目增大间隔。若训练不稳定或耗时极长，过低的保存频率可能导致失败后无法恢复。

3.3 使用独立输出目录，便于管理和清理

始终指定明确的输出路径，避免与其它项目混用：

--output_dir /root/output/self_cognition_v1

这样做有三大好处：

文件结构清晰，易于识别
可单独对某个实验目录做备份或删除
方便脚本化批量处理（如按日期归档）

3.4 禁用不必要的中间保存（适用于稳定任务）

如果你正在进行的是短周期、高可信度的微调（如身份认知强化），且已有完整流程验证，可考虑关闭中间checkpoint保存，仅保留最终结果。

实现方式是在训练完成后手动复制最终权重，同时禁用自动保存：

--save_strategy no

然后在训练结束时主动导出：

trainer.save_model("/root/final_adapter")

❗ 此策略风险较高，仅推荐用于可重复性强的小规模实验。

4. 自动化清理方案：定时任务+监控脚本

即便设置了save_total_limit，仍有可能因程序异常退出导致旧checkpoint未被清理。为此，我们可以部署简单的自动化防护机制。

4.1 编写磁盘清理脚本

创建一个轻量级shell脚本，定期扫描并删除过期checkpoint：

#!/bin/bash OUTPUT_DIR="/root/output" # 查找所有名为 'checkpoint-*' 的目录，并按修改时间排序，保留最新的2个 ls -t $OUTPUT_DIR/checkpoint-* 2>/dev/null | tail -n +3 | xargs rm -rf

保存为clean_checkpoints.sh，并赋予执行权限：

chmod +x clean_checkpoints.sh

你可以手动运行，也可加入定时任务。

4.2 设置cron定时任务（每日清理）

编辑crontab：

crontab -e

添加一行：

0 2 * * * /root/clean_checkpoints.sh >> /root/logs/cleanup.log 2>&1

表示每天凌晨2点执行一次清理，并记录日志。

4.3 添加磁盘使用监控提醒

在训练开始前加入一句检查语句，防患于未然：

df -h /root | awk 'NR==2 { if ($5+0 > 80) print "警告：根分区使用率超过80%：" $5 }'

你还可以将其封装成函数，在每个训练脚本开头调用。

5. 高级技巧：云端持久化 + 本地临时存储

对于长期开展AI研发的团队或个人，建议采用“本地训练 + 云端归档”的混合模式。

5.1 训练阶段使用本地临时目录

--output_dir /tmp/train_temp

利用内存盘或高速SSD提升I/O性能，同时避免污染主目录。

5.2 完成后选择性上传至对象存储

训练结束后，仅将确认有效的最终结果上传至云存储（如阿里云OSS、AWS S3）：

aws s3 cp /tmp/train_temp/v2-2025xxxx/checkpoint-final s3://my-model-backup/qwen25-7b-lora/ --recursive

上传成功后再清理本地文件：

rm -rf /tmp/train_temp

这种方式兼顾效率与安全性，特别适合多轮迭代开发。

6. 总结：构建可持续的微调工作流

策略	建议值	作用
`--save_total_limit`	`2`	控制最大保存数量，防止无限膨胀
`--save_steps`	`100`或更高	减少保存频率，降低I/O压力
`--output_dir`	明确命名目录	提升可维护性和隔离性
定时清理脚本	每日执行	弥补异常退出导致的残留问题
云端归档机制	按需启用	实现长期备份与协作共享

通过合理配置save_total_limit和save_steps，配合自动化脚本与良好的目录管理习惯，你可以轻松应对大模型微调中的存储挑战，真正做到“安心训练，无惧爆盘”。

记住：每一次成功的微调，背后都有一套稳健的工程实践支撑。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

checkpoint保存策略，避免硬盘爆满