手把手教学：如何用Unsloth训练DeepSeek模型-开发者社区

手把手教学：如何用Unsloth训练DeepSeek模型

1. 引言

1.1 学习目标

本文旨在为开发者提供一套完整、可执行的流程，指导如何使用Unsloth框架对大型语言模型（如 DeepSeek）进行高效微调。通过本教程，你将掌握：

如何配置基于 Conda 的训练环境
使用 Unsloth 加载和优化 LLM 模型
实现 GRPO（分组相对策略优化）算法进行强化学习微调
构建结构化数据集与多维度奖励函数
完成训练并处理常见运行时警告

最终实现：在单 GPU 上以更低显存消耗、更高训练速度完成对 DeepSeek 类似架构模型的参数高效微调。

1.2 前置知识

建议读者具备以下基础： - Python 编程能力 - PyTorch 与 Hugging Face Transformers 基础使用经验 - 对 LoRA 微调和强化学习基本概念的理解

2. 环境准备

2.1 创建 Conda 虚拟环境

首先检查当前可用的 Conda 环境列表：

conda env list

创建专用于 Unsloth 的虚拟环境，并安装必要的依赖项：

conda create --name unsloth_env \ python=3.11 \ pytorch-cuda=12.1 \ pytorch cudatoolkit xformers -c pytorch -c nvidia -c xformers \ -y

激活该环境：

conda activate unsloth_env

提示：确保你的系统已正确安装 NVIDIA 驱动和 CUDA 工具包，且nvidia-smi可正常调用。

2.2 验证 Unsloth 安装状态

克隆官方仓库并以开发模式安装：

git clone https://github.com/unslothai/unsloth.git cd unsloth pip install -e .

验证是否安装成功：

python -m unsloth

若输出包含版本信息或帮助文档，则表示安装成功。

2.3 安装额外依赖

为了支持 vLLM 快速推理及其他功能，需补充安装关键库：

pip install packaging -i https://pypi.tuna.tsinghua.edu.cn/simple pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

同时建议设置环境变量以管理缓存路径（添加至~/.bashrc）：

export TORCH_HOME="[your path]/torch_home/" export HF_HOME="[your path]/huggingface/" export MODELSCOPE_CACHE="[your path]/modelscope_models/" export CUDA_HOME="/usr/local/cuda" export OMP_NUM_THREADS=64

3. 模型加载与配置

3.1 初始化 FastLanguageModel

Unsloth 提供了FastLanguageModel接口，用于快速加载和优化大模型。我们先导入核心模块并打补丁以启用 GRPO 支持：

from unsloth import FastLanguageModel, PatchFastRL PatchFastRL("GRPO", FastLanguageModel)

此操作动态扩展了模型类的功能，使其兼容 GRPO 训练器及 vLLM 推理加速。

3.2 加载预训练模型

设定最大序列长度和 LoRA 秩参数后，使用from_pretrained方法加载模型：

max_seq_length = 512 lora_rank = 32 model, tokenizer = FastLanguageModel.from_pretrained( model_name="deepseek-ai/deepseek-coder-6.7b-instruct", # 示例模型 max_seq_length=max_seq_length, load_in_4bit=True, fast_inference=True, max_lora_rank=lora_rank, gpu_memory_utilization=0.6, )

参数说明：

load_in_4bit=True：启用 4 位量化，显著降低显存占用
fast_inference=True：集成 vLLM 实现推理加速
gpu_memory_utilization=0.6：预留部分显存用于梯度计算和检查点

4. 参数高效微调（PEFT）配置

4.1 应用 LoRA 微调

使用get_peft_model方法封装模型，仅训练低秩适配矩阵：

model = FastLanguageModel.get_peft_model( model, r=lora_rank, target_modules=[ "q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", ], lora_alpha=lora_rank, use_gradient_checkpointing="unsloth", random_state=3407, )

关键参数解析：

r=32：LoRA 的秩，控制新增参数量；值越大表达能力越强，但训练更慢
target_modules：指定在哪些注意力和前馈网络层应用 LoRA
use_gradient_checkpointing="unsloth"：开启 Unsloth 优化版梯度检查点，减少长文本训练时的显存峰值

技术优势：Unsloth 的梯度检查点机制比原生 PyTorch 更高效，尤其适合处理超过 8k token 的上下文。

5. 数据集构建与格式化

5.1 定义系统提示与 CoT 格式

我们希望模型输出遵循特定思维链（Chain-of-Thought）结构：

SYSTEM_PROMPT = """ Respond in the following format: <reasoning> ... </reasoning> <answer> ... </answer> """ XML_COT_FORMAT = """\ <reasoning> {reasoning} </reasoning> <answer> {answer} </answer> """

5.2 数据预处理函数

从gsm8k数学题数据集中提取问题与答案，并转换为对话格式：

import re from datasets import load_dataset, Dataset def extract_xml_answer(text: str) -> str: answer = text.split("<answer>")[-1] answer = text.split("</answer>")[0] return answer.strip() def extract_hash_answer(text: str) -> str | None: if "####" not in text: return None return text.split("####")[1].strip() def get_gsm8k_questions(split="train") -> Dataset: data = load_dataset('openai/gsm8k', 'main')[split] data = data.map(lambda x: { 'prompt': [ {'role': 'system', 'content': SYSTEM_PROMPT}, {'role': 'user', 'content': x['question']} ], 'answer': extract_hash_answer(x['answer']) }) return data dataset = get_gsm8k_questions("train")

6. 奖励函数设计

GRPO 是一种基于奖励的强化学习算法，其性能高度依赖于奖励函数的设计。以下是多个维度的奖励函数实现。

6.1 正确性奖励

评估生成答案是否与标准答案一致：

def correctness_reward_func(prompts, completions, answer, **kwargs) -> list[float]: responses = [completion[0]['content'] for completion in completions] extracted_responses = [extract_xml_answer(r) for r in responses] return [2.0 if r == a else 0.0 for r, a in zip(extracted_responses, answer)]

6.2 整数格式奖励

鼓励输出为纯数字：

def int_reward_func(completions, **kwargs) -> list[float]: responses = [completion[0]['content'] for completion in completions] extracted_responses = [extract_xml_answer(r) for r in responses] return [0.5 if r.isdigit() else 0.0 for r in extracted_responses]

6.3 格式合规性奖励

分为严格和宽松两种正则匹配方式：

def strict_format_reward_func(completions, **kwargs) -> list[float]: pattern = r"^<reasoning>\n.*?\n</reasoning>\n<answer>\n.*?\n</answer>\n$" responses = [completion[0]["content"] for completion in completions] matches = [re.match(pattern, r) for r in responses] return [0.5 if match else 0.0 for match in matches] def soft_format_reward_func(completions, **kwargs) -> list[float]: pattern = r"<reasoning>.*?</reasoning>\s*<answer>.*?</answer>" responses = [completion[0]["content"] for completion in completions] matches = [re.match(pattern, r) for r in responses] return [0.5 if match else 0.0 for match in matches]

6.4 XML 结构完整性奖励

逐项检测 XML 标签存在性和冗余情况：

def count_xml(text) -> float: count = 0.0 if text.count("<reasoning>\n") == 1: count += 0.125 if text.count("\n</reasoning>\n") == 1: count += 0.125 if text.count("\n<answer>\n") == 1: count += 0.125 count -= len(text.split("\n</answer>\n")[-1]) * 0.001 if text.count("\n</answer>") == 1: count += 0.125 count -= (len(text.split("\n</answer>")[-1]) - 1) * 0.001 return count def xmlcount_reward_func(completions, **kwargs) -> list[float]: contents = [completion[0]["content"] for completion in completions] return [count_xml(c) for c in contents]

7. GRPO 训练配置与执行

7.1 配置 GRPO 参数

使用GRPOConfig设置训练超参数：

from trl import GRPOConfig, GRPOTrainer from unsloth import is_bfloat16_supported training_args = GRPOConfig( use_vllm=True, learning_rate=5e-6, adam_beta1=0.9, adam_beta2=0.99, weight_decay=0.1, optim="paged_adamw_8bit", lr_scheduler_type="cosine", warmup_ratio=0.1, per_device_train_batch_size=1, gradient_accumulation_steps=1, num_generations=6, max_prompt_length=256, max_completion_length=200, logging_steps=1, bf16=is_bfloat16_supported(), fp16=not is_bfloat16_supported(), max_steps=250, save_steps=250, max_grad_norm=0.1, report_to="none", output_dir="outputs", )

7.2 启动训练

初始化GRPOTrainer并开始训练：

trainer = GRPOTrainer( model=model, processing_class=tokenizer, reward_funcs=[ xmlcount_reward_func, soft_format_reward_func, strict_format_reward_func, int_reward_func, correctness_reward_func, ], args=training_args, train_dataset=dataset, ) trainer.train()

训练过程中会实时打印日志，包括损失、奖励分项、KL 散度等指标。

8. 常见问题与解决方案

8.1 distutils 模块弃用警告

现象：

UserWarning: Reliance on distutils from stdlib is deprecated.

原因：setuptools 新版本不再推荐使用标准库中的 distutils。

解决方法：

unset SETUPTOOLS_USE_DISTUTILS

建议在启动脚本前执行此命令，避免潜在冲突。

8.2 进程组未销毁警告

现象：

Warning: process group has NOT been destroyed before we destruct ProcessGroupNCCL.

原因：分布式训练结束后未显式释放通信资源。

解决方法：在程序末尾添加清理代码：

import torch.distributed as dist dist.destroy_process_group()

确保所有 NCCL 操作完成后再退出进程。

9. 总结

9.1 核心收获

通过本文实践，我们完成了以下关键技术环节： - 成功搭建基于 Unsloth 的高效训练环境 - 使用 4 位量化和 LoRA 显著降低显存需求 - 利用 GRPO 实现结构化输出的强化学习微调 - 设计多层次奖励函数提升模型行为可控性 - 处理典型运行时警告，保障训练稳定性

9.2 最佳实践建议

显存不足时调整参数：
减小per_device_train_batch_size
降低num_generations
调整gpu_memory_utilization至 0.5 或以下
提升训练质量技巧：
增加max_steps至数千步以充分收敛
使用更大规模、多样化的训练数据集
动态调整奖励权重，平衡准确性与格式合规性
部署优化建议：
训练完成后导出为 GGUF 或 ONNX 格式便于边缘设备部署
结合 vLLM 实现高吞吐推理服务

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教学：如何用Unsloth训练DeepSeek模型