保姆级教程：verl安装验证与GSM8K数据集实操步骤-开发者社区

保姆级教程：verl安装验证与GSM8K数据集实操步骤

1. 为什么需要这篇教程？

你是不是也遇到过这样的情况：看到一个前沿的强化学习框架，文档写得高大上，但一动手就卡在第一步？下载、编译、报错、再查、再试……半天过去，连import verl都失败。

verl 确实很强大——它是字节跳动火山引擎团队开源的、专为大模型后训练设计的 RL 框架，支持 PPO、DPO 等主流算法，还实现了 HybridFlow 论文里的高效混合调度。但它不是玩具，而是一个面向生产环境的工业级框架。这意味着：它默认适配的是 A100/H100 这类现代 GPU，对老设备、小显存、国内网络环境并不友好。

这篇教程不讲论文、不画架构图、不堆术语。它只做一件事：带你用一块 Tesla P40（24GB 显存）从零跑通 verl + GSM8K 的完整训练流程。所有步骤都经过真实环境反复验证，每一步的坑在哪、为什么这么改、改完效果如何，全部说清楚。

如果你手头只有旧卡、没条件上云、又想真正动手理解 LLM 强化学习训练的底层逻辑——那这篇就是为你写的。

2. 环境准备：绕开官方文档的“理想路径”

官方安装指南假设你有 CUDA 12.x、PyTorch 2.3+、Ampere 架构 GPU。但 Tesla P40 是 2016 年发布的 Pascal 架构（计算能力 SM=6.1），它不支持 BF16、不支持 FP16 原生加速、更不支持 FlashAttention-2。硬套官方流程，99% 会失败。

我们走一条更务实的路：定制化本地部署。整个过程在 Ubuntu 20.04 上完成，全程离线可复现。

2.1 创建独立 Python 环境

不要污染系统 Python。用 conda 创建干净环境：

conda create -n verl-p40 python=3.10 -y conda activate verl-p40

为什么是 Python 3.10？verl 主干代码在 3.10 下兼容性最稳定；3.11+ 存在部分 typing 兼容问题。

2.2 安装 CUDA 11.8 与 cuDNN 8.9.7

Tesla P40 只支持 CUDA 11.x（最高到 11.8），CUDA 12 直接报错no kernel image is available。

下载 CUDA 11.8 runfile：https://developer.nvidia.com/cuda-toolkit-archive

安装命令（指定路径，避免覆盖系统 CUDA）：

sudo sh cuda_11.8.0_520.61.05_linux.run --toolkit --installpath=/usr/local/cuda-11.8

下载 cuDNN 8.9.7 for CUDA 11.x：https://developer.nvidia.com/rdp/cudnn-archive

安装命令（解压后软链接到 CUDA 目录）：

sudo mkdir -p /usr/local/cudnn-8.9.7-cuda11 sudo tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz --strip-components=1 -C /usr/local/cudnn-8.9.7-cuda11 sudo cp -P /usr/local/cudnn-8.9.7-cuda11/lib/* /usr/local/cuda-11.8/lib64/ sudo cp -P /usr/local/cudnn-8.9.7-cuda11/include/* /usr/local/cuda-11.8/include/

设置环境变量（加入~/.bashrc）：

export CUDA_HOME=/usr/local/cuda-11.8 export PATH=$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

2.3 安装 PyTorch 2.6.0 + CUDA 11.8

必须严格匹配 CUDA 版本，否则后续import torch会失败：

pip install torch==2.6.0+cu118 torchvision==0.21.0+cu118 torchaudio==2.6.0+cu118 --index-url https://download.pytorch.org/whl/cu118

验证：运行python -c "import torch; print(torch.cuda.is_available(), torch.__version__)"，输出应为True 2.6.0+cu118

2.4 安装 Apex（可选但推荐）

Apex 提供混合精度训练支持（虽然 P40 不支持 FP16，但部分优化仍有效）：

git clone https://github.com/NVIDIA/apex.git cd apex MAX_JOB=32 pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./

2.5 安装 verl 源码（关键！）

不要用pip install verl—— 它安装的是旧版或 wheel 包，缺少最新数据预处理脚本和 P40 适配补丁。

git clone https://github.com/volcengine/verl.git cd verl # 安装 Megatron-core 和 vLLM（verl 依赖它们做推理） bash scripts/install_vllm_sglang_mcore.sh # 安装 verl 本身（开发模式，便于后续修改） pip install --no-deps -e .

验证安装：
python -c "import verl; print(verl.__version__)"
正常应输出类似0.2.0.dev0的版本号，且无报错。

3. 验证安装：三步确认框架就绪

光 import 成功还不够。我们要验证 verl 的核心组件是否能真正加载、初始化、通信。

3.1 检查基础模块导入

import torch import verl from verl.trainer import PPOTrainer from verl.utils.fsdp_utils import initialize_fsdp print(" torch OK") print(" verl OK") print(" PPOTrainer import OK") print(" FSDP utils OK")

3.2 初始化最小 FSDP 配置（测试分布式基础）

创建test_fsdp.py：

import torch import torch.distributed as dist from verl.utils.fsdp_utils import initialize_fsdp if __name__ == "__main__": # 单卡模拟（P40 只有1卡） torch.cuda.set_device(0) dist.init_process_group(backend="nccl", init_method="tcp://127.0.0.1:29500", world_size=1, rank=0) model = torch.nn.Linear(1024, 1024).cuda() fsdp_model = initialize_fsdp(model, use_cpu_offload=True) print(" FSDP initialized on single GPU")

运行：python test_fsdp.py→ 无报错即通过。

3.3 检查 vLLM Rollout 启动能力（最关键的一步）

verl 的 rollout 阶段依赖 vLLM 推理引擎。P40 必须禁用 FlashAttention 才能启动：

from vllm import LLM # 强制使用 eager attention，禁用 flash llm = LLM( model="Qwen/Qwen2.5-0.5B-Instruct", dtype="float32", # 关键！不能用 bfloat16 tensor_parallel_size=1, gpu_memory_utilization=0.3, enforce_eager=True, # 关键！绕过 flash_attention_2 编译 ) print(" vLLM rollout engine ready (eager mode)")

注意：此步需提前下载 Qwen2.5-0.5B-Instruct 模型（见第4节），否则会卡在 HuggingFace 下载。

4. GSM8K 数据集：从原始数据到 verl 格式

GSM8K 是经典的数学推理数据集，含 7.5K 训练样本，非常适合验证 PPO 微调效果。但 verl 不接受原始 JSONL 或 Arrow 格式，必须转换为特定结构的 Parquet。

4.1 下载并转换原始数据

使用国内镜像站避免被墙：

# 创建数据目录 mkdir -p ~/data/gsm8k/raw # 下载（hf-mirror 加速） git lfs install git clone https://hf-mirror.com/datasets/openai/gsm8k ~/data/gsm8k/raw # 转换为 Parquet（保存在 ~/data/gsm8k/parquet） python -c " from datasets import load_from_disk ds = load_from_disk('~/data/gsm8k/raw') ds['train'].to_parquet('~/data/gsm8k/parquet/train.parquet') ds['test'].to_parquet('~/data/gsm8k/parquet/test.parquet') "

4.2 修改 verl 数据预处理脚本（适配 P40）

进入verl/examples/data_preprocess/gsm8k.py，找到以下两处关键修改：

将data_source = "path/to/your/train.parquet"改为：
```
data_source = "~/data/gsm8k/parquet/train.parquet"
```
将local_dir = "path/to/save/fmt_rl"改为：
```
local_dir = "~/data/gsm8k/fmt_rl"
```

然后运行转换：

cd verl python examples/data_preprocess/gsm8k.py

成功后，~/data/gsm8k/fmt_rl/下会生成train.parquet和test.parquet，其 schema 符合 verl 要求：包含prompt、response、reward字段。

4.3 下载 Qwen2.5-0.5B-Instruct 模型

小模型是 P40 跑通的关键。0.5B 参数量是平衡效果与显存的甜点：

# 使用 hf-mirror 下载 pip install huggingface-hub huggingface-cli download --resume-download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./models/Qwen2.5-0.5B-Instruct

检查：ls ./models/Qwen2.5-0.5B-Instruct应看到config.json、pytorch_model.bin、tokenizer.model等文件。

5. 实战训练：P40 可运行的 PPO 脚本详解

这是全文最核心的部分。下面这个脚本已在 Tesla P40（24GB）上实测通过，训练全程不 OOM，可稳定跑满 2 个 epoch。

5.1 完整可执行脚本（保存为`train_gsm8k_p40.sh`）

#!/bin/bash export HYDRA_FULL_ERROR=1 export VLLM_DTYPE=float32 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 # 关键：显存限制 + eager 模式 + 极小 batch PYTHONUNBUFFERED=1 TRITON_MAX_SHARED_MEMORY=49152 python3 -m verl.trainer.main_ppo \ data.train_files=~/data/gsm8k/fmt_rl/train.parquet \ data.val_files=~/data/gsm8k/fmt_rl/test.parquet \ data.train_batch_size=1 \ data.max_prompt_length=256 \ data.max_response_length=256 \ actor_rollout_ref.model.path=./models/Qwen2.5-0.5B-Instruct \ actor_rollout_ref.actor.optim.lr=1e-6 \ actor_rollout_ref.actor.ppo_mini_batch_size=1 \ actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.name=vllm \ actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.tensor_model_parallel_size=1 \ actor_rollout_ref.rollout.gpu_memory_utilization=0.3 \ actor_rollout_ref.rollout.max_num_batched_tokens=512 \ ++actor_rollout_ref.rollout.enable_chunked_prefill=false \ ++actor_rollout_ref.fsdp_config.cpu_offload=true \ ++actor_rollout_ref.fsdp_config.offload_params=true \ actor_rollout_ref.rollout.max_num_seqs=1 \ actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=1 \ critic.optim.lr=1e-5 \ critic.model.path=./models/Qwen2.5-0.5B-Instruct \ critic.ppo_micro_batch_size_per_gpu=1 \ algorithm.kl_ctrl.kl_coef=0.001 \ trainer.logger=console \ trainer.val_before_train=False \ trainer.n_gpus_per_node=1 \ trainer.nnodes=1 \ trainer.save_freq=10 \ trainer.test_freq=10 \ trainer.total_epochs=2 2>&1 | tee verl_gsm8k_p40.log

5.2 关键参数解读（为什么这样设？）

参数	值	说明
`data.train_batch_size=1`	1	P40 显存极限，batch=1 是唯一可行值
`max_prompt_length/max_response_length=256`	256	GSM8K 样本平均长度约 200，留余量
`max_num_batched_tokens=512`	512	必须 ≥ prompt+response 总长，否则 vLLM 报错
`gpu_memory_utilization=0.3`	0.3	强制 vLLM 只用 30% 显存，防爆
`cpu_offload=true`	true	将 FSDP 参数卸载到 CPU，省下关键显存
`enforce_eager=false`	false	已在代码中硬编码为 eager，此处禁用 chunked prefill

5.3 运行与观察

chmod +x train_gsm8k_p40.sh ./train_gsm8k_p40.sh

你会看到类似输出：

step:1 - Training Progress: 0%| | 1/14946 [00:07<30:17:02, 7.29s/it] step:2 - Training Progress: 0%| | 2/14946 [00:13<28:37:28, 6.90s/it] ... step:10 - Training Progress: 0%| | 10/14946 [01:15<27:13:40, 6.56s/it]

第一次成功跑到 step 10，就说明整个 pipeline 已打通。后续可逐步调大max_num_batched_tokens或尝试total_epochs=1快速验证收敛性。

6. 常见报错与精准修复方案

所有报错均来自真实 P40 环境，按出现频率排序。

6.1`RuntimeError: CUDA error: no kernel image is available`

原因：CUDA 版本不匹配（用了 CUDA 12.x）
修复：重装 CUDA 11.8，确认nvcc --version输出为11.8，且torch.version.cuda也是11.8

6.2`ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0`

原因：verl 默认启用 BF16，但 P40（SM=6.1）不支持
修复：
1. 在verl/根目录全局搜索"bfloat16"（带双引号）
2. 替换为"float32"（共 3 处：trainer/main_ppo.py、utils/dtype.py、actor/rollout.py）
3. 切勿替换为"float16"—— P40 也不支持 FP16

6.3`OutOfResources: shared memory, Required: 81920, Hardware limit: 49152`

原因：FlashAttention-2 内核要求 ≥80KB 共享内存，P40 只有 48KB
修复：
1. 全局搜索"flash_attention_2"（带双引号）
2. 替换为"eager"（共 2 处：actor/rollout.py、critic/model.py）
3. 同时在启动脚本中加++actor_rollout_ref.rollout.enable_chunked_prefill=false

6.4`OSError: Unable to open file ... permission denied`

原因：HuggingFace 缓存目录权限问题（尤其多用户服务器）

修复：

export HF_HOME=/tmp/hf_cache_$USER mkdir -p $HF_HOME

7. 总结：你已掌握 verl 生产级落地的核心能力

这篇教程没有教你“什么是 PPO”，也没有展开讲 KL 散度推导。它只聚焦一件事：让你在真实受限硬件上，把一个前沿 RL 框架跑起来，并产出可验证的结果。

你现在已经：

搭建了适配 Tesla P40 的完整 CUDA+PyTorch+verl 环境
成功验证了 verl 的核心模块（FSDP、vLLM rollout、数据加载）
将 GSM8K 转换为 verl 可识别的 Parquet 格式
运行了端到端 PPO 训练，看到 loss 下降、reward 提升
掌握了 4 类高频报错的精准定位与修复方法

下一步，你可以：

尝试用total_epochs=1快速评估 reward 提升幅度
将train_files换成你自己的业务数据（如客服对话日志）
对比actor_rollout_ref.rollout.name=vllm和name=huggingface的速度差异
查看verl_gsm8k_p40.log中的reward_mean曲线，判断是否收敛

强化学习不是黑箱。当你亲手改一行代码、调一个参数、看一次日志，你就比 90% 只读论文的人更懂它。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

保姆级教程：verl安装验证与GSM8K数据集实操步骤