保姆级教程：在Ubuntu 22.04上配置NVIDIA Container Toolkit，告别手动挂载GPU设备-开发者社区

在Ubuntu 22.04上高效部署NVIDIA Container Toolkit的完整指南

对于需要在Linux服务器上管理GPU资源的开发者而言，手动配置Docker容器以使用NVIDIA GPU既繁琐又容易出错。本文将详细介绍如何在Ubuntu 22.04系统上配置NVIDIA Container Toolkit，建立一个现代化、可维护的GPU容器工作流。

1. 环境准备与驱动安装

在开始配置之前，确保系统满足以下基本要求：

Ubuntu 22.04 LTS操作系统
已安装NVIDIA GPU及兼容驱动
Docker引擎已安装并运行

1.1 验证NVIDIA驱动

首先检查系统是否正确识别了NVIDIA GPU并安装了驱动：

nvidia-smi

正常输出应显示GPU信息和驱动版本。如果没有输出或报错，需要先安装NVIDIA驱动：

sudo apt update sudo ubuntu-drivers autoinstall

安装完成后重启系统使驱动生效。

1.2 安装Docker引擎

如果尚未安装Docker，可以通过以下命令安装：

sudo apt update sudo apt install -y docker.io sudo systemctl enable --now docker

验证Docker安装：

docker --version

2. 安装NVIDIA Container Toolkit

NVIDIA Container Toolkit是一套工具和库，用于简化容器中GPU的使用。安装步骤如下：

2.1 添加NVIDIA仓库

首先配置包仓库和GPG密钥：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

2.2 安装工具包

更新包索引并安装必要组件：

sudo apt update sudo apt install -y nvidia-container-toolkit

安装完成后，需要重启Docker服务：

sudo systemctl restart docker

3. 配置Docker使用NVIDIA运行时

3.1 修改Docker配置

编辑或创建Docker配置文件/etc/docker/daemon.json：

{ "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } } }

然后重启Docker服务：

sudo systemctl restart docker

3.2 验证运行时配置

运行测试容器验证配置是否成功：

docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果看到与直接在主机上运行nvidia-smi类似的输出，说明配置成功。

4. 高级配置与GPU资源管理

4.1 控制容器GPU访问

NVIDIA Container Toolkit提供了灵活的方式来控制容器可以访问哪些GPU：

允许访问所有GPU：
```
docker run --gpus all ...
```
指定特定GPU设备：
```
docker run --gpus '"device=0,1"' ...
```

通过环境变量控制：

docker run -e NVIDIA_VISIBLE_DEVICES=0,1 ...

4.2 性能优化配置

对于需要高性能计算的应用，可以调整以下参数：

docker run --gpus all \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ ...

4.3 容器内CUDA版本管理

虽然宿主机只需要安装驱动，但容器内需要匹配的CUDA Toolkit。NVIDIA提供了多种版本的CUDA基础镜像：

docker pull nvidia/cuda:11.8.0-base docker pull nvidia/cuda:12.1.0-base

选择与应用程序兼容的CUDA版本非常重要。

5. 常见问题排查

5.1 容器无法识别GPU

如果容器内无法使用GPU，检查以下方面：

确认主机驱动正常工作（nvidia-smi）
验证Docker运行时配置是否正确
检查容器是否以--gpus参数运行

5.2 版本兼容性问题

CUDA Toolkit和驱动版本需要兼容。可以通过NVIDIA官方文档查看版本兼容性矩阵。

5.3 权限问题

某些情况下可能需要添加用户到docker组：

sudo usermod -aG docker $USER

然后需要重新登录使更改生效。

6. 实际应用示例

6.1 深度学习训练容器

以下是一个典型的PyTorch训练容器的运行示例：

docker run --gpus all \ -v $(pwd)/data:/data \ -v $(pwd)/checkpoints:/checkpoints \ pytorch/pytorch:latest \ python train.py --data-dir /data --checkpoint-dir /checkpoints

6.2 Jupyter Notebook开发环境

启动一个带有GPU支持的Jupyter Notebook：

docker run --gpus all \ -p 8888:8888 \ -v $(pwd):/workspace \ tensorflow/tensorflow:latest-gpu-jupyter

6.3 多GPU并行计算

对于需要多GPU的应用，可以使用以下方式：

docker run --gpus all \ -e NVIDIA_VISIBLE_DEVICES=0,1,2,3 \ your-image \ your-command

7. 系统维护与升级

7.1 驱动升级

当升级NVIDIA驱动时，建议的步骤是：

卸载旧驱动：
```
sudo apt purge nvidia-*
```
安装新驱动：
```
sudo ubuntu-drivers autoinstall
```
重启系统

7.2 工具包升级

保持NVIDIA Container Toolkit更新：

sudo apt update sudo apt upgrade nvidia-container-toolkit

7.3 监控GPU使用情况

可以使用nvidia-smi或更高级的工具如DCGM来监控容器中的GPU使用情况：

docker run --gpus all \ nvidia/cuda:11.0-base \ nvidia-smi -l 1

在实际项目中，配置完善的监控系统对于长期运行的GPU容器至关重要。通过Prometheus和Grafana等工具可以建立可视化的监控面板。

保姆级教程：在Ubuntu 22.04上配置NVIDIA Container Toolkit，告别手动挂载GPU设备