Ubuntu系统深度学习环境完美配置-开发者社区

Ubuntu系统深度学习环境完美配置

1. 为什么需要在Ubuntu上搭建深度学习环境

很多人第一次接触深度学习时，会纠结该选Windows还是Linux系统。从实际工程经验来看，Ubuntu几乎是深度学习开发的默认选择——不是因为它有多酷，而是因为稳定、省心、少踩坑。

我见过太多新手在Windows上折腾CUDA驱动，结果蓝屏三次后放弃；也见过团队用MacBook跑模型，发现显卡不支持CUDA，最后只能租云服务器。而Ubuntu系统，特别是20.04和22.04这两个长期支持版本，对NVIDIA显卡的支持已经非常成熟，官方文档齐全，社区问题解答丰富，出问题时搜索错误信息基本都能找到解决方案。

更重要的是，几乎所有深度学习框架的官方安装指南、预训练模型仓库、甚至云服务的镜像，都是以Ubuntu为基准测试和部署的。你在Ubuntu上跑通的代码，几乎不用修改就能直接部署到生产服务器或云平台。这种一致性带来的效率提升，远超初期多花的一两个小时配置时间。

所以这篇文章不会讲“Ubuntu和Windows哪个好”这种没有答案的问题，而是直接带你走一条已经被验证过、最顺滑的路径：从一台全新的Ubuntu系统开始，一步步搭建出真正能干活的深度学习环境。

2. 硬件准备与系统检查

在动手之前，先确认你的硬件是否满足基本要求。这不是为了设置门槛，而是避免你花几个小时配置完，最后发现显卡根本不支持CUDA。

2.1 显卡型号确认

深度学习对GPU有明确要求：必须是NVIDIA显卡，且计算能力（Compute Capability）不低于3.5。简单来说，GTX 900系列及更新的显卡都支持，包括RTX 20系、30系、40系，以及专业级的Tesla、A100等。

打开终端，输入以下命令查看显卡信息：

lspci | grep -i nvidia

如果看到类似NVIDIA Corporation GA104或GM107这样的输出，说明系统已经识别到NVIDIA显卡。如果没有输出，可能是显卡未正确插入，或者你的电脑用的是集成显卡（Intel核显或AMD APU），这类设备无法运行GPU加速的深度学习任务。

2.2 系统版本与更新

推荐使用Ubuntu 22.04 LTS（长期支持版），它对较新的NVIDIA驱动和CUDA版本兼容性最好。如果你用的是20.04，也没问题，但某些新显卡可能需要手动升级内核。

首先确保系统是最新的：

sudo apt update && sudo apt upgrade -y sudo reboot

重启后，再执行一次更新，确保所有基础组件都已更新：

sudo apt update

2.3 禁用nouveau开源驱动

Ubuntu默认会加载nouveau这个开源NVIDIA驱动，但它和官方闭源驱动冲突。在安装NVIDIA驱动前，必须禁用它。

创建并编辑黑名单文件：

sudo nano /etc/modprobe.d/blacklist-nouveau.conf

在文件中添加以下两行：

blacklist nouveau options nouveau modeset=0

保存后更新initramfs并重启：

sudo update-initramfs -u sudo reboot

重启后，验证nouveau是否已被禁用：

lsmod | grep nouveau

如果没有任何输出，说明禁用成功。如果有输出，说明禁用失败，需要检查上面的步骤是否执行正确。

3. NVIDIA显卡驱动安装

这一步是整个配置过程中最关键的环节。很多人的环境卡在这里，不是因为操作复杂，而是因为没理解驱动、CUDA、cuDNN三者之间的关系。

简单说：NVIDIA驱动是让操作系统能“看见”和“控制”显卡的底层软件；CUDA是让程序能调用显卡进行通用计算的平台；cuDNN是专门为深度学习优化的函数库。它们就像汽车的发动机、变速箱和专用机油——缺一不可，但安装顺序不能乱。

3.1 选择合适的驱动版本

不要盲目追求最新版驱动。驱动版本需要和你要安装的CUDA版本匹配。比如CUDA 11.8要求驱动版本不低于450.80.02，而CUDA 12.2则要求驱动不低于525.60.13。

最稳妥的方法是去NVIDIA驱动下载页面，根据你的显卡型号选择“Studio Driver”（更稳定）而非“Game Ready Driver”。

或者，直接使用Ubuntu的图形化工具：

sudo ubuntu-drivers autoinstall sudo reboot

这条命令会自动检测你的硬件，并安装最适合的驱动版本。对于大多数用户，这是最省心的选择。

3.2 验证驱动安装

重启后，打开终端，输入：

nvidia-smi

如果看到类似下面的输出，说明驱动安装成功：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 NVIDIA GeForce ... On | 00000000:01:00.0 Off | N/A | | 30% 42C P8 12W / 250W | 0MiB / 12288MiB | 0% Default | +-------------------------------+----------------------+----------------------+

注意看右上角的“CUDA Version: 12.2”，这表示当前驱动支持的最高CUDA版本。记住这个数字，它决定了你后续能安装哪个版本的CUDA。

4. CUDA工具包安装

CUDA是NVIDIA提供的并行计算平台和编程模型，深度学习框架正是通过它来调用GPU资源的。安装CUDA不是装一个软件，而是配置一套开发环境。

4.1 选择CUDA版本的实用原则

很多教程会告诉你查PyTorch或TensorFlow官网，看它们推荐的CUDA版本。这没错，但有个更简单的经验法则：选比nvidia-smi显示的CUDA版本低一级的版本。

比如nvidia-smi显示支持CUDA 12.2，那么就安装CUDA 11.8；如果显示11.7，就装11.6。这样既能保证兼容性，又能获得较好的性能和稳定性。

为什么？因为驱动是向下兼容的——新驱动可以运行旧CUDA，但旧驱动无法运行新CUDA。而深度学习框架通常对CUDA版本有一定宽容度，11.6和11.8的API差异很小。

4.2 官方安装方式（推荐）

访问NVIDIA CUDA Toolkit Archive，找到你选定的CUDA版本（比如11.8），下载对应Ubuntu版本的.run文件。

假设你下载的是cuda_11.8.0_520.61.05_linux.run，按以下步骤安装：

# 添加执行权限 chmod +x cuda_11.8.0_520.61.05_linux.run # 运行安装程序 sudo ./cuda_11.8.0_520.61.05_linux.run

安装界面会出现，按空格键滚动阅读许可协议，输入accept同意。

关键一步来了：在安装选项界面，取消勾选“Driver”，只保留“CUDA Toolkit”和“CUDA Samples”。因为我们已经安装了驱动，这里再装会冲突。

安装完成后，配置环境变量：

echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

4.3 验证CUDA安装

nvcc --version

应该输出类似：

nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2022 NVIDIA Corporation Built on Wed_Sep_21_10:33:58_PDT_2022 Cuda compilation tools, release 11.8, V11.8.89 Build cuda_11.8.r11.8/compiler.31833905_0

再测试CUDA示例程序：

cd /usr/local/cuda-11.8/samples/1_Utilities/deviceQuery sudo make ./deviceQuery

如果最后输出Result = PASS，说明CUDA安装完全成功。

5. cuDNN库安装

cuDNN（CUDA Deep Neural Network library）是NVIDIA为深度学习专门优化的库，它把卷积、池化、归一化等常用操作做了极致优化。没有它，你的GPU可能只发挥出30%的性能。

5.1 获取cuDNN

cuDNN需要在NVIDIA开发者网站注册账号后下载。访问cuDNN下载页面，选择与CUDA版本匹配的cuDNN（比如CUDA 11.8对应cuDNN 8.6）。

下载后得到一个压缩包，如cudnn-linux-x86_64-8.6.0.163_cuda11.8-archive.tar.xz。

5.2 安装与配置

解压并复制文件到CUDA目录：

tar -xf cudnn-linux-x86_64-8.6.0.163_cuda11.8-archive.tar.xz sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-11.8/include sudo cp cudnn-*-archive/lib/libcudnn* /usr/local/cuda-11.8/lib64 sudo chmod a+r /usr/local/cuda-11.8/include/cudnn*.h /usr/local/cuda-11.8/lib64/libcudnn*

验证安装：

cat /usr/local/cuda-11.8/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

应该看到类似：

#define CUDNN_MAJOR 8 #define CUDNN_MINOR 6 #define CUDNN_PATCHLEVEL 0

6. Python环境与深度学习框架选择

现在硬件层已经准备就绪，接下来是软件层。Python是深度学习的事实标准语言，但如何管理Python环境，却有很多选择。

6.1 为什么推荐conda而不是pip

很多人习惯用pip install，但在深度学习环境中，conda有几个不可替代的优势：

环境隔离更彻底：conda不仅管理Python包，还管理编译器、BLAS库等底层依赖，避免不同项目间的C++库冲突。
预编译二进制包：conda的PyTorch、TensorFlow包已经针对CUDA版本编译好，安装后开箱即用，不用自己编译。
跨平台一致性：你在Ubuntu上用conda创建的环境，可以几乎无缝迁移到macOS或Windows。

当然，如果你喜欢轻量级，用venv + pip也完全可行，只是需要更多手动配置。

6.2 安装Miniconda（轻量版conda）

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3 $HOME/miniconda3/bin/conda init bash source ~/.bashrc

6.3 创建深度学习专用环境

# 创建名为dl_env的环境，Python版本3.9 conda create -n dl_env python=3.9 # 激活环境 conda activate dl_env # 安装PyTorch（GPU版本，匹配CUDA 11.8） pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 或者安装TensorFlow（GPU版本） pip install tensorflow[and-cuda]

6.4 验证框架是否识别GPU

在Python交互环境中测试：

import torch print(torch.cuda.is_available()) # 应该输出True print(torch.cuda.device_count()) # 应该输出1或更多 print(torch.cuda.get_device_name(0)) # 显示你的显卡型号

对于TensorFlow：

import tensorflow as tf print(tf.config.list_physical_devices('GPU')) # 应该列出你的GPU

7. 实用工具与开发环境配置

一个能高效工作的环境，不只是能跑通代码，还要有良好的开发体验。

7.1 Jupyter Notebook远程访问

在服务器上开发时，你通常想用本地浏览器访问Jupyter。配置很简单：

# 生成配置文件 jupyter notebook --generate-config # 设置密码（在Python中执行） python -c "from notebook.auth import passwd; print(passwd())" # 输入密码两次，得到一串sha1哈希值 # 编辑配置文件 nano ~/.jupyter/jupyter_notebook_config.py

在文件末尾添加：

c.NotebookApp.ip = '0.0.0.0' c.NotebookApp.port = 8888 c.NotebookApp.open_browser = False c.NotebookApp.allow_remote_access = True c.NotebookApp.password = 'sha1:your_hash_here' c.NotebookApp.notebook_dir = '/home/your_username/projects'

启动Jupyter：

jupyter notebook --no-browser

然后在本地浏览器访问http://your_server_ip:8888，输入密码即可。

7.2 VS Code远程开发

VS Code配合Remote-SSH插件，能让你在本地编辑代码，远程服务器上运行，体验接近本地开发。

安装Remote-SSH插件后，在命令面板（Ctrl+Shift+P）中选择“Remote-SSH: Connect to Host...”，输入服务器地址，选择你的环境即可。

7.3 常用调试技巧

监控GPU使用：watch -n 1 nvidia-smi实时查看显存和算力占用
指定GPU运行：CUDA_VISIBLE_DEVICES=0 python train.py只用第一块GPU
查看CUDA版本：python -c "import torch; print(torch.version.cuda)"
清理conda缓存：conda clean --all

8. 常见问题与解决方案

配置过程中遇到问题很正常，这里列出几个高频问题及其解决思路。

8.1`nvidia-smi`命令找不到

说明驱动没装好或没生效。先检查是否禁用了nouveau，再确认是否重启。如果重启后仍不行，尝试重新安装驱动：

sudo apt purge nvidia-* sudo ubuntu-drivers autoinstall sudo reboot

8.2 PyTorch报告`CUDA unavailable`

先确认nvidia-smi能正常运行。如果能，再检查：

是否激活了正确的conda环境？
torch.cuda.is_available()返回什么？
nvcc --version和nvidia-smi显示的CUDA版本是否兼容？

最常见原因是PyTorch版本和CUDA版本不匹配。卸载重装：

pip uninstall torch torchvision torchaudio pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

8.3 Jupyter无法远程访问

检查防火墙设置：

sudo ufw status sudo ufw allow 8888

确认Jupyter配置中的ip设为0.0.0.0而非127.0.0.1，后者只允许本地访问。

8.4 安装过程卡在某个步骤

Ubuntu的默认源在国内有时不稳定。更换为清华源：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_channel_urls yes

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Ubuntu系统深度学习环境完美配置