news 2026/2/12 16:30:44

深度学习环境配置:Ubuntu20.04安装与优化指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度学习环境配置:Ubuntu20.04安装与优化指南

深度学习环境配置:Ubuntu20.04安装与优化指南

每次准备开始一个新的深度学习项目,最让人头疼的往往不是模型设计,而是环境配置。驱动版本不匹配、CUDA安装报错、依赖库冲突……这些“拦路虎”不知道劝退了多少热情满满的新手。

我自己也在这上面栽过不少跟头,花一整天时间跟环境“搏斗”是常有的事。所以今天,我想跟你分享一套经过实战检验的Ubuntu 20.04深度学习环境配置流程。这套流程的目标很明确:让你用最少的时间、最少的麻烦,搭建一个稳定、高效、随时可用的开发环境

无论你是刚接触深度学习,还是想为你的新机器搭建一个“炼丹炉”,跟着这篇指南走,都能让你事半功倍。

1. 从零开始:Ubuntu 20.04系统安装

很多人觉得装系统很麻烦,其实现在的Ubuntu安装已经非常友好了。我们选择Ubuntu 20.04 LTS,主要是因为它长期支持,社区资源丰富,遇到问题容易找到解决方案。

1.1 准备工作:制作启动U盘

首先,你需要一个至少8GB的U盘。然后去Ubuntu官网下载20.04 LTS的ISO镜像文件。下载完成后,用Rufus(Windows)或者Etcher(跨平台)这类工具把镜像写入U盘。这个过程很简单,工具都有图形界面,选好镜像文件和U盘,点开始就行。

1.2 安装过程要点

把U盘插到电脑上,重启并从U盘启动,你就进入了Ubuntu的安装界面。安装过程大部分是图形化点击下一步,但有几步需要留意:

  • 分区:如果你打算整个硬盘只装Ubuntu,选择“清除整个磁盘并安装Ubuntu”是最省事的。如果你想保留Windows做双系统,或者有自定义分区的需求,那就选“其他选项”手动分区。对于深度学习开发,我建议给根目录(/)分配至少100GB,交换空间(swap)可以设置成你内存大小的1到2倍。
  • 用户名和密码:记住你设置的这些信息,后面登录和远程连接都要用。
  • 安装第三方软件:建议勾选“为图形和Wi-Fi硬件安装第三方软件”,这样装完系统,显卡驱动和无线网卡驱动基本就齐了,能省去很多后续麻烦。

安装完成后重启,拔掉U盘,你就进入全新的Ubuntu桌面了。第一步,先打开“软件和更新”,在“更新”选项卡里,把“重要安全更新”和“推荐更新”都选上,然后让系统先更新一波。这能确保你的系统拥有最新的安全补丁和软件库。

2. 打造“炼丹”基础:驱动与CUDA安装

系统装好了,接下来就是为GPU计算做准备。这一步是核心,但跟着步骤走也不难。

2.1 NVIDIA驱动安装

Ubuntu自带的“软件和更新”里的“附加驱动”选项卡,其实可以很方便地安装闭源NVIDIA驱动。打开它,系统会自动检测你的显卡型号,并列出推荐的驱动版本。通常选那个标有“专有”和“推荐”的版本安装就行,这是最稳当的方法。

如果你想用特定版本,或者习惯命令行,也可以用apt。首先添加显卡驱动的PPA仓库,然后安装:

# 添加官方显卡驱动PPA sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update # 查看可用的驱动版本 ubuntu-drivers devices # 安装推荐的驱动版本(例如nvidia-driver-550) sudo apt install nvidia-driver-550

安装完成后,一定要重启电脑。重启后,在终端输入nvidia-smi。如果能看到你的显卡信息、驱动版本和CUDA版本,那就说明驱动安装成功了。这个命令以后会经常用,用来监控显卡状态。

2.2 CUDA工具包安装

CUDA是NVIDIA推出的并行计算平台,深度学习框架(像PyTorch、TensorFlow)都得靠它来调用GPU。我们直接从NVIDIA官网下载runfile本地安装包,这样比较灵活,也方便管理多个版本。

  1. 去NVIDIA官网的CUDA Toolkit存档页面,找到CUDA 11.8(这是一个与Ubuntu 20.04和主流深度学习框架兼容性很好的版本)。根据你的系统选择“Linux” -> “x86_64” -> “Ubuntu” -> “20.04” -> “runfile (local)”。
  2. 下载完成后,按Ctrl+Alt+F2切换到文字界面(tty2),登录后关闭图形界面服务,然后运行安装程序。这样能避免图形界面冲突。
    sudo service gdm3 stop # 停止显示管理器,如果是gdm3 # 如果是lightdm,则用 sudo service lightdm stop
  3. 运行安装命令,记得加上--toolkit--silent参数,我们只装必要的工具包,并且静默安装省去交互:
    sudo sh cuda_11.8.0_520.61.05_linux.run --toolkit --silent --override
  4. 安装完成后,重启图形界面sudo service gdm3 start,然后按Ctrl+Alt+F1F7切回桌面。

接下来,需要把CUDA的路径告诉系统。编辑你的~/.bashrc文件:

nano ~/.bashrc

在文件末尾添加这几行:

export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} export CUDA_HOME=/usr/local/cuda-11.8

保存退出后,执行source ~/.bashrc让配置生效。现在在终端输入nvcc --version,如果能显示CUDA编译器的版本信息,恭喜你,CUDA安装成功。

2.3 cuDNN库安装

cuDNN是深度神经网络加速库,可以理解为CUDA的“补强包”。你需要去NVIDIA官网下载对应CUDA 11.8的cuDNN版本(可能需要注册账号)。下载到的是一个压缩包,解压后把里面的文件复制到CUDA目录就行:

# 假设你把压缩包下载到了Downloads文件夹 tar -xzvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-11.8/include sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda-11.8/lib64 sudo chmod a+r /usr/local/cuda-11.8/include/cudnn*.h /usr/local/cuda-11.8/lib64/libcudnn*

3. 构建高效工作流:开发环境与工具链

硬件基础打牢了,现在来搭建我们写代码、跑实验的软件环境。一个好的工作流能极大提升效率。

3.1 Python环境管理:Conda

强烈推荐使用Miniconda或Anaconda来管理Python环境。它能让你为不同项目创建独立的Python环境,避免库版本冲突。去官网下载Miniconda的Linux安装脚本,然后安装:

bash Miniconda3-latest-Linux-x86_64.sh

安装过程中会问你是否将conda加入环境变量,建议选“是”。安装完成后,关闭终端重新打开,或者执行source ~/.bashrc。现在,我们可以创建一个专用于深度学习的环境:

conda create -n dl python=3.9 -y conda activate dl

看到命令行前面出现(dl)就说明你已经在这个环境里了,之后所有包的安装都只影响这个环境。

3.2 深度学习框架安装

现在来安装我们最常用的工具——深度学习框架。在激活的dl环境下,用pip安装即可。

  • PyTorch:访问PyTorch官网,用它的安装命令生成器选择对应配置(Linux, Pip, Python, CUDA 11.8),你会得到类似下面的命令:
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • TensorFlow:对于CUDA 11.8,可以安装TensorFlow 2.10左右的版本:
    pip install tensorflow==2.10.0

安装完成后,打开Python验证一下:

import torch print(torch.__version__) print(torch.cuda.is_available()) # 应该返回True print(torch.cuda.get_device_name(0)) # 显示你的显卡型号 import tensorflow as tf print(tf.__version__) print(tf.config.list_physical_devices('GPU')) # 应该能看到GPU设备列表

如果都能正确打印出版本号并识别到GPU,那么框架安装就成功了。

3.3 必备工具与效率软件

除了核心框架,还有一些工具能让你的开发体验更舒服:

  • Jupyter Lab:交互式编程和可视化的神器。pip install jupyterlab安装,然后用jupyter lab --ip=0.0.0.0启动,就可以在浏览器里写代码了。
  • VS Code:轻量级但功能强大的代码编辑器。去官网下载.deb包,用sudo dpkg -i安装。记得安装Python、Jupyter等扩展。
  • Docker:容器化技术,能让你快速部署和复现环境。安装命令如下:
    sudo apt install docker.io sudo systemctl start docker sudo systemctl enable docker # 将当前用户加入docker组,避免每次用sudo sudo usermod -aG docker $USER
    需要重新登录生效
  • Git:版本控制必备。sudo apt install git即可。

4. 性能调优与系统优化

环境能用了,但我们还可以让它跑得更快、更稳。下面这些优化措施,能让你的“炼丹炉”火更旺。

4.1 交换空间优化

如果你内存不大(比如小于32GB),在训练大模型时可能会遇到内存不足的问题。增加交换空间(Swap)可以作为一个缓冲。我们可以创建一个交换文件:

# 创建一个8GB的交换文件,大小可以按需调整 sudo fallocate -l 8G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile # 让它开机自动挂载 echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

4.2 存储性能优化

如果你的数据集放在机械硬盘上,IO可能会成为瓶颈。可以考虑用rsync代替cp命令进行大量小文件拷贝,或者将频繁读取的数据集放到SSD上。对于Ext4文件系统,可以在挂载选项(/etc/fstab中)添加noatime来减少元数据写入,提升读取性能。

4.3 网络与源配置

为了获得更快的软件下载速度,建议将Ubuntu的软件源和pip源换成国内镜像。编辑/etc/apt/sources.list,将archive.ubuntu.com替换为mirrors.aliyun.commirrors.tuna.tsinghua.edu.cn。对于pip,可以创建~/.pip/pip.conf文件,内容如下:

[global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple trusted-host = pypi.tuna.tsinghua.edu.cn

4.4 显卡状态监控

养成监控显卡状态的习惯。nvidia-smi是最基本的。如果想持续监控,可以使用watch -n 1 nvidia-smi每秒刷新一次。更直观的可以用nvtop(类似htop的GPU监控工具),用sudo apt install nvtop安装。

5. 总结

走完这一整套流程,你的Ubuntu 20.04系统就已经从一个干净的操作系统,变身为一台功能齐全、性能强劲的深度学习工作站了。从系统安装、驱动配置,到环境搭建、工具链完善,最后再到性能调优,每一步我都尽量给出了清晰的操作和解释。

实际用下来,这套配置在稳定性和兼容性上表现都很不错,能覆盖从学习实验到中小规模项目开发的需求。当然,环境配置从来不是一劳永逸的事情,随着项目和需求的变化,你可能还需要安装更多专门的库或者工具。但有了这个坚实的基础,后续的扩展就会容易很多。

如果你在跟着操作的过程中遇到了任何问题,或者有些步骤和你的实际情况不太一样,别担心,这都很正常。深度学习社区非常活跃,几乎你遇到的每一个报错信息,都能在网上找到相关的讨论和解决方案。多动手,多搜索,你也会很快成为环境配置的“老司机”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 1:34:33

阿里小云语音唤醒模型问题解决:常见错误与修复方法

阿里小云语音唤醒模型问题解决:常见错误与修复方法 语音唤醒(Keyword Spotting, KWS)是智能语音交互的第一道门槛。哪怕模型再强大,一次采样率错配、一个路径异常、一段未修复的框架报错,都可能让“小云小云”四个字石…

作者头像 李华
网站建设 2026/2/9 1:34:15

零代码实现智能连招:GSE宏编译器从入门到精通

零代码实现智能连招:GSE宏编译器从入门到精通 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. It uses Travis for UnitTests, Coveralls to report on test coverage and the Curse…

作者头像 李华
网站建设 2026/2/11 5:14:16

WuliArt Qwen-Image Turbo商业实战:小红书/抖音/B站封面图风格统一化生成

WuliArt Qwen-Image Turbo商业实战:小红书/抖音/B站封面图风格统一化生成 1. 为什么封面图统一化是内容运营的隐形胜负手 你有没有遇到过这样的情况: 刚为小红书设计了一套清新胶片风的封面,转头给抖音做同主题视频时,却生成了赛…

作者头像 李华
网站建设 2026/2/9 1:34:05

Cosmos-Reason1-7B在Linux系统管理中的智能辅助

Cosmos-Reason1-7B在Linux系统管理中的智能辅助 如果你是一位Linux系统管理员,每天面对海量的日志、突发的故障和复杂的安全配置,是不是常常感觉分身乏术?排查一个服务异常,可能需要在几十个日志文件里大海捞针;分析一…

作者头像 李华
网站建设 2026/2/9 1:34:01

3大技术壁垒与5种突破路径:非凸碰撞检测全攻略

3大技术壁垒与5种突破路径:非凸碰撞检测全攻略 【免费下载链接】mujoco Multi-Joint dynamics with Contact. A general purpose physics simulator. 项目地址: https://gitcode.com/GitHub_Trending/mu/mujoco 非凸碰撞检测是物理引擎优化的核心挑战&#x…

作者头像 李华
网站建设 2026/2/9 1:33:52

BGE-Large-Zh场景应用:从论文查重到智能推荐

BGE-Large-Zh场景应用:从论文查重到智能推荐 你是否遇到过这样的问题:学生提交的课程论文,如何快速判断是否存在大段重复内容?客服团队每天收到上千条用户咨询,怎样在不读完全部文本的前提下,精准匹配知识…

作者头像 李华