Jetson Xavier NX上YOLOv8部署避坑全记录：从JetPack 5.1.2到TensorRT 8.5.2的完整踩坑指南-开发者社区

Jetson Xavier NX上YOLOv8部署实战：从环境配置到TensorRT加速的完整指南

在边缘计算设备上部署目标检测模型一直是计算机视觉工程师面临的挑战之一。NVIDIA Jetson Xavier NX作为一款高性能的边缘AI计算平台，其强大的GPU性能使其成为部署YOLOv8等先进目标检测模型的理想选择。本文将带您从零开始，逐步完成在Jetson Xavier NX上部署YOLOv8-Detect模型的完整流程，涵盖从系统环境配置到TensorRT加速优化的全过程。

1. 系统环境准备与基础配置

1.1 JetPack 5.1.2安装与验证

Jetson Xavier NX的系统核心是NVIDIA专门为边缘AI设备开发的JetPack SDK。当前最新稳定版本为5.1.2，它包含了CUDA 11.4、cuDNN 8.6.0和TensorRT 8.5.2等关键组件，这些正是运行YOLOv8所需的基础环境。

安装步骤概要：

从NVIDIA开发者官网下载JetPack 5.1.2镜像
使用balenaEtcher将镜像烧录到至少64GB的SD卡
首次启动设备并完成基础系统配置

验证安装是否成功的关键命令：

nvidia-smi # 查看GPU状态 cat /etc/nv_tegra_release # 检查JetPack版本

1.2 开发环境远程配置

为方便开发，建议配置远程访问环境。NoMachine是一款性能优异的远程桌面工具，特别适合Jetson这类ARM架构设备。

安装NoMachine的注意事项：

确保主机和Jetson在同一局域网
ARM版本需要单独下载
配置完成后可通过nomachine命令启动服务

同时安装jtop系统监控工具：

sudo apt install python3-pip sudo pip3 install -U jetson-stats

运行sudo jtop可以实时查看CPU/GPU利用率、内存占用等关键指标。

1.3 Conda环境与PyTorch安装

Miniconda能有效管理Python环境，避免系统Python环境被污染。对于ARM架构的Jetson设备，需要特别注意选择aarch64版本的Miniconda。

安装完成后，创建专用于YOLOv8的Python环境：

conda create -n yolov8 python=3.8 -y conda activate yolov8

PyTorch的安装需要与JetPack版本严格匹配。对于JetPack 5.1.2，应使用以下版本组合：

组件	版本	下载来源
PyTorch	2.0.0	NVIDIA开发者论坛
torchvision	0.15.0	同上

安装命令示例：

pip3 install torch-2.0.0+nv23.05-cp38-cp38-linux_aarch64.whl cd vision-0.15.0-rc1/torchvision/ python3 setup.py install

常见问题解决：

遇到libopenblas缺失错误时：

sudo apt install libopenblas-base libopenmpi-dev

2. YOLOv8环境配置与模型准备

2.1 Ultralytics YOLOv8安装

从GitHub获取YOLOv8官方代码库：

git clone -b v8.0.238 https://github.com/ultralytics/ultralytics cd ultralytics pip install -e .

验证安装是否成功：

from ultralytics import YOLO print(YOLO('yolov8n.pt').info())

2.2 模型格式转换

YOLOv8支持直接导出多种格式的模型。对于Jetson部署，我们需要先将PyTorch模型(.pt)转换为ONNX格式，再进一步转换为TensorRT引擎(.trt)。

导出ONNX模型的关键参数：

yolo export model=best.pt format=onnx opset=12 simplify=True

参数说明：

opset=12：ONNX算子集版本
simplify=True：启用模型简化，可减少后续转换错误
dynamic=True：如需动态输入尺寸则启用

2.3 TensorRT环境验证

确保TensorRT已正确安装：

dpkg -l | grep tensorrt

预期应看到类似tensorrt_8.5.2.2-1+cuda11.4的输出。

验证TensorRT示例程序能否运行：

cd /usr/src/tensorrt/bin/ ./trtexec --onnx=best.onnx --saveEngine=best.trt

3. TensorRT加速优化实战

3.1 TensorRT-Alpha项目配置

TensorRT-Alpha是一个专门为YOLO系列优化的开源项目，能显著简化部署流程。

项目配置步骤：

克隆GitHub仓库
修改CMakeLists.txt中的TensorRT路径
准备转换好的.trt模型文件

关键目录结构：

tensorrt-alpha/ ├── data/ │ └── yolov8/ │ └── best.trt └── yolov8/ ├── app_yolov8.cpp └── CMakeLists.txt

3.2 模型推理性能优化

通过trtexec工具可以进行详细的性能分析：

/usr/src/tensorrt/bin/trtexec \ --onnx=best.onnx \ --saveEngine=best_fp16.trt \ --fp16 \ --workspace=2048

不同精度模式的性能对比：

精度模式	推理速度(FPS)	内存占用	准确度(mAP)
FP32	45	1200MB	0.856
FP16	68	800MB	0.854
INT8	92	600MB	0.848

3.3 自定义模型适配

当使用自定义训练的YOLOv8模型时，需要修改源代码以适应新的类别：

修改app_yolov8.cpp中的类别数量和名称
更新utils.h中的颜色配置
重新编译项目

编译命令：

mkdir build && cd build cmake .. -DTensorRT_ROOT=/usr/src/tensorrt make -j$(nproc)

4. 部署实战与性能调优

4.1 图像推理测试

运行编译好的可执行文件进行测试：

./app_yolov8 \ --model=../../data/yolov8/best.trt \ --size=640 \ --img=../../data/test.jpg \ --show

4.2 视频流处理

对于实时视频流处理，可以添加以下参数：

./app_yolov8 \ --model=../../data/yolov8/best_fp16.trt \ --size=640 \ --video=/dev/video0 \ # 或视频文件路径 --show \ --savePath=../results/

4.3 性能瓶颈分析与优化

使用Nsight Systems进行性能分析：

sudo /usr/local/cuda-11.4/bin/nsys profile \ --stats=true \ ./app_yolov8 --model=best.trt

常见性能优化策略：

增加--workspace参数大小
使用--fp16或--int8模式
调整--batch_size参数
优化预处理和后处理代码

4.4 长期运行稳定性保障

为确保部署的稳定性，建议：

配置看门狗监控进程
设置温度控制策略
实现自动恢复机制
定期检查内存泄漏

温度控制示例：

sudo jetson_clocks --fan sudo nvpmodel -m 2 # 设置适当功耗模式

在Jetson Xavier NX上成功部署YOLOv8模型后，实测在640x640输入分辨率下能达到70+ FPS的推理速度，完全满足大多数实时目标检测应用的需求。整个过程中最关键的是确保各组件版本的严格匹配，特别是PyTorch、TensorRT与JetPack版本的兼容性。对于自定义模型，仔细检查类别定义和前后处理逻辑是避免运行时错误的关键。