前置知识:第12篇(张量并行)/ 第19篇(vLLM 推理引擎)
引言:编译一次,永久受益
vLLM 是 Python 层面的极致优化,TensorRT-LLM 则更进一步——在 CUDA 核心层做优化。
它的工作方式完全不同:
vLLM: 模型加载 → 解释执行 → 每次推理都要"解释"计算图 TensorRT-LLM: 模型加载 → 编译(30分钟)→ 保存 Engine → 加载 → 光速推理 ↑ 编译一次,永久受益!NVIDIA 官方数据:TensorRT-LLM 比 vLLM 吞吐量高30-40%,延迟低20-30%。
但代价是部署复杂度大幅提升——不是"pip install"就能用的。你需要 NVIDIA GPU(推荐 A100/H100)、CUDA 12+、以及数十 GB 的磁盘空间和编译时间。
一、编译流程
1.1 三步构建
# 第 1 步:转换 checkpoint(HF 格式 → TRT-LLM 格式)python convert_check