TensorRT-LLM部署Qwen3-14B-开发者社区

TensorRT-LLM部署

TensorRT-LLM 官方文档地址：https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址：https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像， docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意：release版本镜像并没有将模型转换checkpoint的依赖环境，没有tensorrt-llm ,需要手动安装，或者找其他版本的镜像（本人测试了 devel 版本（nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4）仍然没有，网络建议的build版本、engine版本没有找到，只能自己安装）

进入镜像，安装相关的的依赖：

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列，还必须安装： pip install tiktoken pip install einops #如果你是 LLaMA： pip install protobuf #如果你用 chatml / tokenizer 的特殊格式： pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录： /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址： https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录： /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint：

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源，但是当前只使用一个镜像自己完成所有的过程，则需要GPU资源
原则上不需要 GPU
仅涉及权重 reshape/分片
仅涉及 JSON 结构、配置生成
不包含算子编译

构建engine文件：

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意：
engine构建是需要GPU资源的，构建engine的GPU资源需要和部实际部署的GPU资源保持一致，
例如：部署使用单卡L20，则构建的engine必须使用相同的GPU资源，型号数量要相同
此步骤需要：
CUDA kernel 生成
TensorRT builder 编译
GPU 上的 profile 校准
Plugin 编译优化
必须使用 GPU
TensorRT engine 构建只能在 GPU 上完成
并且必须使用目标 GPU（或者至少与目标 GPU 架构兼容）
为什么需要 GPU？
TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
不同显卡（A100 / H100 / L20 / RTX4090）生成的 Engine 不能通用！

部署engine：

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096

IB、RocE、RDMA、TCP/IP：AI Scale-Out的基础

一、背景：分布式系统与 Scale-Out 架构在讲解 Scale-Out（横向扩展）之前，先介绍一下分布式系统的概念。当计算机系统发展成熟后，单一系统往往面临单点故障和性能瓶颈的问题。为解决这些问题，出现了两个主…

李华

14、创建高级控件与视觉效果：从过渡容器到流行特效

创建高级控件与视觉效果：从过渡容器到流行特效 1. 过渡容器的引入与概念在应用程序中，视图之间的过渡效果能为用户提供更好的视觉反馈，引导用户操作，避免界面信息的突然切换给用户带来的不适。就像在 PowerPoint 演示中，过渡效果能让幻灯片平滑切换。我们将这一概念应用…

李华

21、WPF 中的命令系统详解

WPF 中的命令系统详解 1. WPF 中的弱事件模式 WPF 提供了几种不同的弱事件模式实现。其中一种是针对 INotifyPropertyChanged.PropertyChanged 事件的，由 System.ComponentModel.PropertyChangedEventManager 提供，主要用于数据绑定场景。此外，还有针对集合更改事件、…

李华

Pytest框架环境切换实战教程！赶快收藏

测试人员每天都跟不同的环境打交道，比如线上环境，测试环境，预上线环境等等，那么作为自动化测试人员写的代码，我们也要具备能自由切换环境的能力，那么今天小编就给大家聊一下，如何能让我们python…

李华

青年人才托举必备丨青年人才托举工程项目申报答辩PPT制胜攻略

青年人才托举工程PPT是你个人学术品牌的集中展示。从清晰的逻辑架构到专业的视觉表达，再到自信的现场讲述，每一个环节都需要精心准备。一、青年人才托举工程申报答辩PPT核心内容模块设计一份成功的答辩PPT，需要将你的学术故事清晰地呈现给评委…

李华

告别复杂流程：GPT-SoVITS简化语音模型训练路径

告别复杂流程：GPT-SoVITS简化语音模型训练路径在虚拟主播直播带货、AI配音生成有声书、智能助手模仿家人声音的今天，个性化语音合成已不再是实验室里的“黑科技”，而是逐渐走入日常生活的实用工具。然而，传统语音克隆系统动辄需要…

李华