news 2026/3/1 21:18:25

TensorRT-LLM部署Qwen3-14B

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TensorRT-LLM部署Qwen3-14B

TensorRT-LLM部署

TensorRT-LLM 官方文档地址:https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址:https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像, docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意:release版本镜像并没有将模型转换checkpoint的依赖环境,没有tensorrt-llm ,需要手动安装,或者找其他版本的镜像(本人测试了 devel 版本(nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4)仍然没有,网络建议的build版本、engine版本没有找到,只能自己安装)

进入镜像,安装相关的的依赖:

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列,还必须安装: pip install tiktoken pip install einops #如果你是 LLaMA: pip install protobuf #如果你用 chatml / tokenizer 的特殊格式: pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录: /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址: https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录: /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint:

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源,但是当前只使用一个镜像自己完成所有的过程,则需要GPU资源

原则上不需要 GPU

  • 仅涉及权重 reshape/分片
  • 仅涉及 JSON 结构、配置生成
  • 不包含算子编译

构建engine文件:

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意:

engine构建是需要GPU资源的,构建engine的GPU资源需要和部实际部署的GPU资源保持一致,

例如:部署使用单卡L20,则构建的engine必须使用相同的GPU资源,型号数量要相同

此步骤需要:

  • CUDA kernel 生成
  • TensorRT builder 编译
  • GPU 上的 profile 校准
  • Plugin 编译优化

必须使用 GPU

  • TensorRT engine 构建只能在 GPU 上完成
  • 并且必须使用目标 GPU(或者至少与目标 GPU 架构兼容)

为什么需要 GPU?

  • TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
  • 不同显卡(A100 / H100 / L20 / RTX4090)生成的 Engine 不能通用!

部署engine:

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 18:40:18

IB、RocE、RDMA、TCP/IP:AI Scale-Out的基础

一、背景:分布式系统与 Scale-Out 架构 在讲解 Scale-Out(横向扩展)之前,先介绍一下分布式系统的概念。 当计算机系统发展成熟后,单一系统往往面临单点故障和性能瓶颈的问题。为解决这些问题,出现了两个主…

作者头像 李华
网站建设 2026/2/25 20:34:16

14、创建高级控件与视觉效果:从过渡容器到流行特效

创建高级控件与视觉效果:从过渡容器到流行特效 1. 过渡容器的引入与概念 在应用程序中,视图之间的过渡效果能为用户提供更好的视觉反馈,引导用户操作,避免界面信息的突然切换给用户带来的不适。就像在 PowerPoint 演示中,过渡效果能让幻灯片平滑切换。我们将这一概念应用…

作者头像 李华
网站建设 2026/2/22 0:06:34

21、WPF 中的命令系统详解

WPF 中的命令系统详解 1. WPF 中的弱事件模式 WPF 提供了几种不同的弱事件模式实现。其中一种是针对 INotifyPropertyChanged.PropertyChanged 事件的,由 System.ComponentModel.PropertyChangedEventManager 提供,主要用于数据绑定场景。此外,还有针对集合更改事件、…

作者头像 李华
网站建设 2026/2/28 2:47:13

Pytest框架环境切换实战教程!赶快收藏

测试人员每天都跟不同的环境打交道,比如线上环境,测试环境,预上线环境等等,那么作为自动化测试人员写的代码,我们也要具备能自由切换环境的能力,那么今天小编就给大家聊一下,如何能让我们python…

作者头像 李华
网站建设 2026/2/26 9:37:20

青年人才托举必备丨青年人才托举工程项目申报答辩PPT制胜攻略

青年人才托举工程PPT是你个人学术品牌的集中展示。从清晰的逻辑架构到专业的视觉表达,再到自信的现场讲述,每一个环节都需要精心准备。一、青年人才托举工程申报答辩PPT核心内容模块设计一份成功的答辩PPT,需要将你的学术故事清晰地呈现给评委…

作者头像 李华
网站建设 2026/2/15 11:59:15

告别复杂流程:GPT-SoVITS简化语音模型训练路径

告别复杂流程:GPT-SoVITS简化语音模型训练路径 在虚拟主播直播带货、AI配音生成有声书、智能助手模仿家人声音的今天,个性化语音合成已不再是实验室里的“黑科技”,而是逐渐走入日常生活的实用工具。然而,传统语音克隆系统动辄需要…

作者头像 李华