news 2025/12/20 3:07:38

vLLM 0.11.0 发布:全面升级引擎与多模态支持

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM 0.11.0 发布:全面升级引擎与多模态支持

vLLM 0.11.0:引擎重构、多模态跃迁与生产级推理的全面进化

在大模型从研究走向规模化落地的关键阶段,推理效率不再只是“锦上添花”的性能指标,而是决定服务成本、响应体验和商业可行性的核心命脉。正是在这样的背景下,vLLM 推出v0.11.0版本——一个堪称里程碑式的重大更新。

这一版本凝聚了207 名贡献者(其中 65 名为新成员)的集体智慧,历经538 次提交,完成了从底层架构到上层接口的深度重塑。它不仅标志着 vLLM 正式告别历史包袱,更预示着其作为企业级高性能推理引擎的新起点:更高效、更统一、更具扩展性。

引擎现代化:V0 的谢幕与 V1 的全面接管

如果说 vLLM 过去的演进是一场渐进式优化,那么 0.11.0 则是一次果断的“外科手术”——彻底移除已弃用多年的V0 引擎

这不仅仅是代码清理那么简单。AsyncLLMEngineLLMEngineMQLLMEngine等旧组件的退出,意味着整个系统摆脱了多套并行逻辑带来的复杂性和维护负担。注意力后端、序列管理、采样元数据处理等模块也同步完成清理,连MultiModalPlaceholderMapseq_group这类遗留接口都被一一摘除。

取而代之的是完全成熟的V1 引擎,它以更清晰的抽象、更低的通信开销和更强的可扩展性成为唯一选择。这次转型让代码库更加整洁,也为未来功能迭代扫清了障碍。对于开发者而言,这意味着部署方案终于归一,无需再纠结于不同引擎间的细微差异或兼容性问题。

更重要的是,V1 引擎本身也在本次更新中获得了显著增强:

  • Prompt Embeddings 支持允许直接传入预计算的嵌入向量,跳过重复的分词与查表过程,在批处理或缓存场景下极为实用。
  • 分片状态加载让超大规模模型(如 Llama 3.1 405B)可以在内存受限的单机上逐步加载,降低启动峰值。
  • LLM.apply_modelAPI提供了更底层的控制能力,便于高级用户进行定制化集成。
  • 架构层面移除了Tokenizer Group,减少了不必要的进程间通信;多模态数据则通过共享内存提升跨进程访问效率。

这些变化共同构建了一个更轻量、更专注、更适合生产环境的推理核心。

性能飞跃:PagedAttention 的深度打磨与 CUDA Graph 的智能升级

vLLM 的看家本领——PagedAttention——在 0.11.0 中迎来了新一轮爆发式优化。这一次,它不再只是内存管理的革新者,更是性能压榨的先锋。

借助FlashInferTriton 内核的深度融合,关键路径上的操作被不断精简:

  • RotaryEmbedding.forward_cuda在支持环境下优先使用 FlashInfer 实现,RoPE 计算速度提升近2 倍
  • query 和 key 的 RoPE 计算被融合为单一内核,减少内核启动开销,带来11% 的整体加速
  • Triton MRoPE 内核的引入进一步提升了 Qwen3-VL 等模型的运行效率。

而在执行图层面,CUDA graph 模式默认升级为FULL_AND_PIECEWISE,在大多数负载中实现了更高吞吐,尤其对 MoE 类细粒度模型表现优异。虽然仍保留PIECEWISE模式用于兼容,但新默认值反映了团队对稳定性和性能边界的充分信心。

此外,推测解码(speculative decoding)的成本也被大幅压缩。通过批量并行 Ngram 策略,其开销降低了8 倍;结合 FlashInfer 的优化,整体提速达1.14 倍。这类技术组合拳使得“草稿-验证”机制真正具备了在高并发场景下广泛应用的可行性。

其他细节优化同样不容小觑:
- 避免不必要的inputs_embeds张量复制,节省 GPU 显存带宽;
- 模型信息缓存生成_ModelInfo文件,加快后续加载;
- DeepGEMM 默认启用,在多个基准测试中带来5.5% 吞吐提升

这些看似微小的改进叠加起来,构成了实实在在的性能跃迁。

多模态能力爆发:不只是支持更多模型

如果说之前的 vLLM 对多模态的支持还停留在“可用”层面,那么 0.11.0 已经将其推向“好用”甚至“强大”。

新增对Qwen3-VLQwen3-NextLongCat-FlashDots OCROLMo3等前沿多模态架构的原生支持,意味着用户几乎可以无缝部署最新研究成果。特别是 Qwen3-VL 的纯文本模式 (#26000),让用户能在不需要图像输入时避免视觉编码器的额外开销,灵活应对混合工作负载。

在能力维度上,vLLM 不再满足于简单的图文理解:

  • 视觉编码器数据并行支持 InternVL、Qwen2-VL 和 Qwen3-VL,显著提升长视频或多图输入的处理效率;
  • EVS 视频 token 剪枝技术 (#22980) 可动态裁剪冗余帧标记,在保持精度的同时大幅节省显存;
  • 工具调用能力扩展至 LongCat-Flash-Chat (#24083),使其能主动调用外部函数完成复杂任务;
  • 新增Media UUID 缓存,避免重复上传相同媒体资源,提升交互效率。

同时,Whisper 模型现在可在 Intel XPU 平台运行,RADIO 编码器和池化任务(Pooling)也获得支持,展现出对多样化下游任务的强大适应力。

量化体系深化:FP8、NVFP4 与 W4A8 的全面覆盖

量化是通往高效推理的必经之路,而 vLLM 在这条路上越走越深。

本版本将FP8 量化推向新的高度:
- 支持per-token group 量化,实现更精细的精度控制;
- 利用硬件加速指令提升量化速度;
- torch.compile 开始支持 FP8 KV 缓存,打通编译优化链路;
- 分页注意力机制也完成适配,确保 FP8 下的内存管理依然高效。

对于追求极致压缩比的场景,NVFP4支持范围扩大至 Llama 3.1 405B 和 Gemma3 等大型密集模型。这意味着即便是千亿参数级别的巨无霸,也能在有限资源下实现推理部署。

W4A8 方面,预处理性能得到显著优化,apply_w8a8_block_fp8_linear实现重写后,加载和转换效率大幅提升。此外,Compressed Tensors 框架也开始支持块状 FP8 用于 MoE 层,为专家网络的稀疏化提供新选择。

这些进展表明,vLLM 不再被动适配量化格式,而是主动参与标准建设,并推动软硬协同的极致优化。

硬件生态扩张:NVIDIA、AMD、Intel 与新兴架构全覆盖

vLLM 的野心显然不止于 NVIDIA GPU。0.11.0 在多平台适配方面迈出坚实步伐。

NVIDIA:深度绑定新一代架构

  • FP8 MLA 解码启用 TRTLLM 风格内核,提升解码阶段效率;
  • BF16 融合 MoE 支持 Hopper/Blackwell 架构的专家并行(EP),充分发挥新硬件特性。

AMD ROCm:持续加码

  • 完整支持ROCm 7.0
  • 为 GLM-4.5 在 MI300X 上提供 Triton MoE 调优配置,释放 CDNA3 架构潜力。

Intel XPU:修复与拓展并举

  • 修复 MoE DP 模式下的精度问题,提升推理准确性;
  • Whisper 模型成功移植至 XPU,验证了跨厂商语音模型部署的可能性。

新兴架构:拥抱开放生态

  • 添加RISC-V 64 位支持
  • ARM 架构非 x86 CPU 得到官方支持,并实现 4-bit 融合 MoE 加速。

这种广泛的硬件兼容性,使 vLLM 成为企业异构计算环境中极具吸引力的选择——无论你手握 A100/H100 集群,还是基于国产芯片或边缘设备构建系统,都能找到适配方案。

大规模服务增强:面向生产的分布式能力升级

当推理需求从单机走向集群,vLLM 同样做好了准备。

双批次重叠(DBO)机制引入计算重叠策略,进一步提高 GPU 利用率。配合 DeepEP 的高吞吐设计与预填充优化,即使在极端负载下也能维持稳定输出。

数据并行(DP)方面,现已支持通过标准torchrun启动器部署,简化运维流程。Ray placement groups 的加入也让资源调度更加精准。Triton DP/EP 内核的提供,则保证了跨节点通信的高效性。

针对 MoE 模型的负载均衡难题,Expert Parallel Load Balancing(EPLB)新增对 Hunyuan V1 和 Mixtral 的支持,并引入静态分配策略以降低动态调度开销。

在分离式服务架构中,KVTransferMetrics提供了 KV 数据传输的可观测性,帮助诊断网络瓶颈。NCCL 对称内存优化带来 3–4% 的吞吐提升,Tensor Parallelism (TP) 也成为默认启用项,反映出对分布式训练/推理一体化趋势的积极响应。

API 与用户体验:更友好、更可靠、更透明

易用性同样是生产级系统的生命线。

OpenAI 兼容 API 得到多项增强:
- 支持返回所有提示 token 的logprobs
-logprobs=-1可获取全词表概率分布,满足精细化分析需求;
- 流式响应支持 MCP 工具调用事件,便于前端构建交互式应用;
-/health接口在引擎异常时正确返回 503,便于监控系统判断状态。

CLI 工具也更加人性化:
- 新增--enable-logging控制开关;
---help输出更清晰;
- 环境变量校验强制要求合法值,防止配置错误导致诡异行为;
- 启用 NVTX profiling,方便性能剖析。

指标系统完成瘦身与规范化:
- 移除已弃用的gpu_前缀指标;
- KV 缓存内存单位统一为 GiB,更符合直觉;
- V1 引擎新增 TPOT(Time Per Output Token)直方图,便于分析延迟分布。

甚至连一条曾让人困惑的日志——“量化尚未完全优化”——也被移除,体现了团队对用户体验细节的关注。

安全与依赖:稳健前行的基础保障

安全方面修复了漏洞GHSA-wr9h-g72x-mwhm,具体细节虽未公开,但及时响应 CVE/CVE-like 问题体现了项目成熟度。

依赖项全面升级:
- PyTorch 升级至 2.8 for CPU;
- FlashInfer 升级至 0.3.1;
- 支持 CUDA 13 和 ROCm 7.0;
- 构建系统强制使用 C++17 标准;
- TPU 后端弃用xm.mark_step,改用更稳定的torch_xla.sync

这些变更确保了与现代 ML 生态的紧密同步,同时也提高了构建的一致性和可复现性。

结语:一次超越“版本迭代”的进化

vLLM 0.11.0 远非一次普通的功能更新。它是架构统一的宣言,是性能极限的挑战,也是多模态时代的入场券。

从 V0 引擎的彻底退役,到 PagedAttention 的层层压榨;从对 Qwen3、GLM-4、InternVL 的全面拥抱,到 FP8、NVFP4、W4A8 的量化纵深推进;从 NVIDIA 到 AMD、Intel 乃至 RISC-V 的硬件广度覆盖——每一个改动都在强化同一个目标:打造一个真正属于生产环境的大模型推理基座。

如今的 vLLM,不仅能跑得快,更能跑得稳、跑得广、跑得聪明。无论是需要极致吞吐的在线客服系统,还是处理图文音视的复杂 AI Agent,它都提供了坚实的技术底座。

这场推理引擎的进化仍在继续,而 0.11.0,正是下一个篇章的开端。

更多详情,请访问官方发布页面:
https://github.com/vllm-project/vllm/releases/tag/v0.11.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/16 12:21:14

基于昇腾910B使用vLLM-Ascend部署Qwen3大模型

基于昇腾910B与vLLM-Ascend高效部署Qwen3大模型实战 在企业级大模型落地过程中,推理性能与部署效率往往成为关键瓶颈。尤其是在面对通义千问最新发布的 Qwen3-72B 这类超大规模语言模型时,如何在国产算力平台上实现高吞吐、低延迟的服务化部署&#xff…

作者头像 李华
网站建设 2025/12/16 12:19:51

docker,docker-compose二进制包安装

1.docker包下载网址: https://download.docker.com/linux/static/stable/ 2.docker安装操作步骤 手动安装 #Docker环境传输docker24.tar到/home中 tar -xvf docker24.tar cd ./docker # 将docker二进制文件放到/usr/bin/目录 cp docker dockerd docker-init dock…

作者头像 李华
网站建设 2025/12/16 12:19:06

企业级AI Agent架构设计,看这篇万字长文就够了!

本文从以下4个方面详细剖析: AI Agent 到底是什么? 构建 AI Agent 的难点是什么? AI Agent 框架种类和选型 AI Agent 架构设计模式 —1— AI Agent 到底是什么? 并没有一个一致的 AI Agent 定义,它们通常通过不同…

作者头像 李华
网站建设 2025/12/16 12:18:48

Qwen3-VL-8B量化版精度与性能实测

Qwen3-VL-8B量化版实测:轻量多模态模型的工程突围 在智能应用落地最现实的一环——部署上线时,我们总会遇到那个扎心的问题:模型参数写得再漂亮,显存一爆就全白搭。 尤其是视觉语言模型(VLM),…

作者头像 李华
网站建设 2025/12/16 12:18:26

ESP32-S3是否具备运行轻量化GPT-SoVITS的潜力?

ESP32-S3是否具备运行轻量化GPT-SoVITS的潜力? 在智能语音设备日益普及的今天,用户不再满足于“机器音”播报天气或执行指令。越来越多的应用场景开始追求个性化、情感化的声音表达——比如让家里的智能音箱用你妈妈的声音讲故事,或者让助老…

作者头像 李华