vLLM 0.11.0:引擎重构、多模态跃迁与生产级推理的全面进化
在大模型从研究走向规模化落地的关键阶段,推理效率不再只是“锦上添花”的性能指标,而是决定服务成本、响应体验和商业可行性的核心命脉。正是在这样的背景下,vLLM 推出v0.11.0版本——一个堪称里程碑式的重大更新。
这一版本凝聚了207 名贡献者(其中 65 名为新成员)的集体智慧,历经538 次提交,完成了从底层架构到上层接口的深度重塑。它不仅标志着 vLLM 正式告别历史包袱,更预示着其作为企业级高性能推理引擎的新起点:更高效、更统一、更具扩展性。
引擎现代化:V0 的谢幕与 V1 的全面接管
如果说 vLLM 过去的演进是一场渐进式优化,那么 0.11.0 则是一次果断的“外科手术”——彻底移除已弃用多年的V0 引擎。
这不仅仅是代码清理那么简单。AsyncLLMEngine、LLMEngine、MQLLMEngine等旧组件的退出,意味着整个系统摆脱了多套并行逻辑带来的复杂性和维护负担。注意力后端、序列管理、采样元数据处理等模块也同步完成清理,连MultiModalPlaceholderMap和seq_group这类遗留接口都被一一摘除。
取而代之的是完全成熟的V1 引擎,它以更清晰的抽象、更低的通信开销和更强的可扩展性成为唯一选择。这次转型让代码库更加整洁,也为未来功能迭代扫清了障碍。对于开发者而言,这意味着部署方案终于归一,无需再纠结于不同引擎间的细微差异或兼容性问题。
更重要的是,V1 引擎本身也在本次更新中获得了显著增强:
- Prompt Embeddings 支持允许直接传入预计算的嵌入向量,跳过重复的分词与查表过程,在批处理或缓存场景下极为实用。
- 分片状态加载让超大规模模型(如 Llama 3.1 405B)可以在内存受限的单机上逐步加载,降低启动峰值。
LLM.apply_modelAPI提供了更底层的控制能力,便于高级用户进行定制化集成。- 架构层面移除了
Tokenizer Group,减少了不必要的进程间通信;多模态数据则通过共享内存提升跨进程访问效率。
这些变化共同构建了一个更轻量、更专注、更适合生产环境的推理核心。
性能飞跃:PagedAttention 的深度打磨与 CUDA Graph 的智能升级
vLLM 的看家本领——PagedAttention——在 0.11.0 中迎来了新一轮爆发式优化。这一次,它不再只是内存管理的革新者,更是性能压榨的先锋。
借助FlashInfer和Triton 内核的深度融合,关键路径上的操作被不断精简:
RotaryEmbedding.forward_cuda在支持环境下优先使用 FlashInfer 实现,RoPE 计算速度提升近2 倍;- query 和 key 的 RoPE 计算被融合为单一内核,减少内核启动开销,带来11% 的整体加速;
- Triton MRoPE 内核的引入进一步提升了 Qwen3-VL 等模型的运行效率。
而在执行图层面,CUDA graph 模式默认升级为FULL_AND_PIECEWISE,在大多数负载中实现了更高吞吐,尤其对 MoE 类细粒度模型表现优异。虽然仍保留PIECEWISE模式用于兼容,但新默认值反映了团队对稳定性和性能边界的充分信心。
此外,推测解码(speculative decoding)的成本也被大幅压缩。通过批量并行 Ngram 策略,其开销降低了8 倍;结合 FlashInfer 的优化,整体提速达1.14 倍。这类技术组合拳使得“草稿-验证”机制真正具备了在高并发场景下广泛应用的可行性。
其他细节优化同样不容小觑:
- 避免不必要的inputs_embeds张量复制,节省 GPU 显存带宽;
- 模型信息缓存生成_ModelInfo文件,加快后续加载;
- DeepGEMM 默认启用,在多个基准测试中带来5.5% 吞吐提升。
这些看似微小的改进叠加起来,构成了实实在在的性能跃迁。
多模态能力爆发:不只是支持更多模型
如果说之前的 vLLM 对多模态的支持还停留在“可用”层面,那么 0.11.0 已经将其推向“好用”甚至“强大”。
新增对Qwen3-VL、Qwen3-Next、LongCat-Flash、Dots OCR、OLMo3等前沿多模态架构的原生支持,意味着用户几乎可以无缝部署最新研究成果。特别是 Qwen3-VL 的纯文本模式 (#26000),让用户能在不需要图像输入时避免视觉编码器的额外开销,灵活应对混合工作负载。
在能力维度上,vLLM 不再满足于简单的图文理解:
- 视觉编码器数据并行支持 InternVL、Qwen2-VL 和 Qwen3-VL,显著提升长视频或多图输入的处理效率;
- EVS 视频 token 剪枝技术 (#22980) 可动态裁剪冗余帧标记,在保持精度的同时大幅节省显存;
- 工具调用能力扩展至 LongCat-Flash-Chat (#24083),使其能主动调用外部函数完成复杂任务;
- 新增Media UUID 缓存,避免重复上传相同媒体资源,提升交互效率。
同时,Whisper 模型现在可在 Intel XPU 平台运行,RADIO 编码器和池化任务(Pooling)也获得支持,展现出对多样化下游任务的强大适应力。
量化体系深化:FP8、NVFP4 与 W4A8 的全面覆盖
量化是通往高效推理的必经之路,而 vLLM 在这条路上越走越深。
本版本将FP8 量化推向新的高度:
- 支持per-token group 量化,实现更精细的精度控制;
- 利用硬件加速指令提升量化速度;
- torch.compile 开始支持 FP8 KV 缓存,打通编译优化链路;
- 分页注意力机制也完成适配,确保 FP8 下的内存管理依然高效。
对于追求极致压缩比的场景,NVFP4支持范围扩大至 Llama 3.1 405B 和 Gemma3 等大型密集模型。这意味着即便是千亿参数级别的巨无霸,也能在有限资源下实现推理部署。
W4A8 方面,预处理性能得到显著优化,apply_w8a8_block_fp8_linear实现重写后,加载和转换效率大幅提升。此外,Compressed Tensors 框架也开始支持块状 FP8 用于 MoE 层,为专家网络的稀疏化提供新选择。
这些进展表明,vLLM 不再被动适配量化格式,而是主动参与标准建设,并推动软硬协同的极致优化。
硬件生态扩张:NVIDIA、AMD、Intel 与新兴架构全覆盖
vLLM 的野心显然不止于 NVIDIA GPU。0.11.0 在多平台适配方面迈出坚实步伐。
NVIDIA:深度绑定新一代架构
- FP8 MLA 解码启用 TRTLLM 风格内核,提升解码阶段效率;
- BF16 融合 MoE 支持 Hopper/Blackwell 架构的专家并行(EP),充分发挥新硬件特性。
AMD ROCm:持续加码
- 完整支持ROCm 7.0;
- 为 GLM-4.5 在 MI300X 上提供 Triton MoE 调优配置,释放 CDNA3 架构潜力。
Intel XPU:修复与拓展并举
- 修复 MoE DP 模式下的精度问题,提升推理准确性;
- Whisper 模型成功移植至 XPU,验证了跨厂商语音模型部署的可能性。
新兴架构:拥抱开放生态
- 添加RISC-V 64 位支持;
- ARM 架构非 x86 CPU 得到官方支持,并实现 4-bit 融合 MoE 加速。
这种广泛的硬件兼容性,使 vLLM 成为企业异构计算环境中极具吸引力的选择——无论你手握 A100/H100 集群,还是基于国产芯片或边缘设备构建系统,都能找到适配方案。
大规模服务增强:面向生产的分布式能力升级
当推理需求从单机走向集群,vLLM 同样做好了准备。
双批次重叠(DBO)机制引入计算重叠策略,进一步提高 GPU 利用率。配合 DeepEP 的高吞吐设计与预填充优化,即使在极端负载下也能维持稳定输出。
数据并行(DP)方面,现已支持通过标准torchrun启动器部署,简化运维流程。Ray placement groups 的加入也让资源调度更加精准。Triton DP/EP 内核的提供,则保证了跨节点通信的高效性。
针对 MoE 模型的负载均衡难题,Expert Parallel Load Balancing(EPLB)新增对 Hunyuan V1 和 Mixtral 的支持,并引入静态分配策略以降低动态调度开销。
在分离式服务架构中,KVTransferMetrics提供了 KV 数据传输的可观测性,帮助诊断网络瓶颈。NCCL 对称内存优化带来 3–4% 的吞吐提升,Tensor Parallelism (TP) 也成为默认启用项,反映出对分布式训练/推理一体化趋势的积极响应。
API 与用户体验:更友好、更可靠、更透明
易用性同样是生产级系统的生命线。
OpenAI 兼容 API 得到多项增强:
- 支持返回所有提示 token 的logprobs;
-logprobs=-1可获取全词表概率分布,满足精细化分析需求;
- 流式响应支持 MCP 工具调用事件,便于前端构建交互式应用;
-/health接口在引擎异常时正确返回 503,便于监控系统判断状态。
CLI 工具也更加人性化:
- 新增--enable-logging控制开关;
---help输出更清晰;
- 环境变量校验强制要求合法值,防止配置错误导致诡异行为;
- 启用 NVTX profiling,方便性能剖析。
指标系统完成瘦身与规范化:
- 移除已弃用的gpu_前缀指标;
- KV 缓存内存单位统一为 GiB,更符合直觉;
- V1 引擎新增 TPOT(Time Per Output Token)直方图,便于分析延迟分布。
甚至连一条曾让人困惑的日志——“量化尚未完全优化”——也被移除,体现了团队对用户体验细节的关注。
安全与依赖:稳健前行的基础保障
安全方面修复了漏洞GHSA-wr9h-g72x-mwhm,具体细节虽未公开,但及时响应 CVE/CVE-like 问题体现了项目成熟度。
依赖项全面升级:
- PyTorch 升级至 2.8 for CPU;
- FlashInfer 升级至 0.3.1;
- 支持 CUDA 13 和 ROCm 7.0;
- 构建系统强制使用 C++17 标准;
- TPU 后端弃用xm.mark_step,改用更稳定的torch_xla.sync。
这些变更确保了与现代 ML 生态的紧密同步,同时也提高了构建的一致性和可复现性。
结语:一次超越“版本迭代”的进化
vLLM 0.11.0 远非一次普通的功能更新。它是架构统一的宣言,是性能极限的挑战,也是多模态时代的入场券。
从 V0 引擎的彻底退役,到 PagedAttention 的层层压榨;从对 Qwen3、GLM-4、InternVL 的全面拥抱,到 FP8、NVFP4、W4A8 的量化纵深推进;从 NVIDIA 到 AMD、Intel 乃至 RISC-V 的硬件广度覆盖——每一个改动都在强化同一个目标:打造一个真正属于生产环境的大模型推理基座。
如今的 vLLM,不仅能跑得快,更能跑得稳、跑得广、跑得聪明。无论是需要极致吞吐的在线客服系统,还是处理图文音视的复杂 AI Agent,它都提供了坚实的技术底座。
这场推理引擎的进化仍在继续,而 0.11.0,正是下一个篇章的开端。
更多详情,请访问官方发布页面:
https://github.com/vllm-project/vllm/releases/tag/v0.11.0
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考