news 2026/5/16 7:53:12

大模型面试题58:vLLM的Swap和Recompute?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型面试题58:vLLM的Swap和Recompute?

vLLM 里的SwapRecompute是两个专门解决GPU显存不足的“救星功能”。核心目标都是:在有限显存下,让你能跑更大的模型、处理更长的序列,不用因为显存不够就被迫降低模型规模或缩短文本长度。

先铺垫一个关键背景:
LLM推理时,KV Cache是显存占用的“头号大户”(比如跑 LLaMA-70B 处理 8k 序列,KV Cache 能占几十G显存)。其次是模型参数本身,最后是推理过程中产生的中间计算结果
Swap 和 Recompute 就是针对这两类“显存消耗大户”的优化策略——一个是**“挪走暂时不用的数据”,一个是“重新计算代替存储数据”**。

一、 入门级:先搞懂核心概念(小白一眼明白)

用一个通俗类比贯穿始终:
GPU显存比作你家的桌面(空间小,但拿东西最快);
CPU内存比作抽屉(空间大,拿东西比桌面慢一点);
硬盘比作仓库(空间超大,拿东西最慢);
推理需要的数据(KV Cache/中间结果)比作桌面上的文件

1. Swap:显存不够,“挪走”暂时不用的 KV Cache

(1) 核心定义

Swap 直译是“交换”,在 vLLM 里特指KV Cache Swap——把暂时用不上的 KV Cache 数据,从 GPU 显存“挪”到 CPU 内存,甚至硬盘里;等需要的时候,再“搬”回 GPU 显存继续用。

(2) 原理类比(小白秒懂)

你在桌面写论文,摊开的资料太多,桌面堆满了。

  • 第一步:把暂时不用的参考资料放进抽屉(内存),桌面空了,继续写;需要某份资料时,再从抽屉拿出来放桌面。
  • 第二步:如果抽屉也满了,就把不常用的资料放进仓库(硬盘),等要用到时再搬回来。

对应 vLLM 的 Swap 逻辑:

存储层级类比速度作用
GPU 显存桌面
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 21:37:31

Qwen3-VL-WEBUI功能实测:名人与地标识别覆盖广度验证

Qwen3-VL-WEBUI功能实测:名人与地标识别覆盖广度验证 1. 引言 随着多模态大模型的快速发展,视觉-语言理解能力已成为衡量AI系统智能水平的重要指标。在这一背景下,阿里云推出的 Qwen3-VL-WEBUI 提供了一个直观、高效的交互平台,…

作者头像 李华
网站建设 2026/5/11 20:18:11

AI如何帮你解决Git分支冲突问题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个AI辅助工具,能够自动检测Git分支冲突,并提供解决方案。工具应能分析当前分支与远程分支的差异,识别冲突文件,并给出合并建议…

作者头像 李华
网站建设 2026/5/5 18:09:27

1小时打造中国区域经济数据原型系统

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发一个中国区域经济数据原型系统。核心功能:1) 中国地图展示各省经济指标;2) 多维度数据对比(GDP、人均收入、增长率等);3) 时间轴查看历…

作者头像 李华
网站建设 2026/5/3 12:47:24

Qwen3-VL-WEBUI存储优化:高效数据读写部署案例

Qwen3-VL-WEBUI存储优化:高效数据读写部署案例 1. 引言 随着多模态大模型在视觉理解、语言生成和跨模态推理能力上的持续突破,Qwen3-VL 系列作为阿里云推出的最新一代视觉-语言模型,已在多个实际场景中展现出强大的工程落地潜力。其中&…

作者头像 李华
网站建设 2026/5/3 6:30:04

如何用AI自动生成C++多线程代码?std::thread实战指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请生成一个C多线程示例程序,使用std::thread实现以下功能:1) 创建3个工作线程并行处理数据;2) 包含线程安全的数据共享机制;3) 实现…

作者头像 李华
网站建设 2026/5/11 11:40:50

【必藏】2026年CTF完全指南:零基础也能掌握的网络安全实战技巧

2025 年的 CTF 赛场早已进入精细化对抗时代 —— 跨模块题型占比超 60%、云环境漏洞成主流考点、多层反调试让工具党频频卡壳。不少选手拿着传统解题思路刷题,却在实战中屡屡碰壁。 其实 CTF 解题有一套标准化的破局逻辑,今天就结合 2025 年最新赛事趋势…

作者头像 李华