news 2026/5/30 4:22:46

【vLLM 学习】Save Sharded State

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【vLLM 学习】Save Sharded State

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/

源码 examples/offline_inference/save_sharded_state.py

# SPDX-License-Identifier: Apache-2.0 """ 将每个工作进程(worker)的模型状态字典直接保存到检查点, 这为大型张量并行模型提供了快速加载路径 - 每个工作进程只需读取自己的分片, 而无需读取整个检查点。 示例用法: python save_sharded_state.py \ --model /path/to/load \ --quantization deepspeedfp \ --tensor-parallel-size 8 \ --output /path/to/save Then, the model can be loaded with llm = LLM( model="/path/to/save", load_format="sharded_state", quantization="deepspeedfp", tensor_parallel_size=8, ) """ import dataclasses import os import shutil from pathlib import Path from vllm import LLM, EngineArgs from vllm.utils import FlexibleArgumentParser parser = FlexibleArgumentParser() EngineArgs.add_cli_args(parser) parser.add_argument("--output", "-o", required=True, type=str, help="path to output checkpoint") parser.add_argument("--file-pattern", type=str, help="string pattern of saved filenames") parser.add_argument("--max-file-size", type=str, default=5 * 1024**3, help="max size (in bytes) of each safetensors file") def main(args): engine_args = EngineArgs.from_cli_args(args) if engine_args.enable_lora: raise ValueError("Saving with enable_lora=True is not supported!") model_path = engine_args.model if not Path(model_path).is_dir(): raise ValueError("model path must be a local directory") # Create LLM instance from arguments # 从参数创建 LLM 实例 llm = LLM(**dataclasses.asdict(engine_args)) # Prepare output directory # 准备输出目录 Path(args.output).mkdir(exist_ok=True) # Dump worker states to output directory # 转储工作进程状态到输出目录 model_executor = llm.llm_engine.model_executor model_executor.save_sharded_state(path=args.output, pattern=args.file_pattern, max_size=args.max_file_size) # Copy metadata files to output directory # 将元数据文件复制到输出目录 for file in os.listdir(model_path): if os.path.splitext(file)[1] not in (".bin", ".pt", ".safetensors"): if os.path.isdir(os.path.join(model_path, file)): shutil.copytree(os.path.join(model_path, file), os.path.join(args.output, file)) else: shutil.copy(os.path.join(model_path, file), args.output) if __name__ == "__main__": args = parser.parse_args() main(args)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 13:02:40

商业照明如何成为影响空间氛围与消费的关键因素?

于商业空间的设计以及运营当中,照明所充当的角色远远不只是给予基础光亮,它直接对空间氛围营造予以影响,对商品视觉吸引力进行提升,关乎顾客停留时段,甚至影响员工工作效率跟舒适度,所以,商业照明&#xff…

作者头像 李华
网站建设 2026/5/28 22:10:14

可视化奇异值分解

在前面几篇文章中我们已经写下了一系列方程,这些方程从数学上定义了奇异值分解 (SVD) 的各个分量以及它们与输入矩阵 M 的关系。现在,让我们通过一些可视化,使这些导出的分量更加具象化。图 1:方阵 M 的奇异值分解的 U 、 S 和 V …

作者头像 李华
网站建设 2026/5/28 14:23:05

如何快速复现数学建模论文?这10个AI工具能大幅提升效率

数学建模论文的复现与排版常面临时间紧、任务重的挑战,而AI工具的介入能大幅提升效率。评测显示,部分先进的AI写作工具具备自动优化公式排版、生成代码框架及辅助模型复现的能力,特别适合对论文质量与时效性要求较高的场景。这些工具在LaTeX兼…

作者头像 李华
网站建设 2026/5/28 13:02:50

打卡信奥刷题(2749)用C++实现信奥题 P3645 [APIO2015] 雅加达的摩天楼

P3645 [APIO2015] 雅加达的摩天楼 题目描述 印尼首都雅加达市有 NNN 座摩天楼,它们排列成一条直线,我们从左到右依次将它们编号为 000 到 N−1N − 1N−1。除了这 NNN 座摩天楼外,雅加达市没有其他摩天楼。 有 MMM 只叫做 “doge” 的神秘生物…

作者头像 李华
网站建设 2026/5/28 15:07:24

企业级工厂车间管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 现代制造业的快速发展对工厂车间的管理提出了更高的要求,传统的管理方式已无法满足高效、精准、实时监控的需求。随着工业4.0和智能制造的推进,企业亟需一套集成化、数字化的车间管理系统,以实现生产流程的自动化、数据的可视化以及资源…

作者头像 李华
网站建设 2026/5/28 14:21:08

蜜语聊带后台源码 好玩的秘密语言工具 多种类型可选

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 好玩的秘密语言工具,带后台支持在线加解密,有多种类型可选 二、效果展示 1.部分代码 代码如下(示例): 2.效果图展示 三、学…

作者头像 李华