【导语:近日,Redis 创始人 Salvatore Sanfilippo 发布了专为 DeepSeek V4 Flash 量身打造的本地推理引擎 ds4。该引擎定位明确,专注 Metal GPU 带来显著性能提升,还有百万级上下文窗口支持等特性,且已开源。】
ds4 的核心设计围绕 Metal GPU 展开,CPU 路径仅用于调试,服务器模式更是完全 Metal - only。这种专注带来了显著的性能收益。在配备 512GB 内存的 Mac Studio M3 Ultra 上,短提示预填充速度达84.43 tokens/s,长提示(11,709 tokens)预填充速度飙升至468.03 tokens/s,生成速度保持在36.86 tokens/s。128GB 内存的 MacBook Pro M3 Max,短提示预填充也能达到58.52 tokens/s,生成速度26.68 tokens/s。
ds4 实现了压缩 KV 缓存,并支持将 KV 状态持久化到磁盘。这意味着会话可以在中断后恢复,无需重新计算已有上下文的 KV 缓存,对于需要处理超长文档或长时间多轮对话的场景极具实用价值。磁盘 KV 缓存采用自定义 KVC 格式,包含 SHA1 校验和 48 字节头部,甚至存储了 token 文本以便观察。
量化策略针对 DeepSeek V4 Flash 的 MoE 架构做了非对称处理,路由专家采用 IQ2_XXS/Q2_K 的 2 - bit 量化,共享专家和投影层则保持原精度不动。这使得 128GB 内存的机器可以运行 2 - bit 模型,256GB 以上则可选择 4 - bit。在接口层面,ds4 提供了 OpenAI/Anthropic 兼容的 HTTP 服务器 API,以及支持多轮对话的交互式 CLI,已有用户成功将其接入 opencode、Pi 和 Claude Code 等 Agent 工具。
antirez 在 README 中列出了选择 DeepSeek V4 Flash 的八条理由,包括更少的激活参数带来更高速度、思考长度与问题复杂度成正比、接近前沿模型的质量,以及 KV 缓存「不可思议的可压缩性」。他也直言这是 alpha 质量代码,且开发过程中得到了 GPT 5.5 的强力协助。项目基于 llama.cpp 和 GGML 的代码适配,采用 MIT 许可证开源,开源地址为 https://github.com/antirez/ds4 。
编辑观点:ds4 引擎的发布为 DeepSeek V4 Flash 提供了强大的本地推理支持,其独特设计和性能表现值得关注,开源也将推动相关技术的发展。