news 2026/5/9 4:19:04

Redis 创始人发布 ds4 引擎:专为 DeepSeek V4 Flash 打造,性能收益显著

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Redis 创始人发布 ds4 引擎:专为 DeepSeek V4 Flash 打造,性能收益显著

【导语:近日,Redis 创始人 Salvatore Sanfilippo 发布了专为 DeepSeek V4 Flash 量身打造的本地推理引擎 ds4。该引擎定位明确,专注 Metal GPU 带来显著性能提升,还有百万级上下文窗口支持等特性,且已开源。】


专注 Metal GPU 带来性能飞跃

ds4 的核心设计围绕 Metal GPU 展开,CPU 路径仅用于调试,服务器模式更是完全 Metal - only。这种专注带来了显著的性能收益。在配备 512GB 内存的 Mac Studio M3 Ultra 上,短提示预填充速度达84.43 tokens/s,长提示(11,709 tokens)预填充速度飙升至468.03 tokens/s,生成速度保持在36.86 tokens/s。128GB 内存的 MacBook Pro M3 Max,短提示预填充也能达到58.52 tokens/s,生成速度26.68 tokens/s

百万级上下文窗口实用价值高

ds4 实现了压缩 KV 缓存,并支持将 KV 状态持久化到磁盘。这意味着会话可以在中断后恢复,无需重新计算已有上下文的 KV 缓存,对于需要处理超长文档或长时间多轮对话的场景极具实用价值。磁盘 KV 缓存采用自定义 KVC 格式,包含 SHA1 校验和 48 字节头部,甚至存储了 token 文本以便观察。

针对性量化策略与接口优势

量化策略针对 DeepSeek V4 Flash 的 MoE 架构做了非对称处理,路由专家采用 IQ2_XXS/Q2_K 的 2 - bit 量化,共享专家和投影层则保持原精度不动。这使得 128GB 内存的机器可以运行 2 - bit 模型,256GB 以上则可选择 4 - bit。在接口层面,ds4 提供了 OpenAI/Anthropic 兼容的 HTTP 服务器 API,以及支持多轮对话的交互式 CLI,已有用户成功将其接入 opencode、Pi 和 Claude Code 等 Agent 工具。

选择 DeepSeek V4 Flash 的理由与开源情况

antirez 在 README 中列出了选择 DeepSeek V4 Flash 的八条理由,包括更少的激活参数带来更高速度、思考长度与问题复杂度成正比、接近前沿模型的质量,以及 KV 缓存「不可思议的可压缩性」。他也直言这是 alpha 质量代码,且开发过程中得到了 GPT 5.5 的强力协助。项目基于 llama.cpp 和 GGML 的代码适配,采用 MIT 许可证开源,开源地址为 https://github.com/antirez/ds4 。

编辑观点:ds4 引擎的发布为 DeepSeek V4 Flash 提供了强大的本地推理支持,其独特设计和性能表现值得关注,开源也将推动相关技术的发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 4:11:32

ECS架构与EcsRx框架:.NET游戏开发的高性能数据驱动实践

1. 项目概述:一个面向游戏开发的ECS框架如果你在游戏开发领域摸爬滚打过一段时间,尤其是在Unity或者Unreal Engine之外,尝试构建自己的引擎或者追求极致的运行时性能,那么“ECS”(Entity-Component-System)…

作者头像 李华
网站建设 2026/5/9 4:03:30

Filament渲染框架实战:从零手撸一个跨平台RHI(OpenGL/Vulkan/Metal)

Filament渲染框架实战:从零构建跨平台RHI核心架构 在移动端图形开发领域,性能与跨平台兼容性始终是开发者面临的两大核心挑战。Filament作为Google开源的轻量级渲染引擎,其精妙设计的渲染硬件接口层(RHI)为解决这些问题…

作者头像 李华
网站建设 2026/5/9 3:55:29

HapticVLA:无触觉传感器的机器人触觉感知新方法

1. HapticVLA:无触觉传感器的触觉感知机器人操作新范式在机器人操作领域,触觉感知一直被视为实现精细操作的关键能力。想象一下,当你试图拿起一个鸡蛋时,指尖的触觉反馈会告诉你施加了多少力——太轻会掉落,太重则会捏…

作者头像 李华
网站建设 2026/5/9 3:54:54

基于MCP与Qdrant为AI助手构建语义记忆库的实践指南

1. 项目概述:为你的LLM应用构建一个专属的语义记忆库 如果你正在使用 Claude、Cursor 或 Windsurf 这类 AI 辅助开发工具,是否曾有过这样的体验:你昨天刚和 AI 讨论过一个复杂的业务逻辑实现,今天再问类似的问题时,它…

作者头像 李华
网站建设 2026/5/9 3:51:26

基于C#与LlamaSharp构建本地大语言模型聊天应用全栈实践

1. 项目概述:一个全栈C#实现的本地大语言模型聊天应用最近在折腾本地部署大语言模型(LLM),想找一个能自己掌控、又能方便集成到现有.NET技术栈里的方案。市面上基于Python的WebUI工具很多,但作为一个主要用C#的开发者&…

作者头像 李华
网站建设 2026/5/9 3:51:09

基于speckit的语音处理实战:从特征提取到分类模型构建

1. 项目概述:一个面向语音处理初学者的实战教程最近在语音技术社区里,看到不少朋友对“kkawailab/speckit-tutorial”这个项目挺感兴趣,但可能不太清楚它具体是做什么的,以及如何上手。作为一个在语音信号处理领域摸爬滚打多年的从…

作者头像 李华