Redis 创始人发布 ds4 引擎：专为 DeepSeek V4 Flash 打造，性能收益显著-开发者社区

【导语：近日，Redis 创始人 Salvatore Sanfilippo 发布了专为 DeepSeek V4 Flash 量身打造的本地推理引擎 ds4。该引擎定位明确，专注 Metal GPU 带来显著性能提升，还有百万级上下文窗口支持等特性，且已开源。】

专注 Metal GPU 带来性能飞跃

ds4 的核心设计围绕 Metal GPU 展开，CPU 路径仅用于调试，服务器模式更是完全 Metal - only。这种专注带来了显著的性能收益。在配备 512GB 内存的 Mac Studio M3 Ultra 上，短提示预填充速度达84.43 tokens/s，长提示（11,709 tokens）预填充速度飙升至468.03 tokens/s，生成速度保持在36.86 tokens/s。128GB 内存的 MacBook Pro M3 Max，短提示预填充也能达到58.52 tokens/s，生成速度26.68 tokens/s。

百万级上下文窗口实用价值高

ds4 实现了压缩 KV 缓存，并支持将 KV 状态持久化到磁盘。这意味着会话可以在中断后恢复，无需重新计算已有上下文的 KV 缓存，对于需要处理超长文档或长时间多轮对话的场景极具实用价值。磁盘 KV 缓存采用自定义 KVC 格式，包含 SHA1 校验和 48 字节头部，甚至存储了 token 文本以便观察。

针对性量化策略与接口优势

量化策略针对 DeepSeek V4 Flash 的 MoE 架构做了非对称处理，路由专家采用 IQ2_XXS/Q2_K 的 2 - bit 量化，共享专家和投影层则保持原精度不动。这使得 128GB 内存的机器可以运行 2 - bit 模型，256GB 以上则可选择 4 - bit。在接口层面，ds4 提供了 OpenAI/Anthropic 兼容的 HTTP 服务器 API，以及支持多轮对话的交互式 CLI，已有用户成功将其接入 opencode、Pi 和 Claude Code 等 Agent 工具。

选择 DeepSeek V4 Flash 的理由与开源情况

antirez 在 README 中列出了选择 DeepSeek V4 Flash 的八条理由，包括更少的激活参数带来更高速度、思考长度与问题复杂度成正比、接近前沿模型的质量，以及 KV 缓存「不可思议的可压缩性」。他也直言这是 alpha 质量代码，且开发过程中得到了 GPT 5.5 的强力协助。项目基于 llama.cpp 和 GGML 的代码适配，采用 MIT 许可证开源，开源地址为 https://github.com/antirez/ds4 。

编辑观点：ds4 引擎的发布为 DeepSeek V4 Flash 提供了强大的本地推理支持，其独特设计和性能表现值得关注，开源也将推动相关技术的发展。

ECS架构与EcsRx框架：.NET游戏开发的高性能数据驱动实践

1. 项目概述：一个面向游戏开发的ECS框架如果你在游戏开发领域摸爬滚打过一段时间，尤其是在Unity或者Unreal Engine之外，尝试构建自己的引擎或者追求极致的运行时性能，那么“ECS”（Entity-Component-System）…

李华

Filament渲染框架实战：从零手撸一个跨平台RHI（OpenGL/Vulkan/Metal）

Filament渲染框架实战：从零构建跨平台RHI核心架构在移动端图形开发领域，性能与跨平台兼容性始终是开发者面临的两大核心挑战。Filament作为Google开源的轻量级渲染引擎，其精妙设计的渲染硬件接口层（RHI）为解决这些问题…

李华

HapticVLA：无触觉传感器的机器人触觉感知新方法

1. HapticVLA：无触觉传感器的触觉感知机器人操作新范式在机器人操作领域，触觉感知一直被视为实现精细操作的关键能力。想象一下，当你试图拿起一个鸡蛋时，指尖的触觉反馈会告诉你施加了多少力——太轻会掉落，太重则会捏…

李华

基于MCP与Qdrant为AI助手构建语义记忆库的实践指南

1. 项目概述：为你的LLM应用构建一个专属的语义记忆库如果你正在使用 Claude、Cursor 或 Windsurf 这类 AI 辅助开发工具，是否曾有过这样的体验：你昨天刚和 AI 讨论过一个复杂的业务逻辑实现，今天再问类似的问题时，它…

李华

基于C#与LlamaSharp构建本地大语言模型聊天应用全栈实践

1. 项目概述：一个全栈C#实现的本地大语言模型聊天应用最近在折腾本地部署大语言模型（LLM），想找一个能自己掌控、又能方便集成到现有.NET技术栈里的方案。市面上基于Python的WebUI工具很多，但作为一个主要用C#的开发者&…

李华

基于speckit的语音处理实战：从特征提取到分类模型构建

1. 项目概述：一个面向语音处理初学者的实战教程最近在语音技术社区里，看到不少朋友对“kkawailab/speckit-tutorial”这个项目挺感兴趣，但可能不太清楚它具体是做什么的，以及如何上手。作为一个在语音信号处理领域摸爬滚打多年的从…

李华