DeepSeek V4 正式发布：1.6万亿参数、百万上下文，开源大模型进入新阶段-开发者社区

DeepSeek V4 正式发布：1.6万亿参数、百万上下文，开源大模型进入新阶段

2026年4月24日，深度求索（DeepSeek）正式发布了新一代旗舰模型DeepSeek-V4，并同步开源模型权重。这是距 V3 发布484天之后的一次重大版本迭代。

和 V3 一样，V4 依然走的是全开源路线。但这一次，DeepSeek 把参数规模、上下文长度、架构设计都推到了一个新的量级上。本文不吹不捧，只把这次更新的真实内容梳理清楚。

这次发布了什么

V4 系列包含两个版本：

版本	参数量	激活参数	上下文
V4-Pro	1.6 万亿（1.6T）	~490 亿	100万 token
V4-Flash	2840 亿（284B）	130 亿（13B）	100万 token

两者的定位有明确区分：

V4-Pro：满血版本，面向复杂推理、代码架构、数理等高难度任务
V4-Flash：轻量版本，主打高吞吐和低价格，适合日常和规模化场景

亮点一：100万 token 上下文成标配

如果说 V3 之前的长上下文还是"高配能力"，V4 直接把它变成了标配。

两个版本都原生支持 100万 token（1M）的上下文窗口。这意味着你可以直接把一个大型代码仓库、一部长篇技术文档完整丢给模型处理，不需要做分段切割。

当然，这里需要说明一个实际限制：虽然上下文窗口是100万 token，但模型的实际"有效理解范围"并不等于窗口上限。超长上下文下，模型对开头和结尾内容的关注度通常高于中间部分，这是 Transformer 架构本身的特性，100万窗口解决的是"放得下"的问题，"理解得到位"还取决于后续优化。

亮点二：稀疏注意力机制，让长上下文真正可用

100万 token 上下文如果用传统全注意力机制，计算量和显存开销是天文数字。V4 为此引入了DSA（DeepSeek Sparse Attention）稀疏注意力机制，具体采用了CSA + HCA 混合结构：

CSA（压缩稀疏注意力）：将每 m 个 token 的 Key-Value 信息压缩成一个块，用轻量 indexer 计算相关性分数，只在 top-k 压缩块上做精细注意力。适合 token 级别的精确检索。
HCA（深度压缩注意力）：更激进地将 128 个 token 压缩成一个块。适合长距离的全局信息汇总。

实测效果：在 100万 token 场景下，V4-Pro 的单 token FLOPs 降至 V3.2 的 27%，KV Cache 压缩到原来的约10%。

这个数字的意义在于——它让百万上下文从"理论上可行"变成了"实际跑得动"。

亮点三：mHC 架构，残差连接的10年来首次升级

这是 V4 技术报告中被讨论最多的创新之一。

自 2016 年 ResNet 提出残差连接（Residual Connection）以来，这个机制一直是深度学习的基础组件，但随着模型越来越深，其信号传递不稳定的问题也逐渐显现。

V4 引入的mHC（流形约束超连接）机制做了这样一件事：将残差流的混合矩阵约束到Birkhoff 多面体的流形上，使矩阵的行列都归一化为1。这个设计带来了两个实际好处：

谱范数天然不超过1，为残差传播设置了硬上限，信号传递更稳定
乘法封闭性保证堆叠多层（如 V4-Pro 的61层）时依然保持数值稳定

同时，mHC 带来的额外开销被控制在 wall-time 的 6.7% 以内，实际影响很小。

亮点四：预训练数据量翻倍

版本	预训练数据量
V3	14.8T token
V4-Flash	32T token
V4-Pro	33T token

V4 的预训练数据量较 V3翻了一倍以上。数据量增长带来的直接收益是世界知识的覆盖面扩大。V4-Pro 在各项知识 benchmark 上逼近 Gemini-Pro-3.1，而 V4-Flash 在简单 Agent 任务上与 Pro 版本表现相当。

亮点五：开源权重 + 昇腾适配

V4 延续了 DeepSeek 一贯的开源策略，模型权重以Apache 2.0许可证开源，可商用。

另外值得关注的是：V4 实现了华为昇腾 SuperNode 的首日零日适配。这意味着在国产算力生态中，V4 是目前适配最快的万亿参数级别开源模型。

亮点六：价格，有诚意也有差异

根据官方 API 文档，V4 的完整定价如下（单位：元/百万 tokens）：

版本	缓存命中输入	缓存未命中输入	输出
V4-Flash	0.2 元	1 元	2 元
V4-Pro	1 元（限时 0.25 元）	12 元	24 元

V4-Flash 的定价确实刷新了性价比认知：0.2 元/百万 token 的输入成本，已经大幅低于市场同类产品。

另外值得注意的是：V4-Pro 目前有限时优惠，缓存命中输入价格降至 0.25 元（原价 1 元），优惠截止至2026年5月5日。优惠期后 V4-Pro 的日常价格并不低，选择时需要结合实际需求。

旧接口deepseek-chat与deepseek-reasoner将于2026年7月24日停用，届时将统一路由至 V4 系列。

性能表现：什么水平

V4-Pro 在几个关键 benchmark 上的表现：

基准	V4-Pro 成绩	对比
SWE-bench	80.6%	Agent 代码能力，开源模型榜首
数理推理	超越所有已公开评测的开源模型	逼近顶级闭源
世界知识	逼近 Gemini-Pro-3.1	仍有差距

需要注意的是：benchmark 成绩反映的是特定测试集上的表现，与实际使用体验不一定完全对应。模型在真实场景中的效果，还取决于任务类型、提示词设计、具体场景匹配度等多种因素。

两个版本怎么选

根据目前的官方信息，建议如下：

选 V4-Pro：

代码架构设计、SWE 类任务
多步复杂推理
需要最强数理和代码能力
替代 Claude Sonnet / GPT-5 类的复杂任务

选 V4-Flash：

日常对话、文档总结
高并发、高吞吐场景
规则明确的自动化任务
成本敏感的规模化部署

几点客观说明

写这篇文章的过程中，有几个点我特意想提一下：

1. 关于参数规模
1.6万亿参数听起来很大，但这是总参数量。V4 采用了 MoE（混合专家）架构，每次推理只激活约490亿参数（V4-Pro）。所以实际推理开销远没有1.6T看起来那么夸张。

2. 关于 benchmark 成绩
这些数字是官方公布的，各家厂商的 benchmark 成绩往往经过精心配比和测试集选择，不同模型之间直接对比存在口径差异。参考可以，别当成绝对标尺。

3. 关于长上下文的真实体验
100万 token 窗口是技术突破，但实际使用中，"能放进去"和"理解得好"是两件事。模型在超长上下文中的中间位置往往存在注意力衰减，这是 Transformer 架构的特性，不是 V4 独有的问题。

4. 关于开源的持续性
DeepSeek 之前的模型也有开源，但社区维护、更新节奏、长期支持等都需要观察。开源模型的价值不只是发布那一刻，取决于后续社区生态的跟进。

总结

DeepSeek V4 是一次实打实的升级——参数规模更大、上下文更长、架构有新意、价格有诚意。对于开源社区来说，V4 的发布确实是这个春天值得关注的一件事。

但作为从业者，我更愿意保持一个客观的态度：大模型的能力是真实的进步，但落地效果因场景而异，是否适合自己，还是那句话：看任务，看场景，看成本。

参考来源

DeepSeek 官方 API 文档：platform.deepseek.com
DeepSeek 开放平台（定价）：platform.deepseek.com/pricing
HuggingFace：huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek 公众号，发布于 2026年4月24日
36氪《DeepSeek 正式发布 V4 API：Flash/Pro 双版本齐发，百万上下文成标配》（2026年4月24日）

原创内容，转载需授权。

DeepSeek V4 正式发布：1.6万亿参数、百万上下文，开源大模型进入新阶段